సెమాంటిక్ వెబ్, సెర్చ్ …

మనం సెమాంటిక్ వెబ్, సెర్చ్ అని వింటూంటాము. అసలు ఏమిటవి ?

సెమాంటిక్ వెబ్ అంటే :

ఎందుకు ?

దీనికి సమాధానం కావాలంటే కొంత బాక్‌గ్రౌండ్ అవసరం.

అనేక ఏళ్ళుగా మనకు అంతర్జాలం (internet) ఉంది. ఇందులో సమాచారం కొన్ని బిలియన్‌ల కొద్దీ వెబ్ పేజీలలో నిక్షిప్తమై ఉంది.
ఇదంతా మనకి ఉపయోగపడేదే. కానీ ఆ సమాచారం అంతా ఒక పద్ద్హతి ప్రకారం ఉంచబడలేదు.

ఉదా: ఇవాళ నేనొక సినిమ రివ్యూ రాస్తున్నాననుకోండి. నాకిష్టమొచ్చినట్టు నేను రాయచ్చు.

నేనో సినిమా చూసాను. అది చెత్తగా ఉంది. దాని దర్శకుడు ఎవడో వెధవ. దాంత్లో నటీ నటులు కోంకిస్కా గొట్టం గాళ్ళు. కథ ఏమీ లేదు.

అందులో సినిమా గురించిన సమాచారం ఉంది. కానీ ఓ పద్ఢతి ప్రకారం లేదు. దానినే ఈ విధంగా రాసాననుకోండి.

నేనొక సినిమా చూసాను
పేరు: అనవసరం. దీనికో పేరు కూడానా ?
దర్శకుడు: ఎవడో‌ వెధవ
నటీనటులు: కోంకిస్కా గొట్టం గాళ్ళు
కథ: ఏమీ లేదు

ఇప్పుడు అర్థం చేసుకోవడానికి తేలికగా లేదూ ? అంటే పద్ఢతి ప్రకారం ఉంచిన సమాచారం మరింత ఉపయోగకరం అన్నమాట.

పైన చెప్పిన విధంగా నేను రివ్యూ రాసాననుకోండి అది ఉపయోగంగా ఉంది కదా. మరి ఆ రివ్యూ ని అలాంటి పద్ఢతిలోనే అందరూ రాస్తే ?
అప్పుడు మీకు రివ్యూలు చదువుకోవడమూ, కనుగొనడమూ తేలిక కాదూ ?

ఏమిటి ?

ఇలాంటి సమస్యను పరిష్కరించడానికే సెమాంటిక్ వెబ్ తెర మీదకి వచ్చిందన్నమాట.
సమాచారానికి ఓ అర్థాన్ని ఆపాదించడానికి కొన్ని ఫార్మాట్లు రూపొందించబడ్డాయి, రూపొందించబడుతున్నాయి.
అవే ఈ సెమాంటిక్ వెబ్ కి ఆధారం.

ఉదా: మైక్రోఫార్మాట్లు, ఆర్డీఎఫ్.

ఎలా ?

ఈ సమాచారాన్ని పద్ఢతీకరించే సమస్యను ఈ సెమాంటిక్ వెబ్ పైన చెప్పుకున్న కొన్ని ఫార్మాట్లను ఉపయోగించి పరిష్కరించాలనుకుంటుంది.
అదెలా అంటే మనం చేసే కొన్ని రొటీను పనులకి ఫార్మాట్లు సృష్టించబడ్డాయి.

ఉదా: రివ్యూలకి hReview, విజిటింగ్ కార్డులకి, అడ్రసులకి hCard మొదలయినవి.

అలాగే వెబ్‌ పేజీలకు సంబంధించి మెటా సమాచారం ఉంచడానికి మనకు హెచ్టీఎమెల్ లో మెటా టాగులున్నట్టే వెబ్ కోసం ఆర్డీఎఫ్ అనే స్టాండర్డుని w3c తయారు చేసింది. ఇది సమాచారం మధ్య సంబంధాలని విశదీకరించేందుకు ఉపయోగపడుతుంది.

ఈ పేజీ ఇందుకోసం. ఇందులో ఈ సమాచారం ఉంది. మరి కొంత సమచారం ఇక్కడ దొరుకుతుంది. దీని రచయిత ఫలానా. లాంటివి. నా బ్లాగుకి ఆర్డీఎఫ్ ఈ కింది విధంగా రాయవచ్చు.

<rdf:RDF
xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#&#8221;
xmlns:dc=”http://purl.org/dc/elements/1.1/”&gt;
<rdf:Description rdf:about=”http://praveengarlapati.blogspot.com”&gt;
<dc:title>నా మదిలో …</dc:title>
<dc:publisher>ప్రవీణ్ గార్లపాటి</dc:publisher>
</rdf:Description>
</rdf:RDF>

దీని వల్ల ఉపయోగం ??

ఇంత కష్టపడి ఇవన్నీ చేస్తే ఇది ఎలా ఉపయోగం అనే సందేహం ఎవరికన్నా వస్తుంది.

దీనిని ఒక కాంటెక్స్టులో చూద్దాము.

సెర్చ్ ఇంజను ఎలా పని చేస్తుంది ? వెబ్ పేజీలను క్రాల్ చేసి.

అంటే దానికి దొరికిన లంకెలన్నిటినీ ఓ పద్ఢతి ప్రకారం అనుసరించి వాటి నుంచి సమాచారం వెలికి తీసి వెతకడానికి అనువుగా ఉంచుతుంది.
అయితే ఇక్కడ దానికి ముఖ్యమయినవి లంకెలు, కీ వర్డ్సు. అంటే మీరు ఒక వెబ్ పేజీ సృష్టిస్తే దాంట్లో అర్థం కంటే కీ వర్డ్లకే ప్రాధాన్యం ఎక్కువ. ఎవరయినా ఆ కీ వర్డ్ల కోసం వెతికితే మీ వెబ్ పేజీల సంగ్రహం నుంచి సేకరించిన కీ వర్డ్ల సహాయంతో వాటిని పోల్చి మీ వెబ్‍ పేజని సెర్చ్ రిజల్ట్లలో చూపిస్తుంది.

ఈ విధానంలో ఎన్నో లోపాలున్నాయి. ఎందుకంటే మనం సెర్చ్ చేసిన సమాచారాన్ని కాంటెక్స్టులో చూడట్లేదు ఈ సెర్చ్ ఇంజన్లు.

ఉదా: మీరు “What is telugu ?” అని సెర్చ్ చేసారనుకుందాము. అప్పుడు నేను ఆశించేది తెలుగు భాష గురించిన సమాచారం. అది ఎలాంటి భాష ? ఎక్కడ మాట్లాడుతున్నారు ? దాని పుట్టుపూర్వోత్తరాలు ఏమిటి ? మొదలయినవి.

కానీ ఇప్పుడు జరిగేది ఏమిటంటే “telugu” అనే కీ వర్డు ఏ పేజీలో ఉందో. ఏ పేజీకి ఎక్కువ క్రెడిబిలిటీ ఉందో అది ముందు చూపించడం జరుగుతుంది. దాని వల్ల నేను కోరుకున్న సమాచారం నాకందట్లేదు.

గూగుల్, యాహూ, లైవ్ మొదలయినటువంటి సెర్చ్ ఇంజన్లు ఎన్నాళ్ళ నుంచో ఈ కాంటెక్స్టుని బట్టి సెర్చ్ ని మెరుగు పరచడానికి ప్రయత్నాలు చేస్తున్నాయి. కానీ ఇంత వరకూ పెద్దగా విజయం సాధించలేకపోయాయనే చెప్పుకోవాలి.

ఆ ఖాళీలను పూరించడానికి కొత్తగా సెమాంటిక్ సెర్చ్ ఇంజన్లు పుట్టుకొచ్చాయి. హాకియా, పవర్‌సెట్ మొదలయినవి.

ఇవి అలాంటి సెమాంటిక్ సెర్చ్ ని సాధ్యం చెయ్యడానికి ప్రయత్నిస్తున్నాయి.

కొన్ని నాచురల్ లాంగ్వేజీ ప్రాసెసింగుని ఆసరాగా తీసుకుంటే కొన్ని స్టాండర్డ్సుని ఇండెక్సు చేస్తున్నాయి. ఇంతకు ముందు చెప్పుకున్న ఆర్డీఎఫ్ స్తాండర్డుని ఇండెక్సు చెయ్యడం ద్వారా దీనిని సాధ్యం చెయ్యడానికి ప్రయత్నిస్తున్నాయి.

ఆర్డీఎఫ్ స్టాండర్డు వెబ్‌ పేజీల సమాచారాన్ని సెర్చింజన్‌లు మరింత సులువుగా అర్థం చేసుకోవడానికి ఉపయోగపడతాయి.

స్థూలంగా అదీ సెమాంటిక్ వెబ్ గురించి.

అయితే వీటిలో ముఖ్యమైందేమిటంటే ఏ స్టాండర్డు విజయం అయినా అది ఎంత వరకూ అడాప్ట్ అయిందో అన్నదాని మీదే ఆధారపడి ఉంటుంది. అంటే ఇప్పుడు వెబ్‌ సైటు ఓనర్లు తమ వెబ్ పేజీలలో ఈ ఆర్డీఎఫ్, మైక్రోఫార్మాట్స్ వంటివి ఉపయోగిస్తేనే సెమాంటిక్ వెబ్ సాధ్యపడుతుంది. అలా చెయ్యాలంటే వారికి ఏదో‌ ఒక తాయిలం కావాలి. ఏమిటది ?

ఇంతవరకూ సెర్చింజన్‌లు వీటిని ఇండెక్సు చేసి అర్థం చేసుకోవడానికి ప్రత్యేకంగా ప్రయత్నించట్లేదు. కానీ ఈ మధ్య ఆ దిశలో సరయిన ప్రయత్నాలు మొదలయ్యాయి. ఇంతకు ముందు చెప్పుకున్న సెమాంటిక్ వెబ్‌ సెర్చ్ ఇంజన్‌లు ఒక రకమయితే ఈ మధ్యే యాహూ వారు ఈ సెమాంటిక్ వెబ్ కి సంబంధించిన స్టాండర్డులని ఇండెక్సు చేస్తామని ప్రకటించారు.

యాహూ గూగుల్ ని ఢీ కొట్టడానికి సరికొత్త వ్యూహాల్ని రంగంలోకి దించుతూంది. అవి సరయిన దిశలో ఉన్నాయి కూడా. దాని సెర్చ్ ని ఓపెన్ చేయ్యడానికి సన్నాహాలు మొదలెట్టింది. ఇప్పుడు సెమాంటిక్ సపోర్టు.

సెర్చ్‌లో గూగుల్ మొదటి సారి కాచప్ మొదలుపెట్టాలేమో ?

* ఆర్డీఎఫ్ ని వివిధ రకాలుగా ఉంచవచ్చు. అందులో ఒక విధానం

<link rel=”alternate” type=”application/rdf+xml” href=”linktordf.rdf” />

పైన చెప్పింది ఒక స్టాటిక్ ఆర్డీఎఫ్ ఫైలుని మీ వెబ్‌ పేజీలో ఉంచుకోవడం కోసం.
అలాగే డైనమిక్ గా ఆర్డీఎఫ్ ఫైళ్ళని జెనరేట్ చేసే విధానాలు కూడా ఉన్నాయి. కానీ నాకు వాటి మీద అంత అవగాహన లేదు.

ఆర్డీఎఫ్ మీద కొంత అవగాహన కోసం మీరు w3schools లో ఈ వ్యాసం చదవవచ్చు.
అలాగే ఆర్డీఎఫ్ లో ఏ ఎలిమెంట్స్ ఉండచ్చు అనే సమాచారం కోసం మీరు ఈ లంకె చూడండి.

* ఆర్డీఎఫ్ ని కొన్ని/చాలా ?? వెబ్‌ సైట్లు ఇప్పటికే అమలు చేస్తున్నాయి.

ఒక ఉదాహరణ లైవ్‌జర్నల్. ఇది FOAF (Friend Of a Friend) అనే ఒక ఆర్డీఎఫ్ ఫార్మాటుని వాడుతుంది.

ఆర్డీఎఫ్ ని వినూత్నంగా ఎలా వాడవచ్చో అన్నదానికి ఇదో ఉదాహరణ. ఎందుకంటే FOAF ప్రాజెక్టు ద్వారా మీ స్నేహితులు, వారి స్నేహితుల మధ్య సంబంధాలను చిత్రీకరించవచ్చు.

మీరు ఏదయినా లైవ్‌జర్నల్ బ్లాగు మొదటి పేజీలో చూస్తే ఇలాంటి ఒక టాగు ఉంటుంది

<link rel=”meta” type=”application/rdf+xml” title=”FOAF” href=”http://praveenkumarg.livejournal.com/data/foaf&#8221; />

దానర్థం ఏమిటంటే ఆ లంకెలో ఆ బ్లాగు యొక్క స్నేహితుల సమాచారం ఆర్డీఎఫ్ ఫార్మాటులో ఉంటుందని. ఇప్పుడు ఒక వేళ ఈ సమాచారాన్ని సెర్చ్ ఇంజన్ లు గానీ ఇంకే ఇతర అప్లికేషన్‌ లు గానీ చదివితే నా స్నేహితులు ఎవరని అర్థమవుతుంది.

ఇది మంచా, చెడా అని మాత్రం నన్నడక్కండి. సమాధానం కాంటెక్స్టులో చూడాలి 🙂