మనం సెమాంటిక్ వెబ్, సెర్చ్ అని వింటూంటాము. అసలు ఏమిటవి ?
సెమాంటిక్ వెబ్ అంటే :
ఎందుకు ?
దీనికి సమాధానం కావాలంటే కొంత బాక్గ్రౌండ్ అవసరం.
అనేక ఏళ్ళుగా మనకు అంతర్జాలం (internet) ఉంది. ఇందులో సమాచారం కొన్ని బిలియన్ల కొద్దీ వెబ్ పేజీలలో నిక్షిప్తమై ఉంది.
ఇదంతా మనకి ఉపయోగపడేదే. కానీ ఆ సమాచారం అంతా ఒక పద్ద్హతి ప్రకారం ఉంచబడలేదు.
ఉదా: ఇవాళ నేనొక సినిమ రివ్యూ రాస్తున్నాననుకోండి. నాకిష్టమొచ్చినట్టు నేను రాయచ్చు.
నేనో సినిమా చూసాను. అది చెత్తగా ఉంది. దాని దర్శకుడు ఎవడో వెధవ. దాంత్లో నటీ నటులు కోంకిస్కా గొట్టం గాళ్ళు. కథ ఏమీ లేదు.
అందులో సినిమా గురించిన సమాచారం ఉంది. కానీ ఓ పద్ఢతి ప్రకారం లేదు. దానినే ఈ విధంగా రాసాననుకోండి.
నేనొక సినిమా చూసాను
పేరు: అనవసరం. దీనికో పేరు కూడానా ?
దర్శకుడు: ఎవడో వెధవ
నటీనటులు: కోంకిస్కా గొట్టం గాళ్ళు
కథ: ఏమీ లేదు
ఇప్పుడు అర్థం చేసుకోవడానికి తేలికగా లేదూ ? అంటే పద్ఢతి ప్రకారం ఉంచిన సమాచారం మరింత ఉపయోగకరం అన్నమాట.
పైన చెప్పిన విధంగా నేను రివ్యూ రాసాననుకోండి అది ఉపయోగంగా ఉంది కదా. మరి ఆ రివ్యూ ని అలాంటి పద్ఢతిలోనే అందరూ రాస్తే ?
అప్పుడు మీకు రివ్యూలు చదువుకోవడమూ, కనుగొనడమూ తేలిక కాదూ ?
ఏమిటి ?
ఇలాంటి సమస్యను పరిష్కరించడానికే సెమాంటిక్ వెబ్ తెర మీదకి వచ్చిందన్నమాట.
సమాచారానికి ఓ అర్థాన్ని ఆపాదించడానికి కొన్ని ఫార్మాట్లు రూపొందించబడ్డాయి, రూపొందించబడుతున్నాయి.
అవే ఈ సెమాంటిక్ వెబ్ కి ఆధారం.
ఉదా: మైక్రోఫార్మాట్లు, ఆర్డీఎఫ్.
ఎలా ?
ఈ సమాచారాన్ని పద్ఢతీకరించే సమస్యను ఈ సెమాంటిక్ వెబ్ పైన చెప్పుకున్న కొన్ని ఫార్మాట్లను ఉపయోగించి పరిష్కరించాలనుకుంటుంది.
అదెలా అంటే మనం చేసే కొన్ని రొటీను పనులకి ఫార్మాట్లు సృష్టించబడ్డాయి.
ఉదా: రివ్యూలకి hReview, విజిటింగ్ కార్డులకి, అడ్రసులకి hCard మొదలయినవి.
అలాగే వెబ్ పేజీలకు సంబంధించి మెటా సమాచారం ఉంచడానికి మనకు హెచ్టీఎమెల్ లో మెటా టాగులున్నట్టే వెబ్ కోసం ఆర్డీఎఫ్ అనే స్టాండర్డుని w3c తయారు చేసింది. ఇది సమాచారం మధ్య సంబంధాలని విశదీకరించేందుకు ఉపయోగపడుతుంది.
ఈ పేజీ ఇందుకోసం. ఇందులో ఈ సమాచారం ఉంది. మరి కొంత సమచారం ఇక్కడ దొరుకుతుంది. దీని రచయిత ఫలానా. లాంటివి. నా బ్లాగుకి ఆర్డీఎఫ్ ఈ కింది విధంగా రాయవచ్చు.
<rdf:RDF
xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#”
xmlns:dc=”http://purl.org/dc/elements/1.1/”>
<rdf:Description rdf:about=”http://praveengarlapati.blogspot.com”>
<dc:title>నా మదిలో …</dc:title>
<dc:publisher>ప్రవీణ్ గార్లపాటి</dc:publisher>
</rdf:Description>
</rdf:RDF>
దీని వల్ల ఉపయోగం ??
ఇంత కష్టపడి ఇవన్నీ చేస్తే ఇది ఎలా ఉపయోగం అనే సందేహం ఎవరికన్నా వస్తుంది.
దీనిని ఒక కాంటెక్స్టులో చూద్దాము.
సెర్చ్ ఇంజను ఎలా పని చేస్తుంది ? వెబ్ పేజీలను క్రాల్ చేసి.
అంటే దానికి దొరికిన లంకెలన్నిటినీ ఓ పద్ఢతి ప్రకారం అనుసరించి వాటి నుంచి సమాచారం వెలికి తీసి వెతకడానికి అనువుగా ఉంచుతుంది.
అయితే ఇక్కడ దానికి ముఖ్యమయినవి లంకెలు, కీ వర్డ్సు. అంటే మీరు ఒక వెబ్ పేజీ సృష్టిస్తే దాంట్లో అర్థం కంటే కీ వర్డ్లకే ప్రాధాన్యం ఎక్కువ. ఎవరయినా ఆ కీ వర్డ్ల కోసం వెతికితే మీ వెబ్ పేజీల సంగ్రహం నుంచి సేకరించిన కీ వర్డ్ల సహాయంతో వాటిని పోల్చి మీ వెబ్ పేజని సెర్చ్ రిజల్ట్లలో చూపిస్తుంది.
ఈ విధానంలో ఎన్నో లోపాలున్నాయి. ఎందుకంటే మనం సెర్చ్ చేసిన సమాచారాన్ని కాంటెక్స్టులో చూడట్లేదు ఈ సెర్చ్ ఇంజన్లు.
ఉదా: మీరు “What is telugu ?” అని సెర్చ్ చేసారనుకుందాము. అప్పుడు నేను ఆశించేది తెలుగు భాష గురించిన సమాచారం. అది ఎలాంటి భాష ? ఎక్కడ మాట్లాడుతున్నారు ? దాని పుట్టుపూర్వోత్తరాలు ఏమిటి ? మొదలయినవి.
కానీ ఇప్పుడు జరిగేది ఏమిటంటే “telugu” అనే కీ వర్డు ఏ పేజీలో ఉందో. ఏ పేజీకి ఎక్కువ క్రెడిబిలిటీ ఉందో అది ముందు చూపించడం జరుగుతుంది. దాని వల్ల నేను కోరుకున్న సమాచారం నాకందట్లేదు.
గూగుల్, యాహూ, లైవ్ మొదలయినటువంటి సెర్చ్ ఇంజన్లు ఎన్నాళ్ళ నుంచో ఈ కాంటెక్స్టుని బట్టి సెర్చ్ ని మెరుగు పరచడానికి ప్రయత్నాలు చేస్తున్నాయి. కానీ ఇంత వరకూ పెద్దగా విజయం సాధించలేకపోయాయనే చెప్పుకోవాలి.
ఆ ఖాళీలను పూరించడానికి కొత్తగా సెమాంటిక్ సెర్చ్ ఇంజన్లు పుట్టుకొచ్చాయి. హాకియా, పవర్సెట్ మొదలయినవి.
ఇవి అలాంటి సెమాంటిక్ సెర్చ్ ని సాధ్యం చెయ్యడానికి ప్రయత్నిస్తున్నాయి.
కొన్ని నాచురల్ లాంగ్వేజీ ప్రాసెసింగుని ఆసరాగా తీసుకుంటే కొన్ని స్టాండర్డ్సుని ఇండెక్సు చేస్తున్నాయి. ఇంతకు ముందు చెప్పుకున్న ఆర్డీఎఫ్ స్తాండర్డుని ఇండెక్సు చెయ్యడం ద్వారా దీనిని సాధ్యం చెయ్యడానికి ప్రయత్నిస్తున్నాయి.
ఆర్డీఎఫ్ స్టాండర్డు వెబ్ పేజీల సమాచారాన్ని సెర్చింజన్లు మరింత సులువుగా అర్థం చేసుకోవడానికి ఉపయోగపడతాయి.
స్థూలంగా అదీ సెమాంటిక్ వెబ్ గురించి.
అయితే వీటిలో ముఖ్యమైందేమిటంటే ఏ స్టాండర్డు విజయం అయినా అది ఎంత వరకూ అడాప్ట్ అయిందో అన్నదాని మీదే ఆధారపడి ఉంటుంది. అంటే ఇప్పుడు వెబ్ సైటు ఓనర్లు తమ వెబ్ పేజీలలో ఈ ఆర్డీఎఫ్, మైక్రోఫార్మాట్స్ వంటివి ఉపయోగిస్తేనే సెమాంటిక్ వెబ్ సాధ్యపడుతుంది. అలా చెయ్యాలంటే వారికి ఏదో ఒక తాయిలం కావాలి. ఏమిటది ?
ఇంతవరకూ సెర్చింజన్లు వీటిని ఇండెక్సు చేసి అర్థం చేసుకోవడానికి ప్రత్యేకంగా ప్రయత్నించట్లేదు. కానీ ఈ మధ్య ఆ దిశలో సరయిన ప్రయత్నాలు మొదలయ్యాయి. ఇంతకు ముందు చెప్పుకున్న సెమాంటిక్ వెబ్ సెర్చ్ ఇంజన్లు ఒక రకమయితే ఈ మధ్యే యాహూ వారు ఈ సెమాంటిక్ వెబ్ కి సంబంధించిన స్టాండర్డులని ఇండెక్సు చేస్తామని ప్రకటించారు.
యాహూ గూగుల్ ని ఢీ కొట్టడానికి సరికొత్త వ్యూహాల్ని రంగంలోకి దించుతూంది. అవి సరయిన దిశలో ఉన్నాయి కూడా. దాని సెర్చ్ ని ఓపెన్ చేయ్యడానికి సన్నాహాలు మొదలెట్టింది. ఇప్పుడు సెమాంటిక్ సపోర్టు.
సెర్చ్లో గూగుల్ మొదటి సారి కాచప్ మొదలుపెట్టాలేమో ?
* ఆర్డీఎఫ్ ని వివిధ రకాలుగా ఉంచవచ్చు. అందులో ఒక విధానం
<link rel=”alternate” type=”application/rdf+xml” href=”linktordf.rdf” />
పైన చెప్పింది ఒక స్టాటిక్ ఆర్డీఎఫ్ ఫైలుని మీ వెబ్ పేజీలో ఉంచుకోవడం కోసం.
అలాగే డైనమిక్ గా ఆర్డీఎఫ్ ఫైళ్ళని జెనరేట్ చేసే విధానాలు కూడా ఉన్నాయి. కానీ నాకు వాటి మీద అంత అవగాహన లేదు.
ఆర్డీఎఫ్ మీద కొంత అవగాహన కోసం మీరు w3schools లో ఈ వ్యాసం చదవవచ్చు.
అలాగే ఆర్డీఎఫ్ లో ఏ ఎలిమెంట్స్ ఉండచ్చు అనే సమాచారం కోసం మీరు ఈ లంకె చూడండి.
* ఆర్డీఎఫ్ ని కొన్ని/చాలా ?? వెబ్ సైట్లు ఇప్పటికే అమలు చేస్తున్నాయి.
ఒక ఉదాహరణ లైవ్జర్నల్. ఇది FOAF (Friend Of a Friend) అనే ఒక ఆర్డీఎఫ్ ఫార్మాటుని వాడుతుంది.
ఆర్డీఎఫ్ ని వినూత్నంగా ఎలా వాడవచ్చో అన్నదానికి ఇదో ఉదాహరణ. ఎందుకంటే FOAF ప్రాజెక్టు ద్వారా మీ స్నేహితులు, వారి స్నేహితుల మధ్య సంబంధాలను చిత్రీకరించవచ్చు.
మీరు ఏదయినా లైవ్జర్నల్ బ్లాగు మొదటి పేజీలో చూస్తే ఇలాంటి ఒక టాగు ఉంటుంది
<link rel=”meta” type=”application/rdf+xml” title=”FOAF” href=”http://praveenkumarg.livejournal.com/data/foaf” />
దానర్థం ఏమిటంటే ఆ లంకెలో ఆ బ్లాగు యొక్క స్నేహితుల సమాచారం ఆర్డీఎఫ్ ఫార్మాటులో ఉంటుందని. ఇప్పుడు ఒక వేళ ఈ సమాచారాన్ని సెర్చ్ ఇంజన్ లు గానీ ఇంకే ఇతర అప్లికేషన్ లు గానీ చదివితే నా స్నేహితులు ఎవరని అర్థమవుతుంది.
ఇది మంచా, చెడా అని మాత్రం నన్నడక్కండి. సమాధానం కాంటెక్స్టులో చూడాలి 🙂