మార్చి 20, 2008

సెమాంటిక్ వెబ్, సెర్చ్ …

Posted in టెక్నాలజీ, సాంకేతికం, సెమాంటిక్ వెబ్, సెమాంటిక్ సెర్చ్, semantic search, semantic web వద్ద 5:43 సా. ద్వారా Praveen Garlapati

మనం సెమాంటిక్ వెబ్, సెర్చ్ అని వింటూంటాము. అసలు ఏమిటవి ?

సెమాంటిక్ వెబ్ అంటే :

ఎందుకు ?

దీనికి సమాధానం కావాలంటే కొంత బాక్‌గ్రౌండ్ అవసరం.

అనేక ఏళ్ళుగా మనకు అంతర్జాలం (internet) ఉంది. ఇందులో సమాచారం కొన్ని బిలియన్‌ల కొద్దీ వెబ్ పేజీలలో నిక్షిప్తమై ఉంది.
ఇదంతా మనకి ఉపయోగపడేదే. కానీ ఆ సమాచారం అంతా ఒక పద్ద్హతి ప్రకారం ఉంచబడలేదు.

ఉదా: ఇవాళ నేనొక సినిమ రివ్యూ రాస్తున్నాననుకోండి. నాకిష్టమొచ్చినట్టు నేను రాయచ్చు.

నేనో సినిమా చూసాను. అది చెత్తగా ఉంది. దాని దర్శకుడు ఎవడో వెధవ. దాంత్లో నటీ నటులు కోంకిస్కా గొట్టం గాళ్ళు. కథ ఏమీ లేదు.

అందులో సినిమా గురించిన సమాచారం ఉంది. కానీ ఓ పద్ఢతి ప్రకారం లేదు. దానినే ఈ విధంగా రాసాననుకోండి.

నేనొక సినిమా చూసాను
పేరు: అనవసరం. దీనికో పేరు కూడానా ?
దర్శకుడు: ఎవడో‌ వెధవ
నటీనటులు: కోంకిస్కా గొట్టం గాళ్ళు
కథ: ఏమీ లేదు

ఇప్పుడు అర్థం చేసుకోవడానికి తేలికగా లేదూ ? అంటే పద్ఢతి ప్రకారం ఉంచిన సమాచారం మరింత ఉపయోగకరం అన్నమాట.

పైన చెప్పిన విధంగా నేను రివ్యూ రాసాననుకోండి అది ఉపయోగంగా ఉంది కదా. మరి ఆ రివ్యూ ని అలాంటి పద్ఢతిలోనే అందరూ రాస్తే ?
అప్పుడు మీకు రివ్యూలు చదువుకోవడమూ, కనుగొనడమూ తేలిక కాదూ ?

ఏమిటి ?

ఇలాంటి సమస్యను పరిష్కరించడానికే సెమాంటిక్ వెబ్ తెర మీదకి వచ్చిందన్నమాట.
సమాచారానికి ఓ అర్థాన్ని ఆపాదించడానికి కొన్ని ఫార్మాట్లు రూపొందించబడ్డాయి, రూపొందించబడుతున్నాయి.
అవే ఈ సెమాంటిక్ వెబ్ కి ఆధారం.

ఉదా: మైక్రోఫార్మాట్లు, ఆర్డీఎఫ్.

ఎలా ?

ఈ సమాచారాన్ని పద్ఢతీకరించే సమస్యను ఈ సెమాంటిక్ వెబ్ పైన చెప్పుకున్న కొన్ని ఫార్మాట్లను ఉపయోగించి పరిష్కరించాలనుకుంటుంది.
అదెలా అంటే మనం చేసే కొన్ని రొటీను పనులకి ఫార్మాట్లు సృష్టించబడ్డాయి.

ఉదా: రివ్యూలకి hReview, విజిటింగ్ కార్డులకి, అడ్రసులకి hCard మొదలయినవి.

అలాగే వెబ్‌ పేజీలకు సంబంధించి మెటా సమాచారం ఉంచడానికి మనకు హెచ్టీఎమెల్ లో మెటా టాగులున్నట్టే వెబ్ కోసం ఆర్డీఎఫ్ అనే స్టాండర్డుని w3c తయారు చేసింది. ఇది సమాచారం మధ్య సంబంధాలని విశదీకరించేందుకు ఉపయోగపడుతుంది.

ఈ పేజీ ఇందుకోసం. ఇందులో ఈ సమాచారం ఉంది. మరి కొంత సమచారం ఇక్కడ దొరుకుతుంది. దీని రచయిత ఫలానా. లాంటివి. నా బ్లాగుకి ఆర్డీఎఫ్ ఈ కింది విధంగా రాయవచ్చు.

<rdf:RDF
xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#&#8221;
xmlns:dc=”http://purl.org/dc/elements/1.1/”&gt;
<rdf:Description rdf:about=”http://praveengarlapati.blogspot.com”&gt;
<dc:title>నా మదిలో …</dc:title>
<dc:publisher>ప్రవీణ్ గార్లపాటి</dc:publisher>
</rdf:Description>
</rdf:RDF>

దీని వల్ల ఉపయోగం ??

ఇంత కష్టపడి ఇవన్నీ చేస్తే ఇది ఎలా ఉపయోగం అనే సందేహం ఎవరికన్నా వస్తుంది.

దీనిని ఒక కాంటెక్స్టులో చూద్దాము.

సెర్చ్ ఇంజను ఎలా పని చేస్తుంది ? వెబ్ పేజీలను క్రాల్ చేసి.

అంటే దానికి దొరికిన లంకెలన్నిటినీ ఓ పద్ఢతి ప్రకారం అనుసరించి వాటి నుంచి సమాచారం వెలికి తీసి వెతకడానికి అనువుగా ఉంచుతుంది.
అయితే ఇక్కడ దానికి ముఖ్యమయినవి లంకెలు, కీ వర్డ్సు. అంటే మీరు ఒక వెబ్ పేజీ సృష్టిస్తే దాంట్లో అర్థం కంటే కీ వర్డ్లకే ప్రాధాన్యం ఎక్కువ. ఎవరయినా ఆ కీ వర్డ్ల కోసం వెతికితే మీ వెబ్ పేజీల సంగ్రహం నుంచి సేకరించిన కీ వర్డ్ల సహాయంతో వాటిని పోల్చి మీ వెబ్‍ పేజని సెర్చ్ రిజల్ట్లలో చూపిస్తుంది.

ఈ విధానంలో ఎన్నో లోపాలున్నాయి. ఎందుకంటే మనం సెర్చ్ చేసిన సమాచారాన్ని కాంటెక్స్టులో చూడట్లేదు ఈ సెర్చ్ ఇంజన్లు.

ఉదా: మీరు “What is telugu ?” అని సెర్చ్ చేసారనుకుందాము. అప్పుడు నేను ఆశించేది తెలుగు భాష గురించిన సమాచారం. అది ఎలాంటి భాష ? ఎక్కడ మాట్లాడుతున్నారు ? దాని పుట్టుపూర్వోత్తరాలు ఏమిటి ? మొదలయినవి.

కానీ ఇప్పుడు జరిగేది ఏమిటంటే “telugu” అనే కీ వర్డు ఏ పేజీలో ఉందో. ఏ పేజీకి ఎక్కువ క్రెడిబిలిటీ ఉందో అది ముందు చూపించడం జరుగుతుంది. దాని వల్ల నేను కోరుకున్న సమాచారం నాకందట్లేదు.

గూగుల్, యాహూ, లైవ్ మొదలయినటువంటి సెర్చ్ ఇంజన్లు ఎన్నాళ్ళ నుంచో ఈ కాంటెక్స్టుని బట్టి సెర్చ్ ని మెరుగు పరచడానికి ప్రయత్నాలు చేస్తున్నాయి. కానీ ఇంత వరకూ పెద్దగా విజయం సాధించలేకపోయాయనే చెప్పుకోవాలి.

ఆ ఖాళీలను పూరించడానికి కొత్తగా సెమాంటిక్ సెర్చ్ ఇంజన్లు పుట్టుకొచ్చాయి. హాకియా, పవర్‌సెట్ మొదలయినవి.

ఇవి అలాంటి సెమాంటిక్ సెర్చ్ ని సాధ్యం చెయ్యడానికి ప్రయత్నిస్తున్నాయి.

కొన్ని నాచురల్ లాంగ్వేజీ ప్రాసెసింగుని ఆసరాగా తీసుకుంటే కొన్ని స్టాండర్డ్సుని ఇండెక్సు చేస్తున్నాయి. ఇంతకు ముందు చెప్పుకున్న ఆర్డీఎఫ్ స్తాండర్డుని ఇండెక్సు చెయ్యడం ద్వారా దీనిని సాధ్యం చెయ్యడానికి ప్రయత్నిస్తున్నాయి.

ఆర్డీఎఫ్ స్టాండర్డు వెబ్‌ పేజీల సమాచారాన్ని సెర్చింజన్‌లు మరింత సులువుగా అర్థం చేసుకోవడానికి ఉపయోగపడతాయి.

స్థూలంగా అదీ సెమాంటిక్ వెబ్ గురించి.

అయితే వీటిలో ముఖ్యమైందేమిటంటే ఏ స్టాండర్డు విజయం అయినా అది ఎంత వరకూ అడాప్ట్ అయిందో అన్నదాని మీదే ఆధారపడి ఉంటుంది. అంటే ఇప్పుడు వెబ్‌ సైటు ఓనర్లు తమ వెబ్ పేజీలలో ఈ ఆర్డీఎఫ్, మైక్రోఫార్మాట్స్ వంటివి ఉపయోగిస్తేనే సెమాంటిక్ వెబ్ సాధ్యపడుతుంది. అలా చెయ్యాలంటే వారికి ఏదో‌ ఒక తాయిలం కావాలి. ఏమిటది ?

ఇంతవరకూ సెర్చింజన్‌లు వీటిని ఇండెక్సు చేసి అర్థం చేసుకోవడానికి ప్రత్యేకంగా ప్రయత్నించట్లేదు. కానీ ఈ మధ్య ఆ దిశలో సరయిన ప్రయత్నాలు మొదలయ్యాయి. ఇంతకు ముందు చెప్పుకున్న సెమాంటిక్ వెబ్‌ సెర్చ్ ఇంజన్‌లు ఒక రకమయితే ఈ మధ్యే యాహూ వారు ఈ సెమాంటిక్ వెబ్ కి సంబంధించిన స్టాండర్డులని ఇండెక్సు చేస్తామని ప్రకటించారు.

యాహూ గూగుల్ ని ఢీ కొట్టడానికి సరికొత్త వ్యూహాల్ని రంగంలోకి దించుతూంది. అవి సరయిన దిశలో ఉన్నాయి కూడా. దాని సెర్చ్ ని ఓపెన్ చేయ్యడానికి సన్నాహాలు మొదలెట్టింది. ఇప్పుడు సెమాంటిక్ సపోర్టు.

సెర్చ్‌లో గూగుల్ మొదటి సారి కాచప్ మొదలుపెట్టాలేమో ?

* ఆర్డీఎఫ్ ని వివిధ రకాలుగా ఉంచవచ్చు. అందులో ఒక విధానం

<link rel=”alternate” type=”application/rdf+xml” href=”linktordf.rdf” />

పైన చెప్పింది ఒక స్టాటిక్ ఆర్డీఎఫ్ ఫైలుని మీ వెబ్‌ పేజీలో ఉంచుకోవడం కోసం.
అలాగే డైనమిక్ గా ఆర్డీఎఫ్ ఫైళ్ళని జెనరేట్ చేసే విధానాలు కూడా ఉన్నాయి. కానీ నాకు వాటి మీద అంత అవగాహన లేదు.

ఆర్డీఎఫ్ మీద కొంత అవగాహన కోసం మీరు w3schools లో ఈ వ్యాసం చదవవచ్చు.
అలాగే ఆర్డీఎఫ్ లో ఏ ఎలిమెంట్స్ ఉండచ్చు అనే సమాచారం కోసం మీరు ఈ లంకె చూడండి.

* ఆర్డీఎఫ్ ని కొన్ని/చాలా ?? వెబ్‌ సైట్లు ఇప్పటికే అమలు చేస్తున్నాయి.

ఒక ఉదాహరణ లైవ్‌జర్నల్. ఇది FOAF (Friend Of a Friend) అనే ఒక ఆర్డీఎఫ్ ఫార్మాటుని వాడుతుంది.

ఆర్డీఎఫ్ ని వినూత్నంగా ఎలా వాడవచ్చో అన్నదానికి ఇదో ఉదాహరణ. ఎందుకంటే FOAF ప్రాజెక్టు ద్వారా మీ స్నేహితులు, వారి స్నేహితుల మధ్య సంబంధాలను చిత్రీకరించవచ్చు.

మీరు ఏదయినా లైవ్‌జర్నల్ బ్లాగు మొదటి పేజీలో చూస్తే ఇలాంటి ఒక టాగు ఉంటుంది

<link rel=”meta” type=”application/rdf+xml” title=”FOAF” href=”http://praveenkumarg.livejournal.com/data/foaf&#8221; />

దానర్థం ఏమిటంటే ఆ లంకెలో ఆ బ్లాగు యొక్క స్నేహితుల సమాచారం ఆర్డీఎఫ్ ఫార్మాటులో ఉంటుందని. ఇప్పుడు ఒక వేళ ఈ సమాచారాన్ని సెర్చ్ ఇంజన్ లు గానీ ఇంకే ఇతర అప్లికేషన్‌ లు గానీ చదివితే నా స్నేహితులు ఎవరని అర్థమవుతుంది.

ఇది మంచా, చెడా అని మాత్రం నన్నడక్కండి. సమాధానం కాంటెక్స్టులో చూడాలి 🙂

ప్రకటనలు

10 వ్యాఖ్యలు »

  1. netizen said,

    ఫస్ట్ తింగ్స్ ఫస్ట్. యువర్ టెంప్లేట్ – కలర్స్ ఆర్ గ్రేట్.
    మీ వ్యాసం బాగుంది.
    తెలుగులో ఇలాంటివి అరుదుగా వస్తున్నవి.
    మీరు కంటిన్యూ చేస్తే బాగుంటుంది.

  2. netizen said,

    ఫస్ట్ తింగ్స్ ఫస్ట్. యువర్ టెంప్లేట్ – కలర్స్ ఆర్ గ్రేట్.మీ వ్యాసం బాగుంది.తెలుగులో ఇలాంటివి అరుదుగా వస్తున్నవి.మీరు కంటిన్యూ చేస్తే బాగుంటుంది.

  3. ప్రవీణ్ గార్లపాటి said,

    థాంక్సండీ నెటిజను గారు.
    నేను నేర్చుకున్న కొద్దీ చెప్పడానికి ప్రయత్నిస్తాను.

  4. థాంక్సండీ నెటిజను గారు.నేను నేర్చుకున్న కొద్దీ చెప్పడానికి ప్రయత్నిస్తాను.

  5. చదువరి said,

    బాగుంది టపా. ఈ RDF అమలు చెయ్యగలిగే స్థితికి వచ్చేసుంటే, బ్లాగుల్లో (కనీసం సొంత డోమెయిను ఉన్న బ్లాగుల్లో) దీన్ని ఎలా పెట్టొచ్చో కూడా చెప్పగలరు. నెనరులు.

  6. బాగుంది టపా. ఈ RDF అమలు చెయ్యగలిగే స్థితికి వచ్చేసుంటే, బ్లాగుల్లో (కనీసం సొంత డోమెయిను ఉన్న బ్లాగుల్లో) దీన్ని ఎలా పెట్టొచ్చో కూడా చెప్పగలరు. నెనరులు.

  7. చైతన్య క్రిష్ణ పాటూరు said,

    వ్యాసం బావుందండి. ఇలాంటి సాంకేతిక వ్యాసాలు మరిన్ని రావాలి తెలుగులో. చదువరి గారి ప్రశ్నే నాదీను. ప్రస్తుతం ఈ ఫార్మెట్లు ఏ స్థాయిలో అమలవుతున్నాయే తెలియజేయగలరు.

  8. వ్యాసం బావుందండి. ఇలాంటి సాంకేతిక వ్యాసాలు మరిన్ని రావాలి తెలుగులో. చదువరి గారి ప్రశ్నే నాదీను. ప్రస్తుతం ఈ ఫార్మెట్లు ఏ స్థాయిలో అమలవుతున్నాయే తెలియజేయగలరు.

  9. ప్రవీణ్ గార్లపాటి said,

    @చదువరి గారు, @చైతన్య గారు:

    మీరడిగిన ప్రశ్నలకు ధన్యవాదాలు.
    నా వ్యాసం కొంత మెరుగుపరచాను. చివరలో మీరడిగిన ప్రశ్నలకు సమాధానం లభించవచ్చు. చూడగలరు.

  10. @చదువరి గారు, @చైతన్య గారు:మీరడిగిన ప్రశ్నలకు ధన్యవాదాలు.నా వ్యాసం కొంత మెరుగుపరచాను. చివరలో మీరడిగిన ప్రశ్నలకు సమాధానం లభించవచ్చు. చూడగలరు.


స్పందించండి

Fill in your details below or click an icon to log in:

వర్డ్‌ప్రెస్.కామ్ లోగో

You are commenting using your WordPress.com account. నిష్క్రమించు / మార్చు )

ట్విటర్ చిత్రం

You are commenting using your Twitter account. నిష్క్రమించు / మార్చు )

ఫేస్‌బుక్ చిత్రం

You are commenting using your Facebook account. నిష్క్రమించు / మార్చు )

గూగుల్+ చిత్రం

You are commenting using your Google+ account. నిష్క్రమించు / మార్చు )

Connecting to %s

%d bloggers like this: