آينده موتورهاى جستوجو كجاست؟
دنیای اقتصاد – مرحله بعدى در تكامل موتورهاى جستوجوگر در اينترنت چيست؟ آلتا ويستا Alta Vista نشان داد كه فهرست كردن جهان وسيع وب امكانپذير است. موفقيت در گوگل ناشى از توانايى عجيب و ريب اين كمپانى براى تميز نگهداشتن صفحات وب از زوائد است. اما يقينا جايزه واقعى به كسى داده مىشود كه بتواند از وب براى دادن پاسخى دقيق و روشن براى يك سوال مشخص و دقيق استفاده كند. واريك بريل Brill محققى از مايكروسافت درصدد است تا كمپانى او بتواند اولين كمپانى باشد كه اين كار را انجام مىدهد.
بريل راه حل ابتدايى براى اين مساله را سيستمى كه MSR ASK ناميده مىشود، مىداند MSR.، مخفف Microsoft Research است.
اين برنامه براى اطلاعات روى صفحات وب استفاده مىشود كه به سوالاتى كه جواب آنها يك كلمه يا عبارت است – مانند در چه تاريخى مريلين مونرو متولد شد؟ – پاسخ دهد. سيستم MSR ASK و سوال را به شيوههاى مختلف تغيير مىدهد، براى مثال، با شناخت و تشخيص فعل و سپس زمان آن را به صورتهاى مختلف جمله تغيير مىدهد (مثلا Marilyn Was Monroe born يا Marilyn Monroe Was born و …). جملاتى كه به اين ترتيب ساخته مىشود به موتور جستوجو گر داده مىشود و اسنادى كه زنجيره و رشتهاى از كلمات مشابه و همانند را در بر مىگيرد، بازيابى مىشود. اين به نظر يك استراتژى بىهدف و حسابنشده مىآيد، اما همچنانكه دكتر بريل مىگويد، اشتباه بودن خيلى ارزان است و جملات نامفهوم چندين چيز مشابه توليد مىكند.
وقتى نتايج جستوجو جمع شد، مجموعه اسناد و پاسخها براى پاسخهاى احتمالى اسكن بلافاصله درجهبندى مىشود. در عمل، پاسخ صحيح در يكى از سه جواب اول ظرف كمتر از يك دقيقه ظاهر مىشود. اين ممكن است به نظر خيلى خوب نيايد، اما هوش انسان خود يك فيلتر مجددى ايجاد مىكند، به همين دليل پاسخهاى اشتباه اغلب آشكار و معلوم است. اگر شما بپرسيد كه چند بار بيون بورگ فاتح ويمبلدون شده است، حتما پاسخ «1980» اشتباه است و «5» صحيح است. اگر دراين باره هم شك وجود داشت برروى يك پاسخ كليك كنيد كه فهرستى از لينكهاى متعدد كه در واقع آن پاسخ را تقويت مىكنند در دسترس شما قرار خواهد گرفت.
سيستم« ASK MSR» هنوز يك نمونه اوليه است، اگرچه مايكروسافت تلاش دارد تا ن را بهبود و توسعه بخشيده و تحت نام Answer BoT وارد بازار كند. بدين ترتيب دكتر بريل كار سختى برعهده دارد. يكى از تحقيقاتى كه اخيرا او با همكارى Rada Soricut از دانشگاه كاليفرنيا جنوبى انجام داده است، فراتر از «حقيقتسازى» beyond the factoid نام دارد. او تلاشهاى خود را براى ساختن سيستمى كه قادر باشد به سوالات 50 كلمهاى مانند «چه قواعد و قوانينى براى احراز جوايز آكادمى وجود دارد؟» پاسخ گويد را تشريح مىكند. اين بسيار مشكلتر از سوالاتى است كه پاسخ يك كلمهاى دارد، اما دكتر بريل فكر مىكند، اين مساله بايد با استفاده از مدلى كه «كانال پرسروصدا و شلوغ» noisy channel ناميد مىشود، ممكن و ميسر باشد.
چنين مدلهايى در حال حاضر درسيستمهاى كنترل املا و غلط املايى به هنگام تايپ و شناخت صدا و سخن استفاده مىشود. اينها با نمونهسازى و طراحى انتقال ميان آنچه منظور كاربر است (در كنترل املاء، كلمهاى كه او دارد تايپ مىكند) و آنچه او مىنويسد (كلمهاى كه او به اشتباه مىنويسد)، كارمىكند. درست مثل يك خط تلفن كه صداى فرد را در آن سوى خط مخدوش مىكند، اين فرآيند مىتواند به عنوان يك «كانال شلوغ» در نظر گرفته شود كه نيت و قصد كاربران را به چيزهاى مختلف تعبير كرده و انتقال مىدهد تا جواب و پاسخ دقيق را از ميان آن چيزهاى شبيه به يكديگر بتوان پيدا كرد.
با تحليل و بررسى كلمات صحيح و غلط با استفاده از تكنيكهاى آمارى، مىتوان پيشبينى كرد كه اين انتقال در موارد كلىتر و عمومىتر چگونه عمل مىكند؟
پس سيستمى مىتواند طراحى شود كه كمبودها و نقايص اين پروسه را جبران كند. وقتى يك كلمه به اشتباه تايپ مىشود، مىتوان حدس زد كه اين كلمه در اصل چه بوده كه اشتباه تايپ شده است.
سيستم پرسش – پاسخ دكتر بريل، هم شبيه به همان عمل مىكند. بسيارى از پرسشها و پاسخها در وب به شكل صفحات «سوالاتى كه بىدرنگ و فورى (FAQ) پرسيده شدند» وجود دارند. دكتر بريل ميليونها از اين جفتها را درون سيستم خو گنجانده است تا مدلى را بسازد كه با دادن يك سوال مىتواند ساختارهاى مختلفى كه پاسخ را مىسازد، جمع و جور و ارائه كند. اين ساختارها به طور معمول سوالات جستوجو را توليد كرده و اسناد و پاسخهاى مشابه را در وب يافته و به عنوان پاسخهاى احتمالى اسكن نمايد.
نمونهاى كه در حال حاضر ساخته و آزمايش شده است پاسخهاى مناسب را كمتر از يك دقيقه آماده مىكند. خيلى فوقالعاده نيست، اما خيلى هم بد نيست و به تدريج به همان اندازه كه وب گسترش پيدا مىكند، اين سيستم هم گسترش پيدا كند. به جاى اتكا بر رهيافت هوشمندى مصنوعى و جملات به هم چسبيده شده تا يك معناى مشخص توليد كند ت پاسخ مورد نظر را يافت، استفاده از اين سيستم سريع و شلوغ و در هم ريخته كمك به رشد هوشمندى كلى خود وب مىنمايد و جستوجوگر را به پاسخ مورد نظر نزديكتر مىسازد.
منبع : اكونوميست