تکنولوژی

پردازش زبان‌ طبیعی بهبود خواهد یافت

محققان دانشگاه MIT پایگاه داده‌ای گسترده‌ای را ایجاد کرده‌اند که در آن جملات استفاده شده توسط کاربرانی که انگلیسی زبان مادری آنها نیست به ثبت رسیده است. به گزارش وب‌سایت Theverge، هدف اصلی این پروژه تلاش برای بهبود راهکارهای استفاده شده توسط رایانه‌ها و دستگاه‌های الکترونیکی هوشمند در خصوص تعامل با جملاتی است که این دسته از کاربران می‌نویسند و یا به زبان می‌آورند.

در حال حاضر قسمت اعظمی از تکنولوژی پردازش زبان طبیعی (NLP) برپایه استفاده از یادگیری ماشینی به پیشرفت دست یافته است. در قالب این راهکار، رایانه‌ها به شناسایی الگوها در مجموعه وسیعی از داده‌ها اقدام می‌کنند. مشکل اصلی این روش آن است که تمامی طراحی‌ها بر محور زبان انگلیسی استاندارد انجام شده و امکان بهره‌برداری از محصول نهایی، تا حد زیادی از کاربرانی که زبان انگلیسی را به عنوان دومین زبان(نه زبان مادری) استفاده می‌کنند سلب خواهد شد.

یوگنی برزاک، فارغ‌التحصیل مهندسی برق و علوم رایانه MIT که سرپرستی این پروژه را برعهده دارد در این خصوص می‌گوید: “در سراسر جهان، اکثر افرادی که به زبان انگلیسی تکلم می‌‌کنند و یا دست به تولید محتویات متنی به این زبان می‌زنند، زبان مادری متفاوتی دارند. هنگامی که به‌طور دقیق‌تر به بررسی ساختار زبان انگلیسی بپردازیم و یا زمانی که پردازش زبان طبیعی را درنظر آوریم اثرگذاری این ترکیب جمعیتی مشهودتر خواهد بود.”

این پایگاه داده‌ای برپایه پردازش 5124 جمله که توسط دانش‌آموزان حاضر در طرح‌های یادگیری انگلیسی به‌عنوان زبان دوم (ESL) به‌کار بسته شده، شکل گرفته است. این جملات توسط افرادی با زبان‌های مادری متفاوت نوشته و یا به زبان آورده شده‌اند. لازم به ذکر است که این ترکیب جمعیتی، زبان‌های مادری 40 درصد از جمعیت جهان را در خود جای داده است. هر جمله حداقل یک ایراد گرامری داشته که توسط دانشگاه کمبریج پرده از آن عیب برداشته شده است.

در مرحله نهایی تیمی از محققان دانشگاه MIT اطلاعات تکمیلی را به این پایگاه داده‌ای اضافه کرده‌اند تا تاکید بیشتری روی ساختار جملات (اسم، فعل، صفت) انجام گیرد و جزئیات بیشتری در خصوص مواردی مانند زمان جملات و یا حتی جمع و مفرد بودن اسامی، در پایگاه داده‌ای ثبت شود. این محققان از استانداردهای جهانی UD برای مشخص کردن روابط نحوی جملات تصحیح شده و تصحیح نشده استفاده کرده‌اند تا به عنوان مثال مشخص شود که چه صفاتی، کدام اسامی را تغییر خواهند داد و حتی افعالی که به صورت کمکی برای دیگر فعل‌ها به‌کار می‌روند نیز شناسایی شوند.

به گفته محققان MIT از این راهکار می‌توان برای شناسایی هر چه بهتر ترکیب‌های زبانی به‌کار گرفته شده توسط آن دسته از کاربرانی که انگلیسی زبان اول آن‌ها نیست استفاده و نرم‌افزارهایی هوشمندتری را هم برای اصلاح ساختارهای گرامری طراحی کرد. نتیجه تلاش این محققان در کنفرانس سالیانه انجمن زبان‌شناسی محاسباتی منتشر خواهد شد.

Joakim Nivre پروفسور دانشگاه Uppsala سوئد معتقد است این تحقیقات می‌تواند به پیشرفت هرچه بیشتر رایانه‌ها در زمینه مقایسه ساختارهای زبانی و در نهایت، انجام هر چه بهتر ترجمه‌های ماشینی کمک کند.  

منبع : آی‌تی‌ایران

نوشته های مشابه

دیدگاهتان را بنویسید

دکمه بازگشت به بالا