پردازش زبان طبیعی بهبود خواهد یافت
محققان دانشگاه MIT پایگاه دادهای گستردهای را ایجاد کردهاند که در آن جملات استفاده شده توسط کاربرانی که انگلیسی زبان مادری آنها نیست به ثبت رسیده است. به گزارش وبسایت Theverge، هدف اصلی این پروژه تلاش برای بهبود راهکارهای استفاده شده توسط رایانهها و دستگاههای الکترونیکی هوشمند در خصوص تعامل با جملاتی است که این دسته از کاربران مینویسند و یا به زبان میآورند.
در حال حاضر قسمت اعظمی از تکنولوژی پردازش زبان طبیعی (NLP) برپایه استفاده از یادگیری ماشینی به پیشرفت دست یافته است. در قالب این راهکار، رایانهها به شناسایی الگوها در مجموعه وسیعی از دادهها اقدام میکنند. مشکل اصلی این روش آن است که تمامی طراحیها بر محور زبان انگلیسی استاندارد انجام شده و امکان بهرهبرداری از محصول نهایی، تا حد زیادی از کاربرانی که زبان انگلیسی را به عنوان دومین زبان(نه زبان مادری) استفاده میکنند سلب خواهد شد.
یوگنی برزاک، فارغالتحصیل مهندسی برق و علوم رایانه MIT که سرپرستی این پروژه را برعهده دارد در این خصوص میگوید: “در سراسر جهان، اکثر افرادی که به زبان انگلیسی تکلم میکنند و یا دست به تولید محتویات متنی به این زبان میزنند، زبان مادری متفاوتی دارند. هنگامی که بهطور دقیقتر به بررسی ساختار زبان انگلیسی بپردازیم و یا زمانی که پردازش زبان طبیعی را درنظر آوریم اثرگذاری این ترکیب جمعیتی مشهودتر خواهد بود.”
این پایگاه دادهای برپایه پردازش 5124 جمله که توسط دانشآموزان حاضر در طرحهای یادگیری انگلیسی بهعنوان زبان دوم (ESL) بهکار بسته شده، شکل گرفته است. این جملات توسط افرادی با زبانهای مادری متفاوت نوشته و یا به زبان آورده شدهاند. لازم به ذکر است که این ترکیب جمعیتی، زبانهای مادری 40 درصد از جمعیت جهان را در خود جای داده است. هر جمله حداقل یک ایراد گرامری داشته که توسط دانشگاه کمبریج پرده از آن عیب برداشته شده است.
در مرحله نهایی تیمی از محققان دانشگاه MIT اطلاعات تکمیلی را به این پایگاه دادهای اضافه کردهاند تا تاکید بیشتری روی ساختار جملات (اسم، فعل، صفت) انجام گیرد و جزئیات بیشتری در خصوص مواردی مانند زمان جملات و یا حتی جمع و مفرد بودن اسامی، در پایگاه دادهای ثبت شود. این محققان از استانداردهای جهانی UD برای مشخص کردن روابط نحوی جملات تصحیح شده و تصحیح نشده استفاده کردهاند تا به عنوان مثال مشخص شود که چه صفاتی، کدام اسامی را تغییر خواهند داد و حتی افعالی که به صورت کمکی برای دیگر فعلها بهکار میروند نیز شناسایی شوند.
به گفته محققان MIT از این راهکار میتوان برای شناسایی هر چه بهتر ترکیبهای زبانی بهکار گرفته شده توسط آن دسته از کاربرانی که انگلیسی زبان اول آنها نیست استفاده و نرمافزارهایی هوشمندتری را هم برای اصلاح ساختارهای گرامری طراحی کرد. نتیجه تلاش این محققان در کنفرانس سالیانه انجمن زبانشناسی محاسباتی منتشر خواهد شد.
Joakim Nivre پروفسور دانشگاه Uppsala سوئد معتقد است این تحقیقات میتواند به پیشرفت هرچه بیشتر رایانهها در زمینه مقایسه ساختارهای زبانی و در نهایت، انجام هر چه بهتر ترجمههای ماشینی کمک کند.
منبع : آیتیایران