تکنولوژی

لب‌خوانی هوش مصنوعی گوگل بهتر از انسان است

بعد ازهزاران ساعت تماشای برنامه‌های تلویزیونی، تکنولوژی   Alشرکت گوگل لب خوانی را از انسانها بهتر انجام می‌دهد

محققین شرکت گوگل در بخش “DeepMind” و دانشگاه آکسفورد با استفاده از هوش مصنوعی موفق به ساختن دقیق‌ترین برنامه لب‌خوانی شده‌اند. دانشمندان با استفاده از هزاران ساعت برنامه تلویزیونی شبکه  BBC، موفق به آموزش یک سری شبکه عصبی شدند که قادر است تصاویر ویدیوئی را با دقت %46.8  لب‌خوانی کرده و به نوشتار تبدیل کند. شاید در نگاه اول خیلی تاثیر گذار به نظر نیاید، مخصوصا در مقایسه با تکنولوژی Al در بخش تبدیل صداها به نوشتار. اما در مقایسه با یک لب‌خوان حرفه‌ای(انسان) که تنها 12.4% دقت در لب‌خوانی داشت، این تکنولوژی فوق العاده عمل می‌کند.

این تحقیق در راستای  تحقیقات گروهی دیگر در اوایل این ماه  در دانشگاه آکسفورد صورت گرفته است. دانشمندان گروه اول با استفاده از تکنیک‌های مشابه موفق به ساخت برنامه‌ای با نام “LipNet” شدند که در مقایسه با تست انسانی که 52.3% بود، برنامه موفق به لب‌خوانی با دقت 93.4% شد. با این وجود “LipNet” بر روی ویدیوهای از پیش ضبط شده توسط داوطلبان که جملات با قواعد خاصی را تکرار می‌کردند، تست و اجرا شده بود. در حالی که نرم‌افزار “DeepMind” بر روی ویدیوهای خیلی پیچیده‌تر اجرا شد که در آن مکالمات افراد در برنامه‌های سیاسی شبکه  BBC، توسط این برنامه به متن تبدیل شد.

برنامه لب‌خوانی “DeepMind” با 5000 ساعت برنامه تلویزیونی آموزش داده شد

بیش از 5000 ساعت از برنامه‌های تلویزیونی از جمله “Newsnight” ، “Question Time” و “World Today” برای آموزش این برنامه انتخاب شدند تا مراحل “تماشا”، “شنیدن”، “ساماندهی کلمات” و “نوشتن” به بهترین نحو ممکن توسط برنامه اجرا شود. برنامه‌های تلویزیونی شامل 118000 جمله مختلف و 17.500 کلمه منحصر به فرد بود در حالی که تست “LipNet” تنها 51 کلمه را در بر می‌گرفت.

محققان “DeepMind” اظهار می‌کنند که این برنامه برای مقاصد مختلفی کاربرد دارد، از جمله افراد دارای ضعف شنوایی که در درک مکالمات با مشکل مواجه هستند. همچنین برای به متن درآوردن فیلم‌های صامت یا استفاده در دستیارهای دیجیتالی از جمله “Siri” یا “Alexa”(برای استفاده در مکان‌های عمومی) می‌تواند کاربردی باشد.

اما زمانی که افراد می‌فهمند که این تکنولوژی می‌تواند مکالماتشان را لب‌خوانی کند، اولین فکری که به ذهنشان می‌رسد مسائل نظارتی و امنیتی خواهد بود. دانشمندان گفته اند که هنوز اختلاف زیادی بین ویدیوهای با کیفیت HD و دوربین‌های نظارتی با نرخ فریم پایین، وجود دارد. اما نمی‌توان از بین بردن این خلاء توسط هوش مصنوعی را نادیده گرفت.

 

منبع : آی تی ایران

نوشته های مشابه

دیدگاهتان را بنویسید

دکمه بازگشت به بالا