لبخوانی هوش مصنوعی گوگل بهتر از انسان است
بعد ازهزاران ساعت تماشای برنامههای تلویزیونی، تکنولوژی Alشرکت گوگل لب خوانی را از انسانها بهتر انجام میدهد
محققین شرکت گوگل در بخش “DeepMind” و دانشگاه آکسفورد با استفاده از هوش مصنوعی موفق به ساختن دقیقترین برنامه لبخوانی شدهاند. دانشمندان با استفاده از هزاران ساعت برنامه تلویزیونی شبکه BBC، موفق به آموزش یک سری شبکه عصبی شدند که قادر است تصاویر ویدیوئی را با دقت %46.8 لبخوانی کرده و به نوشتار تبدیل کند. شاید در نگاه اول خیلی تاثیر گذار به نظر نیاید، مخصوصا در مقایسه با تکنولوژی Al در بخش تبدیل صداها به نوشتار. اما در مقایسه با یک لبخوان حرفهای(انسان) که تنها 12.4% دقت در لبخوانی داشت، این تکنولوژی فوق العاده عمل میکند.
این تحقیق در راستای تحقیقات گروهی دیگر در اوایل این ماه در دانشگاه آکسفورد صورت گرفته است. دانشمندان گروه اول با استفاده از تکنیکهای مشابه موفق به ساخت برنامهای با نام “LipNet” شدند که در مقایسه با تست انسانی که 52.3% بود، برنامه موفق به لبخوانی با دقت 93.4% شد. با این وجود “LipNet” بر روی ویدیوهای از پیش ضبط شده توسط داوطلبان که جملات با قواعد خاصی را تکرار میکردند، تست و اجرا شده بود. در حالی که نرمافزار “DeepMind” بر روی ویدیوهای خیلی پیچیدهتر اجرا شد که در آن مکالمات افراد در برنامههای سیاسی شبکه BBC، توسط این برنامه به متن تبدیل شد.
برنامه لبخوانی “DeepMind” با 5000 ساعت برنامه تلویزیونی آموزش داده شد
بیش از 5000 ساعت از برنامههای تلویزیونی از جمله “Newsnight” ، “Question Time” و “World Today” برای آموزش این برنامه انتخاب شدند تا مراحل “تماشا”، “شنیدن”، “ساماندهی کلمات” و “نوشتن” به بهترین نحو ممکن توسط برنامه اجرا شود. برنامههای تلویزیونی شامل 118000 جمله مختلف و 17.500 کلمه منحصر به فرد بود در حالی که تست “LipNet” تنها 51 کلمه را در بر میگرفت.
محققان “DeepMind” اظهار میکنند که این برنامه برای مقاصد مختلفی کاربرد دارد، از جمله افراد دارای ضعف شنوایی که در درک مکالمات با مشکل مواجه هستند. همچنین برای به متن درآوردن فیلمهای صامت یا استفاده در دستیارهای دیجیتالی از جمله “Siri” یا “Alexa”(برای استفاده در مکانهای عمومی) میتواند کاربردی باشد.
اما زمانی که افراد میفهمند که این تکنولوژی میتواند مکالماتشان را لبخوانی کند، اولین فکری که به ذهنشان میرسد مسائل نظارتی و امنیتی خواهد بود. دانشمندان گفته اند که هنوز اختلاف زیادی بین ویدیوهای با کیفیت HD و دوربینهای نظارتی با نرخ فریم پایین، وجود دارد. اما نمیتوان از بین بردن این خلاء توسط هوش مصنوعی را نادیده گرفت.
منبع : آی تی ایران