تکنولوژی

هوش مصنوعی جدید گوگل و صدای انسانی‌اش

در ماه جاری، گزارش تحقیقاتی جدیدی توسط گوگل منتشر شد که درمورد سیستم متن به گفتاری به نام Tacotron 2 توضیح می‌دهد. این سیستم  ادعا می‌کند که با دقت بسیا بالایی می‌تواند صدای انسان را تقلید کند.

این سیستم، دومین نسل از این تکنولوژیست که توسط گوگل عرضه می‌شود و متشکل از 2 شبکه عصبی عمیق است- deep neural networks. . اولین شبکه قادر است متن را به اسپتوگرام(پی دی اف) تبدیل کند- یک راه بصری برای نشان دادن فرکانس‌های صوتی در طول زمان. در مرحله بعد اسپکتوگرام با WaveNet تغذیه می‌شود. WaveNet سیستمی است که توسط مرکز آزمایشی هوش مصنوعی شرکت آلفابت شکل گرفته است، این سیستم می‌تواند جداول ارائه شده را خوانده و اِلمان‌های صوتی مورد نظر را بر اساس آن تولید کند.

در ادامه، دو نمونه از جملات ادا شده توسط این سیستم گوش دهید.

“جرج واشنگتن اولین رئیس جمهور ایالت متحده آمریکا بود.”

https://google.github.io/tacotron/publications/tacotron2/demos/washington_gen.wav

https://google.github.io/tacotron/publications/tacotron2/demos/washington_gt.wav

” آن دختر ویدیویی در مورد رژ لب جنگ ستارگان اجرا کرده است.”

https://google.github.io/tacotron/publications/tacotron2/demos/lipstick_gt.wav

https://google.github.io/tacotron/publications/tacotron2/demos/lipstick_gen.wav

 

محققان گوگل همچنین ثابت کردند که Tacotron 2 می‌تواند کلمات و اسامی سخت تلفظ را ادا کند و به علاوه قوانین نقطه گذاری را نیز رعایت می‌کند. برای مثال در زبان انگلیسی به روی حروف بزرگ، تاکید یا استرس قرار می‌گیرد که نشان می‌دهد کلمه مورد نظر در جمله اهمیت خاصی دارد. به مثال‌هایی از این نوع توجه کنید:

“The buses aren’t the problem, they actually provide a solution.”

https://google.github.io/tacotron/publications/tacotron2/demos/bus_nostress.wav

“The buses aren’t the PROBLEM, they actually provide a SOLUTION.”

https://google.github.io/tacotron/publications/tacotron2/demos/bus_stress.wav

بر خلاف برخی از تحقیقات اصلی که این شرکت انجام داده، این تکنولوژی بلا فاصله برای گوگل کارآمد بوده است. WaveNet اولین بار در 2016 معرفی شد و حالا در تولید صدای دستیار صوتی گوگل مورد استفاده قرار می‌گیرد. Tacotron 2 نیز به محض آمادگی می‌تواند به عنوان یکی از بزرگ‌ترین قابلیت‌های دستیار صوتی این شرکت، معرفی شود.

این برنامه به گونه‌ای طراحی شده که فعلا فقط قادر است صدای یک زن را ادا کند، برای صحبت با صدای مردان و یا صداهای مختلف زنان، این سیستم باید آموزش بیشتری ببیند.

منبع : آی تی ایران

نوشته های مشابه

دیدگاهتان را بنویسید

دکمه بازگشت به بالا