هوش مصنوعی جدید گوگل و صدای انسانیاش
در ماه جاری، گزارش تحقیقاتی جدیدی توسط گوگل منتشر شد که درمورد سیستم متن به گفتاری به نام Tacotron 2 توضیح میدهد. این سیستم ادعا میکند که با دقت بسیا بالایی میتواند صدای انسان را تقلید کند.
این سیستم، دومین نسل از این تکنولوژیست که توسط گوگل عرضه میشود و متشکل از 2 شبکه عصبی عمیق است- deep neural networks. . اولین شبکه قادر است متن را به اسپتوگرام(پی دی اف) تبدیل کند- یک راه بصری برای نشان دادن فرکانسهای صوتی در طول زمان. در مرحله بعد اسپکتوگرام با WaveNet تغذیه میشود. WaveNet سیستمی است که توسط مرکز آزمایشی هوش مصنوعی شرکت آلفابت شکل گرفته است، این سیستم میتواند جداول ارائه شده را خوانده و اِلمانهای صوتی مورد نظر را بر اساس آن تولید کند.
در ادامه، دو نمونه از جملات ادا شده توسط این سیستم گوش دهید.
“جرج واشنگتن اولین رئیس جمهور ایالت متحده آمریکا بود.”
https://google.github.io/tacotron/publications/tacotron2/demos/washington_gen.wav
https://google.github.io/tacotron/publications/tacotron2/demos/washington_gt.wav
” آن دختر ویدیویی در مورد رژ لب جنگ ستارگان اجرا کرده است.”
https://google.github.io/tacotron/publications/tacotron2/demos/lipstick_gt.wav
https://google.github.io/tacotron/publications/tacotron2/demos/lipstick_gen.wav
محققان گوگل همچنین ثابت کردند که Tacotron 2 میتواند کلمات و اسامی سخت تلفظ را ادا کند و به علاوه قوانین نقطه گذاری را نیز رعایت میکند. برای مثال در زبان انگلیسی به روی حروف بزرگ، تاکید یا استرس قرار میگیرد که نشان میدهد کلمه مورد نظر در جمله اهمیت خاصی دارد. به مثالهایی از این نوع توجه کنید:
“The buses aren’t the problem, they actually provide a solution.”
https://google.github.io/tacotron/publications/tacotron2/demos/bus_nostress.wav
“The buses aren’t the PROBLEM, they actually provide a SOLUTION.”
https://google.github.io/tacotron/publications/tacotron2/demos/bus_stress.wav
بر خلاف برخی از تحقیقات اصلی که این شرکت انجام داده، این تکنولوژی بلا فاصله برای گوگل کارآمد بوده است. WaveNet اولین بار در 2016 معرفی شد و حالا در تولید صدای دستیار صوتی گوگل مورد استفاده قرار میگیرد. Tacotron 2 نیز به محض آمادگی میتواند به عنوان یکی از بزرگترین قابلیتهای دستیار صوتی این شرکت، معرفی شود.
این برنامه به گونهای طراحی شده که فعلا فقط قادر است صدای یک زن را ادا کند، برای صحبت با صدای مردان و یا صداهای مختلف زنان، این سیستم باید آموزش بیشتری ببیند.
منبع : آی تی ایران