عرضه آزمایشی قابلیت پیشرفته صدا برای مشترکین ChatGPT Plus
گامی بزرگ در مکالمه طبیعی با هوش مصنوعی
سم آلتمان، مدیرعامل و یکی از بنیانگذاران OpenAI، روز پنجشنبه در پلتفرم X (توییتر سابق) اعلام کرد که قابلیت پیشرفته صدا (Advanced Voice) از هفته آینده برای تعداد محدودی از مشترکان ChatGPT-Plus در دسترس قرار خواهد گرفت.
این شرکت قصد دارد نسخه آلفا (آزمایشی) از این قابلیت را با گروه کوچکی از کاربران آغاز کرده و بر اساس بازخوردهای دریافتی، آن را گسترش دهد.
اوپن ایآی در ماه می و همزمان با انتشار GPT-4o در رویداد بهروزرسانی بهاری خود اعلام کرد که قابلیت پیشرفته صدا (Advanced Voice)، نیاز به ورودی متنی (پرامپت) را از بین میبرد و به کاربران امکان میدهد تا مانند مکالمه با یک انسان دیگر، به طور مستقیم با هوش مصنوعی صحبت کنند. برخلاف دستیارهای هوشمند دیگر مانند سیری و دستیار گوگل که فقط پاسخهای از پیش آماده شده به سؤالات کاربران میدهند، قابلیت صدای پیشرفته ChatGPT، پاسخهای شبیه به انسان را تقریباً بدون تأخیر و به چندین زبان ارائه میدهد.
مدل GPT-4o قادر است به ورودیهای صوتی، به طور میانگین در ۳۲۰ میلیثانیه پاسخ دهد که معادل سرعت واکنش انسانها در مکالمات عادی است. همانطور که در ویدئوی دموی زیر مشاهده میکنید، این مدل میتواند به طور همزمان با چندین کاربر مکالمه کند، نقاط اصلی صحبت و سؤالات را به صورت بداهه در هر دو زبان انگلیسی و پرتغالی مطرح کند و همچنین آنها را با احساسات انسانی مانند “خنده” منتقل کند.
فعلا مشخص نیست که کدام دسته از کاربران به نسخه آزمایشی آلفا دسترسی خواهند داشت و در حال حاضر فقط میدانیم که باید از مشترکان سرویسChatGPT Plus ، با حق اشتراک ماهیانه ۲۰ دلار باشند. انتشار نسخه آلفا ابتدا برای ماه ژوئن برنامهریزی شده بود، اما این تاریخ به تعویق افتاد تا شرکت بتواند سیستم را “به سطح مورد نیاز برای راهاندازی” رسانده و توانایی آن را در تشخیص و رد محتوای ممنوعه بهبود بخشد. همچنین آماده سازی زیرساختهای فناوری اطلاعات شرکت برای پذیرش افزایش تعداد کاربران، بیشتر از حد انتظار زمان بر بوده است.
همانطور که شرکت در ژوئن اعلام کرد، عرضه عمومی این قابلیت تا حداقل پاییز امسال انجام نخواهد شد و زمان دقیق آن نیز دوباره بستگی به “رسیدن به استانداردهای بالای ایمنی و درصد اطمینان” این سیستم خواهد داشت.
ایجاد توانایی مکالمه طبیعی با کاربران، برای ChatGPT یک پیشرفت بزرگ محسوب میشود. حذف نیاز به پنجرهی متنی باعث کاهش نیاز به سختافزار کاربران و گسترش ادغامها و موارد استفاده برای هوش مصنوعی میشود (مانند افزایش دسترسی به کاربرانی که محدودیتهای حرکتی یا مهارتی دارند).
این قابلیت همچنین میتواند پذیرش فناوری توسط عموم مردم را سرعت ببخشد، زیرا موانع ورود کاربرانی که با تکنولوژی کمتر آشنا هستند برطرف شده و کاربران به راحتی از طریق دستورات صوتی مشابه “هی سیری” با دستگاههای خود تعامل برقرار میکنند. این دسته از کاربران ممکن است از فرآیند پیچیده طراحی پیامها (prompt engineering) دلسرد شوند، اما از طریق این قابلیت جدید، تعامل با هوش مصنوعی برایشان سادهتر خواهد شد.
منبع:digitaltrends