شکست چتجیپیتی از رایانه ۶۰ سال پیش
یک برنامه رایانهای قدیمی ساختهشده در دهه ۱۹۶۰، چتبات هوش مصنوعی مشهور چتجیپیتی را در آزمون تورینگ، که برای تفاوت قائل شدن میان انسان از هوش مصنوعی طراحی شده است، شکست داد.
پژوهشگران دانشگاه کالیفرنیا در سن دیگو در ایالات متحده، چتبات قدیمی «الیزا» (ELIZA) را که جوزف وایزنبام، دانشمند امآیتی، اواسط دهه ۱۹۶۰ ساخته بود، در برابر نسخههای مدرن این فناوری آزمایش کردند. آنها دریافتند که الیزا از هوش مصنوعی چتجیپیتی ۳.۵ اوپنایآی که نسخه رایگان چتجیپیتی این شرکت را ارائه میکند، بهتر عمل کرده است.
آزمون تورینگ، از وقتی که آلن تورینگ، دانشمند بریتانیایی رایانه، آن را نخستین بار در ۱۹۵۰ مطرح کرد، معیاری برای تعیین توانایی ابزارهای ماشینی (کامپیوتری) در تقلید از مکالمه انسانی به شمار میرفته است.
در جدیدترین بررسی، قرار بود ۶۵۲ شرکتکننده انسانی قضاوت کنند که آیا در حال صحبت با انسانی دیگرند، یا از طریق اینترنت با یک چتبات هوش مصنوعی صحبت میکنند.
چتبات چتجیپیتی ۴ اوپنایآی، که از نسخه رایگان این فناوری قدرتمندتر است، توانست شرکتکنندگان در این بررسی را در موارد متعددتر و با موفقیت ۴۱ درصد بیشتر از الیزا، فریب دهد. الیزا در ۲۷ درصد مواقع توانست وانمود کند که انسان است؛ در حالیکه چتجیپیتی ۳.۵ فقط ۱۴ درصد موفقیت داشت.
گری مارکوس، متخصص هوش مصنوعی، موفقیت الیزا را برای شرکتهای فناوری مدرنی که روی چتباتهای هوش مصنوعی کار میکنند، «مایه آبروریزی» توصیف کرد. با این حال، سایر دانشگاهیان استدلال کردند که چتجیپیتی برای عملکرد خوب در آزمون تورینگ طراحی نشده است.
اتان مولیک، استاد هوش مصنوعی در آموزشگاه وارتون دانشگاه پنسیلوانیا در ایالات متحده، در شبکه ایکس (توییتر سابق) نوشت: «فکر میکنم وقتی این مقاله را بخوانید، این واقعیت که چتجیپیتی ۳.۵ به الیزا میبازد، تعجبآور نیست». وی تاکید کرد: «اوپنایآی خطر جعل هویت را نگرانیای واقعی در نظر گرفته است و از [روش] یادگیری تقویتی با بازخورد انسانی (RLHF) برخوردار است تا اطمینان حاصل کند که چتجیپیتی برای موفقیت در آزمون تورینگ و جا زدن خود به مثابه انسان، تلاش نمیکند. [اما] الیزا به شدت به این شکل طراحی شده است تا با استفاده از روانشناسی ما [در این آزمون خاص] موفق شود.»
یکی از دلایلی که شرکتکنندگان در این بررسی الیزا را با انسان اشتباه میگرفتند، این بود که «خیلی بدتر» از آن بود که [مشابه و همپای] هوش مصنوعی مدل کنونی باشد، و از این رو «به احتمال بیشتر، [شبیه] انسانی بود که عامدانه همکاری نمیکند».
آرویند نارایانان، استاد علوم رایانهای در دانشگاه پرینستون که خود در این پژوهش شرکت نداشت، گفت: «مانند همه مواقع، آزمون رفتار، چیزی درباره قابلیتها به ما نمیگوید. چتجیپیتی به گونهای تنظیم شده است که لحنی رسمی داشته باشد، نه بیان دیدگاه و نظایر آن، که سبب میشود کمتر شبیه به انسان باشد.».