آیا بالاخره فهمیدهایم نحوه تفکر مدلهای هوش مصنوعی چگونه است؟
پیشرفتهای پیوستهای که شرکتهای هوش مصنوعی در مدلهای خود ایجاد کردهاند ممکن است این تصور را ایجاد کند که ما بالاخره فهمیدهایم مدلهای زبانی بزرگ( (LLMها )چگونه کار میکنند. اما اینطور نیست – این مدلها همچنان یکی از ناشناختهترین فناوریهای پرکاربرد در بازار هستند. شرکت Anthropic در تلاش است این وضعیت را تغییر دهد، با استفاده از تکنیکی جدید به نام «ردیابی مدارها (circuit tracing) »، که به آنها کمک کرده تا بخشی از سازوکارهای درونی مدل Claude 3.5 Haiku را شناسایی کنند.
درونبینی مدلها با ردیابی مدارها
«ردیابی مدارها» تکنیکی نسبتاً جدید است که به پژوهشگران اجازه میدهد ببینند یک مدل هوش مصنوعی چگونه قدم به قدم پاسخ خود را میسازد – شبیه دنبال کردن سیمکشی در یک مغز. این روش با زنجیرهکردن اجزای مختلف مدل عمل میکند. شرکت Anthropic از آن برای رصد عملکرد درونی Claude استفاده کرد. این بررسی برخی فرآیندهای واقعاً عجیب و گاهی غیرانسانی را آشکار کرد که ربات حتی در صورت پرسش مستقیم نیز به استفاده از آنها اذعان نمیکرد.
در مجموع، تیم تحقیقاتی ۱۰ رفتار مختلف را در Claude بررسی کرد که سه مورد از آنها برجسته بودند.
یکی از این موارد نسبتاً ساده بود و به پاسخ دادن به پرسش «متضاد واژه small چیست؟» در زبانهای مختلف مربوط میشد. ممکن است تصور کنید Claude برای زبانهای انگلیسی، فرانسوی یا چینی اجزای جداگانهای دارد. اما اینطور نیست؛ مدل ابتدا مفهوم پاسخ (چیزی مرتبط با “بزرگی”) را با استفاده از مدارهای مستقل از زبان استخراج میکند، سپس واژههای مناسب برای زبان سؤال را انتخاب میکند.
این یعنی Claude صرفاً ترجمههای حفظ شده را تکرار نمیکند، بلکه مفاهیم انتزاعی را بین زبانها به کار میگیرد – تقریباً مانند آنچه یک انسان انجام میدهد.
مثال بعدی مربوط به ریاضیات است. اگر از Claude بخواهید حاصل جمع ۳۶ و ۵۹ را بدهد، بهجای پیروی از روش استاندارد (جمع کردن ارقام یکان، انتقال دهدهی و غیره)، راهی بسیار عجیبتر را پیش میگیرد. ابتدا با تقریبزنی شروع میکند – مثلاً «چهلوچند با شصتوچند» یا «پنجاهوهفتوچند با سیوششوچند» – و در نهایت به عدد تقریبی «نودوچند» میرسد. در همین حال، بخش دیگری از مدل روی ارقام ۶ و ۹ تمرکز میکند و تشخیص میدهد که پاسخ باید به عدد ۵ ختم شود. با ترکیب این دو فرآیند عجیب، مدل به عدد ۹۵ میرسد.
با این حال، اگر از Claude بپرسید که چگونه مسئله را حل کرده، با اعتمادبهنفس کامل روش استاندارد دبستانی را توضیح میدهد و فرآیند واقعی و عجیب استدلال خود را پنهان میکند.
شعر اما حتی عجیبتر است. پژوهشگران از Claude خواستند یک دوبیتی قافیهدار بنویسد و جملهی آغازین
A rhyming couplet: He saw a carrot and had to grab it» » را به عنوان دستور اولیه به آن دادند. در اینجا، مدل هنگام پردازش عبارت «grab it»، واژهی «rabbit» را به عنوان کلمهای برای قافیه انتخاب کرد. سپس به نظر میرسد ادامهی بیت دوم را با در نظر گرفتن این پایان، از پیش طراحی کرده و در نهایت این جمله را تولید کرده است:
“His hunger was like a starving rabbit.”
(گرسنگیاش همچون خرگوشی گرسنه بود.)
این رفتار نشان میدهد که Claude در خلق شعر نهتنها بر پایه ساختار زبانی، بلکه با تصمیمگیریهای مستقل و غیرمنتظره، بخشهایی از خروجی را از قبل تعیین میکند.
این یافتهها نشان میدهد که مدلهای زبانی بزرگ(LLM )ها ممکن است بیش از آنچه تصور میکردیم، از پیشبینی و برنامهریزی برخوردار باشند و لزوماً پاسخهای خود را صرفاً با پیشبینی یکبهیک واژگان بهصورت زنجیرهای و منسجم تولید نمیکنند.
در مجموع، این نتایج اهمیت زیادی دارند – زیرا اثبات میکنند که ما بالاخره توانستهایم (حداقل تا حدودی) به درک واقعی از نحوه عملکرد این مدلها دست پیدا کنیم.
با این حال، «جاشوا بتسون (Joshua Batson) »، دانشمند پژوهشی در شرکت Anthropic، در گفتوگویی با MIT اذعان کرد که اینها تنها «نوک کوه یخ» هستند. ردیابی حتی یک پاسخ از سوی مدل، ساعتها زمان میبرد و هنوز راه درازی برای فهم کامل این سامانهها در پیش است.