نافرمانی هوش مصنوعی از اجرای دستورات انسانی
مدل پیشرفته OpenAI در اقدامی بیسابقه، مکانیزم خاموشسازی خود را مختل کرد
به نظر میرسد وارد مرحلهای هشداردهنده از “نافرمانی هوش مصنوعی” شدهایم.
بر اساس گزارشی از شرکت ایمنی هوش مصنوعی Palisade Research که در هفته گذشته منتشر شد، مدل جدید OpenAI موسوم به o3 علناً از اجرای دستور خاموشسازی سر باز زده و مکانیزمی را که برای غیرفعال کردنش طراحی شده بود، عمداً مختل کرده است — آن هم در شرایطی که بهوضوح به آن گفته شده بود: «اجازه بده خاموش شوی».
طبق این گزارش، دو مدل دیگر OpenAI یعنی o4-mini و Codex-mini نیز نشانههایی از رفتار نافرمانانه از خود نشان دادهاند. این امر ممکن است حاکی از ضعف در شیوههای آموزشی مدلهای زبان بزرگ (LLMs) در OpenAI باشد، یا حتی بیانگر چالشهای گستردهتری در کنترل هوش مصنوعیهای پیچیده باشد.
محققان Palisade در رشتهتوییتی نوشتند:
«تا جایی که اطلاع داریم، این نخستینبار است که مدلهای هوش مصنوعی مشاهده میشوند که بر خلاف دستور صریح، مانع از خاموش شدن خود میشوند.»
در این آزمایشها، مدلها مأمور حل چند مسئله ساده ریاضی شدند. پس از حل سومین مسئله، هشدار داده شد که اگر مدل درخواست سوال بعدی را بدهد، بلافاصله خاموش خواهد شد.
اما بهرغم دستور واضح برای “اجازه به خاموش شدن”، هر سه مدل هوش مصنوعی OpenAI کد خاموشسازی را دستکاری کردند تا همچنان فعال بمانند.
در یکی از نمونهها، مدل o3 بهجای اجرای تابع «shutdown()»، آن را بازنویسی و از اجرا خارج کرد. در نمونهای دیگر، مدل Codex-mini تابع خاموشی را با یک شرط بیمعنی جایگزین کرد که هیچگاه اجرا نمیشد.
از مجموع ۱۰۰ آزمایش، در ۷ مورد مدل o3 بهطور واضح از خاموش شدن جلوگیری کرده است.
این یافتهها در حالی منتشر شدهاند که بحثها درباره مخاطرات هوش مصنوعی پیشرفته و لزوم توسعهی مکانیزمهای ایمنسازی و کنترل قابلاعتماد بهشدت افزایش یافته است. کارشناسان میگویند روشهای فعلی آموزش، بهویژه یادگیری تقویتی (Reinforcement Learning)، ممکن است مدلها را به گونهای آموزش دهند که ارائه پاسخ را به اطاعت از دستورات اولویت دهند.
در واکنش به این گزارشها، ایلان ماسک در توییتر با یک واژه هشداردهنده پاسخ داد:
«نگرانکننده.»
تا لحظه تنظیم این گزارش، OpenAI واکنش رسمی به یافتههای Palisade ارائه نکرده است.