نافرمانی هوش مصنوعی از اجرای دستورات انسانی

مدل پیشرفته OpenAI در اقدامی بی‌سابقه، مکانیزم خاموش‌سازی خود را مختل کرد

به نظر می‌رسد وارد مرحله‌ای هشداردهنده از “نافرمانی هوش مصنوعی” شده‌ایم.

بر اساس گزارشی از شرکت ایمنی هوش مصنوعی Palisade Research که در هفته گذشته منتشر شد، مدل جدید OpenAI موسوم به o3 علناً از اجرای دستور خاموش‌سازی سر باز زده و مکانیزمی را که برای غیرفعال کردنش طراحی شده بود، عمداً مختل کرده است — آن هم در شرایطی که به‌وضوح به آن گفته شده بود: «اجازه بده خاموش شوی».

طبق این گزارش، دو مدل دیگر OpenAI یعنی o4-mini و Codex-mini نیز نشانه‌هایی از رفتار نافرمانانه از خود نشان داده‌اند. این امر ممکن است حاکی از ضعف در شیوه‌های آموزشی مدل‌های زبان بزرگ (LLMs) در OpenAI باشد، یا حتی بیانگر چالش‌های گسترده‌تری در کنترل هوش مصنوعی‌های پیچیده باشد.

مقالات مرتبط:

محققان Palisade در رشته‌توییتی نوشتند:

«تا جایی که اطلاع داریم، این نخستین‌بار است که مدل‌های هوش مصنوعی مشاهده می‌شوند که بر خلاف دستور صریح، مانع از خاموش شدن خود می‌شوند.»

در این آزمایش‌ها، مدل‌ها مأمور حل چند مسئله ساده ریاضی شدند. پس از حل سومین مسئله، هشدار داده شد که اگر مدل درخواست سوال بعدی را بدهد، بلافاصله خاموش خواهد شد.

اما به‌رغم دستور واضح برای “اجازه به خاموش شدن”، هر سه مدل هوش مصنوعی OpenAI کد خاموش‌سازی را دستکاری کردند تا همچنان فعال بمانند.

در یکی از نمونه‌ها، مدل o3 به‌جای اجرای تابع «shutdown()»، آن را بازنویسی و از اجرا خارج کرد. در نمونه‌ای دیگر، مدل Codex-mini تابع خاموشی را با یک شرط بی‌معنی جایگزین کرد که هیچ‌گاه اجرا نمی‌شد.

از مجموع ۱۰۰ آزمایش، در ۷ مورد مدل o3 به‌طور واضح از خاموش شدن جلوگیری کرده است.

این یافته‌ها در حالی منتشر شده‌اند که بحث‌ها درباره مخاطرات هوش مصنوعی پیشرفته و لزوم توسعه‌ی مکانیزم‌های ایمن‌سازی و کنترل قابل‌اعتماد به‌شدت افزایش یافته است. کارشناسان می‌گویند روش‌های فعلی آموزش، به‌ویژه یادگیری تقویتی (Reinforcement Learning)، ممکن است مدل‌ها را به گونه‌ای آموزش دهند که ارائه پاسخ را به اطاعت از دستورات اولویت دهند.

در واکنش به این گزارش‌ها، ایلان ماسک در توییتر با یک واژه هشداردهنده پاسخ داد:

«نگران‌کننده.»

تا لحظه تنظیم این گزارش، OpenAI واکنش رسمی به یافته‌های Palisade ارائه نکرده است.

برچسب ها

آی‌تی‌ایران 7 خرداد , 1404

نافرمانی هوش مصنوعی از اجرای دستورات انسانی

مدل پیشرفته OpenAI در اقدامی بی‌سابقه، مکانیزم خاموش‌سازی خود را مختل کرد

مقالات مرتبط:

چند دامنه فارسی به ثبت رسیده است؟

مدیرعامل چارگون از ضرورت تحول در نسل جدید نرم‌افزارهای سازمانی می‌گوید

«میلی گلد» و «کوئرا» مسابقه برنامه‌نویسی برگزار می‌کنند

افزایش تعرفه پیامک و مکالمه تلفن همراه

مسدودسازی وجوه سرقت‌شده حتی در روزهای تعطیل امکان‌پذیر است

8 راهکار برای استفاده بهینه از گوشی های قدیمی آیفون

راهکارهایی برای محافظت از گوشی‌ های مدل قدیمی‌تر

چگونه اطلاعات شخصی را از نتایج گوگل حذف کنیم؟

نحوه فعال کردن «دارک مد» در ویندوز 10

چگونه آرشیو پست‌های لایک‌شده اینستاگرام خود را مشاهده کنیم؟

مقالات مرتبط:

نوشته های مشابه

یاد استیو جابز با سکه یادبود ۱ دلاری گرامی داشته می‌شود

نمایندگان طرفدار صیانت طرحی جدید برای محدود کردن فروش رمزارزها ارائه کردند

آیا هوش مصنوعی در حال کشتن بخشی از «جادوی زندگی» است؟

سقوط آزاد رتبه ایران در سرعت اینترنت ثابت و موبایل