حمله چینی‌ها به مدل‌های هوش مصنوعی آمریکایی: استخراج اطلاعات با حمله دیستیلیشن

سه آزمایشگاه هوش مصنوعی—DeepSeek، Moonshot و MiniMax—با استفاده از حدود ۲۴ هزار حساب جعلی بیش از ۱۶ میلیون تعامل با مدل Claude انجام داده‌اند. هدف آن‌ها استخراج توانایی‌های پیشرفته این مدل و آموزش مدل‌های خود بود. این اقدام نقض شرایط استفاده و محدودیت‌های منطقه‌ای به شمار می‌رود.

روش مورد استفاده این آزمایشگاه‌ها «دیستیلیشن» نام دارد؛ تکنیکی که طی آن مدل‌های ضعیف‌تر با استفاده از خروجی‌های مدل‌های قدرتمندتر آموزش می‌بینند. در حالت قانونی، دیستیلیشن برای ساخت نسخه‌های کوچک‌تر و ارزان‌تر مدل‌ها به کار می‌رود، اما این سه آزمایشگاه از آن برای استخراج غیرقانونی قابلیت‌ها استفاده کردند.

کارزار DeepSeek بیش از ۱۵۰ هزار تعامل ایجاد کرد و روی استدلال در وظایف مختلف، ارزیابی مبتنی بر روبریک و تولید نسخه‌های ایمن از پرسش‌های حساس سیاسی متمرکز بود. الگوهای مشابه، روش‌های پرداخت مشترک و زمان‌بندی هماهنگ نشان می‌دهد که حساب‌ها به‌صورت همزمان و هماهنگ عمل کرده‌اند.

مقالات مرتبط:

مدل Moonshot بیش از ۳.۴ میلیون تعامل داشت و قابلیت‌هایی مانند استدلال عامل‌محور، استفاده از ابزار، کدنویسی و توسعه عامل‌های رایانه‌ای و بینایی ماشین را هدف گرفته بود. این کارزار از صدها حساب جعلی با مسیرهای دسترسی مختلف بهره برد و در مرحله‌ای بعد، تلاش کرد ردپاهای استدلالی Claude را استخراج و بازسازی کند.

هوش مصنوعی MiniMax با بیش از ۱۳ میلیون تعامل، کدنویسی عامل‌محور و استفاده از ابزار و ارکستراسیون را هدف گرفت. این کارزار زمانی شناسایی شد که هنوز مدل در حال آموزش بود و MiniMax ظرف ۲۴ ساعت پس از انتشار نسخه جدید Claude، بخش قابل توجهی از ترافیک خود را برای استخراج قابلیت‌های جدید هدایت کرد.

برای دسترسی به Claude در مناطقی که دسترسی محدود است، این آزمایشگاه‌ها از سرویس‌های پراکسی تجاری استفاده کردند که شبکه‌ای از حساب‌های جعلی را ایجاد می‌کند و ترافیک را همزمان در API و پلتفرم‌های ابری توزیع می‌کند. این شبکه‌ها به‌گونه‌ای عمل می‌کنند که با مسدود شدن یک حساب، حساب جدید جایگزین می‌شود و ترافیک دیستیلیشن با درخواست‌های عادی مشتریان ترکیب می‌شود تا شناسایی دشوار شود.

پس از تأمین دسترسی، آزمایشگاه‌ها حجم زیادی از پرامپت‌های طراحی‌شده تولید کردند تا قابلیت‌های مشخصی از مدل استخراج شود. هدف آن‌ها یا جمع‌آوری پاسخ‌های باکیفیت برای آموزش مستقیم مدل بود یا تولید ده‌ها هزار وظیفه برای یادگیری تقویتی. الگوی این درخواست‌ها—تکرار فراوان، تمرکز روی یک قابلیت محدود و ساختارهای مشابه—نمونه‌های بارز حمله دیستیلیشن است.

آنتروپیک اقدامات متعددی برای مقابله با این حملات انجام داده است، شامل شناسایی الگوهای دیستیلیشن در ترافیک، اشتراک اطلاعات فنی با دیگر آزمایشگاه‌ها و ارائه‌دهندگان ابری، تقویت احراز هویت حساب‌های آموزشی و ایجاد حفاظ‌های جدید در سطح مدل و API.

آی‌تی‌ایران 2 دقیقه پیش

حمله چینی‌ها به مدل‌های هوش مصنوعی آمریکایی: استخراج اطلاعات با حمله دیستیلیشن

مقالات مرتبط:

افزایش ۱۸ درصدی قیمت بسته‌های اینترنت

نخستین جلسه از دادگاه رسیدگی به پرونده کوروش کمپانی برگزار شد

۲ همت تسهیلات، قطع اینترنت را جبران می‌کند؟

امید صنعت گردشگری به نوروز / سقوط تقاضا و افت اشتغال در دی‌ماه

طرح جدید مجلس: برای تولید محتوا در یوتیوب و اینستاگرام باید از صدا و سیما مجوز بگیرید

موارد لازم آموزش تولید محتوا در سال ۱۴۰۱ که نمیدانید!

آموزش استفاده از ChatGPT با اپل اینتلیجنس در آیفون

۱۱ میانبر کاربردی در کیبورد ویندوز

چگونه گوشی سرقتی را از اپراتور رایتل ردگیری کنیم

حل مشکل پخش صدا در استوری های اینستاگرام

مقالات مرتبط:

نوشته های مشابه

افزایش ۱۸ درصدی قیمت بسته‌های اینترنت

واتساپ در آستانه اضافه‌کردن قابلیت زمان‌بندی پیام‌ها

اولتیماتوم ترامپ به نتفلیکس برای اخراج یک عضو هیئت‌مدیره

چرا بسیاری از سازمان‌ها هنوز از اتوماسیون اداری خود ناراضی‌اند؟