حمله چینی‌ها به مدل‌های هوش مصنوعی آمریکایی: استخراج اطلاعات با حمله دیستیلیشن

سه آزمایشگاه هوش مصنوعی—DeepSeek، Moonshot و MiniMax—با استفاده از حدود ۲۴ هزار حساب جعلی بیش از ۱۶ میلیون تعامل با مدل Claude انجام داده‌اند. هدف آن‌ها استخراج توانایی‌های پیشرفته این مدل و آموزش مدل‌های خود بود. این اقدام نقض شرایط استفاده و محدودیت‌های منطقه‌ای به شمار می‌رود.

روش مورد استفاده این آزمایشگاه‌ها «دیستیلیشن» نام دارد؛ تکنیکی که طی آن مدل‌های ضعیف‌تر با استفاده از خروجی‌های مدل‌های قدرتمندتر آموزش می‌بینند. در حالت قانونی، دیستیلیشن برای ساخت نسخه‌های کوچک‌تر و ارزان‌تر مدل‌ها به کار می‌رود، اما این سه آزمایشگاه از آن برای استخراج غیرقانونی قابلیت‌ها استفاده کردند.

کارزار DeepSeek بیش از ۱۵۰ هزار تعامل ایجاد کرد و روی استدلال در وظایف مختلف، ارزیابی مبتنی بر روبریک و تولید نسخه‌های ایمن از پرسش‌های حساس سیاسی متمرکز بود. الگوهای مشابه، روش‌های پرداخت مشترک و زمان‌بندی هماهنگ نشان می‌دهد که حساب‌ها به‌صورت همزمان و هماهنگ عمل کرده‌اند.

مقالات مرتبط:

مدل Moonshot بیش از ۳.۴ میلیون تعامل داشت و قابلیت‌هایی مانند استدلال عامل‌محور، استفاده از ابزار، کدنویسی و توسعه عامل‌های رایانه‌ای و بینایی ماشین را هدف گرفته بود. این کارزار از صدها حساب جعلی با مسیرهای دسترسی مختلف بهره برد و در مرحله‌ای بعد، تلاش کرد ردپاهای استدلالی Claude را استخراج و بازسازی کند.

هوش مصنوعی MiniMax با بیش از ۱۳ میلیون تعامل، کدنویسی عامل‌محور و استفاده از ابزار و ارکستراسیون را هدف گرفت. این کارزار زمانی شناسایی شد که هنوز مدل در حال آموزش بود و MiniMax ظرف ۲۴ ساعت پس از انتشار نسخه جدید Claude، بخش قابل توجهی از ترافیک خود را برای استخراج قابلیت‌های جدید هدایت کرد.

برای دسترسی به Claude در مناطقی که دسترسی محدود است، این آزمایشگاه‌ها از سرویس‌های پراکسی تجاری استفاده کردند که شبکه‌ای از حساب‌های جعلی را ایجاد می‌کند و ترافیک را همزمان در API و پلتفرم‌های ابری توزیع می‌کند. این شبکه‌ها به‌گونه‌ای عمل می‌کنند که با مسدود شدن یک حساب، حساب جدید جایگزین می‌شود و ترافیک دیستیلیشن با درخواست‌های عادی مشتریان ترکیب می‌شود تا شناسایی دشوار شود.

پس از تأمین دسترسی، آزمایشگاه‌ها حجم زیادی از پرامپت‌های طراحی‌شده تولید کردند تا قابلیت‌های مشخصی از مدل استخراج شود. هدف آن‌ها یا جمع‌آوری پاسخ‌های باکیفیت برای آموزش مستقیم مدل بود یا تولید ده‌ها هزار وظیفه برای یادگیری تقویتی. الگوی این درخواست‌ها—تکرار فراوان، تمرکز روی یک قابلیت محدود و ساختارهای مشابه—نمونه‌های بارز حمله دیستیلیشن است.

آنتروپیک اقدامات متعددی برای مقابله با این حملات انجام داده است، شامل شناسایی الگوهای دیستیلیشن در ترافیک، اشتراک اطلاعات فنی با دیگر آزمایشگاه‌ها و ارائه‌دهندگان ابری، تقویت احراز هویت حساب‌های آموزشی و ایجاد حفاظ‌های جدید در سطح مدل و API.

آی‌تی‌ایران 5 اسفند , 1404

حمله چینی‌ها به مدل‌های هوش مصنوعی آمریکایی: استخراج اطلاعات با حمله دیستیلیشن

مقالات مرتبط:

بازگشایی قطره چکانی اینترنت؛ گیت‌هاب و گوگل مپ در دسترس قرار گرفتند

۵۰ روز خاموشی اینترنت ایران؛ اقتصاد دیجیتال در آستانه ورشکستگی

تایید ارسال لیست برای اتصال اینترنت طبقاتی کسب‌وکارها

گروهی از پادکست‌های محبوب ایرانی در فیدیبو در دسترس قرار گرفت

فعالیت مجدد برخی دیتاسنترهای خارجی پس از ۴۵ روز قطعی

چگونه آیفون را حتی در حالت خاموش ردیابی کنیم؟

چگونه لوکیشن خود را در واتس‌اپ، تلگرام و دیگر اپ ها برای دیگران بفرستیم؟

چگونه از جیمیل بک آپ بگیریم؟

چگونه بفهمیم که فردی به آیفون، آیپد و یا اکانت اپل ما دسترسی دارد؟

چگونه از طریق سامانه انتشار اطلاعات سوال بپرسیم؟

مقالات مرتبط:

نوشته های مشابه

هیچ منطقی در قطع اینترنت وجود ندارد

چراغ سبز مجلس به اینترنت پرو برای کسب‌وکارها

قطع اینترنت بلای جان مردم و کسب‌وکارها شده

اینترنت طبقاتی برای اساتید دانشگاه در راه است