حمله چینیها به مدلهای هوش مصنوعی آمریکایی: استخراج اطلاعات با حمله دیستیلیشن

سه آزمایشگاه هوش مصنوعی—DeepSeek، Moonshot و MiniMax—با استفاده از حدود ۲۴ هزار حساب جعلی بیش از ۱۶ میلیون تعامل با مدل Claude انجام دادهاند. هدف آنها استخراج تواناییهای پیشرفته این مدل و آموزش مدلهای خود بود. این اقدام نقض شرایط استفاده و محدودیتهای منطقهای به شمار میرود.
روش مورد استفاده این آزمایشگاهها «دیستیلیشن» نام دارد؛ تکنیکی که طی آن مدلهای ضعیفتر با استفاده از خروجیهای مدلهای قدرتمندتر آموزش میبینند. در حالت قانونی، دیستیلیشن برای ساخت نسخههای کوچکتر و ارزانتر مدلها به کار میرود، اما این سه آزمایشگاه از آن برای استخراج غیرقانونی قابلیتها استفاده کردند.
کارزار DeepSeek بیش از ۱۵۰ هزار تعامل ایجاد کرد و روی استدلال در وظایف مختلف، ارزیابی مبتنی بر روبریک و تولید نسخههای ایمن از پرسشهای حساس سیاسی متمرکز بود. الگوهای مشابه، روشهای پرداخت مشترک و زمانبندی هماهنگ نشان میدهد که حسابها بهصورت همزمان و هماهنگ عمل کردهاند.
مدل Moonshot بیش از ۳.۴ میلیون تعامل داشت و قابلیتهایی مانند استدلال عاملمحور، استفاده از ابزار، کدنویسی و توسعه عاملهای رایانهای و بینایی ماشین را هدف گرفته بود. این کارزار از صدها حساب جعلی با مسیرهای دسترسی مختلف بهره برد و در مرحلهای بعد، تلاش کرد ردپاهای استدلالی Claude را استخراج و بازسازی کند.
هوش مصنوعی MiniMax با بیش از ۱۳ میلیون تعامل، کدنویسی عاملمحور و استفاده از ابزار و ارکستراسیون را هدف گرفت. این کارزار زمانی شناسایی شد که هنوز مدل در حال آموزش بود و MiniMax ظرف ۲۴ ساعت پس از انتشار نسخه جدید Claude، بخش قابل توجهی از ترافیک خود را برای استخراج قابلیتهای جدید هدایت کرد.
برای دسترسی به Claude در مناطقی که دسترسی محدود است، این آزمایشگاهها از سرویسهای پراکسی تجاری استفاده کردند که شبکهای از حسابهای جعلی را ایجاد میکند و ترافیک را همزمان در API و پلتفرمهای ابری توزیع میکند. این شبکهها بهگونهای عمل میکنند که با مسدود شدن یک حساب، حساب جدید جایگزین میشود و ترافیک دیستیلیشن با درخواستهای عادی مشتریان ترکیب میشود تا شناسایی دشوار شود.
پس از تأمین دسترسی، آزمایشگاهها حجم زیادی از پرامپتهای طراحیشده تولید کردند تا قابلیتهای مشخصی از مدل استخراج شود. هدف آنها یا جمعآوری پاسخهای باکیفیت برای آموزش مستقیم مدل بود یا تولید دهها هزار وظیفه برای یادگیری تقویتی. الگوی این درخواستها—تکرار فراوان، تمرکز روی یک قابلیت محدود و ساختارهای مشابه—نمونههای بارز حمله دیستیلیشن است.
آنتروپیک اقدامات متعددی برای مقابله با این حملات انجام داده است، شامل شناسایی الگوهای دیستیلیشن در ترافیک، اشتراک اطلاعات فنی با دیگر آزمایشگاهها و ارائهدهندگان ابری، تقویت احراز هویت حسابهای آموزشی و ایجاد حفاظهای جدید در سطح مدل و API.



