هوش مصنوعی

حمله چینی‌ها به مدل‌های هوش مصنوعی آمریکایی: استخراج اطلاعات با حمله دیستیلیشن

سه آزمایشگاه هوش مصنوعی—DeepSeek، Moonshot و MiniMax—با استفاده از حدود ۲۴ هزار حساب جعلی بیش از ۱۶ میلیون تعامل با مدل Claude انجام داده‌اند. هدف آن‌ها استخراج توانایی‌های پیشرفته این مدل و آموزش مدل‌های خود بود. این اقدام نقض شرایط استفاده و محدودیت‌های منطقه‌ای به شمار می‌رود.

روش مورد استفاده این آزمایشگاه‌ها «دیستیلیشن» نام دارد؛ تکنیکی که طی آن مدل‌های ضعیف‌تر با استفاده از خروجی‌های مدل‌های قدرتمندتر آموزش می‌بینند. در حالت قانونی، دیستیلیشن برای ساخت نسخه‌های کوچک‌تر و ارزان‌تر مدل‌ها به کار می‌رود، اما این سه آزمایشگاه از آن برای استخراج غیرقانونی قابلیت‌ها استفاده کردند.

کارزار DeepSeek بیش از ۱۵۰ هزار تعامل ایجاد کرد و روی استدلال در وظایف مختلف، ارزیابی مبتنی بر روبریک و تولید نسخه‌های ایمن از پرسش‌های حساس سیاسی متمرکز بود. الگوهای مشابه، روش‌های پرداخت مشترک و زمان‌بندی هماهنگ نشان می‌دهد که حساب‌ها به‌صورت همزمان و هماهنگ عمل کرده‌اند.

مدل Moonshot بیش از ۳.۴ میلیون تعامل داشت و قابلیت‌هایی مانند استدلال عامل‌محور، استفاده از ابزار، کدنویسی و توسعه عامل‌های رایانه‌ای و بینایی ماشین را هدف گرفته بود. این کارزار از صدها حساب جعلی با مسیرهای دسترسی مختلف بهره برد و در مرحله‌ای بعد، تلاش کرد ردپاهای استدلالی Claude را استخراج و بازسازی کند.

هوش مصنوعی MiniMax با بیش از ۱۳ میلیون تعامل، کدنویسی عامل‌محور و استفاده از ابزار و ارکستراسیون را هدف گرفت. این کارزار زمانی شناسایی شد که هنوز مدل در حال آموزش بود و MiniMax ظرف ۲۴ ساعت پس از انتشار نسخه جدید Claude، بخش قابل توجهی از ترافیک خود را برای استخراج قابلیت‌های جدید هدایت کرد.

برای دسترسی به Claude در مناطقی که دسترسی محدود است، این آزمایشگاه‌ها از سرویس‌های پراکسی تجاری استفاده کردند که شبکه‌ای از حساب‌های جعلی را ایجاد می‌کند و ترافیک را همزمان در API و پلتفرم‌های ابری توزیع می‌کند. این شبکه‌ها به‌گونه‌ای عمل می‌کنند که با مسدود شدن یک حساب، حساب جدید جایگزین می‌شود و ترافیک دیستیلیشن با درخواست‌های عادی مشتریان ترکیب می‌شود تا شناسایی دشوار شود.

پس از تأمین دسترسی، آزمایشگاه‌ها حجم زیادی از پرامپت‌های طراحی‌شده تولید کردند تا قابلیت‌های مشخصی از مدل استخراج شود. هدف آن‌ها یا جمع‌آوری پاسخ‌های باکیفیت برای آموزش مستقیم مدل بود یا تولید ده‌ها هزار وظیفه برای یادگیری تقویتی. الگوی این درخواست‌ها—تکرار فراوان، تمرکز روی یک قابلیت محدود و ساختارهای مشابه—نمونه‌های بارز حمله دیستیلیشن است.

آنتروپیک اقدامات متعددی برای مقابله با این حملات انجام داده است، شامل شناسایی الگوهای دیستیلیشن در ترافیک، اشتراک اطلاعات فنی با دیگر آزمایشگاه‌ها و ارائه‌دهندگان ابری، تقویت احراز هویت حساب‌های آموزشی و ایجاد حفاظ‌های جدید در سطح مدل و API.

نوشته های مشابه

دکمه بازگشت به بالا