تکنولوژی

گزارش اولیه از حمله هکرها به دیتاسنتر ابر آروان و روند بازگردانی سرویس‌ها

ابر آروان گزارش اولیه خود را از حمله هکرها به دیتاسنتر IR-THR-AT1 منتشر کرد. این حملات از هفته پایانی اسفند به زیرساخت‌های رایانش ابری آروان آغاز شد و همچنان تیم آروان در حال تلاش برای بازگرداندن وضعیت دیتاسنترها به حالت عادی است. به گفته ابر آروان احتمال دارد پروسه ریکاوری دیتاسنتر تا پایان هفته ابتدایی فروردین ادامه پیدا کند.

آروان همچنین اعلام کرده که این حملات در فعالیت سایر محصولات آروان شامل DNS، CDN، ویدیو پلتفرم، فضای ذخیره‌سازی ابری، هم‌چنین رایانش ابری در سایر دیتاسنتر‌های ابر آروان اختلالی ایجاد نکرده و در حدود ۱۶٪ از مشتریان آروان را متاثر کرده است. ابر آروان همچنین ادعا کرده که هیچ گونه نشت اطلاعاتی در این حملات صورت نگرفته است.

در ادامه این مطلب می‌توانید گزارش اولیه ابر آروان از این حملات را بخوانید.

متاسفانه در روزهای پایانی اسفند ۱۳۹۹ زیرساخت رایانش ابری آروان در دیتاسنتر IR-THR-AT1 با حملات سایبری مواجه شد که هدف از آن‌ها تخریب و حذف اطلاعات مشتریان بود.

لازم به توضیح است، این حملات در فعالیت سایر محصولات آروان شامل DNS، CDN، ویدیو پلتفرم، فضای ذخیره‌سازی ابری، هم‌چنین رایانش ابری در سایر دیتاسنتر‌های ابر آروان اختلالی ایجاد نکرده و در حدود ۱۶٪ از مشتریان آروان را متاثر کرده است.

نشانه‌هایی از این حملات در روزهای یک‌شنبه و دوشنبه ۲۴ و ۲۵ اسفند دیده و منجر به بروز اختلالات محدودی شد اما با آغاز حملات گسترده و متفاوت جدید در شامگاه سه‌شنبه و آسیب‌رسانی به دیتای مشتریان در این دیتاسنتر، مجبور به قطع تمام دسترسی‌ها، به‌منظور جلوگیری از پیش‌روی آسیب‌رسانی شدیم.

از تمام کسب‌وکارهای آسیب‌دیده در این مشکل، عذرخواهی می‌کنیم. آگاهیم که قطعی و اختلال سرویس در پیک ترافیکی شب عید، چه پی‌آمدهایی برای آن‌ها به همراه داشته است و عمیقن بابت این اتفاق متاسفیم.

در فرآیند این بحران تلاش کردیم روند بروز مشکل و فرآیند حل مساله را از راه‌های ایمیل، پیامک، سایت و بلاگ، هم‌چنین شبکه‌های اجتماعی ابر آروان به آگاهی کاربران برسانیم.

ابر آروان به‌علت این‌که هم‌چنان در حال کالبدشکافی (Forensics) ابعاد نفود است، امکان به اشتراک‌گذاری اطلاعات فنی نوع حمله را ندارد. گزارش فنی نوع حمله پس از پایان فرآیند کالبدشکافی با جزییات کامل منتشر خواهد شد.

 

یک‌شنبه ۲۴ اسفند – آغاز ماجرا

ساعت ۱۱:۳۳ یک‌شنبه شب، یک incident روی دو سوییچ در یک  VPCدر دیتاسنتر IR-THR-AT1 ابر آروان مشاهده شد، برآورد اولیه تیم فنی اشکال سخت‌افزاری بود که با بازیابی سوییچ‌ها مشکل برطرف شد.

 

دوشنبه ۲۵ اسفند – شناسایی امکان حمله‌ی سایبری

در ساعت ۴ صبح دوشنبه، دوباره اختلال روی سوییچ‌های IR-THR-AT1 اتفاق افتاد. به‌دلیل تکرار الگو، احتمال حمله‌ی سایبری داده شد.

از این زمان تا ساعت ۷ صبح روز بعد، تیم‌های ابر آروان روی موضوع کار کردند و در چند ساعت اول موفق شدند سیستم را به حالت طبیعی برگردانند.

سپس برای جلوگیری از حمله‌ی احتمالی، تغییراتی در شبکه‌ی مدیریتی دیتاسنترهای  IR-THR-AT1 و IR-THR-MN1 و NL-AMS-SR1 انجام شد، اما کارشناسانی که به دیتاسنتر IR-THR-AT1 اعزام شده بودند به‌دلیل خستگی، در اعمال تغییرات در شبکه‌ی این دیتاسنتر دچار اشتباه شدند و فقط بخشی از تغییرات را اعمال کردند.

 

سه‌شنبه ۲۶ اسفند – حمله‌ی گسترده و آسیب‌رسانی به دیتای مشتریان

در حالی‌که تیم‌های امنیتی به هر دو دیتاسنتر برای بررسی دقیق اعزام شده بودند در ساعت ۵:۳۰ عصر به‌شکل ناگهانی از طریق همان بخشی از شبکه‌ی مدیریتی که هم‌چنان فعال بوده، دیتاسنتر IR-THR-AT1 مورد حمله قرار می‌گیرد.

این حملات ساعت ۸ شب با حجم بسیار بالایی ادامه پیدا می‌کند و تعدادی از سرورهای  ذخیره‌سازی و پردازشی با هدف حذف کامل اطلاعات مورد حمله قرار می‌گیرند. با آغاز آسیب‌رسانی به دیتای مشتریان، تمام دسترسی‌ها به این دیتاسنتر قطع شد تا از توسعه‌ی آسیب‌رسانی جلوگیری شود؛ بلافاصله اینترنت و شبکه‌ی مدیریتی، هر دو به‌شکل کامل قطع و علاوه‌بر کارشناسان امنیتی، کارشناسان و اعضای تیم فنی به محل دیتاسنتر اعزام می‌شوند تا بدون نیاز به دسترسی از راه دور -که ریسک گسترش یا تکرار حمله را افزایش می‌داد- به بررسی موضوع بپردازند.

در این حملات، هکر هیچ‌گونه دسترسی به دیتای مشتریان ابر آروان پیدا نکرد و با توجه به نوع ذخیره‌سازی اطلاعات در آن لایه، تنها  موفق به آسیب زدن به اطلاعات و پاک کردن بخشی از دیتا شده بود.

ابر آروان برای حفظ پایداری، از هر داده (آبجکت) سه نسخه‌ی مختلف در سه دیسک متفاوت در داخل سه سرور مختلف نگهداری می‌کند، تا اگر یک یا چند دیسک یا حتا یک یا چند سرور از دسترس خارج شوند، به داده‌ها آسیبی وارد نشود. اما در حمله‌ی اتفاق افتاده، به‌شکل هم‌زمان تعداد بالایی سرور مورد آسیب قرار گرفتند، این موضوع سبب شد، علاوه‌بر حذف حدود ۱۰۰ ترابایت از یک پتابایت اطلاعات این دیتاسنتر، برخی اطلاعات، هر ۳ نسخه‌ی خود را از دست بدهند.

در تحلیل اولیه مشخص شد که از مجموع بیش از ۹۷درصد اطلاعات، حداقل یک نسخه از اطلاعات وجود دارد. اما به‌دلیل توزیع‌شدگی سه‌درصد اطلاعات حذف شده در تمام کلاستر، زیرساخت ذخیره‌سازی در ریسک از دست رفتن کل اطلاعات قرار گرفت.

 

ادامه‌ی سه‌شنبه شب – تشکیل کمیته‌ی بحران

بلافاصله با تشکیل تیم بحران درصدد حل مشکل و هم‌زمان اطلاع‌رسانی به کاربران برآمدیم.

در کنار تیم‌های پشتیبانی، مشتریان و اطلاع‌رسانی، در این مرحله، چهار تیم فنی شکل گرفت:

  • تیم یک: مسوول مراقبت از دیتاسنتر IR-THR-MN1 برای پیش‌گیری از اتفاق مشابه
  • تیم دو: کار متمرکز روی استورج دیتاسنتر IR-THR-AT1 برای برگرداندن ۱۰۰ ترابایت اطلاعات و پایدارسازی کلاستر ذخیره‌سازی
  • تیم سه: کار متمرکز روی کل زیرساخت رایانش ابری در IR-THR-AT1 تا به‌محض رفع اشکال فضای ذخیره‌سازی، سرویس دوباره به مدار برگردد.
  • تیم چهار: مسوول کالبدشکافی (Forensics) و ایمن‌سازی (Hardening)

با پیش‌بینی آسیب به دیتای کاربران و زمان‌بر بودن بازگشت سرویس، از کاربران خواسته شد برنامه Disaster Recovery خود را فعال کنند تا اگر از داده‌های خود نسخه‌ی پشتیبان تهیه کرده‌اند،  با استفاده از آن در سایر دیتاسنترهای آروان یا دیگر فراهم‌کنندگان زیرساخت‌، سرویس خود را مجدد راه‌اندازی کنند.

به‌رغم تاکید به «پشتیبان‌گیری اطلاعات حیاتی از سوی مشتری» در متن «شروط فنی استفاده از خدمات زیرساخت رایانش ابری آروان»، بسیاری از کاربران با آروان تماس گرفته و اعلام کردند که نسخه‌ی پشتیبانی در دست ندارند.

 

چهارشنبه ۲۷ اسفند – بازگشت اطلاعات

پس از حدود ۳۰ ساعت کار پر استرس، با فیکس‌کردن و یکپارچه‌سازی داده در سطح کلاستر، امکان دسترسی به اطلاعات در ساعت ۱۰:۳۰ صبح چهارشنبه فراهم شد. در این زمان حدود ۹۷.۳درصد از اطلاعات برگردانده شده بود.

از این نقطه، کار سخت‌تر تیم آغاز شد، چون آسیب و اختلال آن سه‌درصد اطلاعات می‌توانست سبب از بین رفتن کل کلاستر و بازیابی ناموفق شود.

از این زمان، تیم بر اصلاح یکپارچگی داده متمرکز شد تا کلاستر بالا بیاید.

  • مشکل نخست: باید دقت شود که این سه‌درصد دیتای از دست رفته، مربوط به سه‌درصد از مشتریان نبود بلکه سه‌درصد از اطلاعات تمام مشتریان این دیتاسنتر است؛ پس احتمالن اکثریت مشتریان بخش ناچیزی از اطلاعات‌شان آسیب‌دیده بود. از طرفی گاهی این بخش ناچیز ممکن است با اثرگذاری بر پارتیشن بوت مانع بالا آمدن ابرک شود یا با ایجاد مشکل در پارتیشن سیستم، کار سیستم‌عامل را با اخلال مواجه کند یا با قرار گرفتن در دیتابیس کاربر، آن را از کارکرد عادی بازدارد.
  • مشکل دوم: به‌طور کلی قطع ناگهانی سیستم‌عامل‌ها از استورج سبب افزایش احتمال آسیب‌دیدگی می‌شود.

 

پنج‌شنبه ۲۸ اسفند – حل مشکلات در ریکاوری و بازکردن دسترسی مشتریان/ سطح آسیب به سرورهای ابری

تا ساعت ۴ صبح روز پنج‌شنبه دو مشکل گفته شده تقریبن حل شدند؛ کلاستر بالا آمد و تیم‌های دیگر هم کارشان تمام شده بود. از این ساعت، به‌مرور دسترسی مشتریان به سرورهای ابری باز شد.

متاسفانه با بازشدن دسترسی به پاپ‌سایت و بررسی دقیق‌تر وضعیت ابرک‌ها مشخص شد حذف کم‌تر از سه‌ درصد از اطلاعات کل دیتاسنتر، سبب تاثیرگذاری روی بخش گسترده‌ای از سرورهای ابری شده است.

میزان سکتورهای آسیب‌دیده در Block Storage متصل به ابرک، هم‌چنین نوع فایل‌سیستم‌، سیستم‌عامل و پایگاه‌ داده‌ها سبب می‌شد که سطح آسیب‌پذیری طیف گسترده‌ای داشته باشد.

در چنین موقعیت، هر کدام از سیستم‌عامل‌ها رفتار متفاوتی دارند، از بین سیستم‌عامل‌های ویندوز و نسخ مختلف لینوکس و فایل‌سیستم‌های‌شان، برخی ساده‌تر و برخی با سختی بیش‌تر ریکاوری می‌شوند. هم‌زمان با به‌کارگیری روش‌های بازیابی سیستم‌عامل‌ها، مقاله‌ی آموزشی آن‌ها نیز منتشر می‌شد.

در میان فایل‌سیستم‌های مشتریان ابر آروان، EXT4 سازگارتر و XFS و NTFS آسیب‌پذیرتر بودند.

در این لحظه امکان اعلام آمار دقیق از سطح آسیب به ابرک‌ها وجود ندارد، بخشی از ابرک‌ها بدون هیچ‌اقدامی امکان استفاده داشتند، بخش دیگری با Reboot و درنهایت ترمیم boot loader به مرحله‌ی استفاده می‌رسیدند و برخی نیاز به ترمیم فایل‌سیستم یا ریکاوری‌های پیشرفته‌تر دارند.

 

ادامه‌ی پنج‌شنبه – افزایش ۴ برابری ظرفیت تیم پشتیبانی به ۸۰ نفر

از ظهر روز چهارشنبه، تمام خطوط تلفنی ابر آروان و تمام ظرفیت تیم پشتیبانی برای پاسخ‌گویی به مشتریان به‌کار گرفته شده بودند. با بازگشایی دسترسی کاربران در صبح روز پنج‌شنبه، ظرفیت تیم پشتیبانی با حمایت تیم‌های فنی و تیم‌های کوچ ابری، چهار برابر شد.

مشتریان فعال ابر آروان در دیتاسنتر IR-THR-AT1 در حدود ۷۰۰۰سرور ابری داشتند که تعداد 1100 سرور ابری از سوی مشتریان برای بررسی به تیم‌های فنی ابر آروان ارجاع شدند. از این تعداد، تاکنون مشکل ۳۰ درصد حل شده و مابقی هم‌چنان در فرآیند حل مساله قرار دارند.

به‌رغم افزایش ظرفیت و پاسخ‌گویی ۲۴ ساعته، حجم بالای مشتریان نیازمند کمک سبب شد فرآیند پاسخ‌گویی و حل مساله‌ی آنان با کندی همراه باشد. در ادامه مشکلات پیش‌آمده در کلاستر در مقاطعی، فرآیند بازیابی را متوقف کرد.

 

ادامه‌ی پنج‌شنبه – پرداخت جبران خسارت (SLA) به تمام مشتریان زیان‌دیده با فرض حل مشکلات/ فراهم آوردن زیرساخت رایگان فضای ذخیره‌سازی ابری برای تسهیل فرآیند پشتیبان‌گیری کاربران

با تصور پایداری کلاستر ذخیره‌سازی در روز پنج‌شنبه، محاسبه‌ی مدت زمان دردسترس نبودن سرویس به نسبت هزینه‌ی ماهانه‌‌ی هر یک از مشتریان انجام، مبلغ آن محاسبه و بالاتر از سقف جبران خسارت تعهد شده، به کیف پول کاربران واریز شد.

به‌علاوه مبلغی که در روزهای قطعی از کیف پول کاربران کم شده بود، به حساب آنان برگردانده شد.

هم‌چنین فضای ذخیره‌سازی ابری تا پایان فروردین ۱۴۰۰ به‌شکل رایگان در اختیار تمام مشتریان دیتاسنتر IR-THR-AT1 ابر آروان قرار گرفت تا در فرآیند پشتیبان‌گیری با مشکل فضای ذخیره‌سازی مواجه نباشند.

نیاز به یادآوری است که قرارداد جبران خدمت متناظر برای جبران زیان زیرساختی است که سطح و میزان پوشش آن در شرایط استفاده و قراردادهای ابر آروان آمده است. اما ابر آروان براساس تجربه‌ی این اتفاق و عدم پشتیبان‌گیری دیتا از سوی تعداد بالایی از مشتریان، در تلاش است مجموعه اقدامات پیش‌گیرانه‌ای را به‌منظور سهولت تهیه‌ی نسخه پشتیبان‌، از سوی مشتریان در آینده فراهم کند.

متاسفانه روند روزهای آتی مشخص کرد که کلاستر ذخیره‌سازی با مشکلاتی همراه است.

برای آن دسته از مشتریانی که پس از بازگشت هزینه‌ی روزهای قطعی، هم‌چنان برای دسترسی به ابرک خود با اختلال روبه‌رو هستند، پس از پایان حل مشکل، محاسبه مجدد انجام و به حساب آنان واریز خواهد شد.

 

جمعه ۲۹ اسفند – حجم درخواست بسیار بالای کاربران هم‌زمان برای بازیابی اطلاعات و بروز مشکلات زیرساختی

روز جمعه، هم‌زمان حجم بالایی از کاربران برای درست کردن فایل‌سیستم یا پشتیبان‌گیری دیتا مشغول به کار شدند. به‌دلیل مشکلات پیش‌آمده و ریکاور کردن کلاستر ذخیره‌سازی در یک فشار زمانی کوتاه، کلاستر موفق به تهیه‌ی سه نسخه از تمام داده‌ها نشده بود، هم‌چنین برای ساخت ابرک‌های جدید برای انتقال اطلاعات روی آن نیاز به فضای بیش‌تر بود و در نتیجه باید ظرفیت کلاستری که به‌سختی آسیب‌دیده بود نیز افزایش پیدا می‌کرد. برای رفع این مشکل، به میزان ۴۰۰ ترابایت استورج به کلاستر اضافه شد.

تزریق منابع جدید، یعنی وزن‌دهی دوباره‌ی دیسک‌ها (Rebalance ) که سبب درگیری شدید زیرساخت و قفل شدن کلاستر می‌شود. به همین دلیل، در روز ۲۹ اسفند، وضعیت‌ بحرانی‌تر شد.

تیم فنی‌ آروان که در بخش طراحی و مدیریت کلاستر ذخیره‌سازی فعالیت‌می‌کنند، یک تیم باتجربه و متخصص است، اما وضعیت حساس مشتریان ما در موقعیتی بود که برای سرعت‌بخشی به فرآیندها از هر کمکی استفاده می‌کردیم؛ در این مقطع چند متخصص باتجربه‌ی ایرانی برای انتقال تجربه، در کنار تیم ابر آروان قرار گرفتند، اما همچنان بهبودی در وضعیت کلاستر ایجاد نشد.

 

شنبه ۳۰ اسفند و یک‌شنبه ۱ فروردین – کمک تیم‌های آلمانی و ترکی و تداوم وضعیت کلاستر

در روزهای شنبه و یک‌شنبه، تلاش برای بهبود زیرساخت به‌منظور انجام سریع‌تر ریکاوری در حال انجام بود، با توجه به این‌که پارامترهای مختلفی از جمله زیرساخت شبکه، پارامترهای سیستم‌عامل و کانفیگ زیرساخت ذخیره‌سازی به‌طور مشترک نیازمند تغییر و بهبودسازی بود، فرآیند بازیابی سرورهای ابری متوقف و تمام تمرکز روی بهبود زیرساخت گذاشته شد.

در این مرحله با توجه به حجم بسیار بالای ریکاوری و فشار روی کلاستر و عدم تاثیرگذاری کانفیگ‌های انجام شده از تیم‌های متخصص آلمانی و ترکی برای کمک استفاده شد که اقدامات آنان نیز تاثیر چشم‌گیری در بهبود وضعیت نداشت.

 

دوشنبه ۲ فروردین – تلاش برای رفع مشکل کلاستر از طریق رفع اشکال نرم‌افزاری و اقدامات اولیه برای راه‌اندازی کلاستر جدید

به‌طور خلاصه می‌توان گفت مشکل اصلی کلاستر ذخیره‌سازی تاثیر تسلسل دو مشکل ReMirroring-Storm  و یک Memory Leak در لایه‌‌ی نرم‌افزاری Ceph در شرایط خاص است، این مشکل هم‌افزا سبب به اغما رفتن کلاستر می‌شود.

پس از تلاش‌های ناموفق تیم ذخیره‌سازی آروان، هم‌چنین بی‌نتیجه ماندن نظرات مشاوران داخلی و خارجی، تیم System Development آروان در تلاش‌اند با Patch کردن این مشکل نرم‌افزاری و هم‌زمان افزایش منابع، مشکل را حل کنند.

با موفقیت آمیز بودن این فرآیند، آروان کد اصلاحی را به‌شکل متن‌باز منتشر خواهد کرد.

هم‌زمان که این فرآیندها برای ریکاوری در حال انجام است، یک تیم مستقل در حال برنامه‌ریزی برای راه‌اندازی کلاستر جدید و انتقال دیتاهای ممکن از کلاستر آسیب‌دیده به کلاستر جدید است. با توجه به حجم کار زیرساختی، این فرآیند احتمالن تا پایان هفته‌ی اول فروردین ادامه پیدا خواهد کرد.

 

اقدامات پیش‌رو

پس از حل مشکل کلاستر ذخیره‌سازی، به مشتریان درگیر اطلاع‌رسانی خواهد شد تا اقدامات مرتبط با پشتیبان‌گیری را انجام دهند.

ابر آروان مجموعه اقداماتی برای پیش‌گیری از بروز حوادث این‌چنینی، هم‌چنین موارد اصلاحی در دست کار دارد که پس از حل مشکل تمام مشتریان و رسیدن به وضعیت پایدار در گزارش تکمیلی آن‌ها را به آگاهی شما خواهد رساند.

بار دیگر ضمن پوزش عمیق از اتفاق پیش‌آمده و آسیبی که به مشتریان رایانش ابری آروان در دیتاسنتر IR-THR-AT1 رسیده است، از همراهی و صبوری آنان سپاس‌گزاریم.

 

 

نوشته های مشابه

یک دیدگاه

دیدگاهتان را بنویسید

دکمه بازگشت به بالا