چرا از پتابایت میترسیم؟
نام نویسنده: کالو لیتارو
یکی از چیزهای که همواره درباره علم اطلاعات خارج از محدوده سیلیکون ولی به ذهنم خطور میکند، ترس مردم از مجموعه دادههای عظیم است. در حقیقت، روزی نیست که نشنوم افراد درگیر با دادهها علیالخصوص افراد فعال در دانشگاه که به مراکز HPC و اعداد محاسباتی قابل توجه دسترسی دارند، درباره صدها ترابایت اطلاعات شکایت نکنند و از این حجم چند ترابایتی به ترس و لرز نیافتند. آنها همواره اظهار دارند که تحلیل و دسترسی به این دادهها از توانایی آنها خارج است. چطور ممکن است وقتی مهندسین گوگل5 سال پیش توانستند 5 پتابایت داده را دستهبندی کنند و سه سال پیش فیسبوک به مرز 4 پتابایت دیتای جدید در روز رسید و شرکتها آرشیوهای صد پتابایتی را در پلتفورم BigQuery گوگل نگهداری میکنند، هنوز بعضی از دانشمندان درباره آنالیز چند ترابایت داده به عنوان پشت سر گذاشتن مرزهای غیرممکن علم سخن میگویند؟!
به عنوان کسی که نزدیک به یک دهه در دنیای ابرکامپیوترها فعالیت داشته و فعالیت خود را از دبیرستان به عنوان کارآموز آغاز کرده و سپس به عنوان کارمند وابسته به مرکز کامپیوترها شروع به فعالیت کرده است، همواره شاهد تمایل دنیای آکادمیک به قدرت پردازش بیشتر بودهام. میدانیم که در ایالات متحده ابرکامپیوترهای دانشگاهی برای اجرای شبیهسازیهای علمی طراحی شده بودند. زمانی که گوگل در حال دسته بندی اطلاعات با حجم پتابایت بود، ما در حال تلاش برای ذخیرهسازی چند ترابایت داده در کامپیوترهای دانشگاهی بودیم و گاهی اوقات میدیدیم که سرعت هارد چیزی کمتر از 5 مگابایت برثانیه بود چون سیستم طوری طراحی شده بود که اجازه انتقال همزمان فایلهای سنگین به روی هارد دیسک را نمیداد.
امروز و پس از گذشت 18 سال، هنوز فضای ذخیرهسازی و سرعت ورود و خروج دادهها بزرگترین محدودیتها در دنیای آکادمیک به شمار میآید. ده سال پیش زمانی که همکاری نزدیک خود را با سسیلیکونولی آغاز کردم برایم بسیار شگفت انگیز بود که برای اولین بار در دوران کاری حرفهای میدیدم که مفهوم دادههای پتابایتی و تحلیل آنها از طریق دهها هزار پردازشگر به سادگی تعریف و انجام میشود و اصلا یک رویای دور دست در آیندههای دور به شمار نمیآمد.
حال یک سؤال بسیار جالب در این میان مطرح میشود، چرا در دنیای امروز که در حال غرق شدن در حجم عظیم دیتاها است، تحلیل دادههای پتابایتی تا این حد کمیاب و محدود است؟ احتمالا بزرگترین دلیل آن هزینه این کار است. سفارش یک هارد 8 ترابایتی 125 دلاری از وبسایت آمازون به شما فضایی در حدود یک هارد دیسک پتابایتی را میدهد، اما برای محافظت از اطلاعاتتان از طریق RAID5 با RAID6، نیازمند فضای بیشتری خواهید بود. در ضمن امکان اتصال هارد اکسترنال 125 دلاری به یک دستگاه کامپیوتر خانگی برای ساخت یک پارتیشن 1 پتابایتی تقریبا غیرممکن خواهد بود و حتی اگر راهی برای انجام این کار پیدا کنید، استفاده و اجرای آن بدون وجود دستگاههای مختلف برای انتقال اطلاعات غیرممکن است. حتی اگر این کار را هم انجام بدهید، اگر هر کدام از درایوها نیز به خوبی وظیقه خود را اجرا کنند و شما کامپیوترهای کافی برای اشباع کامل درایوها خریداری کنید و حتی اگر دستگاه قابلیت خواندن اطلاعات با سرعت پایدار 180 مگابایت بر ثانیه را داشته باشد، احتمالا برای اسکن کامل تمامی اطلاعات به یک نصفه روز زمان نیاز خواهید داشت و با وجود این حجم از دیتای خوانده شده، بعید به نظر میرسد که قدرت CPU کافی برای انجام تغییرات بر روی اطلاعات را داشته باشید.
به نظر در آینده نزدیک و حتی امروزه در دورانی که هاردهای اکسترنال 10 ترابایتی مورد استفاده قرار میگیرند، تولید محصولی با ظرفیت 1 پتابایت که دوام و سرعت بالایی داشته باشد، در حال حاضر تقریبا غیرممکن است و هزینه نگهداری و تعمیر و سیستم خنک کننده مورد نیاز برای چنین سیستمی، حاکی ازآن است که چنین سیستمی فعلا چیزی نیست که بتوان از آن در گوشهی اتاق خواب به عنوان وسیله سرگرمی استفاده کرد!
سطحی از “صرفهجویی به مقیاس” غیر قابل تصوری که شرکتهایی مانند گوگل، آمازون و دیگر شرکتهای ارائه دهنده سرویس کلود به آن دست پیدا کردهاند به آنها این اجازه را داده که دستگاههای ذخیره سازی با مقیاس پتابایت را تولید کنند. سرویس Coldline شرکت گوگل که با قیمت ماهانه 7 هزار دلار برای هر پتابایت قابل استفاده است، به کاربران امکان دسترسی سریع به اطلاعات و دانلود امن اطلاعات در هر نقطهای از جهان را میدهد. علاوه بر آن، این هزینه تنها صرف سختافزار نگهدارنده این حجم از اطلاعات نیست، بلکه برای برق، سیستم خنک کننده و بهترین مهندسین و متصدیان دنیا که وظیفه سالم نگه داشتن کل مجموعه را بر عهده دارند، صرف خواهد شد. همچنین، به خاظر داشته باشید که گوگل و شرکتهای ارائه دهنده سرویسهای کلود با گرفتن کپیهای متعدد از اطلاعات شما، به این درجات امنیت، پایداری و سودمندی میرسند. یعنی در ظاهر شما برای نگهداری 1 پتابایت اطلاعات ماهانه 7 هزار دلار پرداخت میکنید اما در پشت پرده در حقیقت شما در حال استفاده از چند پتابایت حجم فیزیکی واقعی جهت به دست آوردن دوام و امنیت مورد نیاز برای اطلاعاتتان هستید. کاربران حتی قادرند اطلاعاتشان را از طریق مجموعهای از موتورهای محاسبهگر مورد آنالیز قرار دهند.
در پایان برای مشتریانی که نیازی به دسترسی مسقیم به اطلاعاتشان ندارند، سرویس Glacier شرکت آمازون، سرویسی ارزان قیمت با دوام و افزونگی فوقالعاده را با قیمت 4 هزار دلار ماهانه ارائه میدهد.
نگهداری یک پتابایت دیتا در سرویس کلود کاری بدیهی است اما آنالیز آن چطور؟ کافی است وارد دنیای نوظهور پلتفورم تحلیلی برپایه کلود و مقیاس پتابایت BigQuery ارائه شده توسط گوگل شوید. BigQuery مجموعه تجزیه تحلیلهای عظیم در زیرساختهای سرویس کلود جهانی شرکت گوگل را تسریع میبخشد و به کاربران اجازه میدهد با بهره گیری از هزاران یا حتی دهها هزار پردازشگر به اطلاعاتشان دسترسی سریع داشته باشند. هزینه ذخیره سازی اطلاعات در BigQuery در دورههای بلند مدت چیزی معدل 10هزار دلار به ازای هر یک پتابایت در ماه خواهد بود. برخی از مشتریان تجاری گوگل بیش از یکصد پتابایت دیتا را در این سرویس ذخیره سازی کردهاند و هر روز به مقدار آن میافزایند.
در حال حاضر، سرویسهایی مانند BigQuery در زمینه پیشرفت و گسترش سرویس کلود به منظور نگهداری از این حجم از اطلاعات، میدرخشند. در مورد BigQuery، باید گفت که یک خط دستوری SQL میتواند در کسر 3.7 دقیقه حجمی بالغ بر یک پتابایت را اسکن کند. بنابراین آنالیز آرشیو 15 پتابایتی کل اینترنت میتواند در کمتر از 56 دقیقه انجام بگیرد. مهمتر از همه، از انجایی که BigQuery یک مجموعه تخصصی با قدرت تحلیل در ثانیه است، آنالیز پتابایتی دادهها نیازمند خرید سختافزارهای دائمی یا استفاده از مجموعه سیستمهای تحلیلی کلود نخواهد بود و کاربران با آسانی و با اجاره مقدار نیروی کامپیوتری مورد نیاز و چندهزار پردازشگر کافی برای پردازش دادهها برای چند دقیقه، میتوانند یک پتابایت از اطلاعات را در زمان 3.7 دقیقه مورد تحلیل و بررسی قرار دهند.
با نگاهی کلی به تمام این قضایا، میبینیم که سیلیکون ولی نه تنها دستگاههای با طرفیت پتابایت تولید کرده، بلکه با توسعه فراتر از تصور دیتا سنترها، امکان آنالیز دیتاهای عظیم با مقیاس پتابایتی را نیز به حقیقت تبدیل کرده است. با نگاهی به آینده خواهیم دید دانشمندانی که آنالیزهای خود را به دادههای کوچک محدود میکنند، خود را بسیار عقبتر از دنیایی میبینند که در آن تجزیه و تحلیل حجم پتابایتی دادهها در چند دقیقه انجام میشود. به زودی، از طریق سرویس قدرتمند کلود، به عنوان متخصصین دیتا دیگر ترسی از دیتاهای پتابایتی نخواهیم داشت.
*هر 1024 مگابایت یک گیگابایت است و هر 1024 گیگابایت یک ترابایت است و هر 1024 ترابایت یک پتابایت است.
منبع : آیتیایران