نوشته : کالو لیتارو مترجم :‌ امیر نیری منبع :‌ آی‌تی‌ایران نسخه چاپی

گوگل 15 پتابایت داده را در 56 دقیقه آنالیز می‌کند

یکی از چیزهای که همواره درباره علم اطلاعات خارج از محدوده سیلیکون ولی به ذهنم خطور می‌کند، ترس مردم از مجموعه داده‌های عظیم است. در حقیقت، روزی نیست که نشنوم افراد درگیر با داده‌ها علی‌الخصوص افراد فعال در دانشگاه که به مراکز HPC و اعداد محاسباتی قابل توجه دسترسی دارند، درباره صدها ترابایت اطلاعات شکایت نکنند و از این حجم چند ترابایتی به ترس و لرز نیافتند. آنها همواره اظهار دارند که تحلیل و دسترسی به این داده‌ها از توانایی آنها خارج است. چطور ممکن است وقتی مهندسین گوگل5  سال پیش توانستند 5 پتابایت داده را دسته‌بندی کنند و سه سال پیش فیسبوک به مرز 4 پتابایت دیتای جدید در روز رسید و شرکت‌ها آرشیوهای صد پتابایتی را در پلتفورم BigQuery گوگل نگهداری می‌کنند، هنوز بعضی از دانشمندان درباره آنالیز چند ترابایت داده به عنوان پشت سر گذاشتن مرز‌های غیرممکن علم سخن می‌گویند؟!

به عنوان کسی که نزدیک به یک دهه در دنیای ابرکامپیوترها فعالیت داشته و فعالیت خود را از دبیرستان به عنوان کارآموز آغاز کرده و سپس به عنوان کارمند وابسته به مرکز کامپیوترها شروع به فعالیت کرده است، همواره شاهد تمایل دنیای آکادمیک به قدرت پردازش بیشتر بوده‌ام. می‌دانیم که در ایالات متحده ابرکامپیوترهای دانشگاهی برای اجرای شبیه‌سازی‌های علمی طراحی شده بودند. زمانی که گوگل در حال دسته بندی اطلاعات با حجم پتابایت بود، ما در حال تلاش برای ذخیره‌سازی چند ترابایت داده در کامپیوترهای دانشگاهی بودیم و گاهی اوقات می‌دیدیم که سرعت هارد چیزی کمتر از 5 مگابایت برثانیه بود چون سیستم طوری طراحی شده بود که اجازه انتقال همزمان فایل‌های سنگین به روی هارد دیسک را نمی‌داد.

امروز و پس از گذشت 18 سال، هنوز فضای ذخیره‌سازی و سرعت ورود و خروج داده‌ها بزرگترین محدودیت‌ها در دنیای آکادمیک به شمار می‌آید. ده سال پیش زمانی که همکاری نزدیک خود را با سسیلیکون‌ولی آغاز کردم برایم بسیار شگفت انگیز بود که برای اولین بار در دوران کاری حرفه‌ای می‌دیدم که مفهوم داده‌های پتابایتی و تحلیل آنها از طریق ده‌ها هزار پردازشگر به سادگی تعریف و انجام می‌شود و اصلا یک رویای دور دست در آینده‌های دور به شمار نمی‌آمد.

حال یک سؤال بسیار جالب در این میان مطرح می‌شود، چرا در دنیای امروز که در حال غرق شدن در حجم عظیم دیتاها است، تحلیل داده‌های پتابایتی تا این حد کمیاب و محدود است؟ احتمالا بزرگترین دلیل آن هزینه این کار است. سفارش یک هارد 8 ترابایتی 125 دلاری از وبسایت آمازون به شما فضایی در حدود یک هارد دیسک پتابایتی را می‌دهد، اما برای محافظت از اطلاعاتتان از طریق RAID5 با RAID6، نیازمند فضای بیشتری خواهید بود. در ضمن امکان اتصال هارد اکسترنال 125 دلاری به یک دستگاه کامپیوتر خانگی برای ساخت یک پارتیشن 1 پتابایتی تقریبا غیرممکن خواهد بود و حتی اگر راهی برای انجام این کار پیدا کنید، استفاده و اجرای آن بدون وجود دستگاه‌های مختلف برای انتقال اطلاعات غیرممکن است. حتی اگر این کار را هم انجام بدهید، اگر هر کدام از درایوها نیز به خوبی وظیقه خود را اجرا کنند و شما کامپیوترهای کافی برای اشباع کامل درایوها خریداری کنید و حتی اگر دستگاه قابلیت خواندن اطلاعات با سرعت پایدار 180 مگابایت بر ثانیه را داشته باشد، احتمالا برای اسکن کامل تمامی اطلاعات به یک نصفه روز زمان نیاز خواهید داشت و با وجود این حجم از دیتای خوانده شده، بعید به نظر می‌رسد که قدرت CPU کافی برای انجام تغییرات بر روی اطلاعات را داشته باشید.

به نظر در آینده نزدیک و حتی امروزه در دورانی که هاردهای اکسترنال 10 ترابایتی مورد استفاده قرار می‌گیرند، تولید محصولی با ظرفیت 1 پتابایت که دوام و سرعت بالایی داشته باشد، در حال حاضر تقریبا غیرممکن است و هزینه نگهداری و تعمیر و سیستم خنک کننده مورد نیاز برای چنین سیستمی، حاکی ازآن است که چنین سیستمی فعلا چیزی نیست که بتوان از آن در گوشه‌ی اتاق خواب به عنوان وسیله سرگرمی استفاده کرد!

سطحی از "صرفه‌جویی به مقیاس" غیر قابل تصوری که شرکت‌هایی مانند گوگل، آمازون و دیگر شرکت‌های ارائه دهنده سرویس کلود به آن دست پیدا کرده‌اند به آنها این اجازه را داده که دستگاه‌های ذخیره سازی با مقیاس پتابایت را تولید کنند. سرویس Coldline شرکت گوگل که با قیمت ماهانه 7 هزار دلار برای هر پتابایت قابل استفاده است، به کاربران امکان دسترسی سریع به اطلاعات و دانلود امن اطلاعات در هر نقطه‌ای از جهان را می‌دهد. علاوه بر آن، این هزینه تنها صرف سخت‌افزار نگه‌دارنده این حجم از اطلاعات نیست، بلکه برای برق، سیستم خنک کننده و بهترین مهندسین و متصدیان دنیا که وظیفه سالم نگه داشتن کل مجموعه را بر عهده دارند، صرف خواهد شد. همچنین، به خاظر داشته باشید که گوگل و شرکت‌های ارائه دهنده سرویس‌های کلود با گرفتن کپی‌های متعدد از اطلاعات شما، به این درجات امنیت، پایداری و سودمندی می‌رسند. یعنی در ظاهر شما برای نگهداری 1 پتابایت اطلاعات ماهانه 7 هزار دلار پرداخت می‌کنید اما در پشت پرده در حقیقت شما در حال استفاده از چند پتابایت حجم فیزیکی واقعی جهت به دست آوردن دوام و امنیت مورد نیاز برای اطلاعاتتان هستید. کاربران حتی قادرند اطلاعاتشان را از طریق مجموعه‌ای از موتورهای محاسبه‌گر مورد آنالیز قرار دهند.

در پایان برای مشتریانی که نیازی به دسترسی مسقیم به اطلاعاتشان ندارند، سرویس Glacier شرکت آمازون، سرویسی ارزان قیمت با دوام و افزونگی فوق‌العاده را با قیمت 4 هزار دلار ماهانه ارائه می‌دهد.

نگهداری یک پتابایت دیتا در سرویس کلود کاری بدیهی است اما آنالیز آن چطور؟ کافی است وارد دنیای نوظهور پلتفورم تحلیلی برپایه کلود و مقیاس پتابایت BigQuery ارائه شده توسط گوگل شوید. BigQuery مجموعه تجزیه تحلیل‌های عظیم در زیرساخت‌های سرویس کلود جهانی شرکت گوگل را تسریع می‌بخشد و به کاربران اجازه می‌دهد با بهره گیری از هزاران یا حتی ده‌ها هزار پردازشگر به اطلاعاتشان دسترسی سریع داشته باشند. هزینه ذخیره سازی اطلاعات در BigQuery در دوره‌های بلند مدت چیزی معدل 10هزار دلار به ازای هر یک پتابایت در ماه خواهد بود. برخی از مشتریان تجاری گوگل بیش از یکصد پتابایت دیتا را در این سرویس ذخیره سازی کرده‌اند و هر روز به مقدار آن می‌افزایند.

در حال حاضر، سرویس‌هایی مانند BigQuery در زمینه پیشرفت و گسترش سرویس کلود به منظور نگهداری از این حجم از اطلاعات، می‌درخشند. در مورد BigQuery، باید گفت که یک خط دستوری SQL می‌تواند در کسر 3.7 دقیقه حجمی بالغ بر یک پتابایت را اسکن کند. بنابراین آنالیز آرشیو 15 پتابایتی کل اینترنت می‌تواند در کمتر از 56 دقیقه انجام بگیرد. مهمتر از همه، از انجایی که BigQuery یک مجموعه تخصصی با قدرت تحلیل در ثانیه است، آنالیز پتابایتی داده‌ها نیازمند خرید سخت‌افزارهای دائمی یا استفاده از مجموعه سیستم‌های تحلیلی کلود نخواهد بود و کاربران با آسانی و با اجاره مقدار نیروی کامپیوتری مورد نیاز و چندهزار پردازشگر کافی برای پردازش داده‌ها برای چند دقیقه، می‌توانند یک پتابایت از اطلاعات را در زمان 3.7 دقیقه مورد تحلیل و بررسی قرار دهند.

با نگاهی کلی به تمام این قضایا، می‌بینیم که سیلیکون ولی نه تنها دستگاه‌های با طرفیت پتابایت تولید کرده، بلکه با توسعه فراتر از تصور دیتا سنترها، امکان آنالیز دیتاهای عظیم با مقیاس پتابایتی را نیز به حقیقت تبدیل کرده است. با نگاهی به آینده خواهیم دید دانشمندانی که آنالیزهای خود را به داده‌های کوچک محدود می‌کنند، خود را بسیار عقب‌تر از دنیایی می‌بینند که در آن تجزیه و تحلیل حجم پتابایتی داده‌ها در چند دقیقه انجام می‌شود. به زودی، از طریق سرویس قدرتمند کلود، به عنوان متخصصین دیتا دیگر ترسی از دیتاهای پتابایتی نخواهیم داشت.

*هر 1024 مگابایت یک گیگابایت است و هر 1024 گیگابایت یک ترابایت است و هر 1024 ترابایت یک پتابایت است.

http://itiran.com/node/73467


موارد موضوعی مرتبط