داده كاوى ؛ تعميق نگاه به دنيا
نام نویسنده: حنيف رهبرى
شرق – حتماً تاكنون بارها عبارت «انقلاب ديجيتال» به گوشتان خورده است و احتمالاً درباره واژه هايى مانند انقلاب ديجيتال، انفجار اطلاعات، عصر رايانه، عصر اطلاعات و ارتباطات و واژه هاى مشابه، اطلاعاتى نيز داريد. اما چقدر به كاربرد عملى و ملموس اين عبارات و مخصوصاً فايده انقلاب ديجيتال در زندگى فكر كرده ايد؟
انسان متفكر، هر اندازه كه بيشتر عمر مى كند و با واقعيت هاى بيشترى روبه رو مى شود، اصطلاحاً موى سپيد مى كند و در عوض تجربه كسب مى كند، باتجربه تر مى شود و در شئون مختلف زندگى خبره تر. در اين ميان، انفجار اطلاعات و انقلاب ديجيتال كه در دوره هاى اخير زندگى بشرى رخ داده است، چه امتياز و برترى به بشر امروزى داده است كه انسان قديم از آن محروم بود؟ در كنار فناورى هاى تصويرى، دستگاه هاى بى سيم و ابزارهاى ارتباطى كه به مدد انقلاب ديجيتال و فناورى اطلاعات به وجود آمده اند، دانش بزرگترين هديه فناورى اطلاعات است. دانشى كه انسان امروزى را خِبره تر و باتجربه تر از انسان ديروز مى كند.
فناورى اطلاعات، به ابزارها، روش ها و فنونى اطلاق مى شود كه از اطلاعات براى فهم بهتر از جهان، كاهش هزينه و وقت مصرفى و افزايش بهره ورى و در نتيجه زندگى راحت تر استفاده مى كند. رخداد انقلاب ديجيتال باعث شد تا حجم بسيار بالاى اطلاعات ديجيتالى به وجود آيد و روزبه روز حجم اطلاعات و سرعت پردازش، نتقال و دسترسى به آنها افزايش يابد. داده كاوى، يكى از فناورى هايى است كه از در كنار هم قرار دادن اين اطلاعات ديجيتالى، توليد دانش مى كند. داده كاوى از ابزار محاسبه گر قدرتمندى به نام كامپيوتر استفاده مى كند تا به اين حجم بالاى اطلاعات ديجيتالى دسترسى داشته باشد و بتواند آنها را پردازش كند. سرعت بالاى كامپيوتر در دسترسى به اطلاعات و پردازش آنها در كنار حجم بالاى اطلاعات ديجيتالى، همان مزايايى هستند كه مختص بشر امروزى است. در نتيجه دانش به وجود آمده از اين اطلاعات، امتيازى است كه انسان قديم نداشت.
فرايندى كه تلاش مى كند اطلاعات را در كنار هم قرار دهد و ارزش افزده اى به وجود آورد، استخراج دانش از پايگاه داده يا Knowledge discovery in database ناميده مى شود. داده كاوى كه مهمترين قسمت اين فرايند است، از روش هاى خودكارى استفاده مى كند كه توسط الگوريتم هاى پيچيده، الگوهاى پنهان، وابستگى ها، وضعيت هاى نامطلوب و ساختار اطلاعات ذخيره شده را اعلام مى كند و اطلاعات مورد نياز را از بين مجموعه هاى داده انتخاب مى كند. داده كاوى از علومى مانند يادگيرى ماشين، هوش مصنوعى، آمار، شناسايى الگو، پايگاه داده، نظريه اطلاعات، سيستم هاى خِبره (باتجربه)، پردازش با كارايى بالا، مصورسازى و برنامه ريزى فرايندهاى تصادفى استفاده مى كند. در نتيجه اين فرايند، داده هاى كم ارزش به دانش پرارزش تبديل مى شوند.
دانشى كه داده كاوى در اختيار ما قرار مى دهد، يا توصيف وضعيت موجود است و يا پيش بينى وضعيت آينده. بدين ترتيب كه با در اختيار داشتن مقدارى داده نمونه، داده كاوى وابستگى داده ها به يكديگر، تقدم و تاخر رخدادها، شباهت هاى مختلف داده ها به يكديگر، نوع داده ها مطابق نظر كاربر و قوانين و الگوهاى حاكم بر اين داده ها را مشخص مى كند. اگر نمونه آمارى مناسب انتخاب شده باشد، نتايج را مى توان به كل داده ها تعميم داد و مهمتر آنكه مى توان از اين نتايج براى پيش بينى وقايع آينده استفاده كرد. اين همان تجربه اى است كه مشاهده جهان به كمك فناورى اطلاعات، در اختيار ما قرار مى دهد.
قبل از بيان چند مثال كاربردى، با برخى از مهمترين روش هاى داده كاوى آشنا شويم. دسته بندى، كه نوعى يادگيرى بدون نظارت است، يكى از اين روش هاست. در اين روش، داده ها براساس شباهت هايى كه با هم دارند، دسته بندى مى شوند و هيچ عامل بيرونى دسته بندى ها را تعيين نمى كند. به همين دليل به آن يادگيرى بدون نظارت نيز مى گويند. مانند دسته بندى خانه هاى روستايى براساس فاصله از يكديگر. يعنى خانه هايى كه به هم نزديكترند، در يك دسته قرار مى گيرند و عامل تعيين دسته ها، خود داده ها هستند و نه يك ناظر بيروني. روش ديگر، طبقه بندى، يا يادگيرى با نظات است. يعنى كلاس ها و طبقات از پيش تعيين شده اى وجود دارند كه داده ها به داخل اين طبقات نگاشت مى شوند.
سپس خصوصيات داده هاى هر طبقه را به دست آورده و از اين خصوصيات براى پيش بينى نوع و طبقه داده هاى بعدى استفاده مى كنند. قانون كاوى روش ديگرى است كه به يافتن قوانينى به شكل y >-x مى پردازد. مثل اينكه يك پزشك بر اثر تجربه متوجه شده باشد كه هرگاه بيمار خصوصيات بالينى به خصوصى داشته باشد، آزمايشات نيز نتيجه خاصى خواهند داشت. در نتيجه او مى تواند با شرح حال گرفتن، حتى الامكان در موارد مشابه از انجام آزمايش جلوگيرى كند.
به عنوان يك مثال، فرض كنيد كه يك كانديداى انتخابت رياست جمهورى تلاش مى كند تا نيازهاى مردم را شناسايى كند و براساس اين شناخت، برنامه هاى خود را تنظيم و ارائه كند. اطلاعات انتخابات هاى قبلى را در كنار نمونه هاى آمارى كه داراى پراكندگى مناسبى از لحاظ جغرافيايى، ميزان تحصيلات و وضعيت اقتصادى است به عنوان داده نمونه در نظر مى گيرد. ممكن است با كاويدن اين داده ها، متوجه شود كه در چند سال گذشته هرگاه فلان موضوع فرهنگى مطرح شده است، مردم تمايل بيشترى به خريد فلان كالاى فرهنگى داشته اند و يا مى تواند دريابد مردم مناطقى كه از لحاظ اقتصادى وضعيت مشابهى دارند، در چه تصميماتى مشابه عمل مى كنند و در چه مواقعى تصميم هاى متفاوت مى گيرند. و البته مى تواند نتايج بسيار ديگرى استخراج كند. نتايجى كه از در كنار هم قرار دادن داده ها و كاويدن آنها حاصل مى شود. يك سهامدار بورس را در نظر بگيريد كه مى خواهد وضعيت بورس را طى هفته هاى آتى پيش بينى كند. او داده هاى آمارى هفته هاى اخير را در كنار هم قرار مى دهد. ممكن است متوجه شود كه در ابتداى هر ماه، شاخص سهام كاهش پيدا مى كند، مصاحبه هاى وزير برخى شاخص ها را كه از فلان لحاظ با يكديگر مشابه هستند، تغيير مى دهد و در مقابل، شاخص برخى شركت ها نوسان بسيار كمى دارد. حال او مى تواند تا حدى وضعيت آينده بازار بورس را پيش بينى كند. اين نتيجه به كار بردن فناورى اطلعات و استخراج دانش از داده ها است.
•تصوير كاوى
حجم زيادى از داده ها، امروزه به شكل تصاوير ذخيره مى شوند. تصاوير ماهواره هاى نقشه بردارى و عكس هاى ديجيتالى نمونه هايى از اين نوع داده ها هستند. شناسايى شباهت ها، الگوها، وابستگى ها و توالى تصاوير، وظيفه تصويركاوى است. مقايسه عكس هاى ساختمان هاى يك شهر و يافتن الگوهاى مشترك در اين ساختمان ها، مى تواند در شناسايى الگوى معمارى آن شهر موثر باشد.
كاويدن تصاوير به دو صورت انجام مى شود. ۱- براساس مشخصات متنى مانند نام، حجم و نوع كه مشخصاتى متنى هستند. ۲- براساس محتواى درون عكس. اين خصوصيات محتوايى شامل رنگ، روشنايى و تيرگى رنگ، شدت و ضعف رنگ، بافت عكس، شكل هندسى عناصر تصوير، موقعيت مكانى عناصر تصوير و اندازه آنها و… شامل مى شود. يك مورد پركاربرد تصويركاوى، جست وجوى تصاوير نه براساس نام آنها، بلكه براساس محتواى آنها است.
در شكل، نمونه اى از جست وجوى تصاوير را مى بينيد. يك عكس به عنوان عكس مورد جست وجو به موتور جست وجوگر داده شده و عكس هاى مشابهى از لحاظ رنگ، شكل (همبندى) گل، جهت گيرى گل و موقعيت آن در صفحه، از داده هاى تصويرى استخراج شده است. براى پردازش تصوير، از مدلى براى نمايش آن استفاده مى كنند. مثلاً براى پردازش رنگ ها، از ماتريس هاى چندبعدى براى نشان دادن خصوصيات هر پيكسل استفاده مى كنند و براى پردازش شكل ها، تلاش مى كنند شكل هندسى عناصر را توسط گراف بيان كنند، آنگاه مى توانند با تكنيك هاى نظريه گراف ها، شباهت ها را تشخيص دهند.
• وب كاوى
اينترنت بزرگترين بانك اطلاعاتى موجود در دنيا است. اطلاعاتى كه تقريباً هر ۱۸ ماه دو برابر مى شوند و به طور دائم در حال تغييرند. موتورهاى جست وجو از مهمترين ابزارهاى كاوش در وب است. اما اين جست وجوگرها به بسيارى از منابع دسترسى ندارند و معمولاً اطلاعات نامناسبى به كاربران ارائه مى دهند. چرا كه متكى به كلمات كليدى هستند و به ندرت موتور جست وجويى پيدا مى شود كه براساس معانى كلمات جست وجو كند.
وب كاوى به تكنيك هاى خودكار بازيابى، استخراج و ارزيابى اطلاعات از پرونده ها و سرويس هاى تحت وب به منظور كشف دانش اشاره دارد. وب كاوى از سه ديدگاه وب را مورد كاوش قرار مى دهد:
۱- محتوا: كشف دانش از محتوا، فايل ها و پرونده هاى موجود در وب كه شامل صوت، تصوير، متن و ديگر انواع چندرسانه اى مى شود.
۲- ساختار: براى پى بردن به ارتباط بين لينك ها و پرونده هاى درونى در يك وب سايت. معمولاً يك گراف دو يا سه بعدى براى نمايش اين ساختار به كار مى رود. در نتيجه مى توان ميزان دسترسى به صفحات و لينك هاى مختلف يك سايت را به دست آورد و از اين نتايج براى مديريت بهتر سايت بهره برد.
۳- استفاده و كاربرد: داده هايى كه توسط تعامل كاربران با وب توليد شده است، مورد بررسى قرار مى گيرد. اين داده ها شامل شناسه كاربر، درخواست هاى كاربر، ورودها و خروج هاى يك سرور از سايت و… است. از نتايج اين كاوش مى توان براى بهبود ارتباط با كاربران، تجارت الكترونيكى و شناسايى مشتريان استفاده كرد. اينكه هر كسى معمولاً چه كلماتى را جست وجو مى كند و به چه اطلاعاتى بيشتر علاقه مند است، مى تواند در نمايش نتايج جست وجوهاى او موثر باشد.
***
امروزه داده كاوى به خاطر رشد فناورى اطلاعات و كامپيوتر و به اشتراك گذاشتن بسيارى از اطلاعات از يك سو و دنياى رقابتى و ياز به روش هاى تحليل پيشرفته از سوى ديگر، بسيار مورد توجه قرار گرفته است. يافتن الگوها در سايه داده كاوى مى تواند بسيارى از شئون زندگى ما را علمى تر و بهينه كند. همانند ورزشكار رزمى كارى كه با اعمال داده كاوى بر روى حركات رقيب خود، تكنيك هاى او و چگونگى اعمال تكنيك هايش را از روى فيلم مسابقات او استخراج مى كند و براساس اين الگو به طراحى روش هاى مبارزاتى مى پردازد.
با تكميل نقشه ژنوم انسان، كه داراى تعداد بسيار زيادى ژن است، مجموعه عظيمى از داده هاى زيستى انسان هاى زنده به وجود مى آيد. كاوش در اين داده ها مى تواند منجر به شناسايى بسيارى از حقايق و عوامل موثر در زست بشر، عوامل بسيارى از بيمارى ها و خصوصيات وراثتى شود. مى توان داده هاى زلزله هاى رخ داده را كاويد و نشانه هاى مشتركى كه قبل از وقوع زلزله ها نمايان مى شوند را يافت تا شايد بتوان زلزله ها را پيش بينى كرد. در عرصه تجارت و اقتصاد مى توان مناطق مناسب براى سرمايه گذارى را پيدا كرد، رابطه با مشتريان را مديريت كرد (CRM) و خدمات مناسب به مشتريان ارائه داد. در عرصه مديريت مى توان برنامه هاى راهبردى را براساس داده هاى قبلى تدوين كرد و در عرصه امنيتى نيز داده كاوى در شناسايى اثر انگشت و چهره به كار مى آيد.
انقلاب ديجيتال باعث مى شود كه دنياى واقعى را به شكل اطلاعات ديجيتالى بيان كنيم و آنگاه با داده كاوى، به اطلاعات جديد برسيم. در نتيجه مى توانيم بسيارى از شئون زندگى را تحت تاثير قرار دهيم. اين ابزارى است كه در اختيار انسان امروزى قرار گرفته است تا در خشت خام همان بيند كه گذشتگان در آينه مى ديدند.