داده‌کاوی در خدمت کشف دانش

ما با الهام‌گیری حداقلی از این جمله چنین می‌نویسیم «اگر موضوعی به درستی تحلیل آماری شود، دیگر نیازی به تفسیر ندارد و نمودارها و جداول همه‌چیز را خواهند گفت.» یک مشخصه بنیادین دنیای ما کمیتی به‌نام «داده (Data)» است که واحد اندازه‌گیری آن در حساب متداول بیت است. منظور از حساب متداول تمام محاسباتی هستند که توسط پردازنده‌ای مبتنی بر منطق دوجمله‌ای صورت می‌پذیرند. هشت بیت در کنار هم یک بایت را به وجود می‌آورند. در علم اطلاعات یک اگزابایت داده یعنی ۱۰۱۸ بایت داده که تقسیم ریزتر آن به این شرح است که هر اگزا شامل هزار پتا و هر پتا شامل هزار ترا که هر ترا شامل هزار گیگا و هر گیگا شامل هزار مگا است. در سال ۲۰۱۷ روزانه ۵/ ۲ اگزابایت داده در اینترنت تولید شده است.

برای نشان دادن این حجم داده خوب است به کتابخانه کنگره آمریکا فکر کنید. این کتابخانه که در شهر واشنگتن دی.سی قرار دارد دارای ظرفیت محتوایی برابر ۱۰ ترابایت داده مکتوب است (در حال‌حاضر ۳۰ میلیون کتاب در ۴۷۰ زبان مختلف) حال اگر بخواهیم ۵/ ۲ اگزابایت داده تولید شده در روز (آن هم سال ۲۰۱۷) را در این کنگره جاسازی کنیم باید ۲۵۰هزار ساختمان مشابه با آن را بسازیم تا فقط داده تولید شده در روز را در آنها قرار دهیم. چنین روندی منجر به شکل‌گیری مفهومی به‌نام «کلان داده (Big Data)» شده، مفهومی که امروزه به وفور در جنبه‌های مختلفی از زندگی بشر استفاده می‌شود. بهره‌گیری از کلان داده قطعا مستلزم توان محاسباتی بسیاری است که تمایل به کسب چنین توانی را به خوبی می‌توان در افزایش هرساله سرعت (نرخ زمانی) CPU مشاهده کرد به گونه‌ای که از سال ۱۹۸۰ تاکنون سرعت پردازش داده تقریبا هر سال ۲۰‌درصد افزایش داشته است.

به‌عنوان نمونه در سال ۱۹۹۲، متوسط سرعت پردازشگر کامپیوتر برابر با ۰۵/ ۰گیگاهرتز بوده و این در حالی است که در سال ۲۰۰۵، این عدد چیزی حدود ۶/ ۳ گیگاهرتز شده و در سال ۲۰۱۷ به ۱۶ گیگاهرتز هم رسیده است. متخصصان حوزه محاسبات بر این نکته اتفاق‌نظر دارند که کلید تبدیل کلان داده به دانش در حوزه‌ای به نام داده کاوی (Data Mining) نهفته است. این حوزه از سه قسمت اساسی مهندسی داده و ذخیره‌سازی (Data Engineering and Storage)، تحلیل‌داده (Data analysis) و یادگیری ماشین (Machine learning) تشکیل شده است. موضوع داده کاوی به‌قدری رواج یافته که بسیاری آن را معادل فرآیند کشف دانش (Knowledge Discovery Process) در نظر می‌گیرند حال آنکه در واقعیت این‌گونه نیست و داده کاوی (DM) فقط قسمتی از فرآیند کشف دانش (KDP) است. فرآیند کشف دانش (KDP) شامل گام‌های زیر است:

  • استخراج داده (Data Extraction): در این مرحله داده‌ها در سطحی عظیم و از منابعی متنوع استخراج می‌شوند.
  • گزینش داده (Data Selection): داده‌های مربوط به مساله مورد نظر انتخاب می‌شوند.
  • پیش پردازش داده(Data Pre-processing): در این گام داده‌ها پیش‌پردازش می‌شوند یعنی داده‌های مبهم، ناقص، پرت و ناسازگار حذف می‌شوند.
  • تبدیل داده (Data Transformation): در این گام، داده‌ها ترکیب و به شکلی تبدیل می‌شوند که بتوان روی آنها تحلیل عمیق‌تری انجام داد. به‌عنوان نمونه یک پایگاه داده‌ای وجود دارد که تعدادی از متغیرهای (فیلد) آن دارای همبستگی معنادار هستند که می‌توان این متغیرها را به یک متغیر مرکب (Composite) تبدیل و داده‌ها را فشرده‌سازی (Compression) کرد.
  • داده‌کاوی (Data mining): در این مرحله الگوریتم‌های داده‌کاوی برای استخراج الگو از دل داده‌ها به‌کار گرفته می‌شوند.
  • ارزیابی الگو (Pattern Evaluation): در این مرحله با استفاده از روش‌های خاص الگوی داده (ساختار آماری) آن بررسی می‌شود.
  • ارائه دانش (Knowledge presentation): در این مرحله با بهره‌گیری از روش‌های بصری‌سازی (Data visualization) داده، دانش استخراج‌شده به متقاضیان ارائه می‌شود.