تکنیکهای کاوش داده کاربردهای خاصی از الگوریتمها هستند و شش تکنیک معمول برای کاوش داده وجود دارد.
1- Association
آنالیز پیوندی که برای تشخیص رفتار یک رویداد و یا پروسه خاص بکار میرود. یک مثال میتواند تشخیص رفتار خریداران قهوه باشد که بر طبق آن افرادی که قهوه با مارکهای عالی میخرند احتمال اینکه سیگار عالی نیز بخرند سه برابر بیشتر از افرادیست که قهوه معمولی می خرند.
این آنالیز بر اساس قوانینی مانند زیر استوار است . اگر یک مشتری اسنک بخرد، 85% احتمال دارد که نوشابه بدون الکل بخرد. یا مثلا اگر یک مشتری برای تمام اعضای خانواده اش بلیط هواپیما برای تعطیلات بخرد، 95% احتمال دارد که آن فرد یک خودرو بزرگ در آنجا کرایه کند.
با کمک اسکنرها، سوپر مارکتها فرضیاتی را برای الگوی خرید ایجاد میکنند. بخاطر نوع فروش سوپر مارکتها این نوع آنالیز را آنالیز سبد خرید نیز می گویند.
2- Sequence
روش زنجیره ای مانند روش پیوندی است اما در اینجا زمان را نیز در نظر میگیرند. برای مثال این روش ممکن است پیشبینی کند فردی که ماشین لباسشویی می خرد 65% امکان دارد در مدت 6 ماه ماشین خشک کن نیز بخرد. بخاطر همین پیش بینی فروشنده برای افرادی که در 3 یا 4 ماه علاوه بر خرید ماشین لباسشویی خشک کن نیز بخرند 10% تخفیف در نظر میگیرد.
3- Classification
روش طبقه بندی مرسوم ترین روش کاوش داده است. این روش به رفتارها و ویژگیهای گروهایی که در حال حاضر ایجاد شده میپردازد. مثلا این گروهها میتواند شامل افرادی که به ندرت پرواز میکنند، افرادی که ولخرج هستند، مشتریهای دائم و افرادی که درد کمر دارند باشد. این روش میتواند با کمک یک سری قوانین طبقه بندیهای جدیدی از این گروها ایجاد کند. این قوانین بر روی تمام داده ها نیز اعمال میشود تا مجدد طبقه بندی شوند. مثال این روش میتوتند یافتن خصوصیات مشتریهایی که احتمال خرید یک محصول خاصی را دارند باشد. با یافتن این خصوصیات هزینه تبلیغات بصورت چشمگیری کاهش می یابد.
4- Cluster
روش خوشه ای میتواند برای یافتن گروهای مختلف در داده ها بکار رود. این روش شبیه روش طبقه بندی است با این تفاوت که هیچ گروهی قبلا تعریف و مشخص نشده است. این روش اغلب از شبکه های عصبی و یا روش آماری استفاده می کند. این روش اقلام را به گروهایی بر اساس شباهتهایی که ابزار کاوش داده می یابد گروه بندی می کند. اقلام جمع آوری شده در یک گروه باید خیلی شبیه به هم باشند اما خود گروهها باید کاملا فرق داشته باشند. این روش معمولا برای مشکلاتی مانند نقص در تولید و یا گروهایی که تمایل استفاده از کارت اعتباری دارند می باشد.
5- Regression
روش پس گرایی یک روش پیشبینی است که از داده های مطلق دانسته برای پیشبینی رویداد در آینده بر اساس آمار و رویه های قبلی استفاده میکند. برای مثال میزان فروش لوازم جانبی خودروهای اسپورت می تواند بر اساس میزان خودرو اسپورت فروخته شده پیشبینی شود.
6- Time series
روش سریهای زمانی یکی دیگر از روشهای پیشبینی است. تفاوت این روش با روش پس گرایی این است که در اینجا از داده های مطلق که به زمان بستگی دارند استفاده میشود. برای مثال میزان تصادفات در روزهای تعطیل بر اساس میزان تصادفات در همین زمان در سالهای پیش تخمین زده میشود.
عملیات کاوش داده
ابزارهای کاوش داده آمار شناسان را قادر می سازد تا مدلهایی تحلیلی بسازند که ابزارها در طول عملیات کاوش داده استفاده کنند. یک موتور پیشبینی یک لیست ورودی میخواهد و بعد با تعقیب مراحل و روابط در مدل تحلیلی به پیشبینی میپردازد. نتایج عملیاتهای کاوش داده بصورت جدول و فایل هستند که حاوی داده های تحلیلی هستند و میتوانند به ابزارهای تهیه گزارش منتقل شوند. چهار عملیات کاوش داده وجود دارد:
1- Predictive & Classification Modelling
این عملیات برای پیشبینی یک رویداد خاص بکار میرود. این روش فرض میکند که تحلیل گر سوالاتی برای پرسیدن دارد. این مدل، پاسخ سوالات را بوسیله رتبه بندی که در واقع احتمال وقوع کلاسهای مختلف را تعیین میکند استوار است. برای مثال اگر یک بانک بخواهد مشتریهایی که احتمال بستن حساب خود را دارند پیشبینی کند باید دو نوع داده به این مدل وارد کند. داده های مربوط به آن دسته از مشتریها که حسابهای خود را بسته اند و داده های مربوط به آن دسته که حسابهای خود را نگه داشته اند. این ابزار با یافتن متغیرها و تعیین کلاسها از مشخصات این دو دسته مشتریها میپردازد. جواب آنالیز این میتواند باشد:
مشتریهای زن بالای 40 سال که در آمد بیشتر از 150000$ در سال دارند و صاحب خانه نیز هستند، 35% احتمال دارد حساب خود را ببندند.
2- Link Analysis
این رو ش روابطی را بین داده های بانکهای داده پیدا میکند. برای مثال میتواند بگوید چه افلامی با هم به فروش میرسند. مانند شیر و گندم بو داده.
3- Database segmentation
این روش داده های مربوط به هم را در بخشهای مختلف گروهبندی میکند. این گروهبندی اغلب اولین قدم در پیدا کردن داده مناسب قبل از آغاز عملیات کاوش داده است. برای مثال این روش افرادی را که بندرت پرواز میکنند و افرادی را که دائما پرواز میکنند گروه بندی میکند.
4- Deviation Detection
این روش داده هایی را که از نرم خارج هستند پیدا و دلایل انحراف را پیشنهاد میکند. برای مثال افرادی که مشتری دائم بودند اما برای مدت طولانی دیگر خرید نمی کنند، یا از آن محل رفته اند و یا شرکت رقیبی محصولی مشابه با کیفیت بهتر و با قیمت ارزان تر ارائه داده است.
در آخر اینکه
اغلب سازمانها بر روی معادن طلا نشسته اند. این طلا داده های جمع شده از مشتریها و ارباب رجوعان و محصولات فروخته شده هستند. در این داده ها رفتار های خرید و نوع علایق مشتریها به کالا ها نهفته است. استفاده نکردن از این منابع ارزشمند اتلاف منابع است. اما باید این را هم در نظر داشت که این تکنولوژی جدید و خیره کننده فقط در زمانهایی بهتر است استفاده شود که تجارت به آن احتیاج مبرم دارد و به اصطلاح ارزش صرف زمان و هزینه را بابت این تکنولوژی و سیستمها دارد.