önce M. AKÇA tarafından yazılmıştır. Veri Madenciliği (Data Mining) Aşamaları Nelerdir?

Veri Madenciliği (Data Mining) Aşamaları Nelerdir?

Data Mining, özellikle iş dünyasındaki  büyük verileri keşfetmek için dizayn edilmiş; değişkenler arasındaki ilişkileri ortaya çıkaran, desenleri ortaya çıkararak yeni ve anlamlı bilgiler oluşturan yöntemler sürecidir.

En önemli amacı prediction/tahminlemedir. Aynı zamanda da tahminleme en yaygın data mining çeşididir ve iş dünyasındaki herhangi bir alanda bu çeşidin genellikle bir karşılığı bulunur.

Söz konusu Data Mining prosesi üç ana adımdan oluşmaktadır:
1- İlk Keşfetme
2- Model oluşturma ve Doğrulama
3- Geliştirme

Adım 1-İlk Keşfetme:

Keşfetme

 

Genellikle veriyi hazırlama safhasıyla başlar. Veriyi temizleme, veriyi dönüştürme, kayıtlardan alt küme seçme, büyük verileri ve alanları seçme işlemidir. Bu aşamada Feature Selection denilen, modele katlısı olmayacak, modeli gereksiz yere yorabilecek ve modelin yönetimini zorlaştırabilecek alanların tespiti ve eleminasyonu sağlanabilir. Tabi modelin yönetimi derken, modelin ne olduğuna daha önceden karar vermiş olamamız gerekmektedir.

Analitik problemin doğasına bağlı olarak, Regreson Analizi gibi basit işlemlerle, veriyi keşfetmek için Veri Keşfetme (Exploratory Data Analysis (EDA)) yöntemleri kullanılır. Veri keşfetme işlemi sırasında veri karmaşıklığı konusu ve verilerin birbirleri ile ilgili değişkenleri belirlenir.

 

Adım 2-Model Oluşturma ve Doğrulama:

model building

Bu aşama çeşitli metotlar üzerinde düşünme ve durumumuza en uygun olanını seçme aşamasıdır. Sadece tek bir operasyon gibi görünmesine rağmen ayrıntılı prosesler içerebilir.  Bu amacı gerçekleştirmek için çeşitli teknikler geliştirilmiştir. Bu metodların bir çoğu aynı data seti ile farklı modeller deneyen ve en iyisini seçmek için performanslarını kaşılaştırmaya yarayan “Competitive Evaluation of Models,” denilen bir tekniğe dayanır.  Bu teknikler Predictive Data Mining in çekirdeğine ek olarak Bagging (Voting, Averaging), Boosting, Stacking (Stacked Generalizations), ve Meta-Learning yöntemlerini de içerir.

 

Adım 3-Geliştirme:

deployment_1

 

Son aşama bir önceki aşamada seçilen en iyi modelin; umulan çıktıları elde etmek için,  yeni verilerle çıkarım ve tahmin yapılması aşamasıdır.