Geri Git   ForumSinsi - 2006 Yılından Beri > Eğitim - Öğretim - Dersler - Genel Bilgiler > Eğitim & Öğretim

Yeni Konu Gönder Yanıtla
 
Konu Araçları
döngüsü, madenciliği, projelerinin, veri, yaşam

Veri Madenciliği Projelerinin Yaşam Döngüsü - 2

Eski 12-20-2012   #1
Prof. Dr. Sinsi
Varsayılan

Veri Madenciliği Projelerinin Yaşam Döngüsü - 2



İlk 2 aşamamızı bir önceki makalemizde anlatmıştık ,şimdi kaldığımız yeren itibaren (3aşamadan itibaren) incelemeye devam ediyoruz

3)Model Oluşturma (Model Building):Veriler temizlendikten ve değişkenler yeniden düzenlendikten sonra sıra geldi Veri Madenciliği Modelimizi oluşturmayaVeri Madenciliği projemizde modelimizi oluştururken hedeflerimizin neler olduğunu ve hangi tip verilerle nasıl bir veri madenciliği görevini gerçekleştireceğimizi asla unutmamalıyızProjemizin;bir sınıflandırma(classification) mı ? Birliktelik(Association,Market Basket Analyse) mi ? yoksa bir segmentasyon projesi mi olacağı gerçeğinden yola çıkarak modelimizi oluşturmalıyızModel oluştururken iş analistlerimizle beraber ortak kararlar almak zorundayızÖrneğin telekom sektörü için bir proje gerçekleştiriyorsak;ilgili uzmanlık yetkinliklerine sahip ,bölüm yöneticilerini de proje ekibine dahil etmek akıllıca olacaktır

Model oluşturmak veri madenciliği için çok önemli bir aşamadırBu aşamada öncelikle hangi tip veriyle,hangi tip veri madenciliği görevini gerçekleneceği çok iyi anlaşılmalı ve buna uygun algoritmalar seçilmelidirBazı durumlarda,modelin eğitilmesi öncesinde,hangi algoritmanın elimizdeki data için uygun olduğu bilinmeyebilirBu gibi durumlarda attribute’ların ilişkileri incelenerek hangi alogitmanın kullanılacağına karar verilebilirÖrneğin input attributelar ve tahmin edilecek(class attribute) arasında liner bir ilişki mevcutsa karar ağaçları(Decision Tree,classification algorithm) kullanılması yerinde olacaktırBir başka örnek için attribute’lar arasında ilişki karmaşık ise yapay sinir ağı algoritmaları kullanılmalıdır

Modelimizin oluşturulmasında kullanacağınız algoritmanın projeniz için doğru algoritma olup olmadığını ;farklı algoritmaları “lift chart” gibi toollarda kullanarak görebilirsiniz(Bir sonra ki adımda lift chart’dan bahsedeceğim

4) Modelin Keşfi (Model Assessment) : Bir önceki adımımızda (Modelin Oluşturulması) farklı algoritmalara ve parametrelere göre modelimizi oluşturmaya çalıştıkPeki seçmiş olduğumuz algoritmanın bizim projemiz için en doğru algoritma olduğuna nasıl karar vereceğizİşte bu noktada karşılaştırma yapmak amacıyla bazı toollar karşımıza çıkıyor

Bu toollar arasında en sık kullanılan Lift Chart adlı tooldurLift Chart ile değerlerin tahmin edilmesi için model eğitilmekte ve dataset test edilmektedirLift Chart değerlerin tahmin edilmesi ve olasılıklarının hesaplanması esasına dayanarak,grafiksel olarak modeli bize göstermektedir



Modelin keşfi aşamasında sadece toolları kullanıp sonucun doğru olup olmadığını teknik insanların tek başlarına karar vermesi uygun değildirBu aşamada çıkan örnek sonuçlar projenin yapıldığı departmanın uzmanlarıyla tartışılıp,sonucun doğruluğuna karar verilmelidir

Bazı durumlarda model yararlı desenler (patterns) içermeyebilirBunun temelde 2 tane nedeni vardırBirincisi data ,tamamen rastgele seçilmiştir(Birçok durumda gerçek datasetler zengin bilgiler içerir)İkinci sebep ise kurulan modelde;değişkenlerin kullanım için en uygunlarından seçilmiş olmamasıdırBu durumla daha sık karşılaşılır,çözüm olarak data temizleme ve yeniden yapılandırma aşaması daha anlamlı değişkenler için tekrar edilir

Veri Madenciliği birçok aşamadan oluşan bir döngü şeklinde yapıya sahip olduğundan dolayı bazı aşamalara geri dönüşler yapılabilir

5) Raporlama: Raporlama; veri madenciliği sonuçlarını gösterebilmek için en etkili kanaldırBazı veri madenciliği projelerinin amacı pazarlama çalışmaları için raporlar sunmak olabilirHemen hemen bütün veri madenciliği toolları kullanıcısına metinsel ve grafiksel rapor çıktıları alabilme imkanını sunar(Desenlerle ilgili yada tahminlerle ilgili olarak)

6)Tahminleme(Prediction,Scoring):Bazı veri madenciliği projelerinin süresinin neredeyse yarısı desenlerin bulunmasıyla geçmektedirDaha sonrasında bulunan model kullanılarak tahminleme yapılır(Tahminleme;prediction,veri madenciliği terminolojisinde scoring olarak da geçer) Tahminleme yapabilmemiz için eğitilmiş bir model ve kurgulanmak için hazır bir senaryoya ihtiyaç vardır

Bankaların müşterilerine kredi vermek için yaptığı inceleme senaryosunu düşündüğümüzde,kredi riski üzerine eğitilmiş bir model vardırBankaya hergün binlerce kredi talebi gelmektedir ve bu talepler risk değerlendirme modeline göre tahminler yürütülerek,potansiyel risk oluşturan başvuruları belirlenmektedir

7)Uygulamanın Entegrasyonu : İş uygulamalarında ki gömülü veri madenciliği entegrasyonları yapılan tüm işlerin ve çalışmaların zeka kısmını oluşturmakla birlikte analiz döngüsünün de son basamağıdırGartner’a göre ;önümüzdeki yıllarda daha fazla iş uygulamasının içerisinde,gömülü veri madenciliği bileşenlerini görebileceğiz ve bu tür iş uygulamaları bizim için ayrı bir değere sahip olacaktır

Örneğin,CRM (Customer Relationship Management,Müşteri İlşikileri Yönetimi) müşterileri segmente etmek için Veri Madenciliği özelliklerinden faydalanmaktadırSon zamanlarda işletmelere yeni bir soluk getiren ERP (Enterprise Resource Planning ,Kurumsal Kaynak Planlama) uygulamaları ise üretim tahminleri için Veri Madenciliği özelliklerinden yararlanmaktadır

Bir kitap alışveriş sitesini düşündüğümüzde müşterilerine gerçek zamanlı olarak kitap tavsiyelerinde bulunabiliyorsa bu, Veri Madenciliğinin bir maharetidirİş uygulamalarının bu tip gerçek zamanlı tahminlerde bulunması,Veri Madenciliği projelerinin önemli bir aşaması olan Entegrasyon aşamasının sonunda gerçekleşmektedir

8)Modelin Yönetimi: Buraya kadar ki aşamalarda modelimizi oluşturduk,tahminlerimizi yaptık,CRM ve ERP benzeri yapılarımızla entegrasyonu sağladıkAma her madencilik modeli bir yaşam döngüsüne sahiptir ve bazen statik bir şekilde çalışabilir , ve sık aralıklarla tekrardan eğitilmeye ihtiyaç duymayabilirFakat veri’nin sıkça değiştiği durumlarda tekrar eğitilmeye ihitiyaç duymaktadırÖrneğin online kitap mağazasına hergün yeni kitaplar ürün listesine dahil edilmektedirGelen her kitap içinde,hergün yeniden bir ilişki kurulması gerekmektedirBu süreçte madencilik modelleri sınırlıdır ve yeni versiyon sıklıkla bir model oluşturmaktadırEninde sonunda bu modelin doğruluğu test edilmesi ve yeni versiyonun oluşturulması otomatik işlemlerle tamamlanmış olmalıdır

Veri Tabanlarında(RDMS) olduğu gibi madencilik modelleri için de en önemli yönetim konularının başında güvenlik konuları gelmektedirMadencilik modelleri desenler içermektedir ve bu değişik sayıdaki desenin okuma,yazma,tahmin gibi haklarını farklı kullanıcı profilleri için korunmak zorundadırMadencilik modeline erişecek sınırlı sayıdaki kullanıcıların,hakları proje yöneticisi tarafından gerektiğinde verilmeli yada görevlendirmeler bittiğinde geri alınmalıdır

Bu iki makalemizde;Veri Madenciliği Projelerinin yaşam döngüsü’nün basamakları ve bu basamakların içerikleri hakkında yeterince bilgi sahibi olduğumuzu düşünüyorum

Başka bir İş Zekası makalesinde görüşmek dileğiyle
Bilgehan Gürünlü


Alıntı Yaparak Cevapla
 
Üye olmanıza kesinlikle gerek yok !

Konuya yorum yazmak için sadece buraya tıklayınız.

Bu sitede 1 günde 10.000 kişiye sesinizi duyurma fırsatınız var.

IP adresleri kayıt altında tutulmaktadır. Aşağılama, hakaret, küfür vb. kötü içerikli mesaj yazan şahıslar IP adreslerinden tespit edilerek haklarında suç duyurusunda bulunulabilir.

« Önceki Konu   |   Sonraki Konu »


forumsinsi.com
Powered by vBulletin®
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
ForumSinsi.com hakkında yapılacak tüm şikayetlerde ilgili adresimizle iletişime geçilmesi halinde kanunlar ve yönetmelikler çerçevesinde en geç 1 (Bir) Hafta içerisinde gereken işlemler yapılacaktır. İletişime geçmek için buraya tıklayınız.