Geri Git   ForumSinsi - 2006 Yılından Beri > Eğitim - Öğretim - Dersler - Genel Bilgiler > Eğitim & Öğretim

Yeni Konu Gönder Yanıtla
 
Konu Araçları
döngüsü, madenciliği, projelerinin, veri, yaşam

Veri Madenciliği Projelerinin Yaşam Döngüsü - 1

Eski 12-20-2012   #1
Prof. Dr. Sinsi
Varsayılan

Veri Madenciliği Projelerinin Yaşam Döngüsü - 1



Veri Madenciliği Projelerinin yaşam döngüsü sırasıyla şu aşamalardan oluşmaktadır

1) Data’nın Toplanması :Veri Madenciliği projeleri için ilk adımımız genellikle data’nın toplanmasıdırVeri Madenciliğinde kullanacağımız dataları, Database ,Datamart yada Datawarehouse ‘umuzdan (büyük çaplı şirketler dışında hazır bir Datawarehouse ile genelde karşılaşılmaz) data analizi için toplamımız gerekmektedir Data’yı toplayacağımız kaynaklar yada kullanabileceğimiz data çeşitleri ise şunlardan oluşabilir(bunlara bağlı olarak data’yı alacağımız yere göre de Veri Madenciliği imkanları değişiklik göstermektedir)
a) İlişkisel Veri Tabanları : RDMS (Relational Database Management System) olarak adlandırılan Veri Tabanı ,temel veri işlemlerinin yapıldığı (DML) yerdirBu tip veritabanlarında Normal Formların kurallarına göre (genelde 3 NF ‘ye kadar) tasarlanmıştır İlişkisel Veri Tabanları için Entity-Relationship (ER) veri modeli tasarlanmıştır ve bu model, tablolar arasındaki ilişkileri gösterir(İlişkisel Veri Tabanları hepimizin günlük hayatımızda kullandığımız MS-SQL Server , Oracle ,DB2 ,MySql gibi sistemlerdir )

b) Veri Ambarları : Veri Ambarları farklı kaynaklardan (örneğin RDMS ‘lerden ) bilgilerin toplandığı ortak bir alandır



Veri Ambarlarında,RDMS sistemlerin tersi bir şekilde sadece işimize yaracak özet bilgiler tutulur(örneğin satışların bölgelere yada aylara göre özeti gibi) Veri Ambarları genellikle çok boyutlu database yapıları gibi modellenir ve her boyut bir attribute dür , her hücre ise bir toplamdır (toplam satış miktarı gibi)Gerçekte Veri Ambarları’nın fiziksel yapısı ilişkisel data alanları yada çok boyutlu veri küpleri (Data Cube) şeklinde olabilir

c) İşlemsel Veri Tabanları (Transactional Databases) : Herbir kayıdın bir hareketi(transaction) gösterdiği dosyalardırTransactional dosyalarda herbir kayıt bir ID ile ifade edilir ve aynı ID değerine sahip transactionda yapılan işlemler sıralanır

Transactional Databaselerde “T100 numaralı Transaction da satın alınan ürünler hangisidir?”gibi soruların cevabı bulunabilirBirliktelik(Association) ilişkilerinde sıkça kullanılacak dataları içermektedir

d) Uzaysal Veritabanları (Spatial Database) : Uzaysal veritabanlarına harita veritabanları ve uydu görüntüleri örnek olarak verilebilirOrman ve Ekolojik planlamada,telefon ve elektrik kablolarının döşenmesi gibi kamu hizmetlerinin kullanımda bu tip data kullanılmaktadır

e) Metin Veritabanları ve Multimedya Veritabanları : Metin veritabanları uzun cümleler ve paragraflardan oluşan ,içerisinde uyarı mesajları ,buglar raporları gibi metinsel ifadeler içeren veritabanlarıdırMetin verileri üzerine yapay zeka algoritmaları da kullanılarak müşterilerden gelen talep ve istekler üzerine CRM projeleri geliştirilebilirMultimedya veritabanları ise görüntü,ses,video verisi gibi verilerden oluşmaktadırSes ve görüntü tanıma temelli projelerde kullanılacak verilerdir

f) İnternet (The World Wide Web) : Kullanıcıların internetde bırakmış oldukları verilerdir diyebilirizŞöyle ki kullanıcıların bir alışveriş sitesinde tıkladığı linkleri analiz ederek doğru reklam politikaları izlenebilir

2) Data’nın Temizlenmesi ve Yeniden Yapılandırılması :
Veri Madenciliği projelerinin 2aşaması olan Data’nın Temizlenmesi ve yeniden yapılandırılması (data cleaning and transformation) aşaması yoğun bir şekilde,veri kaynağıyla ilgili işlemleri içermektedir
Data’nın temizlenmesinden kasıt; gürültülerin (yanlış yada aşırı uç değerlere sahip verilere gürültülü veri denirörneğin doğum tarihinin 1200 olması gibi)

Data’nın temizlenmesi ve yeniden yapılandırılmasında uygulanan yöntemler ise şunlardır

a) Data Tipinin Transformasyonu:Basit olarak veri tipinin türünün yeniden yapılandırılmasıdırBazı Veri Madenciliği algoritmaları sadece integer (sayısal) tiplerdeki verilerle hızlı bir şekilde çalışırken,kimisi de mantıksal verilerle(boolean) hızlı bir şekilde çalışmaktadır

b) Sürekli Kolonların Transformasyonu : Bu yeniden yapılandırma türünde; sürekli veriler Normalizasyon işleminden geçirilmektedirÖrneğin 500 TL ile 20000 TL arasında değişen maaş verilerini 4 gruba bölmüş olalım (500-1000,1000-5000,5000-10000,10000-20000 gibi) Yapay Sinir Ağları benzeri algoritmalar bu verileri kabul etmeyecektirİşte eldeki bu gibi verileri 00 - 10 gibi aralıklara indirme işlemine Normalizasyon denmektedir(Normalizasyon işlemi için çeşitli yöntemler vardırBunlar;min-maks normalizasyonu,sıfır ortalama normalizasyonu,ondalıklı normalizasyondur)

c)Gruplama:Gruplama işlemiyle,aslında ayrı gibi görünen bölümlerin ortak bir paydada birleştirilmesi söz konusudurÖrneğin;Bilgisayar Mühendisliği,Elektrik Mühendisliği,Endüstri Mühendisliği,Eczacılık,Doktorluk gibi ayrılmış meslek gruplarımız olsunBu meslek grupları yeniden yapılandırılarak Mühendislik,Eczacılık,Doktorluk gibi daha düzgün bir sınıflandırmaya hazır hale getirilebilir(Bu, bize zamandan kazanç olarak geri dönecektir)

d) Kümeleme : Kümeleme ise ; bir başka verinin yeniden yapılandırma sürecidirÖrneğin bir GSM operatörü müşterilerini aylık konuşma verilerine göre segmente etmeye çalışıyor olsunÇözüm olarak çok fazla detaylı bilgiden sıyrılabilmek amacıyla,toplam görüşme sayılarına göre kümeleme yapılmalıdır(Kümeleme aslında bir veri madenciliği modelidir)

e) Kayıp Verilerin İşlenmesi : Verilerin yeniden yapılandırılması aşamasında bir diğer önemli konu ise kayıp yada Null değerlerin ne olacağı sorusudurİki farklı OLTP sisteminin birleştirilmesi sonucunda kayıp değerler ortaya çıkabileceği gibi bilgi giriş elemanları yada müşteriler tarafından bilerek yada bilmeyerek yanlış veya boş değerler(Null Values) oluşabilmektedirGerçekleştirilecek projenin ve kayıp,yanlış olan verilerin durumuna göre farklı çözümler bulunabilir

i)Kayıp verilerin bulunduğu kayıdı, veri kümesinden çıkarmak yada bu gibi kayıtları iptal etmek(Eğer kayıp verinin miktarı toplam verinin içinde küçük bir değerse)

ii) Kayıp verileri elle teker teker doldurmak (Kullanılan Veritabanı küçükse ve gerçek hayatta kayıp verilere ulaşmak kolay ve zaman problemimiz yoksa)

iii) Tüm kayıp verilere aynı bilgiyi vermekÖrneğin doğum tarihi bilgisini vermemiş müşterilerimiz varsa bunlar için DTY(doğum tarihi yok) şeklinde bir veri girişi yapılabilirAma buradan çok farklı bir sonuç ortaya çıkıp;doğum tarihini vermemiş olan kişilerin bir ortak özelliği olduğu ve aynı davranışı sergiledikleri , tahmin edilemeyen bir satış fırsatını ortaya çıktığı durumlar da olabilir(Örneğin doğum tarihini yazmayan kişilerin bakım ürünlerini daha çok satın alması gibi)

iv)Kayıp olan verilere tüm verilerin ortalama değerinin verilmesi

v)Regresyon yöntemi kullanılarak, diğer değişkenlerin yardımıyla kayıp olan verilerin tahmin edilmesi

f)Uç Verilerin Ortadan Kaldırılması : Bazı durumlarda aşırı uç veriler(ortalama değerlere göre çok düşük yada çok yüksek değerlere sahip veriler ) projenin
başarı oranının düşmesine neden olabilirEğer bu veriler oran olarak kayıda değer bir sayıda değilse,yok sayılabilir(Hassasiyeti etkileyecek seviyedelerse faydadan çok zarar da oluşabilir)
Bunlar dışında da birçok veri temizleme ve verileri yeniden yapılandırma tekniği mevcutdurSQL Server Integration Services (SSIS ) yardımıyla,bu makalede saymış olduğum teknikler uygulanabilmektedir

Bu makalemizde Veri Madenciliği yaşam döngüsünün ilk 2 aşaması hakkında (Data’nın toplanması ve Temizlenmesi ,Yeniden Düzenlenmesi) bilgiler vermeye çalıştımBir sonra ki bağlantılı makalemde ,sonraki aşamalar hakkında detaylı bilgiler sunmaya devam edeceğim

Başka bir İş Zekası makalesinde görüşmek dileğiyle
Bilgehan Gürünlü


Alıntı Yaparak Cevapla
 
Üye olmanıza kesinlikle gerek yok !

Konuya yorum yazmak için sadece buraya tıklayınız.

Bu sitede 1 günde 10.000 kişiye sesinizi duyurma fırsatınız var.

IP adresleri kayıt altında tutulmaktadır. Aşağılama, hakaret, küfür vb. kötü içerikli mesaj yazan şahıslar IP adreslerinden tespit edilerek haklarında suç duyurusunda bulunulabilir.

« Önceki Konu   |   Sonraki Konu »


forumsinsi.com
Powered by vBulletin®
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
ForumSinsi.com hakkında yapılacak tüm şikayetlerde ilgili adresimizle iletişime geçilmesi halinde kanunlar ve yönetmelikler çerçevesinde en geç 1 (Bir) Hafta içerisinde gereken işlemler yapılacaktır. İletişime geçmek için buraya tıklayınız.