Basit bir tanım yapmak gerekirse veri madenciliği, büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. Ya da bir anlamda büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır. Veri madenciliği deyimi yanlış kullanılan bir deyim olabileceğinden buna eş değer başka kullanımlar da literatüre geçmiştir. Veritabanlarında bilgi madenciliği, bilgi çıkarımı, veri ve örüntü analizi, veri arkeolojisi gibi.
Bunların arasındaki en yaygın kullanım Veritabanlarında Bilgi Keşfi’dir. Alternatif olarak veri madenciliği aslında bilgi keşfi sürecinin bir parçası şeklinde kabul görmektedir. Bu adımlar:
1-Veri temizleme (gürültülü ve tutarsız verileri çıkarmak)
2-Veri bütünleştirme (birçok veri kaynağını birleştirebilmek)
3-Veri seçme (yapılacak olan analizle ilgili olan verileri belirlemek )
4-Veri dönüşümü (verinin veri madenciliği tekniğinden kullanılabilecek hale dönüşümünü gerçekleştirmek)
5-Veri madenciliği (veri örüntülerini yakalayabilmek için akıllı metotları uygulamak)
6-Örüntü değerlendirme (bâzı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç örüntüleri tanımlamak)
7-Bilgi sunumu (mâdenciliği yapılmış olan elde edilmiş bilginin kullanıcıya sunumunu gerçekleştirmek)
Bir veri madenciliği sistemi, aşağıdaki temel bileşenlere sahiptir:
1-Veritabanı, veri ambarı ve diğer depolama teknikleri
2-Veritabanı ya da Veri Ambarı Sunucusu
3-Bilgi Tabanı
4-Veri Madenciliği Motoru
5-Örüntü Değerlendirme
6-Kullanıcı ArayüzÜ
Veri Madenciliği ve Makina Öğrenmesi
Makina öğrenmesinin genel bir tanımını yaparsak; eğer bir bilgisayar programı, belirli bir işteki performansını, tecrübe edindikçe artırıyorsa, makina öğrenmesinden bahsedebiliriz. Makina öğrenmesini ilgilendiren bir kaç öğrenme süreci aşağıdaki gibidir:
1-Konuşulan kelimeleri anlamayı öğrenmek
2-Araba kullanmayı öğrenmek
3-Uzay cisimlerini sınıflandırmayı öğrenmek
4-Satranç oynamayı öğrenmek
Verinin Toplanması
Açık (explicit) bir şekilde veri toplanması genelde öğelerin ziyaretçi tarafından puanlanması, üyelik sırasında veya anketler aracılığıyla ziyaretçiden demografik veri alınması ve ziyaretçi tarafından belirtilen tercihler aracılığıyla olur. Tercih verisi, sistemin doğru öğeleri önerebilmesi için ziyaretçinin ilgilendiği alanları girmesini içerir. Tercih verileri belirli bir öğe kategorisi için olabileceği gibi (örneğin; e-ticaret sitesinde elektronik kategorisi veya sinema sitesinde korku filmleri gibi) veya belirli bir özellik (örneğin; tekstil ürünleri satan bir e-ticaret sitesinde, pamuklu tercihi gibi) bazında olabilir. Değerlendirme (puanlama) verisi ayrık sayısal veri formunda olabileceği gibi, ziyaretçinin yaptığı metin tabanlı yorumlar bazında da olabilir. Sayısal verilerin kullanılması daha kolay olmasına rağmen, daha az güvenirlidir çünkü 3 yıldızın bir ziyaretçi için ifade ettiği, bir başka ziyaretçi için 2 yıldıza denk geliyor olabilir.
Veri Madenciliği ve Yapay Zeka
Yapay zeka, zeki varlıkları anlamaya çalışan bir disiplindir. Aynı amaç ile iştigal eden felsefe ve psikolojiden farkı; sadece anlamaya çalışmak ile yetinmeyip, aynı zamanda zeki varlıklar üretmeye çalışmasıdır.
Yapay zeka da veri madenciliği ve makina öğrenmesi gibi çerçevesi net bir tanımdan yoksundur. Yapay zeka için yapılmış olan mevcut tanımlar iki ana grupta toplanabilir; muhakeme yeteneği ve rasyonel davranma yeteneği. Yine bu iki tanım da kendi içlerinde insan gibi veya rasyonel olmak şeklinde ikiye ayrılır.
Veri Madenciliğinin Ticari İşletmelerde Kullanımı
Perakendecilik: Market içinde ürünlerin yerleştirilmesi ve çapraz satış yapılması
Bankacılık: Müşteri ilişkileri yönetimi, kampanya yönetimi, kredi puanının hesaplanması, kredi kartı sahtekarlığının saptanması.
Sigortacılık: Soruşturma gerektiren tazmin taleplerinin saptanması.
Telefonla pazarlama: Pazarlama amacıyla aranacak kişinin ilgi gösterebileceği ürünün saptanması.
İnsan Kaynakları Yönetimi: Firmadan ayrılma ihtimali olan personelin tespiti.
Neden Veri Madenciliği
Veri madenciliğini ortaya çıkaran ve kullanımını zorunlu hale getiren unsurlar aşağıdaki gibi sıralanabilir:
-Veri kayıtlarının hızla artması (TB/saat),
-Otomatik veri toplama istasyonlarının geliştirilmesi,
-Uydu ve uzaktan algılama sistemlerinin geliştirilmesi,
-Teleskopla uzay taramalarının mümkün hale gelmesi,
-Gen teknolojisindeki gelişmelerin artması,
-Bilimsel hesaplamalar, benzetimler ve modellemelerin gelişmesi,
-Geleneksel eski tekniklerin ham verileri işlemede yetersiz kalması,
-Veri madenciliğiyle elde edilen bilgilerin bilim insanlarının işlerini kolaylaştırması,
-Veri sınıflandırması ve gruplandırılması,
-Kesin bilginin azalması ve hipotezler oluşturma ve karar verme zorunluluğunun ortaya çıkması,
-Veri ambarlarında çok fazla verinin depolanması,
-İnternet üzerinde biriken verilerin artması,
-Bulut üzerinde veri depolamalarının başlaması ve hızla artması,
-Bloglarda ve sosyal medya üzerinde anlık bilgilerin hızla artması,
-e-ticaret işlemleriyle biriken verilerin artması,
-Büyük marketler, holdinglerin işlemleriyle elde ettikleri verilerin artması,
-Kredi kartları ve diğer bankacılık işlemlerinden elde edilen verilerin artması,
-Etkin ve ucuz bilgisayarların hızla gelişimi,
-Rekabet avantajı ve sürdürülebilirliğin öne çıkması,
-Düşük maliyetle yüksek kalitede üretim ve müşteri hizmetleri sağlamanın önemsenmesi,
-Müşteri memnuniyeti ve şikayet almama konularının önemsenmesi,
Veri madenciliğinin İşletmelerde Kullanım Alanları
• Mevcut müşterilerin daha iyi tanınması,
• Müşteri bölümleme (segmentation) yapılabilmesine imkan vermesi,
• Müşteri davranış modelleri oluşturulmasına yardımcı olması,
• Mevcut müşterilerin ödeme performanslarının ölçülerek, benzer performanstaki diğer müşteriler için yeni risk yönetim politikalarının oluşturulmasına imkan verir,
• En iyi müşteriler veya müşteri bölümlerinin bulunmasına yardımcı olur, elde edilen bu iyi müşteri bölümlerine yönelik yeni pazarlama stratejileri oluşturulmasına imkan verir,
• Kuruluşlar tarafından düzenlenecek çeşitli kampanyalarda mevcut müşteri kitlesinin seçimi ve bu müşterilerin davranış özelliklerine yönelik kampanyalar hazırlanmasına yardımcı olur,
• Mevcut müşteriler üzerinde firma ürünlerinin çapraz ve dikey satış kapasitesinin arttırılmasına yardımcı olur,
• Veri madenciliği ile mevcut müşteriyi tanıyarak kuruluşların müşteri ilişkileri yönetimlerinde düzenleme ve geliştirmeler yapılabilir. Bu sayede kuruluşun müşterilerini daha iyi tanıyarak empatik düşünme kapasitelerinin arttırılmasına yardımcı olur,
• Günümüzde yoğun rekabet ortamında kurum ve kuruluşların hızlı karar vermesine yardımcı olur ve en doğru kararı almalarına yardımcı olur,
• Kuruluşlar veri analizi ile müşterilerini kişiselleştirilmiş (customized) ürün ve hizmetler sunmasına yardımcı olur,
• Veri madenciliği ile kuruluşların müşteriyle bütünleşmiş satış politikaları oluşturmasına yardımcı olur,
-Veri Madenciliği Modelleri (Data Mining Models):Veri madenciliğinde kullanılan modeler Tahmin Edici ve Tanımlayıcı olmak üzere ikiye ayrılmaktadır.
-Tahmin Edici Modeller (Predictive): Sonuçları bilinen verilerden hareket ederek bir model oluşturup, sonuçları bilinmeyen veri kümeleri için sonuç değerlerinin tahmin edilmesidir.
-Sınıflama
-Regresyon
-Zaman Serisi Analizi
-Tanımlayıcı Modeller (Descriptive): Karar vermeye rehberlik etmede kullanılabilecek verilerdeki örüntülerin tanımlanmasını sağlamaktadır.
-Kümeleme Yöntemi
-Birliktelik Kuralı
Veri Madenciliğinin Kısa Tarihçesi
1950’lerde ilk bilgisayarlar matematiksel sayımlarda kullanılıyordu
1960’larda Veri Koleksiyonları, Veri tabanı kullanımı başladı
1970’lerde İlişkisel veri modeli ve İlişlisel RDMS uygulamaları geliştirildi
1980’lerde İlişkisel RDMS kullanımı yaygınlaşmaya başlıyor.
1990’larda Günlük işlerde derlenen verinin nasıl değerlendirilebileceği sorgulanmaya başlıyor.
1991’de Knowledge Discovery in Real Databases tanımı ve kavramları ortaya konuluyor
1992’de Veri Madenciliği konusunda ilk yazılımın geliştirilmesi
2000’lerde Veri Ambarları ve Veri Madenciliğinin yaygınlaşması oluyor.
“HAREKET HALİNDEKİ BİR KARINCA ,DURAN BİR ÖKÜZDEN DAHA ÇOK İŞ BAŞARIR.”
Yorum Yazın!