14.1 Web Madenciliği
Son dönemde bilişim teknolojilerindeki gelişmeler çeşitli iş alanlarındaki birçok uygulamanın
bilgisayar ortamına aktarılmasını sağlamıştır. Veriler birçok organizasyonda kritik kaynak haline
gelmiş, verilere etkin bir şekilde ulaşabilmek, verilerin paylaşımı, verilerden kullanılabilir bilgiler
(knowledge) çıkarabilmek ve elde edilen bilgilerin etkin kullanımı gibi konular önem kazanmıştır.
Kullanılabilir bilgiler elde edebilmek ve veriler arasındaki ilişkileri ortaya çıkarmak amacıyla Veri
Madenciliği yöntemleri kullanılmaktadır. Veri madenciliği, istatistik, veri tabanları ve veri yönetimi,
yapay zeka, örüntü tanıma ve konularını kapsamaktadır. Günümüzde “World Wide Web” birçok
uygulama için vazgeçilmez bilgi kaynaklarından biri haline gelmiştir. Internette verilerden anlamlı
bilgiler elde edebilmek için kullanılan veri madenciliği yöntemi Web Madenciliği’dir.
Web madenciliği kısaca Web sayfaları ve servislerinden otomatik olarak bilgi çekip bunlardaki kalıpları
keşfetmek için veri madenciliği tekniklerinin kullanılması olarak tanımlanabilir.
Web madenciliği veri madenciliği tekniklerinin www (World Wide Web) verileri üzerinde
uygulanmasını konu alır. Web madenciliğini üç ana başlıkta inceleyebiliriz: Web içerik madenciliği,
web yapı madenciliği ve web kullanım madenciliği. Web kullanım madenciliği kullanıcıların web
sitelerindeki davranışlarını inceler1.
Web kullanım madenciliği kullanıcının siteyi kullanırken gerisinde bıraktığı erişim verilerinden bilgi
üretmeyi amaçlar. Bu veriler ikinci sınıf verilerdir, yani bir yere girilmiş; bir yerde yazılan, ya da
kullanıcının isteğiyle ulaşın veriler değildir. Tamamen kullanıcıdan bağımsız oluşur ve çok ciddi
boyutlardadır. Bir e-ticaret sitesinin web kullanım verileri kullanıcı hareketlerini takip etme açısından
değerli veriler içerir. Bu sayede site güncelleştirme, sistem iyileştirme ve kullanıcılara kişiselleştirilmiş
hizmetler sunmak mümkün olmaktadır.
Bir e-ticaret sitesinin web kullanım verilerinden aşağıdaki analiz ve yorumlara varılabilinir;
Analiz Kısmı:
- Siteyi bugün kaç kişi ziyaret etti?
- Siteye kimler link vermiş?
- En çok hangi sayfadan sonra site terkedilmiş ?
- En çok ziyaret edilen sayfa hangisi?
- Siteyi internette bulabilmek için hangi anahtar kelimeler kullanılmış?
- Kullanım sürelerinin günlere ve saatlere göre dağılımı
- Sayfalara göre istemlerin dağılımı
- Ulaşılmayan sayfalar
- Ulaşılamayan linkler
- İstemlerin statülerine göre dağılımı
- Siteye saldırı var mı yok mu?
1 http://www.enformatikseminerleri.com/
Yorum Kısmı:
- Kullanıcıların profilleri
- Kullanıcıların zaman içindeki değişimleri
- Sitede beğenilen sayfalar,beğenilmeyen sayfalar
- Kullanıcıların gezinti şekli/hızı
- Sitenin içeriği nasıl olmalıdır?
İnternet üzerindeki veri yığınlarını web sayfaları, Access Log dosyaları, Kullanıcı kayıt bilgileri, Oturum ve hareket bilgileri ve Site yapısı ve içeriği olarak sıralayabilriz.
Yukarıda sayılan çeşitli yapıdaki web sayfaları dokümanlarını ve kayıt bilgilerini incelemek, bunlardaki kalıpları keşfetmek için veri madenciliği tekniklerinin kullanılması olarak tanımlanabilir.
Web madenciliğindeki veri kaynakları; web İçerik madenciliği, web yapı madenciliği, web kullanım madenciliği olarak üç sınıfta incelenebilir(Şekil 14.1).
Şekil 14.1 Web madenciliği2
Web içerik madenciliği , web kaynaklarının içeriklerinden yararlı bilgiyi elde etmek olarak tanımlanabilir. Son zamanlarda XML dili de bu konuda kullanılmaya başlanmıştır.
Web yapı madenciliğinin amacı web sayfaları arasındaki linkleri takip ederek bilgi üretmektir. 2 ayrı veri tipine göre yapılmaktadır: Hyperlink web sayfası verisi ve HTML yada XML sayfa verisi.
Web kullanım Madenciliğinde kullanılan veriler, web üzerindeki çeşitli sunucularda tutulan kullanıcı erişim hareketlerinin yer aldığı çeşitli log dosyalarından elde edilir. Web kullanım madenciliği bir veya birçok web sunucudan kullanıcı erişim desenlerinin otomatik keşfinin ve analizin yapıldığı bir tip veri
2 http://www.teknoturk.org/docking/yazilar/tt000119-yazi.htm
Web Madenciliği
Web içerik madenciliği
Web yapı madenciliği
Web kullanım madenciliği
Web sayfa içerik madenciliği
Arama sonuç madenciliği
Genel web kullanım madenciliği
Site güncelleme sistemleri
Sistem iyileştirme
Kişiselleştirme
Web Madenciliği
00:13