Sosyal Medya Gözetlemesinde Metin Madenciliği

“Metin Madenciliği” kavramını ilk Alp Kurtboğan’dan Mayıs 2016’da İEEE İTÜ Teknoloji Konferansındaki konuşmasında duymuştum. Başlı başına tamlama olarak bile hoşuma giden metin madenciliği kavramı, o gün bugündür aklımda dönüp durdu. Nihayet, bir fırsatını bulup konu hakkında ayrıntılı bir araştırma yapabildim.

“Metin madenciliği nedir?” sorusundan çok kafamda beliren asıl soru ‘metnin madenciliği mi olurmuş?” idi. İngilizcesi ‘text mining’ olan metin madenciliğini Wikipedia “metin üzerinden yapısallaştırılmış veri elde etme” olarak tanımlıyor. Bu veri elde etmede ulaşılmak istenen asıl hedef, metin üzerinden istatistiksel sonuçlara ulaşmak. Böylece yüksek miktardaki yapılandırılmamış verinin, yapısal bir hale dönüştürülmesi zorluğuna çözüm getirilmeye çalışılmaktadır.

  • Metin özetleme
  • Duygusal analiz
  • Varlık ilişki modellemesi
  • Metinlerden konu çıkarılması
  • Metinlerin bölütlenmesi
  • Metinlerin sınıflandırılması
  • Sınıf taneciklerinin üretilmesi; bunların hepsi metin madenciliği uygulamalarının içinde yer alıyor. Öyle ki işlemsel dilbilim, istatistik, makine öğrenmesi, veri madenciliği, enformasyon getirimi kavramlarının ortak çalışma alanına giren disiplinler arası bir kavram.

Metin madenciliği algoritmaları sayesinde makinelerin metinler üzerinde yaptığı otomatik kodlama ve özetlemeler ilgi çekici profiller haline getirilir. İçeriden üretilen belgeler ile dışarıdan alınan belgeler otomatik olarak özetlenerek kelime örüntülerine göre yorumlanır; aynı zamanda uygun işlere otomatik olarak yönlendirilir.

Konuyu daha sıkıcı hale getirmeden metin madenciliği yöntemlerini sırayalıp asıl bizi ilgilendiren kısma geçeyim: Kelime frekans dağılımı, veri madenciliği, örüntü tanıma, hece analizi, görselleştirme, etiketleme, enformasyon getirimi, enformasyon çıkarımı

Görüldüğü gibi burada karşımıza ‘data mining’ çıkıyor; yani ‘veri madenciliği’. Çünkü, veri madenciliği, metni veri kaynağı kabul ettiği için metin madenciliği çalışmalarını da kapsıyor. (Veri madenciliği ise apayrı ele alınması gereken önemli bir konu.)

Geçmişi 1980’lere dayanan metin madenciliğinin parladığı dönem tahmin edeceğiniz gibi 2000’li yıllar. Bilimsel tahminlere göre enformasyonun yüzde 80’lik kısmı metin olarak tutuluyor. Bu sebeple metin madenciliği çalışmaları, yüksek ekonomik değere sahip olacak. Şu an bu çalışmalar en sık bilimsel araştırmalarda, iş dünyasında ve devlet seviyesinde farklı ihtiyaçlara çözüm üretmek amacıyla kullanılıyor ama özellikle “yayıncılık, otomatik reklam yerleştirme, arama/bilgi erişimi ve sosyal medya gözetlemesi” alanlarında metin madenciliği uygulamalarından faydalanabiliriz.

Konuyu bir de YouTube videosuyla desteklemek daha faydalı olacak. Şadi Evren Şeker, Metin Madenciliği nedir sorusunu gayet anlaşılır bir şekilde açıklamış:

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir