STACKOVERFLOW'DA 'BIG DATA' İLE İLGİLİ GÖNDERİLERİN KONU MODELLEME VE BİRLİKTELİK ANALİZİ İLE ÖZELLİKLERİNİN ÇIKARILMASI
- Resource Type
- article
- Authors
- Hacer Özyurt; Ayça Yurtseven; Adile Genç; Özcan Özyurt
- Source
- Eskişehir Osmangazi Üniversitesi Mühendislik ve Mimarlık Fakültesi Dergisi, Vol 32, Iss 1, Pp 1257-1268 (2024)
- Subject
- topic modeling
lda
association analysis
big data
stackoverflow posts
konu modelleme
birliktelik analizi
büyük veri
stackoverflow günderileri
Engineering (General). Civil engineering (General)
TA1-2040
- Language
- English
Turkish
- ISSN
- 2630-5712
Günümüz teknolojisinde internet kullanımının artması ile birlikte "Büyük Veri" kavramının ortaya çıkması kaçınılmaz olmuştur. 23 milyondan fazla soru ve 35 milyona yakın cevap barındırarak büyük veriye katkı sağlayan StackOverflow'da paylaşılan bilgilerin analizi güncel konu ve eğilimlerin belirlenmesi konusunda önemli çıkarımlar sunabilmektedir. StackOverflow'daki bu büyük ve dağınık veri kümesi üzerinde tartışmaların elle analiz edilmesi mümkün olmadığı için otomatik analiz yapabilecek yöntemlere ihtiyaç duyulmaktadır. Bu ihtiyacı gidermek için konu modelleme yaklaşımlarına başvurulmuştur. Konu modelleme alanında yapılan çalışmalarda Gizli Dirichlet Ataması (Latent Dirichlet Allocation - LDA) yöntemi oldukça tercih edilmiş ve başarısı ispatlanmıştır. Yürütülen çalışmada LDA yöntemi kullanılarak StackOverflow platformu üzerinde "Big Data" etiketli soruların ve bu soruların cevaplarının anlamsal analizi yapılmış olup büyük veri hakkında en çok konuşulan konuların %16’lık bir oran ile makine öğrenmesi/veri bilimi ve bellek yönetimi olduğu sonucuna varılmıştır. StackOverflow gönderilerinde kullanılan etiketlerle ayrı bir veri seti oluşturulmuş ve birliktelik analizi yapılmıştır. Bu aşamanın asıl amacı Apriori algoritması kullanarak görülemeyen ilişkileri ortaya çıkarmaktır. Elde edilen veriler sonucunda en yüksek oran ile 100 sorunun 25'inde bigdata etiketi ile hadoop etiketinin beraber kullanıldığı görülmüştür. Ek olarak hive etiketini kullanan biri %60 gibi bir ihtimalle hadoop ve bigdata etiketini de kullanmaktadır ve bu etiketlerin kullanım oranını 2.39 artırmaktadır.