19. ULUSLARARASI MATEMATİK-MÜHENDİSLİK-FEN VE SAĞLIK BİLİMLERİ KONGRESİ, Mingachevir, Azerbaijan, 17 - 18 April 2024, vol.1, no.1, pp.164-169, (Full Text)
The concept of
Big Data can be defined as a problem that arises when traditional database
management systems fall short. This study focuses on the importance of Big Data
in the processes of storing, analyzing, and managing data from various sources.
In particular, emphasis is placed on making data from different sources such as
emails, social media interactions, photos, audio, video, and log files
meaningful and actionable.
The focal point
of the research is the statistical analysis of big data and its methodologies.
Additionally, customer churn modeling is conducted as an application of these
analysis methodologies, and the statistical significance of the obtained
results is indicated.
The research
method is based on a mixed approach, incorporating literature review, content
analysis, and qualitative research steps. The review of literature and
examination of similar studies have formed the basis of the analyses and
applications conducted.
Furthermore,
the Churn dataset used in the study is introduced. This dataset consists of 7
variables and 899 records used for customer churn modeling. The functions of
the variables in the dataset (name, age, total purchases, account manager,
customer age, number of products purchased, and churn status) are specified.
Finally, Big
Data analytics for customer churn modeling is performed on the Spark platform.
Machine learning algorithms from the Spark Mlib libraries are implemented using
the Python programming language, attempting to model customer churn situations.
This study aims
to offer a new perspective on research conducted in the field of Big Data
analytics and customer churn modeling.
Keywords: Big Data, Data
Analytics, Customer Churn Modeling, Spark, Machine Learning.
Büyük Veri
kavramı, geleneksel veritabanı yönetim sistemlerinin yetersiz kaldığı
durumlarda ortaya çıkan bir sorun olarak tanımlanabilir. Bu çalışma, çeşitli
kaynaklardan gelen verilerin saklanması, analizi ve yönetilmesi süreçlerinde
Büyük Veri'nin önemine odaklanmaktadır. Özellikle, e-postalar, sosyal medya
etkileşimleri, fotoğraf, ses, video ve log dosyaları gibi farklı kaynaklardan
gelen verilerin anlamlı ve işlenebilir hâle getirilmesi üzerinde durulmuştur.
Araştırmanın
odak noktası, büyük verilerin istatistiksel açıdan analiz edilmesi ve bu analizin
metodolojileridir. Ayrıca, bu analiz metodolojilerinin bir uygulaması olarak
müşteri terk modellemesi yapılmış ve elde edilen sonuçların istatistiksel
olarak anlamlılığı belirtilmiştir.
Araştırmanın
yöntemi karma bir yaklaşıma dayanmaktadır ve literatür taraması, içerik analizi
ve nitel araştırma adımlarını içermektedir. Literatür taraması ve benzer
çalışmaların incelenmesi, yapılan analizlerin ve uygulamaların temelini
oluşturmuştur.
Ayrıca,
çalışmada kullanılan Churn veri seti tanıtılmıştır. Bu veri seti, müşteri terk
modellemesi için kullanılan 7 değişken ve 899 kayıttan oluşmaktadır. Veri
setinde yer alan değişkenlerin (isim, yaş, toplam satın alma, hesap yöneticisi,
müşteri yaşı, alınan ürün sayısı ve terk durumu) işlevleri belirtilmiştir.
Son olarak,
müşteri terk modellemesi için Spark platformunda Büyük Veri analitiği
yapılmıştır. Python programlama dili kullanılarak Spark Mlib kütüphanelerinde
bulunan makine öğrenmesi algoritmaları uygulanmış ve müşterilerin bizi terk
etme durumları modellemeye çalışılmıştır. Bu çalışma, Büyük Veri analitiği ve
müşteri terk modellemesi alanında yapılan araştırmalara yeni bir bakış açısı
sunmayı amaçlamaktadır.
Anahtar
Kelimeler: Büyük Veri, Veri Analitiği, Müşteri Terk Modellemesi, Spark,
Makine Öğrenmesi.