Bu projede, farklı yaş gruplarının günlük internet kullanım alışkanmalarını inceleyen veri seti üzerinde Keşifsel Veri Analizi (Exploratory Data Analysis – EDA) gerçekleştirilmiştir. Analizin amacı; veri setini detaylı şekilde tanımak, veri kalitesini değerlendirmek, değişkenler arasındaki ilişkileri ortaya koymak ve modelleme öncesi doğru ön işleme kararlarını almaktır.
Veri seti aşağıdaki bilgileri içermektedir:
- age_group: Yaş grubu
- total_screen_time: Günlük toplam ekran süresi (saat)
- social_media_hours: Günlük sosyal medya kullanım süresi (saat)
- work_or_study_hours: Günlük iş/öğrenim amaçlı kullanım süresi (saat)
- entertainment_hours: Günlük eğlence amaçlı kullanım süresi (saat)
- primary_device: Birincil kullanılan cihaz türü
- internet_type: İnternet bağlantı türü
- Veri setinin boyutu, sütunları ve veri tipleri analiz edilmiştir.
- Değişken türlerinin (sayısal / kategorik) analiz için uygun olduğu görülmüştür.
- Eksik değerler sütun bazında incelenmiştir.
- Eksik veri oranlarının düşük seviyede olduğu tespit edilmiştir.
- Analiz sonuçlarını anlamlı şekilde bozacak bir eksik veri problemi bulunmamaktadır.
total_screen_timedeğişkeni üzerinde IQR (Interquartile Range) yöntemi uygulanmıştır.- Alt ve üst sınırlar dışında kalan gözlemler aykırı değer olarak belirlenmiştir.
- Aykırı değerlerin veri setinin küçük bir yüzdesini oluşturduğu görülmüştür.
- Modelleme aşamasında bu değerler için winsorization veya log dönüşümü uygulanabilir.
- Toplam ekran süresi değişkeninin dağılımının sağa çarpık (right-skewed) olduğu gözlemlenmiştir.
- Çoğu kullanıcının orta düzey ekran süresine sahip olduğu, az sayıda kullanıcının ise çok yüksek ekran süresi değerlerine ulaştığı görülmüştür.
- Yaş gruplarına göre yapılan analizlerde, genç yaş gruplarının sosyal medya ve toplam ekran süresinin daha yüksek olduğu tespit edilmiştir.
- Yaş ilerledikçe eğlence ve sosyal medya amaçlı kullanımın azalma eğilimi gösterdiği gözlemlenmiştir.
- Birincil cihaz türü analizlerinde mobil cihazların özellikle genç yaş gruplarında baskın olduğu görülmüştür.
- Korelasyon matrisi incelendiğinde,
total_screen_timeilesocial_media_hoursarasında pozitif yönlü bir ilişki olduğu görülmüştür. - Bu durum, toplam ekran süresinin artmasında sosyal medya kullanımının önemli bir faktör olduğunu göstermektedir.
- Korelasyonun nedensellik anlamına gelmediği dikkate alınmalıdır.
- Tekrarlı gözlemler kontrol edilmiştir.
- Negatif veya mantıksal olarak hatalı süre değerleri incelenmiştir.
- Veri setinin analiz ve modelleme için uygun kalitede olduğu doğrulanmıştır.
EDA sonuçları, yaş gruplarının internet kullanım alışkanmalarının belirgin biçimde farklılaştığını göstermektedir. Özellikle genç yaş gruplarında sosyal medya ve toplam ekran süresi öne çıkarken, yaş ilerledikçe kullanım amaçlarının değiştiği görülmektedir. Veri seti, ileri seviye analizler ve tahminleme modelleri için uygun bir yapı sunmaktadır.
- Python
- Pandas
- NumPy
- Matplotlib
- Seaborn
- Eksik veri ve aykırı değer analizi
- Dağılım ve ilişki analizleri
- EDA → modelleme öncesi karar alma süreci
📌 Bu çalışma, veri analizi ve veri bilimi projelerinde standart bir EDA akışını göstermeyi amaçlamaktadır.