- Ahmad Natsrul Ulum (23.11.5524)
- Zulfa Meydita Rahma (23.11.5512)
Proyek ini melakukan analisis regresi linier sederhana dan berganda pada dataset harga rumah di California. Analisis meliputi eksplorasi data, visualisasi, rekayasa fitur, pembuatan model regresi, evaluasi model, serta pembuatan dashboard interaktif dan poster otomatis.
Aplikasi Streamlit dapat diakses secara online di sini: fp-bigdata-5524-5512.streamlit.app
Dataset: California Housing Prices (Kaggle, Cam Nugent)
- median_income
- housing_median_age
- total_rooms
- total_bedrooms
- kamar_per_rumah_tangga (rekayasa fitur)
- rasio_kamar_tidur_per_kamar (rekayasa fitur)
- Statistik deskriptif dan visualisasi (histogram, scatter plot, heatmap)
- Analisis korelasi fitur dengan harga rumah
- Model regresi linier sederhana & berganda, Ridge, Lasso, Decision Tree
- Evaluasi model (MSE, RMSE, MAE, R2, cross-validation)
- Dashboard interaktif (Streamlit)
- Poster otomatis (.png)
- Dataset bersih (.csv)
Berikut adalah beberapa tampilan dari dashboard interaktif yang dibangun menggunakan Streamlit:
Dashboard utama menampilkan ringkasan analisis, visualisasi, dan navigasi ke fitur-fitur utama.
Visualisasi heatmap korelasi antar fitur dan harga rumah.
Perbandingan performa model regresi menggunakan metrik evaluasi.
Visualisasi hasil prediksi harga rumah vs nilai aktual.
- Buat virtual environment (opsional, direkomendasikan)
- Linux/Mac:
python3 -m venv env source env/bin/activate - Windows:
python -m venv env .\env\Scripts\activate
- Linux/Mac:
- Install dependensi
pip install -r requirements.txt
- Jalankan analisis & generate output
python analysis.py
- Akan menghasilkan:
housing_clean.csv, visualisasi (.png), dan poster otomatis.
- Akan menghasilkan:
- Jalankan dashboard
streamlit run app.py
- Dashboard dapat diakses di browser pada http://localhost:8501
analysis.py: Script analisis, visualisasi, model, dan posterapp.py: Dashboard interaktif Streamlitrequirements.txt: Daftar dependensi Pythonhousing_clean.csv: Dataset bersih hasil cleaning & rekayasa fiturposter_regresi_housing.png: Poster otomatis hasil analisisviz_*.png: File visualisasi otomatis.gitignore: File/folder yang diabaikan git
- Semua output (dashboard, poster, dataset bersih) dihasilkan otomatis dari script.