Project ini adalah sistem pencarian dokumen simpel yang dibangun pakai TF-IDF + Cosine Similarity, terus di-bungkus jadi web app dengan Streamlit.
Intinya: dari data teks mentah β jadi search engine mini yang interaktif. π₯
- Keyword Search β Ketik query, dapet artikel paling relevan.
- Category Filter β Bisa pilih kategori berita (Business, Politics, Sport, Tech, Entertainment).
- Highlight Result β Kata kunci otomatis di-highlight.
- Custom Top-K β Atur jumlah hasil (Top-5, Top-10, dst).
- Precision@K β Metode evaluasi simpel biar lebih machine learning vibe.
- Bahasa: Python 3.9+
- Library:
- scikit-learn β TF-IDF + Cosine Similarity
- pandas β Data wrangling
- NLTK β Preprocessing teks
- Streamlit β Web interface (frontend + backend langsung jadi)
QueryLens/
βββ Dataset/
β βββ bbc_news.csv # Dataset (hasil konversi dari .txt ke .csv)
β
βββ app/
β βββ app.py # Streamlit app utama
β βββ preprocessing.py # Preprocessing teks
β βββ search_engine.py # Core TF-IDF + Cosine Similarity
β
βββ requirements.txt # Dependency Python
βββ README.md # Dokumentasi project
- Source: BBC News Dataset (Kaggle)
- Udah diproses jadi CSV dengan field:
titleβ judul artikel (atau kalimat pertama)categoryβ kategori beritatextβ isi artikel lengkap
- Clone repo ini
git clone https://github.com/Centauryyy25/QueryLens.git cd QueryLens
π€ Author
===
Created by Ilham Ahsan Saputra
π Informatics Student
π» Junior Network Engineer | AI & ML Enthusiast
π βTurning raw data into meaningful insights through Machine Learning.β