Dự án Foody Crawl

Dự án thu thập và quản lý dữ liệu từ Foody.vn, tập trung vào các danh mục giải trí như Karaoke, Billiards, Rạp chiếu phim, Sân khấu và Khu chơi Game tại các thành phố của Việt Nam.

Tổng quan hệ thống

Dự án được thiết kế theo kiến trúc microservices, bao gồm các thành phần sau:

1. Dịch vụ Gateway (API Gateway)

Đóng vai trò là cổng kết nối cho toàn bộ hệ thống, quản lý và điều hướng các yêu cầu API từ người dùng đến các dịch vụ nội bộ tương ứng.

Chức năng chính:

Điều hướng các yêu cầu API đến đúng dịch vụ nội bộ
Cung cấp một điểm truy cập thống nhất cho toàn bộ hệ thống
Đơn giản hóa việc truy cập cho người dùng và các dịch vụ khác

2. Dịch vụ Thu thập dữ liệu (Data Crawling Service)

Thu thập dữ liệu từ trang web Foody.vn theo lịch trình hoặc theo yêu cầu.

Chức năng chính:

Thu thập dữ liệu tự động theo lịch trình hàng ngày
Thu thập dữ liệu theo yêu cầu người dùng
Theo dõi trạng thái thu thập dữ liệu qua WebSocket
Tạm dừng, tiếp tục hoặc dừng quá trình thu thập

3. Dịch vụ Nhập dữ liệu (Data Ingestion Service)

Thu thập và xử lý dữ liệu từ các file JSON được tạo ra bởi hệ thống crawler, sau đó gửi dữ liệu đã xử lý đến API cơ sở dữ liệu.

Chức năng chính:

Kiểm tra và xử lý các file .done trong thư mục landing zone
Trích xuất dữ liệu cửa hàng từ các file JSON tương ứng
Chuyển đổi dữ liệu thành định dạng phù hợp
Gửi dữ liệu đến API cơ sở dữ liệu
Đánh dấu các file đã xử lý bằng cách đổi tên từ .done thành .processed

4. Dịch vụ API Cơ sở dữ liệu (Database API Service)

Cung cấp API để truy xuất, thêm, tìm kiếm và quản lý dữ liệu cửa hàng (store), thành phố (city), danh mục (category).

Chức năng chính:

Cung cấp các endpoint RESTful để truy vấn dữ liệu
Kết nối trực tiếp với cơ sở dữ liệu MySQL
Xử lý yêu cầu từ các dịch vụ khác và frontend

5. Dịch vụ Cơ sở dữ liệu (Database Service)

Quản lý cơ sở dữ liệu MySQL cho toàn bộ hệ thống.

Chức năng chính:

Khởi tạo và cấu hình cơ sở dữ liệu
Tạo các bảng và quan hệ cần thiết
Lưu trữ dữ liệu cửa hàng, thành phố, danh mục

6. Dịch vụ Giao diện người dùng (Frontend Service)

Cung cấp giao diện người dùng để tương tác với hệ thống.

Chức năng chính:

Hiển thị dữ liệu cửa hàng, thành phố, danh mục
Cho phép người dùng tìm kiếm và lọc dữ liệu
Cung cấp giao diện để quản lý quá trình thu thập dữ liệu

Luồng dữ liệu

Thu thập dữ liệu: Dịch vụ Thu thập dữ liệu crawl dữ liệu từ Foody.vn và lưu vào thư mục landing_zone.
Xử lý dữ liệu: Dịch vụ Nhập dữ liệu đọc các file trong landing_zone và gửi dữ liệu đã xử lý đến Database API.
Lưu trữ dữ liệu: Database API lưu dữ liệu vào cơ sở dữ liệu MySQL.
Truy vấn dữ liệu: Frontend và các dịch vụ khác truy vấn dữ liệu thông qua Database API.

Cài đặt và chạy

Yêu cầu hệ thống

Docker và Docker Compose
Git

Các bước cài đặt

Clone repository:

git clone https://github.com/your-username/foody-crawl-project.git
cd foody-crawl-project

Khởi động toàn bộ hệ thống:

docker-compose up -d

Truy cập các dịch vụ:
- Frontend: http://localhost:80
- API Gateway: http://localhost:8080
- Database API: http://localhost:8001 (qua Gateway)
- Crawling API: http://localhost:8000 (qua Gateway)

Cấu trúc thư mục

foody-crawl-project/
├── gateway/                # Dịch vụ Gateway
├── data_crawling_service/  # Dịch vụ Thu thập dữ liệu
├── data_ingestion_service/ # Dịch vụ Nhập dữ liệu
├── database_api_service/   # Dịch vụ API Cơ sở dữ liệu
├── database_service/       # Dịch vụ Cơ sở dữ liệu
├── frontend_service/       # Dịch vụ Giao diện người dùng
├── landing_zone/           # Thư mục lưu trữ dữ liệu tạm thời
└── docker-compose.yml      # Cấu hình Docker Compose

Đóng góp

Fork repository
Tạo branch mới (git checkout -b feature/amazing-feature)
Commit thay đổi (git commit -m 'Add some amazing feature')
Push lên branch (git push origin feature/amazing-feature)
Tạo Pull Request

Giấy phép

Dự án này chỉ để phục vụ nghiên cứu và học tập, không hề có bất cứ ý đồ gây tổn hại nào cho Foody

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Dự án Foody Crawl

Tổng quan hệ thống

1. Dịch vụ Gateway (API Gateway)

2. Dịch vụ Thu thập dữ liệu (Data Crawling Service)

3. Dịch vụ Nhập dữ liệu (Data Ingestion Service)

4. Dịch vụ API Cơ sở dữ liệu (Database API Service)

5. Dịch vụ Cơ sở dữ liệu (Database Service)

6. Dịch vụ Giao diện người dùng (Frontend Service)

Luồng dữ liệu

Cài đặt và chạy

Yêu cầu hệ thống

Các bước cài đặt

Cấu trúc thư mục

Đóng góp

Giấy phép

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
data_crawling_service		data_crawling_service
data_ingestion_service		data_ingestion_service
database_api_service		database_api_service
database_service		database_service
frontend_service		frontend_service
gateway		gateway
.gitignore		.gitignore
README.md		README.md
docker-compose.yml		docker-compose.yml

Folders and files

Latest commit

History

Repository files navigation

Dự án Foody Crawl

Tổng quan hệ thống

1. Dịch vụ Gateway (API Gateway)

2. Dịch vụ Thu thập dữ liệu (Data Crawling Service)

3. Dịch vụ Nhập dữ liệu (Data Ingestion Service)

4. Dịch vụ API Cơ sở dữ liệu (Database API Service)

5. Dịch vụ Cơ sở dữ liệu (Database Service)

6. Dịch vụ Giao diện người dùng (Frontend Service)

Luồng dữ liệu

Cài đặt và chạy

Yêu cầu hệ thống

Các bước cài đặt

Cấu trúc thư mục

Đóng góp

Giấy phép

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages