确保 Python 版本 >= 3.10 推荐在 PyCharm 中打开本项目。
安装依赖:
pip install -r requirements.txt
playwright install chromium打开 src/config.py,确认 TARGET_TOPIC 和 BASE_URL。
虽然代码中已预置了微博搜索链接,但由于微博有严格反爬(需要登录),建议:
- 运行前确保
HEADLESS = False(默认已设为False)。 - 程序启动后会自动打开浏览器。
- 如果看到登录界面,请手动扫码登录。
- 登录成功后,在控制台按回车继续,程序会自动保存登录态。
src/config.py 中的 Selectors 类是基于通用结构的占位符。
对于微博搜索页 (s.weibo.com),你需要按 F12 检查元素并修改 src/config.py:
例如(仅供参考,随时可能变动):
card_container:div.card-wrapcontent_text:p.txtuser_name:a.name
在 PyCharm 中右键 src/main.py -> Run,或者终端运行(在项目根目录下):
python src/main.py数据将以 jsonl 格式保存在 output/data.jsonl 中。
如果需要 CSV 格式,可以运行转换脚本:
python src/convert_jsonl_to_csv.py这将在 output/ 目录下生成 data.csv 文件,支持 Excel 直接打开。