Skip to content

BobPlatinum/WeiboEchoScraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 

Repository files navigation

微博话题评论采集项目使用说明

1. 环境准备

确保 Python 版本 >= 3.10 推荐在 PyCharm 中打开本项目。

安装依赖:

pip install -r requirements.txt
playwright install chromium

2. 首次运行配置

打开 src/config.py,确认 TARGET_TOPICBASE_URL。 虽然代码中已预置了微博搜索链接,但由于微博有严格反爬(需要登录),建议:

  1. 运行前确保 HEADLESS = False (默认已设为False)。
  2. 程序启动后会自动打开浏览器。
  3. 如果看到登录界面,请手动扫码登录
  4. 登录成功后,在控制台按回车继续,程序会自动保存登录态。

3. DOM 选择器适配

src/config.py 中的 Selectors 类是基于通用结构的占位符。 对于微博搜索页 (s.weibo.com),你需要按 F12 检查元素并修改 src/config.py

例如(仅供参考,随时可能变动):

  • card_container: div.card-wrap
  • content_text: p.txt
  • user_name: a.name

4. 运行

在 PyCharm 中右键 src/main.py -> Run,或者终端运行(在项目根目录下):

python src/main.py

5. 数据结果

数据将以 jsonl 格式保存在 output/data.jsonl 中。

如果需要 CSV 格式,可以运行转换脚本:

python src/convert_jsonl_to_csv.py

这将在 output/ 目录下生成 data.csv 文件,支持 Excel 直接打开。

About

一个简单的微博舆论评论爬虫小工具

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages