原因
个人实测,gull容器默认使用的agent-browser极易触发google/bing的人机验证,同样也无法通过cloudflare turnstile。这导致astrbot时不时需要切换到tavily fetch等按次计费工具来完成网页信息获取。
由此,建议增加Scrapling作为fallback方案,或是为其单独创建运行时。
项目readme
Scrapling 是一个自适应 Web Scraping 框架,能处理从单个请求到大规模爬取的一切需求。
它的解析器能够从网站变化中学习,并在页面更新时自动重新定位您的元素。它的 Fetcher 能够开箱即用地绕过 Cloudflare Turnstile 等反机器人系统。它的 Spider 框架让您可以扩展到并发、多 Session 爬取,支持暂停/恢复和自动 Proxy 轮换——只需几行 Python 代码。一个库,零妥协。
极速爬取,实时统计和 Streaming。由 Web Scraper 为 Web Scraper 和普通用户而构建,每个人都能找到适合自己的功能。
额外信息
项目作者编写的适用于openclaw的skill
安全合规
可以包装一个查看robots.txt的工具,由llm模型决定是否爬取
本人第一次发issue,如有错漏,望海涵
谢谢!
原因
个人实测,gull容器默认使用的agent-browser极易触发google/bing的人机验证,同样也无法通过cloudflare turnstile。这导致astrbot时不时需要切换到tavily fetch等按次计费工具来完成网页信息获取。
由此,建议增加Scrapling作为fallback方案,或是为其单独创建运行时。
项目readme
额外信息
项目作者编写的适用于openclaw的skill
安全合规
可以包装一个查看robots.txt的工具,由llm模型决定是否爬取
本人第一次发issue,如有错漏,望海涵
谢谢!