Skip to content

Feature:为gull添加Scrapling支持 #13

@pipiwego

Description

@pipiwego

原因

个人实测,gull容器默认使用的agent-browser极易触发google/bing的人机验证,同样也无法通过cloudflare turnstile。这导致astrbot时不时需要切换到tavily fetch等按次计费工具来完成网页信息获取。
由此,建议增加Scrapling作为fallback方案,或是为其单独创建运行时。

项目readme

Scrapling 是一个自适应 Web Scraping 框架,能处理从单个请求到大规模爬取的一切需求。
它的解析器能够从网站变化中学习,并在页面更新时自动重新定位您的元素。它的 Fetcher 能够开箱即用地绕过 Cloudflare Turnstile 等反机器人系统。它的 Spider 框架让您可以扩展到并发、多 Session 爬取,支持暂停/恢复和自动 Proxy 轮换——只需几行 Python 代码。一个库,零妥协。
极速爬取,实时统计和 Streaming。由 Web Scraper 为 Web Scraper 和普通用户而构建,每个人都能找到适合自己的功能。

额外信息

项目作者编写的适用于openclaw的skill

安全合规

可以包装一个查看robots.txt的工具,由llm模型决定是否爬取

本人第一次发issue,如有错漏,望海涵
谢谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions