参考 https://github.com/dzhng/deep-research 中的方法,用python实现了一遍deep research agent。通过自然语言提问,Agent 能够:
- 自动生成 SERP 查询: 根据用户提出的研究主题,智能生成一系列相关的搜索引擎查询。
- 深度网络爬取: 利用
firecrawl库进行高效的网络爬取,获取丰富的网页内容。 - 知识提取与学习: 借助 LLM 模型 (如
gpt-4o),从爬取结果中提取关键信息和知识点。 - 报告撰写: 将研究成果整理成结构清晰、内容详实的 Markdown 格式报告。
确保安装了 Python 3.12 或更高版本。
首先,将项目代码克隆到本地:
git clone [您的项目仓库地址]
cd [项目目录名]使用 pip 安装项目所需的 Python 依赖:
pip install -r requirements.txt在 main.py 中,需要配置以下参数:
llm_api_key: llm 的 API 密钥,需要在OpenAI官网或其他llm官网获得llm_base_url: llm API 的URLfirecrawl_api_key: firecrawl 的 API 密钥,需要在Firecrawl官网获得research_query: 需要进行研究的主题。
运行 main.py 开始进行research:
python main.pydeep-research-agent/
├── main.py # 主程序入口文件
├── Agent/ # Agent 核心模块
│ ├── config.py # 参数管理
│ ├── dfs_research.py # 迭代research实现
│ ├── app_utils/ # api工具模块
│ │ ├── firecrawl_app.py # Firecrawl API 封装
│ │ ├── llm_app.py # LLM API 封装和 Prompt 定义
│ ├── utils/ # 其他工具
│ │ ├── log.py # 配置log
├── requirements.txt # 项目依赖列表
├── README.md # README 文件
└── app.log # 日志文件 (程序运行时自动生成)