| 项目 |
内容 |
| 产品名称 |
DeepCast |
| 产品定位 |
输入主题,自动完成深度调研并生成双人对谈播客的 AI Agent 产品 Demo |
| 当前版本 |
v1.5 本地单用户 Demo |
| 目标读者 |
产品评审者、面试官、开发维护者 |
| 文档目标 |
说明 DeepCast 的产品背景、用户问题、功能范围、核心流程、指标与后续迭代方向 |
用户每天面对大量资讯、报告、论文和深度文章,但可用于阅读的整块时间有限。通勤、运动、家务等碎片化场景中,用户无法持续阅读,却可以收听音频。传统播客虽然适合这些场景,但内容生产依赖人工选题、撰稿、录制和剪辑,无法满足“任意主题、即时生成、个性化深度”的需求。
DeepCast 的核心假设是:如果 AI 能把开放主题自动转化为结构化研究报告,再把报告节目化为双人对谈播客,就能把深度阅读转化为可听知识内容,让用户在碎片化时间里完成更高质量的信息消费。
- 跑通“输入主题 -> 任务规划 -> 搜索调研 -> 报告生成 -> 播客脚本 -> TTS 合成 -> MP3 播放”的端到端链路。
- 通过实时进度展示降低 AI 长任务等待焦虑。
- 通过 Markdown 报告保留内容可复核性。
- 通过双人对谈、节目蓝图和角色化 TTS 提升音频可听性。
- 作为 AI 产品经理作品集项目,展示场景定义、Agent 工作流设计、体验优化和稳定性迭代能力。
- 不做多用户账号体系。
- 不做线上任务队列和 SaaS 计费。
- 不做完整音频编辑器。
- 不做复杂的人工协同审核后台。
- 不做移动端 App。
| 用户类型 |
核心痛点 |
使用场景 |
DeepCast 价值 |
| 城市白领 / 终身学习者 |
想学习但缺少整块阅读时间 |
通勤、运动、家务时听知识播客 |
把任意主题转为可听内容 |
| 行业分析师 / 投资人 |
信息源多、阅读压力大 |
快速了解某个行业或事件 |
自动调研并输出结构化摘要和音频 |
| 科研工作者 / 学生 |
跨领域资料门槛高 |
初步了解陌生概念或论文方向 |
双人讲解降低理解门槛 |
| 内容创作者 |
选题和脚本生产成本高 |
生成播客草稿或内容灵感 |
快速获得研究报告和节目脚本 |
- 用户输入一个主题后,系统能自动拆解研究任务。
- 系统能通过搜索获取外部信息,而不是只依赖模型记忆。
- 用户能看到生成过程,知道系统正在做什么。
- 系统能生成一份可阅读、可复核的 Markdown 报告。
- 系统能将报告转化为自然的双人对谈脚本。
- 系统能合成可播放的播客音频。
- 如果某个阶段失败,系统应停止错误扩散,并给出可理解的失败状态。
- 用户能选择模型、推理强度或生成深度。
- 用户能选择播客时长、风格、语速和主持人设。
- 用户能在生成前确认报告大纲或节目蓝图。
- 播客开头可加入短 BGM 或片头音效,增强产品感。
- 用户能下载报告、脚本和 MP3。
- 主题输入
- 任务规划
- Tavily + SerpApi 混合搜索
- 搜索结果过滤与权威性排序
- 并行研究摘要
- 迭代式深度搜索与信息饱和判断
- 报告大纲生成
- 报告 Self-Refine
- 节目蓝图生成
- 双人播客脚本生成
- MiMo-V2.5-TTS 导演模式语音合成
- FFmpeg / pydub 音频拼接
- SSE 实时进度
- Markdown 报告与 MP3 播放
- 异常终态、任务取消和报告失败兜底
- 输入 URL / PDF / Word / 公众号文章
- 用户可编辑报告大纲和节目蓝图
- 片头短 BGM
- 片段级重新生成
- 播客风格和时长选择
- 专题系列历史记忆复用
- 生成结果分享页
- 多用户任务隔离和任务队列
用户输入主题
-> 前端提交 /research/stream
-> 后端创建 DeepResearchAgent
-> PlannerAgent 生成研究任务
-> ResearcherAgent 并行搜索、过滤、摘要
-> PlannerAgent 判断是否需要补充搜索
-> WriterAgent 生成报告大纲和初稿
-> CriticAgent 评估报告质量
-> WriterAgent 修改报告
-> WriterAgent 生成节目蓝图和双人脚本
-> AudioGenerationService 逐句生成语音
-> PodcastSynthesisService 拼接音频
-> 前端展示播放器、报告和完成状态
| 项目 |
说明 |
| 入口 |
首页输入框 |
| 输入 |
研究主题,建议 5-100 字 |
| 输出 |
创建研究任务并进入制作中状态 |
| 异常 |
空输入、过短输入需前端提示 |
| 项目 |
说明 |
| 目标 |
降低 AI 长任务等待焦虑 |
| 事件 |
stage_change、todo_list、task_status、tool_call、sources、report_refine、audio_progress、podcast_ready、done、error、cancelled |
| 展示 |
制作阶段、任务列表、来源、日志、音频进度 |
| 失败状态 |
展示失败原因,避免用户停留在静态 loading |
| 项目 |
说明 |
| 任务规划 |
拆解 3-5 个研究子任务 |
| 搜索 |
Tavily + SerpApi 混合搜索 |
| 摘要 |
每个任务生成简短研究结论和来源概览 |
| 深度搜索 |
根据覆盖情况补充搜索,避免单轮搜索信息不足 |
| 报告 |
生成结构化 Markdown 报告,包含核心结论、关键发现、分析和局限 |
| 质量闭环 |
Critic 评估后 Writer 修改 |
| 项目 |
说明 |
| 节目蓝图 |
先生成 Hook、分段、转场和收尾结构 |
| 角色 |
Host 苏打、Guest 茉莉 |
| 输出格式 |
结构化 JSON 对话列表 |
| 脚本要求 |
对话自然,避免照读报告;包含情绪和 audio_tag |
| 异常 |
JSON 解析失败或空脚本时终止音频生成 |
| 项目 |
说明 |
| TTS |
MiMo-V2.5-TTS |
| 语音控制 |
导演模式、VoiceDesign、音频标签 |
| 拼接 |
pydub + FFmpeg |
| 输出 |
MP3 文件 |
| 后续增强 |
仅在开场加入 6-10 秒短 BGM,淡入淡出,不做全程背景音乐 |
| 场景 |
处理策略 |
| 搜索超时 |
应用层重试,必要时保留已有搜索结果继续 |
| LLM 超时或连接失败 |
应用层指数退避重试 |
| 报告返回空文本 |
不进入后续脚本和音频链路,直接报错 |
| 脚本 JSON 不合法 |
终止音频生成并返回错误 |
| 用户取消 |
前端 abort + 后端 cancel event |
| 客户端断开 |
后端检测断开并取消任务 |
| 类型 |
要求 |
| 可解释性 |
用户能看到任务拆解、搜索来源和阶段进度 |
| 稳定性 |
关键外部 API 调用支持重试和超时 |
| 可维护性 |
Agent 层负责业务角色,services 层负责底层能力 |
| 安全性 |
不在仓库提交 API Key;敏感配置通过 .env 注入 |
| 性能 |
本地 Demo 目标 2-5 分钟内完成一条中等复杂主题 |
| 可复核性 |
输出 Markdown 报告,保留来源摘要 |
当前版本不做完整埋点,但可以用以下指标定义后续产品化目标:
| 指标 |
含义 |
目标 |
| TTFA |
从提交主题到首段音频可播放 |
后续版本目标 < 30 秒 |
| 生成完成率 |
提交后成功生成 MP3 的比例 |
Demo 验证中持续提升 |
| 生成失败率 |
LLM、搜索、脚本、TTS 任一阶段失败比例 |
按阶段归因并逐步降低 |
| 点击播放率 |
完成后点击播放的比例 |
衡量音频吸引力 |
| 完播率 |
播放超过 80% 的比例 |
衡量内容可听性 |
| 报告复看率 |
用户查看 Markdown 报告的比例 |
衡量可信度和深读需求 |
北极星指标建议为 WAST(Weekly Average Session Time,活跃用户周均收听时长),用于后续产品化版本衡量 DeepCast 是否真正填补碎片化学习时间。
| 版本 |
目标 |
状态 |
| v1.0 |
主题到播客 MVP,跑通搜索、脚本、TTS、MP3 |
已完成 |
| v1.5 |
多 Agent 编排、深度搜索、报告 Self-Refine、SSE 体验 |
已完成 |
| v1.6 |
片头短 BGM、示例 Demo 素材、README 展示完善 |
规划中 |
| v2.0 |
支持 URL / PDF / Word 输入 |
规划中 |
| v2.3 |
报告大纲和节目蓝图可确认、可编辑 |
规划中 |
| v2.5 |
专题系列记忆复用、风格和时长控制 |
规划中 |
| v3.0 |
多用户任务隔离、任务队列、失败归因和埋点 |
规划中 |
| 风险 |
表现 |
对策 |
| 内容幻觉 |
报告或音频给出无来源结论 |
保留来源、强调局限、报告失败兜底 |
| 长任务等待流失 |
用户不知道系统是否卡住 |
SSE 进度、阶段说明、heartbeat、error 终态 |
| 外部 API 不稳定 |
搜索、LLM、TTS 超时或空返回 |
重试、超时、降级、阶段化失败提示 |
| 音频听感机械 |
用户觉得像朗读稿 |
节目蓝图、双角色、导演模式、语气标签 |
| 产品边界过大 |
从 Demo 变成复杂 SaaS |
当前版本保持单用户本地 Demo,先验证核心链路 |
| 竞品能力同质化 |
同类产品都能生成双人播客 |
强化调研质量、过程透明和报告复核,而非只拼 TTS |
DeepCast 的产品价值不在于单点 TTS,而在于把“研究 -> 报告 -> 节目化 -> 语音化”串成可解释、可复核、可播放的 Agent 工作流。当前版本适合作为 AI 产品经理作品集 Demo,展示从用户场景、竞品分析、Agent 流程设计、体验优化到稳定性兜底的一整套产品判断。