DeepCast 产品需求文档 PRD

1. 文档信息

项目	内容
产品名称	DeepCast
产品定位	输入主题，自动完成深度调研并生成双人对谈播客的 AI Agent 产品 Demo
当前版本	v1.5 本地单用户 Demo
目标读者	产品评审者、面试官、开发维护者
文档目标	说明 DeepCast 的产品背景、用户问题、功能范围、核心流程、指标与后续迭代方向

2. 背景与问题

用户每天面对大量资讯、报告、论文和深度文章，但可用于阅读的整块时间有限。通勤、运动、家务等碎片化场景中，用户无法持续阅读，却可以收听音频。传统播客虽然适合这些场景，但内容生产依赖人工选题、撰稿、录制和剪辑，无法满足“任意主题、即时生成、个性化深度”的需求。

DeepCast 的核心假设是：如果 AI 能把开放主题自动转化为结构化研究报告，再把报告节目化为双人对谈播客，就能把深度阅读转化为可听知识内容，让用户在碎片化时间里完成更高质量的信息消费。

3. 产品目标

3.1 当前版本目标

跑通“输入主题 -> 任务规划 -> 搜索调研 -> 报告生成 -> 播客脚本 -> TTS 合成 -> MP3 播放”的端到端链路。
通过实时进度展示降低 AI 长任务等待焦虑。
通过 Markdown 报告保留内容可复核性。
通过双人对谈、节目蓝图和角色化 TTS 提升音频可听性。
作为 AI 产品经理作品集项目，展示场景定义、Agent 工作流设计、体验优化和稳定性迭代能力。

3.2 暂不做的目标

不做多用户账号体系。
不做线上任务队列和 SaaS 计费。
不做完整音频编辑器。
不做复杂的人工协同审核后台。
不做移动端 App。

4. 目标用户与使用场景

用户类型	核心痛点	使用场景	DeepCast 价值
城市白领 / 终身学习者	想学习但缺少整块阅读时间	通勤、运动、家务时听知识播客	把任意主题转为可听内容
行业分析师 / 投资人	信息源多、阅读压力大	快速了解某个行业或事件	自动调研并输出结构化摘要和音频
科研工作者 / 学生	跨领域资料门槛高	初步了解陌生概念或论文方向	双人讲解降低理解门槛
内容创作者	选题和脚本生产成本高	生成播客草稿或内容灵感	快速获得研究报告和节目脚本

5. 用户需求

5.1 核心需求

用户输入一个主题后，系统能自动拆解研究任务。
系统能通过搜索获取外部信息，而不是只依赖模型记忆。
用户能看到生成过程，知道系统正在做什么。
系统能生成一份可阅读、可复核的 Markdown 报告。
系统能将报告转化为自然的双人对谈脚本。
系统能合成可播放的播客音频。
如果某个阶段失败，系统应停止错误扩散，并给出可理解的失败状态。

5.2 延展需求

用户能选择模型、推理强度或生成深度。
用户能选择播客时长、风格、语速和主持人设。
用户能在生成前确认报告大纲或节目蓝图。
播客开头可加入短 BGM 或片头音效，增强产品感。
用户能下载报告、脚本和 MP3。

6. 产品范围

6.1 当前版本包含

主题输入
任务规划
Tavily + SerpApi 混合搜索
搜索结果过滤与权威性排序
并行研究摘要
迭代式深度搜索与信息饱和判断
报告大纲生成
报告 Self-Refine
节目蓝图生成
双人播客脚本生成
MiMo-V2.5-TTS 导演模式语音合成
FFmpeg / pydub 音频拼接
SSE 实时进度
Markdown 报告与 MP3 播放
异常终态、任务取消和报告失败兜底

6.2 后续版本考虑

输入 URL / PDF / Word / 公众号文章
用户可编辑报告大纲和节目蓝图
片头短 BGM
片段级重新生成
播客风格和时长选择
专题系列历史记忆复用
生成结果分享页
多用户任务隔离和任务队列

7. 核心用户流程

用户输入主题
  -> 前端提交 /research/stream
  -> 后端创建 DeepResearchAgent
  -> PlannerAgent 生成研究任务
  -> ResearcherAgent 并行搜索、过滤、摘要
  -> PlannerAgent 判断是否需要补充搜索
  -> WriterAgent 生成报告大纲和初稿
  -> CriticAgent 评估报告质量
  -> WriterAgent 修改报告
  -> WriterAgent 生成节目蓝图和双人脚本
  -> AudioGenerationService 逐句生成语音
  -> PodcastSynthesisService 拼接音频
  -> 前端展示播放器、报告和完成状态

8. 功能需求

8.1 主题输入

项目	说明
入口	首页输入框
输入	研究主题，建议 5-100 字
输出	创建研究任务并进入制作中状态
异常	空输入、过短输入需前端提示

8.2 实时进度

项目	说明
目标	降低 AI 长任务等待焦虑
事件	stage_change、todo_list、task_status、tool_call、sources、report_refine、audio_progress、podcast_ready、done、error、cancelled
展示	制作阶段、任务列表、来源、日志、音频进度
失败状态	展示失败原因，避免用户停留在静态 loading

8.3 调研与报告

项目	说明
任务规划	拆解 3-5 个研究子任务
搜索	Tavily + SerpApi 混合搜索
摘要	每个任务生成简短研究结论和来源概览
深度搜索	根据覆盖情况补充搜索，避免单轮搜索信息不足
报告	生成结构化 Markdown 报告，包含核心结论、关键发现、分析和局限
质量闭环	Critic 评估后 Writer 修改

8.4 播客脚本

项目	说明
节目蓝图	先生成 Hook、分段、转场和收尾结构
角色	Host 苏打、Guest 茉莉
输出格式	结构化 JSON 对话列表
脚本要求	对话自然，避免照读报告；包含情绪和 audio_tag
异常	JSON 解析失败或空脚本时终止音频生成

8.5 音频合成

项目	说明
TTS	MiMo-V2.5-TTS
语音控制	导演模式、VoiceDesign、音频标签
拼接	pydub + FFmpeg
输出	MP3 文件
后续增强	仅在开场加入 6-10 秒短 BGM，淡入淡出，不做全程背景音乐

8.6 异常处理

场景	处理策略
搜索超时	应用层重试，必要时保留已有搜索结果继续
LLM 超时或连接失败	应用层指数退避重试
报告返回空文本	不进入后续脚本和音频链路，直接报错
脚本 JSON 不合法	终止音频生成并返回错误
用户取消	前端 abort + 后端 cancel event
客户端断开	后端检测断开并取消任务

9. 非功能需求

类型	要求
可解释性	用户能看到任务拆解、搜索来源和阶段进度
稳定性	关键外部 API 调用支持重试和超时
可维护性	Agent 层负责业务角色，services 层负责底层能力
安全性	不在仓库提交 API Key；敏感配置通过 `.env` 注入
性能	本地 Demo 目标 2-5 分钟内完成一条中等复杂主题
可复核性	输出 Markdown 报告，保留来源摘要

10. 成功指标

当前版本不做完整埋点，但可以用以下指标定义后续产品化目标：

指标	含义	目标
TTFA	从提交主题到首段音频可播放	后续版本目标 < 30 秒
生成完成率	提交后成功生成 MP3 的比例	Demo 验证中持续提升
生成失败率	LLM、搜索、脚本、TTS 任一阶段失败比例	按阶段归因并逐步降低
点击播放率	完成后点击播放的比例	衡量音频吸引力
完播率	播放超过 80% 的比例	衡量内容可听性
报告复看率	用户查看 Markdown 报告的比例	衡量可信度和深读需求

北极星指标建议为 WAST（Weekly Average Session Time，活跃用户周均收听时长），用于后续产品化版本衡量 DeepCast 是否真正填补碎片化学习时间。

11. 版本规划

版本	目标	状态
v1.0	主题到播客 MVP，跑通搜索、脚本、TTS、MP3	已完成
v1.5	多 Agent 编排、深度搜索、报告 Self-Refine、SSE 体验	已完成
v1.6	片头短 BGM、示例 Demo 素材、README 展示完善	规划中
v2.0	支持 URL / PDF / Word 输入	规划中
v2.3	报告大纲和节目蓝图可确认、可编辑	规划中
v2.5	专题系列记忆复用、风格和时长控制	规划中
v3.0	多用户任务隔离、任务队列、失败归因和埋点	规划中

12. 风险与对策

风险	表现	对策
内容幻觉	报告或音频给出无来源结论	保留来源、强调局限、报告失败兜底
长任务等待流失	用户不知道系统是否卡住	SSE 进度、阶段说明、heartbeat、error 终态
外部 API 不稳定	搜索、LLM、TTS 超时或空返回	重试、超时、降级、阶段化失败提示
音频听感机械	用户觉得像朗读稿	节目蓝图、双角色、导演模式、语气标签
产品边界过大	从 Demo 变成复杂 SaaS	当前版本保持单用户本地 Demo，先验证核心链路
竞品能力同质化	同类产品都能生成双人播客	强化调研质量、过程透明和报告复核，而非只拼 TTS

13. 结论

DeepCast 的产品价值不在于单点 TTS，而在于把“研究 -> 报告 -> 节目化 -> 语音化”串成可解释、可复核、可播放的 Agent 工作流。当前版本适合作为 AI 产品经理作品集 Demo，展示从用户场景、竞品分析、Agent 流程设计、体验优化到稳定性兜底的一整套产品判断。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DeepCast 产品需求文档 PRD

1. 文档信息

2. 背景与问题

3. 产品目标

3.1 当前版本目标

3.2 暂不做的目标

4. 目标用户与使用场景

5. 用户需求

5.1 核心需求

5.2 延展需求

6. 产品范围

6.1 当前版本包含

6.2 后续版本考虑

7. 核心用户流程

8. 功能需求

8.1 主题输入

8.2 实时进度

8.3 调研与报告

8.4 播客脚本

8.5 音频合成

8.6 异常处理

9. 非功能需求

10. 成功指标

11. 版本规划

12. 风险与对策

13. 结论

FilesExpand file tree

DeepCast_PRD.md

Latest commit

History

DeepCast_PRD.md

File metadata and controls

DeepCast 产品需求文档 PRD

1. 文档信息

2. 背景与问题

3. 产品目标

3.1 当前版本目标

3.2 暂不做的目标

4. 目标用户与使用场景

5. 用户需求

5.1 核心需求

5.2 延展需求

6. 产品范围

6.1 当前版本包含

6.2 后续版本考虑

7. 核心用户流程

8. 功能需求

8.1 主题输入

8.2 实时进度

8.3 调研与报告

8.4 播客脚本

8.5 音频合成

8.6 异常处理

9. 非功能需求

10. 成功指标

11. 版本规划

12. 风险与对策

13. 结论