Skip to content

Latest commit

 

History

History
228 lines (179 loc) · 9.78 KB

File metadata and controls

228 lines (179 loc) · 9.78 KB

DeepCast 产品需求文档 PRD

1. 文档信息

项目 内容
产品名称 DeepCast
产品定位 输入主题,自动完成深度调研并生成双人对谈播客的 AI Agent 产品 Demo
当前版本 v1.5 本地单用户 Demo
目标读者 产品评审者、面试官、开发维护者
文档目标 说明 DeepCast 的产品背景、用户问题、功能范围、核心流程、指标与后续迭代方向

2. 背景与问题

用户每天面对大量资讯、报告、论文和深度文章,但可用于阅读的整块时间有限。通勤、运动、家务等碎片化场景中,用户无法持续阅读,却可以收听音频。传统播客虽然适合这些场景,但内容生产依赖人工选题、撰稿、录制和剪辑,无法满足“任意主题、即时生成、个性化深度”的需求。

DeepCast 的核心假设是:如果 AI 能把开放主题自动转化为结构化研究报告,再把报告节目化为双人对谈播客,就能把深度阅读转化为可听知识内容,让用户在碎片化时间里完成更高质量的信息消费。

3. 产品目标

3.1 当前版本目标

  • 跑通“输入主题 -> 任务规划 -> 搜索调研 -> 报告生成 -> 播客脚本 -> TTS 合成 -> MP3 播放”的端到端链路。
  • 通过实时进度展示降低 AI 长任务等待焦虑。
  • 通过 Markdown 报告保留内容可复核性。
  • 通过双人对谈、节目蓝图和角色化 TTS 提升音频可听性。
  • 作为 AI 产品经理作品集项目,展示场景定义、Agent 工作流设计、体验优化和稳定性迭代能力。

3.2 暂不做的目标

  • 不做多用户账号体系。
  • 不做线上任务队列和 SaaS 计费。
  • 不做完整音频编辑器。
  • 不做复杂的人工协同审核后台。
  • 不做移动端 App。

4. 目标用户与使用场景

用户类型 核心痛点 使用场景 DeepCast 价值
城市白领 / 终身学习者 想学习但缺少整块阅读时间 通勤、运动、家务时听知识播客 把任意主题转为可听内容
行业分析师 / 投资人 信息源多、阅读压力大 快速了解某个行业或事件 自动调研并输出结构化摘要和音频
科研工作者 / 学生 跨领域资料门槛高 初步了解陌生概念或论文方向 双人讲解降低理解门槛
内容创作者 选题和脚本生产成本高 生成播客草稿或内容灵感 快速获得研究报告和节目脚本

5. 用户需求

5.1 核心需求

  1. 用户输入一个主题后,系统能自动拆解研究任务。
  2. 系统能通过搜索获取外部信息,而不是只依赖模型记忆。
  3. 用户能看到生成过程,知道系统正在做什么。
  4. 系统能生成一份可阅读、可复核的 Markdown 报告。
  5. 系统能将报告转化为自然的双人对谈脚本。
  6. 系统能合成可播放的播客音频。
  7. 如果某个阶段失败,系统应停止错误扩散,并给出可理解的失败状态。

5.2 延展需求

  1. 用户能选择模型、推理强度或生成深度。
  2. 用户能选择播客时长、风格、语速和主持人设。
  3. 用户能在生成前确认报告大纲或节目蓝图。
  4. 播客开头可加入短 BGM 或片头音效,增强产品感。
  5. 用户能下载报告、脚本和 MP3。

6. 产品范围

6.1 当前版本包含

  • 主题输入
  • 任务规划
  • Tavily + SerpApi 混合搜索
  • 搜索结果过滤与权威性排序
  • 并行研究摘要
  • 迭代式深度搜索与信息饱和判断
  • 报告大纲生成
  • 报告 Self-Refine
  • 节目蓝图生成
  • 双人播客脚本生成
  • MiMo-V2.5-TTS 导演模式语音合成
  • FFmpeg / pydub 音频拼接
  • SSE 实时进度
  • Markdown 报告与 MP3 播放
  • 异常终态、任务取消和报告失败兜底

6.2 后续版本考虑

  • 输入 URL / PDF / Word / 公众号文章
  • 用户可编辑报告大纲和节目蓝图
  • 片头短 BGM
  • 片段级重新生成
  • 播客风格和时长选择
  • 专题系列历史记忆复用
  • 生成结果分享页
  • 多用户任务隔离和任务队列

7. 核心用户流程

用户输入主题
  -> 前端提交 /research/stream
  -> 后端创建 DeepResearchAgent
  -> PlannerAgent 生成研究任务
  -> ResearcherAgent 并行搜索、过滤、摘要
  -> PlannerAgent 判断是否需要补充搜索
  -> WriterAgent 生成报告大纲和初稿
  -> CriticAgent 评估报告质量
  -> WriterAgent 修改报告
  -> WriterAgent 生成节目蓝图和双人脚本
  -> AudioGenerationService 逐句生成语音
  -> PodcastSynthesisService 拼接音频
  -> 前端展示播放器、报告和完成状态

8. 功能需求

8.1 主题输入

项目 说明
入口 首页输入框
输入 研究主题,建议 5-100 字
输出 创建研究任务并进入制作中状态
异常 空输入、过短输入需前端提示

8.2 实时进度

项目 说明
目标 降低 AI 长任务等待焦虑
事件 stage_change、todo_list、task_status、tool_call、sources、report_refine、audio_progress、podcast_ready、done、error、cancelled
展示 制作阶段、任务列表、来源、日志、音频进度
失败状态 展示失败原因,避免用户停留在静态 loading

8.3 调研与报告

项目 说明
任务规划 拆解 3-5 个研究子任务
搜索 Tavily + SerpApi 混合搜索
摘要 每个任务生成简短研究结论和来源概览
深度搜索 根据覆盖情况补充搜索,避免单轮搜索信息不足
报告 生成结构化 Markdown 报告,包含核心结论、关键发现、分析和局限
质量闭环 Critic 评估后 Writer 修改

8.4 播客脚本

项目 说明
节目蓝图 先生成 Hook、分段、转场和收尾结构
角色 Host 苏打、Guest 茉莉
输出格式 结构化 JSON 对话列表
脚本要求 对话自然,避免照读报告;包含情绪和 audio_tag
异常 JSON 解析失败或空脚本时终止音频生成

8.5 音频合成

项目 说明
TTS MiMo-V2.5-TTS
语音控制 导演模式、VoiceDesign、音频标签
拼接 pydub + FFmpeg
输出 MP3 文件
后续增强 仅在开场加入 6-10 秒短 BGM,淡入淡出,不做全程背景音乐

8.6 异常处理

场景 处理策略
搜索超时 应用层重试,必要时保留已有搜索结果继续
LLM 超时或连接失败 应用层指数退避重试
报告返回空文本 不进入后续脚本和音频链路,直接报错
脚本 JSON 不合法 终止音频生成并返回错误
用户取消 前端 abort + 后端 cancel event
客户端断开 后端检测断开并取消任务

9. 非功能需求

类型 要求
可解释性 用户能看到任务拆解、搜索来源和阶段进度
稳定性 关键外部 API 调用支持重试和超时
可维护性 Agent 层负责业务角色,services 层负责底层能力
安全性 不在仓库提交 API Key;敏感配置通过 .env 注入
性能 本地 Demo 目标 2-5 分钟内完成一条中等复杂主题
可复核性 输出 Markdown 报告,保留来源摘要

10. 成功指标

当前版本不做完整埋点,但可以用以下指标定义后续产品化目标:

指标 含义 目标
TTFA 从提交主题到首段音频可播放 后续版本目标 < 30 秒
生成完成率 提交后成功生成 MP3 的比例 Demo 验证中持续提升
生成失败率 LLM、搜索、脚本、TTS 任一阶段失败比例 按阶段归因并逐步降低
点击播放率 完成后点击播放的比例 衡量音频吸引力
完播率 播放超过 80% 的比例 衡量内容可听性
报告复看率 用户查看 Markdown 报告的比例 衡量可信度和深读需求

北极星指标建议为 WAST(Weekly Average Session Time,活跃用户周均收听时长),用于后续产品化版本衡量 DeepCast 是否真正填补碎片化学习时间。

11. 版本规划

版本 目标 状态
v1.0 主题到播客 MVP,跑通搜索、脚本、TTS、MP3 已完成
v1.5 多 Agent 编排、深度搜索、报告 Self-Refine、SSE 体验 已完成
v1.6 片头短 BGM、示例 Demo 素材、README 展示完善 规划中
v2.0 支持 URL / PDF / Word 输入 规划中
v2.3 报告大纲和节目蓝图可确认、可编辑 规划中
v2.5 专题系列记忆复用、风格和时长控制 规划中
v3.0 多用户任务隔离、任务队列、失败归因和埋点 规划中

12. 风险与对策

风险 表现 对策
内容幻觉 报告或音频给出无来源结论 保留来源、强调局限、报告失败兜底
长任务等待流失 用户不知道系统是否卡住 SSE 进度、阶段说明、heartbeat、error 终态
外部 API 不稳定 搜索、LLM、TTS 超时或空返回 重试、超时、降级、阶段化失败提示
音频听感机械 用户觉得像朗读稿 节目蓝图、双角色、导演模式、语气标签
产品边界过大 从 Demo 变成复杂 SaaS 当前版本保持单用户本地 Demo,先验证核心链路
竞品能力同质化 同类产品都能生成双人播客 强化调研质量、过程透明和报告复核,而非只拼 TTS

13. 结论

DeepCast 的产品价值不在于单点 TTS,而在于把“研究 -> 报告 -> 节目化 -> 语音化”串成可解释、可复核、可播放的 Agent 工作流。当前版本适合作为 AI 产品经理作品集 Demo,展示从用户场景、竞品分析、Agent 流程设计、体验优化到稳定性兜底的一整套产品判断。