PodcaSphere

面向播客作者及播客听众的音频转文字/讲稿应用，通过音频文件生成讲稿并储存，支持说话人音色分割，使用FastAPI实现，支持异步处理，支持快速部署。

动机

作为播客爱好者，小宇宙的搜索流程不能满足日常的需求，不能实现对音频中的关键字进行搜索，同时没有对播客创作者提供选题或文本稿件的能力。结合whisper模型和LLM提供高质量的搜索工作流，实现高质量搜索和文本生成，后期会实现音色的克隆。

python>=3.8

pip install -r requirements.txt

更改confid/deploy.yaml文件，设置${hf_token}，具体详见，开通pyannote/speaker-diarization-3.1授权

运行命令

python main.py

访问http://0.0.0.0:8080/docs获取接口文档信息

使用url结尾为async/的接口能够提交task任务，可以通过/status/{task_id}和/cancel/{task_id}查看任务状态或取消任务，通过/tasks查看所有历史任务。