-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathappendix.html
More file actions
205 lines (175 loc) · 14.4 KB
/
appendix.html
File metadata and controls
205 lines (175 loc) · 14.4 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>附录(小白指南) - 无界音流</title>
<link rel="stylesheet" href="style.css">
</head>
<body>
<div class="sidebar">
<a href="welcome.html" class="sidebar-logo">
<svg width="24" height="24" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" style="color: var(--primary-color);"><path d="M12 2a3 3 0 0 0-3 3v7a3 3 0 0 0 6 0V5a3 3 0 0 0-3-3Z"></path><path d="M19 10v2a7 7 0 0 1-14 0v-2"></path><line x1="12" y1="19" x2="12" y2="22"></line></svg>
无界音流
</a>
<div class="sidebar-group">开始使用</div>
<ul>
<li><a href="welcome.html">什么是无界音流?</a></li>
<li><a href="onboarding.html">引导页配置向导</a></li>
</ul>
<div class="sidebar-group">核心功能</div>
<ul>
<li><a href="stt.html">实时 STT 与模型选择</a></li>
<li><a href="translation.html">实时翻译功能</a></li>
<li><a href="proofreading-summary.html">AI 纠错与智能总结</a></li>
<li><a href="tts-voice-cloning.html">语音合成与声音克隆</a></li>
<li><a href="sts.html">STS 同传工作台</a></li>
<li><a href="linglu.html">灵录 · 实时分叉树纪要</a></li>
</ul>
<div class="sidebar-group">附录</div>
<ul>
<li><a href="appendix.html" class="active">小白指南</a></li>
</ul>
<div style="margin-top: auto; padding-top: 1rem; border-top: 1px solid var(--border-color);">
<a href="appendix-en.html" style="display: flex; align-items: center; gap: 0.5rem;">
<svg width="16" height="16" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"><circle cx="12" cy="12" r="10"></circle><line x1="2" y1="12" x2="22" y2="12"></line><path d="M12 2a15.3 15.3 0 0 1 4 10 15.3 15.3 0 0 1-4 10 15.3 15.3 0 0 1-4-10 15.3 15.3 0 0 1 4-10z"></path></svg>
English Version
</a>
</div>
</div>
<div class="main-content">
<div class="content-wrapper">
<h1>附录(小白指南)</h1>
<p>如果您是第一次接触“模型下载 / 本地大模型 / 云端 API”,建议先从这里开始:一步一步照做即可。</p>
<h2 id="appendix-modelscope">附录 A:ModelScope(模型下载)</h2>
<p><strong>适用场景:</strong>下载 STT(SenseVoice)与本地 TTS(Qwen3-TTS / Index-TTS2)模型文件。</p>
<p><strong>官方文档:</strong><a href="https://www.modelscope.cn/docs/" target="_blank" rel="noopener noreferrer">https://www.modelscope.cn/docs/</a></p>
<h3>1) 是否需要注册/登录?</h3>
<p>大多数公开模型无需登录即可下载;如果遇到“权限/访问受限”等提示,通常需要在 ModelScope 网站登录后按提示开通访问权限。</p>
<h3>2) 先确认系统架构(选对安装包/环境)</h3>
<ul>
<li><strong>Windows</strong>:打开“设置 → 系统 → 关于”,查看“系统类型”;或在 PowerShell 执行 <code>$env:PROCESSOR_ARCHITECTURE</code></li>
<li><strong>macOS</strong>:点左上角“ → 关于本机”,查看“芯片”;或在终端执行 <code>uname -m</code></li>
<li><strong>Linux</strong>:在终端执行 <code>uname -m</code></li>
</ul>
<h3>3) 安装 ModelScope CLI</h3>
<p>ModelScope 的下载命令来自其 CLI(需要本机有 Python 与 pip)。常见方式如下:</p>
<pre><code>pip install modelscope
modelscope --help</code></pre>
<h3>4) 找模型(如果需要)</h3>
<p>打开 ModelScope 网站,搜索模型名(例如 SenseVoice / Qwen3-TTS / IndexTTS-2),进入模型详情页复制模型 ID。</p>
<h3>5) 下载示例(与你的文档保持一致)</h3>
<pre><code>modelscope download --model iic/SenseVoiceSmall --local_dir ./SenseVoiceSmall
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-Base --local_dir ./Qwen/Qwen3-TTS-12Hz-1.7B-Base
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --local_dir ./Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign
modelscope download --model IndexTeam/IndexTTS-2 --local_dir ./IndexTeam/IndexTTS-2</code></pre>
<h3>6) 在无界音流里怎么填路径?</h3>
<ul>
<li><strong>STT 模型目录</strong>:填写 SenseVoice 的下载目录(例如 <code>./SenseVoiceSmall</code>)</li>
<li><strong>TTS 模型目录</strong>:填写您要使用的 TTS 模型目录(例如 <code>./Qwen/Qwen3-TTS-12Hz-1.7B-Base</code> 或 <code>./IndexTeam/IndexTTS-2</code>)</li>
</ul>
<h3>7) 小白用例(最短路径)</h3>
<ol>
<li>按上面命令下载 <code>iic/SenseVoiceSmall</code></li>
<li>打开无界音流 → 设置 → 模型目录,指向 <code>SenseVoiceSmall</code> 目录</li>
<li>回到主界面按 <code>RightAlt</code> 开始说话,看文字是否实时出现</li>
</ol>
<h2 id="appendix-ollama">附录 B:Ollama(本地大模型:翻译 / 纠错 / 总结)</h2>
<p><strong>适用场景:</strong>本机/局域网运行翻译模型与总结模型。无界音流会自动调用 Ollama 原生 <code>/api/chat</code>,所以 Base URL 只需填 <strong>服务地址</strong>,不需要带 <code>/v1</code>(典型 Base URL:<code>http://localhost:11434</code>)。</p>
<p><strong>官方文档:</strong><a href="https://docs.ollama.com/" target="_blank" rel="noopener noreferrer">https://docs.ollama.com/</a></p>
<p><strong>API 参考:</strong><a href="https://github.com/ollama/ollama/blob/main/docs/api.md" target="_blank" rel="noopener noreferrer">Ollama 原生 API</a> · <a href="https://docs.ollama.com/api/openai-compatibility" target="_blank" rel="noopener noreferrer">OpenAI 兼容协议</a></p>
<h3>1) 安装(按系统/架构选择下载)</h3>
<ul>
<li><strong>Windows / macOS / Linux</strong>:优先按官方文档的“Download / Get started”指引安装对应架构版本</li>
</ul>
<h3>2) 验证安装</h3>
<pre><code>ollama --version</code></pre>
<h3>3) 拉取模型(与你的文档保持一致)</h3>
<pre><code>ollama pull ZimaBlueAI/HY-MT1.5-1.8:1.8b # 或 :7b
ollama pull qwen3:4b</code></pre>
<p><strong>注意:</strong>该翻译模型在 Ollama 中没有 <code>latest</code> 标签,<strong>必须带 tag 后缀</strong>(如 <code>:1.8b</code>、<code>:7b</code>),否则会报 <code>model 'ZimaBlueAI/HY-MT1.5-1.8' not found</code>。</p>
<h3>4) 无界音流配置示例</h3>
<ul>
<li><strong>翻译</strong>:Base URL 填 <code>http://localhost:11434</code>(本机)或 <code>http://<LAN-IP>:11434</code>(局域网);模型填 <code>ZimaBlueAI/HY-MT1.5-1.8:1.8b</code></li>
<li><strong>纠错/总结</strong>:Base URL 填 <code>http://localhost:11434</code>;模型填 <code>qwen3:4b</code></li>
<li><strong>STS 同传工作台 → 翻译 API Base URL</strong>:同上,填 <code>http://localhost:11434</code></li>
</ul>
<p>本地 Ollama 一般不需要 API Key;如果您部署在远程机器/网关,请按您的部署策略决定是否需要鉴权。</p>
<p><strong>兼容说明:</strong>不带 <code>/v1</code> 是推荐写法(调用 Ollama 原生 <code>/api/chat</code>)。如果您从其它产品复制了带 <code>/v1</code> 的 Base URL,程序也能识别并自动剥离 <code>/v1</code>,三个位置(实时 STT 翻译 / 总结 / STS 翻译)行为完全一致。</p>
<h3>5) 小白用例(最短路径)</h3>
<ol>
<li>安装 Ollama</li>
<li>执行 <code>ollama pull ZimaBlueAI/HY-MT1.5-1.8:1.8b</code></li>
<li>无界音流 → 设置 → 勾选“启用翻译输出”,Base URL 填 <code>http://localhost:11434</code>,模型填 <code>ZimaBlueAI/HY-MT1.5-1.8:1.8b</code></li>
<li>开始录音,观察翻译结果是否出现</li>
</ol>
<h2 id="appendix-volcengine">附录 C:火山引擎(Volcengine)云端 TTS</h2>
<p><strong>适用场景:</strong>希望使用云端高质量音色或声音复刻能力时,使用火山引擎云端 TTS。</p>
<p><strong>官方入口:</strong></p>
<ul>
<li><a href="https://www.volcengine.com/product/tts" target="_blank" rel="noopener noreferrer">火山引擎 TTS 产品页</a></li>
<li><a href="https://www.volcengine.com/docs/6561" target="_blank" rel="noopener noreferrer">豆包语音/语音大模型 文档中心</a></li>
<li><a href="https://www.volcengine.com/docs/6561/1257544" target="_blank" rel="noopener noreferrer">在线音色列表(VoiceType 参考)</a></li>
</ul>
<h3>1) 是否需要注册/开通?</h3>
<p>需要。请先注册并登录火山引擎账号,在控制台开通语音相关服务,并创建可用的鉴权信息。</p>
<h3>2) 你需要准备哪些信息(与无界音流设置项对应)</h3>
<ul>
<li><strong>AppId</strong>:应用标识</li>
<li><strong>Token</strong>:访问令牌</li>
<li><strong>Cluster</strong>:集群标识(示例:<code>volcano_tts</code> / <code>volcengine_tts</code>,以官方控制台为准)</li>
<li><strong>VoiceType</strong>:音色标识(可在“在线音色列表”里选择)</li>
</ul>
<h3>3) 无界音流配置示例(最小可用)</h3>
<ol>
<li>无界音流 → 设置 → TTS 模型选择:选择 <strong>Volcengine TTS(火山引擎)</strong></li>
<li>Mode 选择 <strong>HTTP</strong>(更简单;部分模式可能在未来更新)</li>
<li>填写 AppId / Token / Cluster / VoiceType</li>
<li>输入一段文字做合成,确认可以出声</li>
</ol>
<h3>4) 小白排错</h3>
<ul>
<li>提示缺少 AppId/Token/Cluster:先把这三个必填项补齐</li>
<li>提示缺少 VoiceType:从“在线音色列表”复制一个有效的 <code>voice_type</code> 填入</li>
<li>仍失败:优先检查 Token 是否过期、是否有服务开通权限、网络是否能访问火山引擎</li>
</ul>
<h2 id="appendix-speaker-diarization">附录 D:sherpa-onnx 说话人分离(Speaker Diarization)</h2>
<p><strong>适用场景:</strong>实时 STT 中区分 <code>Speaker_1 / Speaker_2 / Speaker_3</code>。除主 STT 模型(SenseVoice / FunASR)外,还需要额外配置两枚 ONNX 模型,由 <code>sherpa-onnx</code> 运行时驱动。</p>
<p><strong>官方仓库:</strong><a href="https://github.com/k2-fsa/sherpa-onnx.git" target="_blank" rel="noopener noreferrer">https://github.com/k2-fsa/sherpa-onnx</a></p>
<p><strong>官方模型说明:</strong><a href="https://k2-fsa.github.io/sherpa/onnx/speaker-diarization/models.html" target="_blank" rel="noopener noreferrer">sherpa-onnx speaker diarization models</a></p>
<h3>1) 你需要准备哪两个文件</h3>
<ul>
<li><code>segmentation.onnx</code>——说话人分段模型(推荐 <code>sherpa-onnx-pyannote-segmentation-3-0</code>)</li>
<li><code>embedding.onnx</code>——声纹嵌入模型(推荐 <code>3dspeaker_speech_eres2net_base_sv_zh-cn_3dspeaker_16k.onnx</code>)</li>
</ul>
<h3>2) 下载地址</h3>
<ul>
<li>分段模型下载页:<a href="https://github.com/k2-fsa/sherpa-onnx/releases/tag/speaker-segmentation-models" target="_blank" rel="noopener noreferrer">speaker-segmentation-models</a></li>
<li>嵌入模型下载页:<a href="https://github.com/k2-fsa/sherpa-onnx/releases/tag/speaker-recongition-models" target="_blank" rel="noopener noreferrer">speaker-recongition-models</a></li>
</ul>
<p>从上述 Release 页直接下载对应 <code>.onnx</code> 文件即可,不需要编译 sherpa-onnx 源码。如果下载下来的是压缩包,请把 <code>segmentation.onnx</code> 与 <code>embedding.onnx</code> 解压出来后再使用(注意文件名需保持一致)。</p>
<h3>3) 推荐目录结构</h3>
<pre><code>./speaker-diarization/
segmentation.onnx
embedding.onnx</code></pre>
<h3>4) 在无界音流里怎么填路径?</h3>
<ul>
<li><strong>说话人分段模型</strong>:指向 <code>segmentation.onnx</code></li>
<li><strong>声纹嵌入模型</strong>:指向 <code>embedding.onnx</code></li>
</ul>
<p>也可以把两个字段都指向同一目录,程序会自动识别其中的 <code>segmentation.onnx</code> 与 <code>embedding.onnx</code>。</p>
<h3>5) 注意事项</h3>
<ul>
<li>SenseVoice / FunASR 的“模型目录”只负责语音转文字,<strong>不能</strong>替代说话人分离模型。</li>
<li>当前项目中的 speaker diarization 仅支持 <code>ONNX</code>;不能直接使用 <code>Fun-ASR-Nano-2512</code> 目录代替 <code>segmentation.onnx / embedding.onnx</code>。</li>
<li>如果配置后仍失败,界面会优先给出可读错误。常见原因:<code>onnx</code> 文件版本与当前 <code>sherpa-onnx</code> 运行时不兼容——优先尝试上面推荐的两枚模型。</li>
</ul>
<div class="doc-copyright">
<p>Copyright(c) ZimaBlueAI</p>
<p>齐码蓝智能(大理市 )有限责任公司</p>
</div>
</div>
</div>
</body>
</html>