ailab/FAQ.md at main · iiisthu/ailab

FAQ - 常见问题汇总

1. Kubeconfig 配置错误

问题: 复制粘贴 kubeconfig 配置时出现问题，如何解决？
解决: 确保在复制时没有破坏格式，尤其是 server 部分。可以重新运行 login.ai 网站上的命令，并检查生成的 .crt 文件是否存在，确保没有损坏。重新生成配置文件的步骤如下（详细步骤请参考README）：
1. 打开浏览器并访问 https://login.ai.iiis.co:9443。
2. 使用您的邮箱地址（格式为：用户名@iiis.co）和密码登录。
3. 登录后，进入 kubeconfig 信息页面，选择您使用的系统类型。
4. 按照页面指示的顺序在命令行运行命令，这些命令会生成名为 config 的配置文件。
5. 确保在复制粘贴命令时没有破坏格式，尤其是 server 部分。
6. 检查生成的 .crt 文件是否存在，并确保没有损坏。
7. 运行以下命令设置默认的 namespace：
```
kubectl config set-context --current --namespace=`kubectl config current-context | cut -d'-' -f 1`
```

2. OpenAI API Key 问题

问题: OpenAI API Key 被禁用或失效，如何解决？
解决: 如果无法使用 OpenAI API，可以尝试购买淘宝上的中转 API 或向助教借用一个，但会有使用量限制。

3. GPU 配置问题

问题: 如何确保在 Kubernetes 中正确配置和使用 GPU？
解决: 在 YAML 文件中确保 GPU 配置正确，并通过 nvidia-smi 检查 GPU 是否可用。如果使用 Helm 创建 Pod，请确保在 values.yaml 文件中正确配置以下 GPU 选项（详细步骤请参考README）：
1. GPU: 设置所需的 GPU 类型，例如 RTX4090、RTX4090D 或 RTX3090。
2. Limits.GPU: 设置 GPU 的数量，确保不超过集群的配额。配置完成后，重新安装 Helm 部署。重新安装的命令如下：
```
helm uninstall release_name
helm install release_name --values ./values.yaml ./userchart
```

4. Pod 启动问题

问题: 新创建的 Pod 一直处于 Pending 状态，如何解决？
解决: 检查 Pod 的资源需求是否超出了集群资源，或通过 kubectl describe 检查 Pod 启动失败的原因。如果资源不足，可以尝试调整 Pod 的资源配置。

5. VS Code 连接问题

问题: VS Code 无法连接到远程 Pod，如何解决？
解决: 确保 Pod 处于运行状态，如果 Pod 已经停止或被重新启动，可以通过删除旧的 Pod 并重新创建新的 Pod 来解决。确保 VS Code 配置正确，或者尝试通过删除 .vscode-server 文件夹后重新连接。

6. 存储空间不足

问题: 运行模型时出现 shm 空间不足的问题，如何解决？
解决: 参考最新的 ailab 仓库模板，修改 values.yaml 文件并启用 shm 支持，重新创建 Pod。

7. 模型训练时内存溢出（OOM）

问题: 训练模型时出现 OOM 错误，如何避免？
解决: 尝试调整 batch size 或将数据分批处理。如果使用多个 GPU，确保每个 GPU 的内存使用均衡。

8. API Key 和代理问题

问题: 使用 API 时出现 "找不到函数" 或 API 返回错误，如何解决？
解决: 检查是否使用了正确的 API Key 和代理配置。如果需要，重试连接并检查网络或代理设置。

9. 如何快速下载大文件

问题: 如何从远程服务器快速下载大于 100MB 的文件？
解决: 使用 scp 或 kubectl cp 命令来下载文件。若遇到网络问题，可以考虑使用更好的代理。

10. 模型生成错误

问题: 模型生成的结果缺少部分代码或格式不正确，如何修复？
解决: 检查生成的代码是否符合格式要求，确保所有的代码块都正确闭合。尝试调整 max_length 或 tokenizer 配置，避免生成超长的代码。

11. 如何避免多 GPU 计算时的卡顿问题

问题: 在使用多个 GPU 时，如何避免性能瓶颈？
解决: 使用 CUDA_VISIBLE_DEVICES 配置来选择特定的 GPU，并调整模型的负载分配，避免某些 GPU 负载过重。

12. 如何在 Jupyter Notebook 中释放 GPU 内存

问题: Jupyter Notebook 中如果某个 cell 出现 OOM 错误，如何释放 GPU 内存而不重启 Kernel？
解决: 尝试使用 empty_cache()，但在某些情况下可能无法完全释放内存。如果内存没有被回收，重启 Kernel 或删除占用内存的变量可能是最有效的解决方法。

13. 模型训练时的资源分配问题

问题: 使用两张显卡时，训练速度反而变慢，如何解决？
解决: 检查 CPU 和内存的资源分配，确保资源足够。可以适当增加 CPU 核数或内存，避免瓶颈限制训练速度。

这些是常见问题的解答，如果遇到其他问题，请随时询问！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FAQ - 常见问题汇总

1. Kubeconfig 配置错误

2. OpenAI API Key 问题

3. GPU 配置问题

4. Pod 启动问题

5. VS Code 连接问题

6. 存储空间不足

7. 模型训练时内存溢出（OOM）

8. API Key 和代理问题

9. 如何快速下载大文件

10. 模型生成错误

11. 如何避免多 GPU 计算时的卡顿问题

12. 如何在 Jupyter Notebook 中释放 GPU 内存

13. 模型训练时的资源分配问题

FilesExpand file tree

FAQ.md

Latest commit

History

FAQ.md

File metadata and controls

FAQ - 常见问题汇总

1. Kubeconfig 配置错误

2. OpenAI API Key 问题

3. GPU 配置问题

4. Pod 启动问题

5. VS Code 连接问题

6. 存储空间不足

7. 模型训练时内存溢出（OOM）

8. API Key 和代理问题

9. 如何快速下载大文件

10. 模型生成错误

11. 如何避免多 GPU 计算时的卡顿问题

12. 如何在 Jupyter Notebook 中释放 GPU 内存

13. 模型训练时的资源分配问题