Skip to content

Latest commit

 

History

History
75 lines (61 loc) · 5.11 KB

File metadata and controls

75 lines (61 loc) · 5.11 KB

FAQ - 常见问题汇总

1. Kubeconfig 配置错误

  • 问题: 复制粘贴 kubeconfig 配置时出现问题,如何解决?
  • 解决: 确保在复制时没有破坏格式,尤其是 server 部分。可以重新运行 login.ai 网站上的命令,并检查生成的 .crt 文件是否存在,确保没有损坏。 重新生成配置文件的步骤如下(详细步骤请参考README):
    1. 打开浏览器并访问 https://login.ai.iiis.co:9443。
    2. 使用您的邮箱地址(格式为:用户名@iiis.co)和密码登录。
    3. 登录后,进入 kubeconfig 信息页面,选择您使用的系统类型。
    4. 按照页面指示的顺序在命令行运行命令,这些命令会生成名为 config 的配置文件。
    5. 确保在复制粘贴命令时没有破坏格式,尤其是 server 部分。
    6. 检查生成的 .crt 文件是否存在,并确保没有损坏。
    7. 运行以下命令设置默认的 namespace:
      kubectl config set-context --current --namespace=`kubectl config current-context | cut -d'-' -f 1`

2. OpenAI API Key 问题

  • 问题: OpenAI API Key 被禁用或失效,如何解决?
  • 解决: 如果无法使用 OpenAI API,可以尝试购买淘宝上的中转 API 或向助教借用一个,但会有使用量限制。

3. GPU 配置问题

  • 问题: 如何确保在 Kubernetes 中正确配置和使用 GPU?
  • 解决: 在 YAML 文件中确保 GPU 配置正确,并通过 nvidia-smi 检查 GPU 是否可用。 如果使用 Helm 创建 Pod,请确保在 values.yaml 文件中正确配置以下 GPU 选项(详细步骤请参考README):
    1. GPU: 设置所需的 GPU 类型,例如 RTX4090RTX4090DRTX3090
    2. Limits.GPU: 设置 GPU 的数量,确保不超过集群的配额。 配置完成后,重新安装 Helm 部署。重新安装的命令如下:
    helm uninstall release_name
    helm install release_name --values ./values.yaml ./userchart

4. Pod 启动问题

  • 问题: 新创建的 Pod 一直处于 Pending 状态,如何解决?
  • 解决: 检查 Pod 的资源需求是否超出了集群资源,或通过 kubectl describe 检查 Pod 启动失败的原因。如果资源不足,可以尝试调整 Pod 的资源配置。

5. VS Code 连接问题

  • 问题: VS Code 无法连接到远程 Pod,如何解决?
  • 解决: 确保 Pod 处于运行状态,如果 Pod 已经停止或被重新启动,可以通过删除旧的 Pod 并重新创建新的 Pod 来解决。确保 VS Code 配置正确,或者尝试通过删除 .vscode-server 文件夹后重新连接。

6. 存储空间不足

  • 问题: 运行模型时出现 shm 空间不足的问题,如何解决?
  • 解决: 参考最新的 ailab 仓库模板,修改 values.yaml 文件并启用 shm 支持,重新创建 Pod。

7. 模型训练时内存溢出(OOM)

  • 问题: 训练模型时出现 OOM 错误,如何避免?
  • 解决: 尝试调整 batch size 或将数据分批处理。如果使用多个 GPU,确保每个 GPU 的内存使用均衡。

8. API Key 和代理问题

  • 问题: 使用 API 时出现 "找不到函数" 或 API 返回错误,如何解决?
  • 解决: 检查是否使用了正确的 API Key 和代理配置。如果需要,重试连接并检查网络或代理设置。

9. 如何快速下载大文件

  • 问题: 如何从远程服务器快速下载大于 100MB 的文件?
  • 解决: 使用 scpkubectl cp 命令来下载文件。若遇到网络问题,可以考虑使用更好的代理。

10. 模型生成错误

  • 问题: 模型生成的结果缺少部分代码或格式不正确,如何修复?
  • 解决: 检查生成的代码是否符合格式要求,确保所有的代码块都正确闭合。尝试调整 max_lengthtokenizer 配置,避免生成超长的代码。

11. 如何避免多 GPU 计算时的卡顿问题

  • 问题: 在使用多个 GPU 时,如何避免性能瓶颈?
  • 解决: 使用 CUDA_VISIBLE_DEVICES 配置来选择特定的 GPU,并调整模型的负载分配,避免某些 GPU 负载过重。

12. 如何在 Jupyter Notebook 中释放 GPU 内存

  • 问题: Jupyter Notebook 中如果某个 cell 出现 OOM 错误,如何释放 GPU 内存而不重启 Kernel?
  • 解决: 尝试使用 empty_cache(),但在某些情况下可能无法完全释放内存。如果内存没有被回收,重启 Kernel 或删除占用内存的变量可能是最有效的解决方法。

13. 模型训练时的资源分配问题

  • 问题: 使用两张显卡时,训练速度反而变慢,如何解决?
  • 解决: 检查 CPU 和内存的资源分配,确保资源足够。可以适当增加 CPU 核数或内存,避免瓶颈限制训练速度。

这些是常见问题的解答,如果遇到其他问题,请随时询问!