腾讯犀牛鸟实战-Angel平台搭建和例程运行
关于运行平台
1. 平台: AT平台的虚拟机都可以,另外一个云不行!!!
实测另外一个平台搭建过程会报其他错,可能局域网有些其他设置或者hostname有问题吧。
2. 编译方式: 本地编译,伪分布式配置,系统centOS 7.2。
3. gcc: 7.3版本即可, cmake 3.21版本配置libtorch时候会报warning不知道会不会有问题,我后面换成3.12跑通的。
参考网页:
centOS下gcc的版本升级:https://blog.csdn.net/ncdx111/article/details/106047228
cmake下载安装:https://blog.csdn.net/weixin_30781433/article/details/98787965?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.base&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.base
关于hadoop,spark和pytorch版本
1. hadoop: 版本选2.7.x即可,2.7.1和2.7.5亲测可用。
2. spark: 之前群里有人测过这里spark2.3.0是必须的, 2.4.0版本会报错。
3. pytorch: pytorch版本为1.3.1,torchvision为0.4.2。这里pytorch我理解是生成模型用的,不知道运行时候还需不需要了。
libtorch:这里libtorch选1.3.1,pytorch官网有同版本libtorch,pre-ABI和ABI,编译时候都是对的,但有一个在运行时候会报
符号错误。我记得pre-ABI应该是可用的,记不太清楚了。
参考网页:
hadoop搭建:https://blog.csdn.net/csdnmrliu/article/details/82963783(非源码编译下载后解压缩,配置环境变量即可)
github下载加速:https://blog.csdn.net/haejwcalcv/article/details/108028245
spark搭建:https://archive.apache.org/dist/,下载压缩包后解压缩然后配置conf文件夹后的env脚本即可
关于hadoop和spark的配置
关于环境变量和环境变量可能导致问题


这几行到没有什么,java注意不要配错就行。

ANGEL包的地址配错,或者scla地址配错或者jar包遗漏都会报error,exit 0,具体看就是example.scala的第80行报错,也就是读取那块,我卡在这里卡了很久。

有需要可以参考一下,我不知道最后几个变量有没有用。
一些其他可能的问题
- 运行程序时候一直卡在accept状态:
如果不是命令行内存分配不对就是yarn给的不对,再不行就换机子,内存尽量配到30G感觉会比较好?
- 运行时候一直卡在RUNNING:
我后面重新配环境,这个问题就没有出现了,当时是ps一直没有启动,因为没有日志也不知道具体什么原因,如果遇到。。。自求多福吧
- HDFS地址,其实hdfs不太重要,地址写不到都能从日志看到,慢慢改就好,但out的地址一定记得写到hdfs里面,不要写root!!!原因见下图:

惊不惊喜意不意外刺不刺激???跑完succeed然后把root目录整个删掉就很离谱。
4. queue提示找不到,按下面命令改。
5. 申请block失败。换云服务器2333,只在一个云服务器上遇到这个情况。
中间还有一些其他乱七八糟的问题,不太想回滚聊天记录了,应该都可以百度解决。
https://blog.csdn.net/qq_50665031/article/details/108987205 这是一个安装glbic2.23的网页,忘记做什么时候用到的了,有其他人遇到可以看一下。
###关于command命令

###运行成功截图


over.
腾讯犀牛鸟实战-Angel平台搭建和例程运行
关于运行平台
关于hadoop,spark和pytorch版本
关于hadoop和spark的配置
关于环境变量和环境变量可能导致问题
这几行到没有什么,java注意不要配错就行。

ANGEL包的地址配错,或者scla地址配错或者jar包遗漏都会报error,exit 0,具体看就是example.scala的第80行报错,也就是读取那块,我卡在这里卡了很久。

有需要可以参考一下,我不知道最后几个变量有没有用。一些其他可能的问题
如果不是命令行内存分配不对就是yarn给的不对,再不行就换机子,内存尽量配到30G感觉会比较好?
我后面重新配环境,这个问题就没有出现了,当时是ps一直没有启动,因为没有日志也不知道具体什么原因,如果遇到。。。自求多福吧

惊不惊喜意不意外刺不刺激???跑完succeed然后把root目录整个删掉就很离谱。 4. queue提示找不到,按下面命令改。 5. 申请block失败。换云服务器2333,只在一个云服务器上遇到这个情况。中间还有一些其他乱七八糟的问题,不太想回滚聊天记录了,应该都可以百度解决。
https://blog.csdn.net/qq_50665031/article/details/108987205 这是一个安装glbic2.23的网页,忘记做什么时候用到的了,有其他人遇到可以看一下。
###关于command命令

###运行成功截图


over.