【背景】
本科实验室进了一台新的Dell T440服务器,选配时因为经验不足遇到了点问题。遂记录一下整个过程,以供后续运维查表。
【硬件清单】
Dell T440服务器一台
RTX 2080Ti显卡一张
【官方配置要求】
【BIOS设置说明】
官方并不支持/不建议加装第三方gpu,但自己可以安装,步骤如下:
1.拆机装入独立显卡,显示器连接线连接主板集显不要拔掉,进系统打好独立显卡驱动。
2.重启服务器按F2>System BIOS > Integrated Devices。
3.将Embedded Video Controller设置为Disabled 关闭板载集成显卡。
4.将Memory Mapped I/O above 4GB设置为Disabled。
5.保存设置,重启服务器,将显示器连接线接入独显接口。
【折腾记录】
在服务器选配时,出于成本考虑,我们选配了一块CPU(不是两块),内存选配为64G,全部插到CPU1一侧的内存槽处。因为购置是直接对接供应商,供应商对单CPU无法驱动Slot5闭口不谈,导致在装上显卡后,一段时间内进入系统后,输入:
lspci -V | grep nvidia
没有任何结果显示,即在硬件层面无法识别到Nvidia插入进而导致无法打GPU驱动。
折腾了接近两个月,来来回回重新订购cpu,散热器,装上CPU无法识别,送返厂安装…
终于在硬件层面处理好了。
【开机打驱动】
我们安装的是:Ubuntu 18.04.02 Server版操作系统,
为节省篇幅,我们将配置网络,ssh,密码等繁琐步骤略去。
1. 驱动文件准备:
前往Nvidia官方网站下载Linux 64bit版本驱动:页面直通车
找到文件后可直接在服务器上使用wget 下载链接下载.run文件:
wget https://cn.download.nvidia.com/XFree86/Linux-x86_64/470.94/NVIDIA-Linux-x86_64-470.94.run
2.关闭Ubuntu默认的驱动管理程序:nouveau
具体方法:
vim /etc/modprobe.d/blacklist-nouveau.conf
在blacklist-nouveau.conf文件中输入一下内容:
blacklist nouveau options nouveau modeset=0
然后保存退出,更新内核程序:
sudo update-initramfs -u
重启,nouveau已经被禁用
sudo reboot
3.关闭lightdm服务
sudo service lightdm stop
4.切换到root用户
sudo -s
5.赋予run文件可执行权限并安装依赖文件(Root用户下执行)
chmod 777 NVIDIA-Linux-x86_64-470.94.run apt install gcc g++ make
6.执行run文件,一路ok/accept即可
./NVIDIA-Linux-x86_64-470.94.run
7.安装完毕,输入nvidia-smi查看结果。
nvidia-smi
【深度学习后续配置】
【结语】
一波三折,总算完成一次运维任务。