如何搭建基于容器的深度學(xué)習(xí)環(huán)境

來源：千鋒教育

發(fā)布人：xqq

時間： 2023-12-06 14:50:50 1701845450

歷史上，人工智能的概念幾經(jīng)沉浮。如今，憑借低成本的存儲、高性能的算力和改進的訓(xùn)練方法，舊的概念再次煥發(fā)出新的生機。以TensorFlow和PyTorch為代表的一眾深度學(xué)習(xí)框架的出現(xiàn)，更是將這個領(lǐng)域的門檻降到天下何人不煉丹的程度。

然而，深度學(xué)習(xí)靠框架，框架還要挑CUDA。

技術(shù)的飛速發(fā)展和訓(xùn)練框架的野蠻迭代背后，是一地不兼容的版本號，和繞口令一般的困境。

不同的PyTorch版本依賴不同的CUDA版本

不同的TensorFlow版本依賴不同的cuDNN版本

不同的cuDNN版本也依賴不同的CUDA版本

不同的CUDA版本依賴不同的NVIDIAGPU驅(qū)動版本

最后不同操作系統(tǒng)的不同版本只支持個別版本的GPU驅(qū)動

所以新手最常遇到的場景是，為了運行一份最后更新于三年前的、散發(fā)著古早味的、據(jù)說很厲害的代碼，降級并重裝整個操作系統(tǒng)，并且常常因為誤信了網(wǎng)上流傳的同樣古早的二手知識而以失敗告終。

基于云的GPU環(huán)境一般都會提供預(yù)裝的鏡像，但畢竟選擇有限，不能覆蓋所有的場景。數(shù)據(jù)科學(xué)家們大多不是工程師，糾纏這些底層細節(jié)既不擅長也無意義。工程化的缺失一直是深度學(xué)習(xí)領(lǐng)域面臨的重大問題，年輕的煉丹師們流汗又流淚。

本文將介紹如何基于容器技術(shù)快速供給和切換不同的cuDNN/CUDA運行時，輕松搭建不同版本的深度學(xué)習(xí)環(huán)境。

GPU容器化的核心是NVIDIA Container Toolkit：

不同的容器共享GPU硬件和驅(qū)動，上層的cuDNN/CUDA組件已經(jīng)預(yù)先打包在鏡像里，CUDA與底層的驅(qū)動和操作系統(tǒng)實現(xiàn)解耦，不同版本的運行時可以在同一臺主機上共存，宿主機上只需要安裝最新版本的NVIDIA GPU驅(qū)動即可。

盡管很寬泛，但是NVIDIAContainer Toolkit對操作系統(tǒng)的發(fā)行版和版本號還是有基本的要求：

上表中常用的操作系統(tǒng)，Debian過于保守，Ubuntu太過激進，裝機量較大的CentOS又前途不明，所以我們選擇完全兼容CentOS又有Oracle官方長期支持保障的Oracle Linux作為環(huán)境安裝的基石，這里使用最新的8.4版本。

首先安裝GPU驅(qū)動，NVIDIA提供了三種安裝方式：本地全量rpm包、網(wǎng)絡(luò)rpm倉庫和二進制可執(zhí)行文件。毫無疑問應(yīng)該選擇本地全量rpm包，因為舊的依賴包不久就會被從網(wǎng)絡(luò)上移除，而GPU硬件的使用壽命明顯遠遠長于這些軟件，所以不建議選擇網(wǎng)絡(luò)倉庫，以免將來無法重新安裝;不選擇二進制可執(zhí)行文件是因為安裝后難以干凈地移除，升級時可能會遇到?jīng)_突。

在https://developer.nvidia.com/cuda-downloads下載全量rpm包：

安裝內(nèi)核頭文件，注意OracleLinux默認使用的是UEK內(nèi)核，如果使用主線內(nèi)核請做相應(yīng)調(diào)整(安裝kernel-devel)：

【代碼】

安裝驅(qū)動模塊和必要的依賴：

【代碼】

第二步，安裝并啟動Docker服務(wù)：

【代碼】

最后，安裝NVIDIA Container Toolkit并且重啟Docker服務(wù)：

【代碼】

NVIDIA在https://gitlab.com/nvidia/container-images/cuda/blob/master/doc/supported-tags.md提供了從CUDA 9.2到CUDA 11..4.1的多種官方鏡像，創(chuàng)建不同版本的cuDNN/CUDA運行時只需要簡單拉取對應(yīng)的鏡像即可。

比如安裝PyTorch 1.9.0所需的CUDA 10.2：

【代碼】

【輸出】

不要被右上角的CUDA版本號嚇到，它只是表明當(dāng)前宿主機的GPU驅(qū)動所能支持CUDA的最高版本，容器中真正的CUDA版本可以通過nvcc命令來驗證：

【代碼】

【輸出】

祝煉丹成功。

tags: IT培訓(xùn)