2019年9月12日 星期四

慘不忍睹的 MLPerf 試用

MLPerf 是幾家大公司為了讓機器學習可以有個共同的比較標準,所釋放出來的 open source 專案。

試用了幾個 item,根本不是一般電腦可以跑的。

推薦系統需要 400 G 的記憶體,GG。

image classification 跑起來則是一堆問題,文件寫的不清不楚,docker container 的跑法一直搞不定,只好直接用本機 CPU 版本試跑,雖然最後可以成功跑起來,但一開始訓練的正確率只有 0,不知道能不能順利的跑完?

根據個人不負責任猜測,應該可以順利跑完,感覺是每跑完一項﹝100 step﹞就會釋放記憶體,除非有 memory leak,不然跑個幾個月應該可以達到它要求的 0.749 accuracy 吧!

https://www.mlperf.org/

2019/09/13 更新

後來想了一下,應該是 Dockfile 撰寫有問題,裡面指定的某些軟體版本不對,待驗證﹝參考 2019/09/16更新﹞。


上圖是 MLPerf 某個 issue 圖片,看的出來 100 個 step 要跑約 20 秒,跑到 2,008,925 才有 0.78 的正確率,換算下來:

2,008,925 / 100 x 21 / 60 / 60 / 24 = 48.63 天

如果是我的電腦,100 個 step 要跑約 30 分鐘:

2,008,925 / 100 x 30 / 60 / 24 = 418.53 天


2019/09/16 更新

如果是使用 MLPerfV0.5,記得修改 image_classification/tensorflow/Dockerfile,tf-nightly-gpu -> tensorflow-gpu==1.12.0,docker 才可以順利運行,不過由於我的 GPU Card 只有 2G 記憶體,最後還是不能執行,會出現 OOM Error﹝out of memory﹞。


2019/09/17 更新

覺得 MLPerf 還不夠友善,也許因為 contributor 都是大廠大牛,有問題都能自行解決,故沒考慮到一般人,可能要等到 1.0 後再來試用比較好。剛才在 github 順便回答了 2 個問題,希望可以幫助到跟我有一樣困擾的人。

沒有留言:

張貼留言