聆聽李濬屹教授介紹 「深度學習技術應用於智慧型機器人」包括實驗室獲獎成果。深度學習的時代真的來了,高三、大一、大二的學生就可以下載開源的深度學習程式碼,運用 Google 開放的資料庫開始訓練自己的模型。利用現成的運算板以及機器人平台製作自己的機器人。
Google 宣布開源 DeepLab V3 提供下載,真是語意分割研究者的福音。
機器人的組成
機器人的組成有三大部分:
- 機器人平台:有機械結構,可移動,例如,機器手臂、掃地機器人,無人空拍機。
- 感測器融合:Sensor fusion 包含熱、陀螺儀、加速計,或是高價的 LiDAR、景深相機、Beacon 室內定位。
- 大腦:運算板,例如:Jetson Nano、NeuroPilot,包含 CPU 執行通用指令以及 GPU 作為 AI 加速器。
和人類挺像,只是機器人通常不是人形,而感測器很精確,例如,人在偵測景深是靠雙眼,而機器人可以配備超音波、景深鏡頭,或是雷射,做很精確地測距。若配備 GPS 可以定位。
人工智慧的進展
人工智慧的重大進展促成各種應用的發達以及研究,例如:機器人和自駕車。進展的原因有三:
- 深度學習在 2012 年開始大大降低錯誤率。
- 大數據的齊備
- GPU 的算力增強
深度學習模仿人類神經網路的神經元。觀測值是 X,權重 W,決策輸出是 Y,F (X1W1, X2W2, X3W3...) = Y,深度學習即是找出 F 模型,可以有多層如下圖。愈多層,運算量需求愈大,以李教授實驗室的機器人為例大約 50 層。
深度學習的神經網路算法有開源程式碼可以下載,運用 Google 大筆的資料,加上容易購買的 GPU 機器,從高三、大一大二的學生,人人都可以自行訓練模型了。
李飛飛教授在史丹福大學的CS231 課程投影片和 PPT 都是開放的,可供進階了解視覺辨識。
李飛飛教授在史丹福大學的CS231 課程投影片和 PPT 都是開放的,可供進階了解視覺辨識。
電腦視覺
電腦視覺有三個層次:
- 影像分類 (Image Classification):只做物件分類
- 物件偵測 (Object Detection):可辨識車輛,物體。
- 語意分割 (Semantic Segmentation):計算每個像素,可辨識車輛、石頭、道路,等細節。
其中 Object Detection 的重要應用為 You Only Look Once, YOLO。
Semantic Segmentation 可辨識細節,以自駕車為例的影片展示,有必要辨識影像的細節。近年來不斷地提高辨識度並加快速度,開發出幾種算法:
- Pyramid Scene Parsing Network, PSPNet,如:展示影片。
- DeepLab V3
- ICNet, 如:ICNet without blending
- ENet
- Real-Time Semantic Segmentation
Google 宣布開源 DeepLab V3 提供下載,真是語意分割研究者的福音。
實務上為了增加效率,在連續辨識影像時,如果前後影像不變,則不需要啟動辨識。變化很小則只對局部辨識。在自駕車停等紅燈,或是路況筆直單純的道路上可降低運算量。
機器人作業系統
機器人作業系統 (Robot Operating System, ROS) 整合整個系統,例如:負責視覺、語音的各節點,如何傳遞訊號回到運算單元,並輸出訊號給控制單元,驅動輪子,或是無人機的上下左右,都靠 ROS 整合各節點的溝通。
虛擬訓練,讓機器人打電玩
要依靠實境的訓練成本很貴,以自駕車來看就相當明顯,撞車、撞人、自撞護欄、逸出道路,代價很高昂。
而 Google 為了更快地訓練機器手臂,購置 3,000 部的機器手臂,平行訓練再將模型整合,一部手臂大約 20K 美金,訓練過程亂動亂夾也有可能撞壞。
依賴實境的資料來訓練,代價高且訓練速度慢。
所以改為讓機器人打電玩方式訓練模型。現在有許多資源讓人輕易地建構出 3D 空間,例如:道路、辦公室、居家內裝、室外建築。在虛擬空間裡訓練,每一次都只是幾秒鐘的事,大量訓練的速度快,成本低。
3D 空間例子,請看這裡、這裡、還有這裡。
以訓練室內機器人為例,可以創造許許多多不同的房間擺設,確保模型得到充分的訓練,而不是重複在某一場景學習而造成「背答案」即過度擬和 (over fitting),可避免完美適應單一題型但是以外的皆碰壁。
3D 空間例子,請看這裡、這裡、還有這裡。
以訓練室內機器人為例,可以創造許許多多不同的房間擺設,確保模型得到充分的訓練,而不是重複在某一場景學習而造成「背答案」即過度擬和 (over fitting),可避免完美適應單一題型但是以外的皆碰壁。
但是虛擬空間和實境有色差,所以用 Segmentation Model 對實境著色,概念上讓機器人戴上墨鏡,弭平虛擬和實境的差異。就可以將虛擬空間訓練好的模型用在實境上。
NVIDIA 機器人競賽的冠軍成果
由展示影片可以看出機器人可以跟隨人,迴避來車,後面上來的腳踏車、行人。更棒的是攝影鏡頭只用百來元,隨處可以買到的 1080P 鏡頭。影片中的展示效果,沒用不任何其他的感測器,所有的偵測都靠便宜的鏡頭達成。
當然可以加裝更高昂的感測器,譬如雷射測距、超音波、甚至好幾十萬 LiDAR、毫米波雷達,系統可以擴充,和原來的便宜鏡頭沒衝突。
後記
經過介紹,發現網路資源很多,開源的神經網路程式碼、資料庫、以及容易購買的 GPU 計算板,學生、業界人士都可以依照興趣,訓練自己的模型,製作自己的機器人。教授學者則利用這些資源研究驗證更進步的算法。