第73章 廢話少說,放碼過來

投票推薦 加入書籤 小說報錯

  瑞秋和兩位教授面面相覷。

  這怎麼就明白了?他們剛剛有說了什麼特別關鍵的話嗎?

  「你明白什麼了?知道怎麼解決訓練不收斂的問題了嗎?」,瑞秋顯得極為激動,一臉興奮地問道。

  此時頓悟因子的效果還在,江銘沒再說話,仿佛是怕效果消失了似的。

  他飛快從包中掏出筆記本電腦,把還在進行的訓練停掉了,指尖飛舞地在先前的代碼上修改起來。

  「來不及解釋了,你們直接看我代碼吧。」,他說道。

  其他幾人點點頭,很自然地圍到了江銘左右,耐心等待起來。

  信息學界有一句朗朗上口的名言:

  「Talk is cheap. Show me the code.」

  用中國話來說就是,廢話少說,放碼過來!

  很多驚艷才絕的想法,用語言解釋起來非常費勁,反而不如直接看代碼邏輯呢。

  江銘神情無比專注,不斷敲擊著鍵盤,如同一個專業的作曲家,一行行代碼像音符一樣被他輕鬆創作出來。

  這情景很快便吸引了一些路過研究員的注意。

  在午休時間,還是會議這種場合,竟能如此投入地工作,讓人不禁暗暗佩服。

  不過,大多人還不至於圍過來觀摩江銘寫代碼。

  這種重量級的會議場合,正是和人社交,發展學術人脈的好時機,浪費在一時的工作上,斷然不是好的選擇。

  ...

  錢峰與文森特正邊討論著問題邊結伴而行,正巧路過江銘這裡,頓時被江銘認真改代碼的樣子吸引了。

  兩人頓時噤聲,悄悄走到了後邊。

  錢峰悄悄拍了拍面前正圍觀著的瑞秋,小聲道:「他這是在做什麼呢?」

  瑞秋轉過頭,驚訝地發現自己身後竟然站著兩位大牛教授,甚至都不知道他們看了多久。

  她小聲地把江銘正在做圍棋程序的事跟兩位教授講了一遍。

  圍棋程序?

  兩位教授皺眉思考了半響。

  「這的確是個難題。」,錢峰感嘆:「我這段時間仔細研究了策略梯度算法,其中很大的一個難題就是探索效率。就像圍棋這樣的複雜問題,就是下一百萬盤,也僅僅只探索了冰山一角。」

  文森特也點頭贊成:「是啊,我也不認為以當下我們的信息學技術,可以解決圍棋策略的問題,我們的所設計的神經網絡,相比於人腦而言,還是過於簡單了,僅僅是一個數學擬合罷了。」

  兩人雖然都不相信這個問題能被解決,但還是對江銘正在編寫的代碼充滿了好奇。

  年輕人有這樣的科研熱情,自然是極好的,他們誰都不想去潑這個冷水。況且,觀看江銘寫代碼的過程都足夠賞心悅目了。

  他們索性不走了,站在後面默默看著江銘繼續他的代碼修改。

  江銘原本的圍棋程序,主要包含三部分,被他分門別類地存放在三個文件中。

  首先是train文件,存放著訓練的主循環邏輯。

  然後是environment文件,寫著有關圍棋的規則,以及智能體和環境交互的邏輯。這個文件可以想像成一個虛擬的棋盤,而智能體就是在這其中自我對弈自我訓練的,

  最後一個是policy文件,包含了智能體本身的神經網絡結構,以及梯度反向傳播的邏輯等等與智能體更新進化有關的內容。

  此時,江銘已經把policy文件中的代碼幾乎刪了個精光,只留下一個神經網絡結構的代碼。

  這操作令一眾教授都更加迷惑不解起來。

  策略梯度算法,最關鍵的部分就是有關智能體的代碼,從policy這個文件名就能看出,其實這部分代碼才是真正的核心。

  「這是要徹底放棄策略梯度了嗎?」,文森特喃喃道:「嘶,也對,這個問題的確沒法用這種方式來解...難道是他又想到了全新的方法?」

  「但是,為什麼還要保留有關神經網絡的代碼呢?這個神經網絡如果沒有策略梯度算法,該拿什麼來訓練呢?」

  還未等文森特思考出結果,江銘竟用滑鼠框選出神經網絡這段代碼,在下面又複製出一個一模一樣的網絡結構。


  「這難道是想要把黑棋與白旗分開來,單獨訓練出兩個智能體嗎?」,文森特驚訝出聲:「可是這有什麼用呢,按理說這樣也不會提高訓練效率啊,還是沒有解決探索效率問題。」

  「不對,他好像沒有準備這樣做。」,錢峰盯著江銘的屏幕看,表情忽然變得嚴肅。

  只見江銘連按幾下刪除鍵,刪掉了這個新神經網絡的最後一層輸出層,原本通過softmax函數輸出動作分布的一層,在江銘的修改下變成了輸出一個值。

  這是在做什麼?錢峰更疑惑了,做一個輸出一個值的神經網絡又能有什麼用呢?

  眾教授也是越湊越近,如果不是怕遮擋了江銘的視線,簡直都要趴到屏幕上去。

  似乎是怕大家看不懂,江銘沉吟片刻,便把兩個神經網絡改了一下名字,分別命名為行動者網絡和評論家網絡。

  錢峰的雙眼瞬間眯起,隨即睜開了一絲難以置信。

  這個命名一出來,他已經大概猜到了。

  瑞秋的眼眸中也亮起一絲明悟的光,她捏緊拳頭,暗自祈禱江銘的想法真的能成。

  江銘的編寫還在繼續...

  一分鐘過去。

  兩分鐘過去。

  整整十分鐘過去了。

  兩個神經網絡的輸入輸出,模擬環境以及整個訓練主循環,在他的編輯下,巧妙地組合在了一起。

  眾教授一點點看著江銘的代碼,一言不發。

  會展中心仍然充斥著不同學者交流的聲音,但是在江銘周圍,卻是靜悄悄的。

  教授們都還在琢磨著這代碼的運轉邏輯。

  並非是因為江銘的代碼寫得不清晰,而是這個訓練的循環與普通的訓練不同,甚至都不是像瑞秋的工作那樣兩個模型交替訓練。

  這個邏輯像是...

  錢峰最先想明白了其中的關鍵,他忍不住驚呼:「我明白了!這,這真的太妙了。」

  他指著江銘的屏幕,感嘆道:「原來還能這樣,江銘,你真是把神經網絡用到了極致...」

章節目錄