【資料圖】
你有沒有想過,用光來訓練人工智能,讓它能夠像人一樣說話、寫作、創作?聽起來很酷吧?其實,這不是科幻小說里的情節,而是美國麻省理工學院(MIT)的研究人員正在做的事情。他們發明了一種新的技術,可以利用光來實現大型語言模型。什么是語言模型呢?簡單來說,就是一種可以根據上下文生成自然語言文本的人工智能技術。比如,你可以用語言模型來和它聊天、寫文章、做作業、唱歌等等。語言模型越大,就越聰明,越能理解和表達人類的語言。
但是,要訓練一個大型的語言模型,可不是一件容易的事情。你需要用很多很多的數據來喂它,讓它學習和記憶。這些數據都要存儲在電子芯片上,然后用電流來傳輸和處理。這樣做有兩個問題:第一,電子芯片的空間有限,不能存儲太多的數據;第二,電流的速度有限,不能傳輸和處理太快的數據。所以,要訓練一個大型的語言模型,你需要用很多很多的電子芯片,然后把它們連接起來,形成一個超級計算機。這樣做不僅很貴,而且很慢,還很費電。
那么,有沒有更好的辦法呢?MIT的研究人員說:有!他們提出了一種新的方法,利用光來實現大型語言模型。他們設計了一種基于光的神經網絡,可以在光纖中存儲和處理數據,而不是在電子芯片上。這種方法有很多優點:第一,光纖的空間很大,可以存儲很多很多的數據;第二,光的速度很快,可以傳輸和處理很快很快的數據。所以,用光纖來訓練一個大型的語言模型,你只需要用很少很少的光纖,然后把它們連接起來,形成一個光子計算機。這樣做不僅很便宜,而且很快,還很省電。
那么,他們是怎么做到的呢?他們用了一種叫做“可變光學延遲線”的設備,它可以在光纖中暫時存儲光信號。你可以把光信號想象成一種特殊的數據,它可以攜帶信息,并且可以被改變和操作。他們通過調節光纖中的一些小東西,比如反射鏡、透鏡、分束器等等,他們可以對光信號進行各種各樣的操作,比如編碼、解碼、加權、激活等等。這些操作就相當于神經網絡中的功能。
他們還用了一種叫做“相干性”的物理特性,它可以使不同波長的光信號之間產生干涉效應。你可以把干涉效應想象成一種特殊的運算,它可以把兩個或多個光信號合并成一個,或者把一個光信號復制成多個。這樣,他們就可以在不增加硬件復雜度的情況下,擴展系統的規模和并行度。
他們用自己的系統構建了一個簡單的語言模型,并在一些基準任務上進行了測試。他們發現,他們的系統可以達到與電子芯片相當甚至更好的性能,同時速度更快、功耗更低。他們估計,如果將他們的系統擴展到數百億個參數的規模,它可以比目前最先進的電子芯片快1000倍,同時功耗降低1000倍。
這項研究發表在《自然·光子學》雜志上。該研究團隊由MIT微納米技術實驗室(MTL)和MIT計算機科學與人工智能實驗室(CSAIL)的研究人員組成。他們表示,他們的方法為開發更強大而高效的大型語言模型提供了一個新的方向,并且有望推動其他基于光的人工智能應用。
責任編輯:Rex_26