在于日前落下帷幕的2022曠視技術開放日(MegTech 2022)活動上,曠視聯合創始人、CEO印奇表示,“2+1”的AIoT核心技術科研體系,是支撐曠視未來不斷走向AIoT商業化成功的重要基石。
其中,由“基礎算法科研”和“規模算法量產”組成的AI技術體系,是構成這一整套AIoT核心技術科研體系中的重要組成部分。
在相當長的時間里,“基礎算法科研”工作極大地推進了曠視的“解放思想、實現認知升級與技術突破”。而回顧計算機視覺的發展歷程更不難發現,每一代基礎模型的突破都極大程度地促進了視覺 AI 的發展,推動了算法在更多的場景得到應用。
(資料圖片僅供參考)
在曠視,進行“基礎算法科研”,深挖“基礎模型的研究、開發和部署”問題的擔子落到了曠視研究院基礎模型組負責人張祥雨及其小組成員的肩上。
針對一次次追根溯源實現認知升級的工作,張祥雨坦言,“一個好的基礎模型對整個系統的性能提升是決定性的。如何才能設計出高速、高精度、低功耗的基礎模型?培養并訓練屬于自己的科研品味與研究方法,持續實現認知突破與升級很重要?!?/p>
解放思想 開啟創新之路
迄今為止,張祥雨的成績單已足夠閃耀。他在CVPR/ICCV/ECCV/NIPS/TPAMI等頂級會議/期刊上發表論文50余篇,Google Scholar 引用數超過17萬次,并在設計ResNet、ShuffleNet、RepVGG等神經網絡模型上持續高效輸出。
在他的帶領下,基礎模型組更是一年一個臺階地向上走,組內“每人一篇一作頂會”的小目標也順利實現。CVPR 2022,他們在通用大模型方面提出了基于大Kernel的CNN和MLP設計范式,其中就包括動態的卷積神經網絡Focal Sparse CNN;此外,他們還將關于自動駕駛感知新網絡PETR的前期工作發表在ECCV 2022上。張祥雨強調,“PETR幾乎沒有人工設計的成分,而是完全基于相同的架構處理多視角、多時刻、多任務,以及多模態的輸入。”
于此時回溯這些在神經網絡研究領域具有舉足輕重地位的技術創新工作,不免驚嘆他所在的研究團隊“押中風口”的預判能力以及緊扣商業世界發展脈搏的前瞻視野。但若將一切簡單地歸因于運氣顯然有失公允。事實上,得益于恩師孫劍博士的指引,他和身邊的伙伴們總是試圖找到那些“反直覺”的開創性認知,將其固化為知識,并最終沉淀為技術信仰。
“一旦你發現原來從沒想過的一件事情是可以做的,這往往能帶來開創性成果?!?張祥雨拿學界對Transformer與CNN 的爭議來舉例,“在模型設計方面,學界都在關注Transformer與CNN的不同,爭論到底哪個更好用。但我們看到了二者背后的相同點,我們認為這跟究竟是Transformer還是CNN的關系不大,重要的是它的感受野大不大。同時這也表明,相較于表示能力,模型架構的優化特性往往更為重要。”
沿著這一思路繼續向下思考,不難發現,“一旦模型統一,AI加速器的設計就會非常簡單,即一個模型可以適用于各種設備和各種任務,但是它帶來的挑戰也是顯著的。比如說,要實現在多個任務上共享一個模型,一個算法,就必須要加深對這個系統,對這個模型的認識,才能抽象出共性,進而才能使用統一的模型達到過去專門為所有的系統單獨設計模型才具有的性能。”
而諸如此般的認知上的先進性,正是開啟科技創新之路的序曲。
閱讀文獻 養成研究體系
“反直覺”從何而來?事實上,石破天驚的重大發現在科研界里并不多見,許多“新鮮事”不過是新瓶裝舊酒,是過去早已發現的某些現象的另一種表示,“沒有好的idea,難發論文,發現前人都已做過研究”則始終是科研人員的最頭疼之處。
在基礎研究組的組員們看來,碰運氣是極小概率事件,根本方法還是要改變自己的知識先驗,不斷轉變自身思維。
張祥雨很推崇加州大學伯克利分校電子工程與計算機科學系馬毅教授的文獻考古研究方式?!榜R毅老師會一直沿著文獻的鏈條去找某一個思想最早是從哪篇文獻出來的,雖然很多文獻發現了一些事實,但一篇論文通常只會傳遞有限的結論,可能作者也沒有意識到這個事實在另外一些情況下的意義。找到那些現有知識體系無法解釋的‘點’,深入挖掘這些事實背后的關系,嘗試用自己的語言去解釋它并將它們有機地串聯起來,方能形成自己的技術信仰與研究體系?!?/p>
將散落在不同文獻里的“珍珠”串起來,需要大量的心力。在RACV 2021舉辦的一場圍繞Transformer展開討論的圓桌論壇活動上,張祥雨擺出一張極為嚴謹的腦圖來引導現場觀眾跟隨他的思維脈絡。
每一個框內的觀點都有不止一位學者發表論文論述過,但他沿著結論之外的論證過程,將所有文章的論證過程、引用、論據嚴絲合縫地連接起來,進而分析出一些與陳詞濫調截然相反的事實。
饒是如此,“有自己的思想,做些不一樣的事”在實踐層面仍要經歷種種檢驗。人工智能技術持續向前演進,修正和反思自身的技術信仰淪為日常之功,這既要全面收集信息,清楚目前的技術上限做到哪兒了,也需要靠自己做實驗來驗證,即“帶著答案找問題”。誠如張祥雨所言,“一些關鍵技術始終是走一步看一步,做技術路線的選擇也總是存在風險的?!?/p>
在剛剛結束的2022曠視技術開放日活動上,張祥雨旗幟鮮明地指出,“大”和“統一”是當今視覺AI基礎研究的新趨勢。對此,他強調,曠視定義的“大”,是要以創新的算法充分發揮大數據、大算力的威力,拓展AI認知的邊界;而如果能用統一的算法、統一的模型來表示和建模各種數據、各種任務,將可以得到簡單、強大、且通用的系統。
堅持原創 做理想實干派
身為孫劍博士的“弟子”,張祥雨坦言,他的科研品味、科研價值觀、科研心態乃至團隊溝通協作能力幾乎都是從“孫老大”身上學來的。正因如此,他始終認為,“能夠獨立思考,拒絕盲目跟風;強預判能力,敢于拍板研究路線;扎實基本功,清楚如何做是對癥的”等等才是人工智能領域高端人才必不可少的素養。
而基礎模型組的科研氛圍,或許恰可看作這些能力的實操落地版本。依循計算機視覺的主要任務邏輯,基礎模型組的研究方向著重在通用圖像大模型、自動駕駛大模型、計算攝影大模型和視頻理解大模型四方面,組員們可以在參與項目及自由探索兩種模式中任選其一。
項目制設有明確的時間節點,會定期審查并跟蹤進展,更需要大家伙兒群策群力,及時解決出現的問題;而自由探索則是根據組員自身興趣,充分發揮組員們的主觀能動性來進行課題選擇。張祥雨在組內承擔著“定方向”與“給細節”的職責,但他說自己更重要的責任是維系好組員們可以無所顧忌地做自己喜歡事情的氛圍,激發大家伙兒的創造力。
踏進深度學習的浩瀚海洋至今,已是匆匆10年過去。依著前輩們開拓的路,曾經的青年學子也終成長為能夠獨當一面的科研工作者,形成了屬于自己的技術信仰。 不久前,張祥雨決定將Base Model組正式更名為Foundation Model組,僅一字之差,卻折射出基礎模型組致力于進行視覺大模型研發的雄心壯志。
在曠視技術開放日活動的演講尾聲,張祥雨表示,基礎科研將始終堅持原創、實用和本質的科研價值觀。“只有實現原創,我們才能突破現有技術的認知邊界,只有做到實用,我們才能把科研成果真正轉化成產品,轉化成實際可以落地的價值。只有發現本質,我們才能從紛繁的表象中看到模型背后的創新點,更好地實現“大”且“統一”的基礎模型研發。”
此番表述,與曠視研究院所始終奉行的“技術信仰、價值務實”理念一脈相承。十年磨劍,“星星之火,可以燎原”。
最后,對于有志于從事計算機視覺科研工作的年輕人,張祥雨還結合自身經歷及組內情況,給出四點干貨建議:
廣博的知識累積。海量閱讀文獻極其重要,“就我接觸到的世界知名學者來說,沒有一個不是閱讀量大得驚人,現在很多人搞科研不看論文,這是不對的。”因此,在基礎模型組內部,所有成員都必須參加每周一次的“Paper Reading”,并按時提交解讀報告。
敏銳的問題意識。在大量閱讀原始文獻的基礎上,更要具有匯總知識、發現問題的能力?!耙黄袃r值的論文一定會有一些是按我的知識體系來講解釋不了的點,我就會記錄下來,以后再看其他文獻的時候,一旦遇到相似或相反的情況,就會反思這件事到底因為是實驗做得不對還是隱含著我之前沒有意識到的細節,又或者這里是一個新的認知。”
扎實的數理基礎。扎實的數理基礎能夠提升AI研究的上限,但數理知識很難在畢業之后再騰出大段時間去補習,因此他勉勵在校同學要努力打好數理基礎。為防止遺忘數理知識點,張祥雨也會每六個月左右就重新刷一遍本科階段的教科書習題以保持感覺。
純粹的科研心態。因為無法消化論文產出壓力所帶來的焦慮情緒,是絕大多數人放棄科研的最主要原因。但科研的有趣之處就是從不懂到懂,從不知道到知道,論文只是這個過程的副產品,要保持科研純粹的初心。
2023曠視校園招聘正在進行中,歡迎有志于加入曠視研究院的同學們投遞簡歷,來曠視,一起做純粹的事。
文中圖片由曠視科技授權中國網使用。
責任編輯:Rex_08