■薛菁華 陳廣玉
【編者按】隨著新一代信息技術的飛速發展,海量的大數據已經成為國家重要的基礎性戰略資源,引領著新一輪的科技創新。日前發布的《數字中國建設整體布局規劃》高度重視公共數據的作用,提出推動公共數據匯聚利用,建設公共衛生、科技、教育等重要領域國家數據資源庫。《上海市全面推進城市數字化轉型“十四五”規劃》強調“數字化將不斷催生科技創新新范式”是正在發生的重要趨勢之一。
傳統的科研范式面臨數字化轉型的需要。厘清科研范式發展及數字化轉型的過程,摸清上海家底,有助于幫助上海在關鍵科研領域實現突破,進而在全球的科技博弈中贏得戰略主動。《文匯智庫》特刊發入選2022年《上海智庫報告》的市科委軟科學研究項目“科研范式數字化轉型國內外對標與實施路徑研究”部分研究成果,以饗讀者。
(資料圖片僅供參考)
科學發展的本質就是科研范式的變革過程
范式(paradigm)的概念最早由美國科學史學家托馬斯·塞繆爾·庫恩(Thomas Samuel Kuhn)提出,是指科學共同體成員共同接受的理論體系,是把握研究對象的一種思維方法。范式一旦轉變,科學家思考問題和觀察世界的方法亦會隨之改變。而科研范式是指科學共同體為了使日常科研工作高效有序運轉所普遍采用的一套規則體系的集合,涉及建制環境、研究路徑、評價體系、研究方法、研究工具、技術路線與研究模式等要素,它會受到社會、經濟、文化、國際環境以及個體偏好等因素的影響。簡單來講,范式影響科研范式的選擇,當兩者相匹配時,科技創新活動會呈現出活躍而高產的狀態,反之亦然。
科學發展的本質就是“科學革命”的過程,也是科研范式形成、確定、危機、變革和更新的過程。新范式的產生,一方面是因為范式本身的發展,另一方面是由于外部環境的推動。隨著信息技術日新月異、顛覆性技術層出不窮、社會環境快速變化,傳統的科研范式受到大數據、人工智能、物聯網、區塊鏈、云計算等新一代信息技術的影響,科學研究的思維、方法和過程也面臨著巨大的挑戰。因此,科研范式的數字化轉型是科學技術發展的結果,而把握科研范式數字化轉型則將大大推動多學科融合發展,提高科學新發現的機會,提升上海科技創新的活力,為上海參與世界前沿科技攻關,解決科技創新“卡脖子”問題做好準備。
科研范式的數字化轉型主要集中在數據密集型科學和開放科學兩個階段。2007年,在美國國家科學研究委員會計算機科學與電信委員會(NRC-CSTB)組織召開的會議上,圖靈獎得主、關系型數據庫鼻祖吉姆·格雷(Jim Gray)發表了題為“第四范式:數據密集型科學發現”的主題演講,在經驗科學、理論科學、計算科學三大范式之后,提出了基于數據密集型計算的科學研究第四范式。第四范式實現了由傳統的假設驅動向數據驅動的轉變,完成了科研范式的數字化轉型。
步入大數據時代,數據密集型科學迎來再發展階段,其研究對象、研究內容進一步延伸,在數字技術的基礎上,研發活動向網絡化、生態化方向發展,開源開放、知識共享成為新趨勢,進而催生出一種更強調包容與合作的新范式——開放科學。2019年和2021年,經濟合作與發展組織(OECD)以及聯合國教科文組織(UNESCO)相繼在各自的政策文本中表達了“開放科學是科學研究新范式”的類似觀點。開放科學是科學研究受到數字化轉型影響而產生的一種新范式,旨在實現人人皆可公開使用、獲取和重復使用科學知識,增進科學合作和信息共享,并向科學界以外的社會行為者開放科學知識的創造、評估和傳播進程。開放獲取、開放數據和開放協作是開放科學的三大關鍵要素。
推動科研范式數字化轉型,關鍵在科學數據管理
隨著信息技術的快速發展和信息獲取能力的不斷提升,全球科技創新已進入以大數據為驅動的數據密集型科研范式以及追求科學過程高透明、高品質和高參與性的開放科學范式。無論是數據密集型科學還是開放科學,科學數據都是核心要素。數據密集型科學最典型的特點便是對海量數據進行挖掘和分析,可以說,數據密集型科學因數據而起源,由數據計算而產生,并依托各項數據的分析與應用而不斷發展。開放科學的關鍵要素中同樣涉及科學數據,即開放數據。海量科學數據對生命科學、天文學、空間科學、地球科學、物理學等多個學科領域的科研活動帶來了沖擊性的影響,科技創新越來越依賴于科學數據的綜合分析。因此,要用好科學數據,進一步推動科研范式的數字化轉型,關鍵在于科學數據管理。
當前,科學數據已成為全球科學系統基礎設施的重要組成部分。由于科學數據具有學科領域分布廣泛、數據結構多樣、數據共享困難等特點,科學數據管理的研究和實踐活動對整個社會、科研機構或者科研人員來說都具有重要意義。近年來,發達國家不斷加大科學數據開放共享的步伐。例如,美國國家科學基金會(NSF)在2022年9月宣布,計劃建立國家級的數據基礎設施“開放知識網絡”(OKN),進一步擴大科學數據的開放共享及參與研究的機會,支持21世紀科學數據和下一代人工智能的發展,以應對美國面臨的復雜的國家挑戰。
科學數據資源的妥善使用和管理,既關乎我國科研力量和進步,也關乎國家安全。我國在科學數據管理方面長期以來都是實踐先于政策。2018年出臺的《科學數據管理方法》是首次在國家層面釋放出開放為主的科學數據管理信號。在科研范式數字化轉型過程中,我們特別要對可能面臨的問題加以警惕,如科學數據大量流入國外數據庫,科研人員過度依賴國外數據庫等。《數字中國建設整體布局規劃》高度重視公共數據的作用,提出“構建國家數據管理體制機制,健全各級數據統籌管理機構”,并強調“增強數據安全保障能力”。
上海推動科研范式數字化轉型的優勢與路徑
全面推進城市數字化轉型,加快建設具有世界影響力的國際數字之都,是上海的堅定目標。在此背景下,上海推動科研范式數字化轉型勢在必行。作為我國經濟發展最活躍、開放程度最高、創新能力最強的城市之一,上海一直致力于建設具有全球影響力的科創中心,這為上海推動科研范式實現數字化轉型奠定了基石。
第一,創新主體不斷向科學最前沿和技術最前端發起挑戰,成為推動上海科研范式數字化轉型的有力引擎。在滬高校創新策源能力全國領先;國家實驗室、中科院在滬院所、新型研發機構及各類平臺不斷發揮自身特色,加速推進科技創新;企業主體圍繞科技創新不斷發力,民營企業迸發出前所未有的科技創新活力。這些具有研發實力和能力的創新主體,對科研范式數字化轉型都有非常迫切的需求,將成為上海科研范式數字化轉型的有力推動者。
第二,創新能力穩步提升在國內外取得重要影響力,成為推動上海科研范式數字化轉型的重要實力保障。上海已初步形成世界級大科學設施集群,集聚了以國家實驗室為引領的330余家國家級研發機構,在用在建同步輻射光源、硬X射線裝置等14個國家重大科技基礎設施,設施數量、投資額和建設進度均全國領先。與此同時,上海科研人員在腦科學、量子科技、納米材料、基因與蛋白等領域取得一批具有國際影響力的原創成果。這些都是上海創新能力在硬件和軟件方面獲得顯著提升的有力證明,也成為上海科研范式數字化轉型能得以實現的重要實力保障。
第三,創新環境不斷優化加速創新要素不斷集聚,成為推動上海科研范式數字化轉型的堅實后盾。上海在科創人才引育、金融支持科創、知識產權保護、開放協同創新、創新創業扶持、科技體制改革等重點領域,持續加大政策支持力度,吸引聚集科技創新要素,不斷優化創新生態環境。這些舉措極大地優化了上海科技創新的整體環境,為上海科研范式實現數字化轉型,并不斷催生新的科研范式提供肥沃的土壤。
科學數據管理是上海科研范式數字化轉型的地基。為了打好這一地基,上海亟待在以下方面加以突破:
在頂層設計方面,抓緊出臺地方政策。上海可抓住全市數字化轉型的契機,從開放性、規范性、安全性等角度出發,適時研究各地、各領域的科學數據管理規則、標準與共享規范,盡快出臺上海科學數據管理的地方細則。
在支持方向方面,注意優勢領域齊抓并舉。上海可用軟硬件齊抓并舉的思路,加快推進科研范式數字化轉型。一是建設一支由高校、科研機構、企業研發部門、出版機構、大科學裝置、研發基地、數據中心、科技情報機構等不同領域的專家組成的高級專家團隊,為上海實現科研范式數字化轉型出謀劃策。二是了解上海科研優勢領域相關機構對于數字化轉型的需求,加速推進領域內科研范式數字化轉型的進程。三是重視上海研發基地、研發平臺和大科學裝置的數據存算能力設施建設。
在基礎設施方面,加緊落實存算一體平臺。科研活動專業性極強,科研數據對于保存、分析和利用的要求也相對較高,一般商業云無法滿足對科研活動的支撐,因此有必要為科研工作者打造一朵具有存算一體和海量資源開放共享功能的科研“云”。
在人才培養方面,加快建立人才培養體系。數字化轉型帶來的最大挑戰是數字化人才的短缺。應不斷提高上海科技工作者的數字素養,為上海的科技創新提供有力的數字技術支撐。可借鑒歐美等發達國家和地區的經驗,一是在高校開設“科學數據管理課程”,引入數據教育長期計劃,系統化培養數據管理人才。二是為科研工作者開設短期的數據管理培訓課程,提升科研人員的數字素養。
在機制保障方面,敢于突破相關體制機制。現階段可以從科研經費預算設置和專業人員配備兩個方面進行突破,打破傳統的固有做法,為上海科技創新營造積極向上、健康有序的科研環境。第一,進一步明確科研經費預算編制科目中有關科研云的租賃費用以及相關科學數據處理費用的支出依據。第二,解決高校及科研機構缺乏數字設備運維及數字技術支持的專業人員的問題。
[作者分別為上海圖書館(上海科學技術情報研究所)副研究員;正高級工程師]
相關鏈接
科學研究四個范式
經驗科學、理論科學、計算科學和數據密集型科學是科學研究的四個范式。
2007年,圖靈獎得主、關系型數據庫鼻祖吉姆·格雷(Jim Gray)在美國國家科學研究委員會計算機科學與電信委員會(NRC-CSTB)組織召開的會議上發表的題為“第四范式:數據密集型科學發現”的主題演講中指出:經驗科學、理論科學、計算科學和數據密集型科學是科學研究的四個范式。
經驗科學即第一范式,也稱為實驗科學,指以實驗方法為基礎的科學研究模式,在研究方法上以歸納為主,主要模型是科學實驗。典型范例包括伽利略的動力學、牛頓的經典力學、哈維的血液循環學等。
理論科學即第二范式,偏重于對理論的總結和概括,用模型、數學公式、算法等表示形式,在研究方法上以演繹法為主。理論科學的主要研究模型是數學模型,典型范例包括數學中的圖論、集合論、概率論、數論;物理學中的相對論、圈量子引力理論、弦理論等等。
計算科學即第三范式,是一個與數據模型構建、定量分析方法以及利用計算機來分析和解決科學問題相關的研究領域,主要用于對各個學科中的問題進行計算機模擬和其他形式的計算。計算科學的主要研究模型是計算機仿真和模擬,其典型范例包括:熱力學、分子問題、人工智能和信號系統等。
數據密集型科學即第四范式,由傳統的假設驅動向基于科學數據進行探索的科學方法的轉變。數據密集型科學的主要研究模型包括機器學習與數據挖掘。其典型范例包括所有的大數據實踐場景,以及基于大數據的人工智能。
當前,全球科技創新已進入以大數據為驅動的數據密集型科研范式以及追求科學過程高透明、高品質和高參與性的開放科學范式。
責任編輯:Rex_04