數據科學與計算智能：內涵、范式與機遇

時間：2021-12-18|瀏覽：443

如何理解、測試并評估現有計算智能的能力邊界？人腦、復雜社會系統、自然進化系統等自然智能，往往具備比現有計算智能更加高效的“計算思維”和更加簡潔優美的智能推演與決策能力，是否可以借鑒這些自然智能探索新的人工智能范式？
數據科學與計算智能：內涵、范式與機遇
大數據已成為信息社會的普遍現象，是數字經濟的關鍵資源。以深度學習為代表的大數據驅動的人工智能技術在很多行業和領域獲得了成功，這類人工智能本質上源于計算能力，故可將其歸為計算智能。與此同時，大數據是這類人工智能成功的重要因素，這類智能也被稱為數據驅動的計算智能，從這個意義上講，當前數據和智能是一體兩面的關系。雖然大數據與計算智能技術在大規模工程化應用方面取得了長足進步，但支撐技術進步的理論基礎和技術體系尚處于早期階段。

當前，大數據“紅利”效應在逐漸減弱，計算智能技術的單點突破難以為大數據驅動的智能應用提供持續支撐，亟待對數據科學和計算智能的基礎問題進行深入思考，重構其理論基石，從而推動技術與工程應用持續進步和跨越式發展。1. 在數據科學的內涵和外延尚缺乏嚴謹定義和學界共識的情況下，如何深入認知反映客觀世界的數據空間的共性規律？數據科學在本體論和方法論?2?個層面上需要回答的基礎問題是什么？2.如何理解、測試并評估現有計算智能的能力邊界？人腦、復雜社會系統、自然進化系統等自然智能，往往具備比現有計算智能更加高效的“計算思維”和更加簡潔優美的智能推演與決策能力，是否可以借鑒這些自然智能探索新的人工智能范式？

3.在探討數據科學和計算智能的同時，有哪些值得關注的牽引性應用？新的智能范式對解決復雜的社會問題是否是一個很好的機遇？4.在未來的發展中，我們該如何把握時代機遇，重點關注哪些關鍵科學挑戰，優先解決哪些關鍵問題？1、數據科學的內涵基于方法論視角的數據科學內涵關于數據科學的內涵，一種流行的看法認為數據科學就是圖靈獎得主吉姆·格雷（Jim Gray）提出的第四范式（the fourth paradigm），即在實驗觀測、理論推演、計算仿真之后的數據驅動的科學研究范式。

第四范式的基本思想是把數據看成現實世界的事物、現象和行為在數字空間的映射，認為數據自然蘊含了現實世界的運行規律；進而以數據作為媒介，利用數據驅動及數據分析方法揭示物理世界現象所蘊含的科學規律。這是一種類似方法論視角來定義的數據科學的內涵，即數據驅動科學發現。第四范式將數據科學從其前的?3?個科學研究范式中分離出來，帶來了科學發現和思維方式的革命性改變。借用美國谷歌公司研究部主任皮特·諾維格（Peter Norvig）的話來說，“所有的模型都是錯誤的，進一步說，沒有模型你也可以成功（all models are wrong, and increasingly you can succeed without them）”。

海量的數據使得我們可以在不依靠模型和假設的情況下，直接通過對數據進行分析發現過去的科學研究方法發現不了的新模式、新知識甚至新規律。第四范式的一個典型研究案例是關于帕金森病的起因研究?。通過對?160?萬份病歷的大數據分析，研究人員發現帕金森病的起因與人的闌尾有關。這是基于大數據統計帕金森病患病率與切除闌尾的相關性得出的結論。第四范式通過大數據分析能夠發現數據中蘊含的大量相關關系，為科學發現提供了新視野。但是，第四范式本身無法從大量的相關關系中甄別出事物的本質規律。

在發現了帕金森病和闌尾的相關性后，有些對第四范式十分執著的學者召集了更大量的帕金森病患者，以徹查他們的基因，調查他們的生活環境和生活習慣，以期從中發現一些共性；然后去找那些也有這些共性但是沒有得帕金森病的人，看他們做了什么，有什么共性；如果這種共性存在，可能就是防治帕金森病的解決方案。

但是，其結論卻不盡人意?？梢韵胂螅梭w的器官何止一個闌尾，且帕金森病患者的生活習慣何其繁雜，單獨靠第四范式的數據驅動方法做漫無邊際的相關性分析，不僅要消耗大量的計算資源，也難以真正預測未來的趨勢與變化。因此，從方法論來看，第四范式在揭示事物本質規律方面存在固有的局限性，數據科學需要在方法論上突破第四范式。

基于本體論視角的數據科學內涵數據科學另外一種值得探討的內涵是基于“本體論”視角，認為數據是反映自然世界的符號化表示。既然自然世界是客觀存在并具備共性科學規律的，那么反映自然世界的數據空間也可能具有獨立于各個領域的一般性規律。因而，數據科學應該是“用科學方法來研究數據”，數據科學也應該有類似“信息論”這樣的學科基礎理論。

更具體來看，當我們把世界看成是由物理世界、機器世界和人類社會組成的三元世界時，新型的“感知、計算、通信、控制”等信息技術使三元世界相互影響和融合，形成了一個平行化（孿生）的復雜數據空間。這樣的數據空間，除了映射物理世界，其本身是否具有獨特的一般性規律？如何用科學的方法來研究數據的一般性規律，揭示其內在機理？這些是數據科學更基本的問題。例如，數據科學中的一些常數規律（對稱性、黃金分割、長尾分布等）和更廣意義上的大數據非確定性、數據廣義關聯、時空演化、數據復雜性等。

數據科學是方法論和本體論在數據價值實現目標下的統一、數據科學到底應該從哪些視角來定義其獨有的內涵與特征？一般認為，作為一門學科的定義，至少應該從其研究對象、方法論和學科目標?3?個維度去界定。數據科學的內涵應該既包括本體論內容和方法論內容，還包括其獨特的價值實現目標（圖?1）?；谶@一認知，可以定義“數據科學是有關數據價值鏈實現過程的基礎理論和方法學，它運用基于分析、建模、計算和學習雜糅的方法，研究從數據到信息、從信息到知識、從知識到決策的轉換，并實現對現實世界的認知和操控”。

這“三個轉換、一個實現”是數據科學的學科目標。而實現這一目標的方法論來自多個學科方法的融合，包括數學（特別是統計學）、計算機科學（特別是人工智能）、社會科學（特別是管理學）等。數據科學與相關學科的關系目前，關于數據科學的基本內涵和基礎問題還沒有像數學、物理學和計算機科學那樣成體系、有共識。但是，數據科學的多學科交叉特征及大數據自身的價值特性已經成為共識。我們可以借助相關學科來探討當前數據科學研究需要關注的基礎問題。

數據科學與統計學然而，在大數據面前，統計學也面臨著諸多問題和挑戰。統計學將數據作為研究對象，致力于收集、描述、分析和解釋數據，其為數據科學提供了重要基礎和工具。例如：統計假設在復雜大數據分析中難以滿足、數據自身及分析結果的真偽難以判定、端到端的大數據推斷缺乏基礎理論支撐等。統計學針對這些問題目前基本上是束手無策的；而統計學所依賴的一些傳統強假設（如獨立同分布假設、低維假設等），也都無法適用于目前多源異質的真實數據。
因此，數據科學雖然在研究對象上和統計學是相同的，但在研究問題的范疇上卻是超越統計學的。譬如：數據科學該如何深入認識數據固有的共性規律？是否能建立一套數據復雜性理論體系？數據規模、數據質量和數據價值有什么定量關系？如何刻畫大數據所表現出來的多層面的非確定性特征？

數據科學與網絡科學：那么在數據科學中，數據的共性規律是什么？在現實世界中是否有完全不同的兩個數據集之間存在某種共性？數據科學的發展可以借鑒網絡科學的發展歷程，以類似的方法尋找研究對象的共性規律。網絡科學發現了物理世界中廣泛存在的網絡所呈現出的共性規律（如冪率分布、小世界現象等），從而促進了其從圖論和隨機圖論中分離出來獨立發展，實現了其研究對象從作為數學工具的圖到作為物理對象的網絡的轉變。

一方面，一下子找到所有領域的共性規律可能是不現實的，因而可以先從幾個關鍵領域出發，尋找部分領域的共性規律；另一方面，尋找數據的共性規律需要能夠問出合適的基礎性問題，類似網絡科學中關于度分布、聚集系數、網絡直徑、網絡脆弱性、網絡適航性等方面的問題。目前，尚不明確各個領域的數據是否存在統一的規律。因此，數據科學還需要在應用領域進行一定時間的探索，從領域知識中汲取養分，并逐步發現規律、尋找共性。

數據科學與計算機科學簡單而言，從研究對象的角度來說，計算機科學是關于算法的科學，而數據科學是關于數據的科學。從計算機科學到數據科學，研究手段從傳統計算機領域的算法復雜性分析，轉變為對數據的復雜性和非確定性等特性進行分析研究。數據科學的起源與發展離不開計算機科學，但這兩個學科由于研究對象和研究方法的不同，未來也許會平行發展。

如何對非確定邊界的數據，在有限時間空間下進行計算？數據復雜性、模型復雜性與模型性能之間是什么關系？解決某個問題所需要的大數據的量的邊界如何確定？是否能發展一套理論，為基于大數據的計算模型提供其能力上、下界的保證？這些都是數據科學獨立于計算機科學之外所需要解決的問題。數據科學目前尚處于發展的早期階段，其研究方法也應該與傳統科學有所區分。數據科學，正處于“無知”到“科學”的中間狀態。它目前還沒有形成一門完整的學科——信息是不完備的，環境也是非確定的。因此，不能完全按照傳統學科來思考和要求數據科學；而應該在這樣不完備、非確定的環境下，重新思考和定義數據科學及數據科學亟待關注的基礎問題。

2、計算智能的發展與新型智能范式的探索計算智能的發展：人工智能（AI）概念在1956年由麥卡錫等學者提出，其發展幾經浮沉?；趯χ悄墚a生機制的不同理解，人工智能發展至今學派眾多，且相互借鑒，形成了一系列代表性成果。

無論是早期符號計算（以數理邏輯為基礎）、進化計算、支持向量機、貝葉斯網絡，還是當前在工業界獲得巨大成功的基于多層神經網絡的深度學習方法，從模型的本質上來看都是建立在圖靈機的基礎上，基本都符合邱奇-圖靈論題（Church-Turing thesis），即“任何在算法上可計算的問題同樣可由圖靈機計算”。換句話說，現有的人工智能模型本質上都是與圖靈計算模型等價的，故可歸為計算智能。計算智能一般以計算機為中心，以算法理論為基礎，充分利用現代計算機的計算特性，給出了解決實際問題的形式化模型和算法。

近?10?多年以來，大數據的使用、算力的提升和深度模型的發展，為計算智能帶來了新的契機。大數據、大算力、大模型三者結合，極大地推動了計算智能的工業化應用。例如，計算智能在以圍棋為代表的人機對弈、機器翻譯、人臉識別、語音識別、人機對話、自動駕駛等應用中均取得了巨大的成功。值得注意的是，大數據在給計算智能帶來發展的同時，其復雜性和非確定性也給計算智能帶來了非常大的挑戰?，F有的計算智能在面臨大數據環境下的復雜問題和復雜系統時，依然很難給出滿意的答案。

我們需要探索當前計算智能的能力邊界問題，從理論上探尋這類智能所能解決的問題類型和能力邊界。譬如，通過建立深度學習和統計力學的關系，回答深度學習的相關基礎問題：1.表達能力方面，模型做深為什么是必要的，到底深度為多少層是合理的？2. 模型學習方面，崎嶇的目標函數如何高效優化？
3.泛化能力方面，如何實現計算智能技術從專用到通用的轉變？如何實現模型的跨領域、跨任務、跨模態的泛化？上述一系列基礎問題將進一步成為計算智能未來發展的關鍵“瓶頸”。其原因是，當前的計算智能是大數據工程化驅動的，其能力的提升主要依賴于數據規模的增加和計算速度的增長。如果缺乏數據科學化理論的支撐，大數據驅動的計算智能難以形成從量變到質變的提升。

那么另一種思路是，我們也許可以考慮發展與當前計算智能不一樣的智能范式，以便更加簡潔高效地解決更復雜、更普適的現實問題。新型智能范式的探索
事實上，自然界中存在大量具備智能的自然系統。這些自然系統比現有人工智能系統具備更加簡潔、高效的邏輯推理和自我學習能力，如腦神經系統、社會系統、自然生態系統等。那么，自然系統的智能模型是什么？我們能否借鑒自然系統中的智能行為，將其形式化為可計算的智能范式？實際上，已有?4?類智能范式在此方面做出了一些初步的探索。

腦啟發計算

腦啟發計算（brain-inspired computing）正是借鑒了人腦存儲、處理信息的基本原理所發展出來的一種新型計算技術?。與傳統圖靈計算機的計算模式相比，腦啟發計算是通過增加空間復雜度來保留計算單元之間的結構相關性，從而構造基于神經形態工程的高速、新型計算架構。人類的大腦皮層具有?140?億—160?億個神經元，且每個神經元會連接?1?000—10?000?個其他神經元，借此人類發展出了比其他物種更高級的智慧。

腦啟發計算的目標是構造一套非“馮?·?諾依曼”架構、可實時處理復雜非結構化信息、超低功耗的高速新型計算架構。腦啟發計算的發展，也許能為數據科學提供新的計算架構和高性能的計算能力，支撐通用人工智能的發展。目前，腦啟發計算仍處于起步階段，我們需要進一步思考如何在不完全了解人腦機制的情況下發展腦啟發計算模式，以及如何基于這種腦啟發計算為科學研究提供新思路和新范式。

演化智能例如，人腦是經過數百萬年的演化逐步形成的。從這個角度來講，現有的智能模型在依靠人類設計之外，是否也能通過演化過程去自動發現最佳的模型結構？傳統的遺傳算法是一種基礎的演化計算模型；而從演化計算到演化智能，以及實現模型自動演化的智能范式，還有很長的路要走。未來，交互驅動的強化學習、開放環境下的人工智能是值得探索的方向。學習和演化是生物適應環境的基本方式?，F有的計算智能基本都擁有從數據中學習的能力，但對智能模型的演化能力缺乏關注。

復雜系統模擬：是否可以通過模擬復雜系統的組成特點和交互方式來構造新型智能范式？如何通過大量簡單智能體之間的交互作用，產生可預期的、具有高度復雜性的群體智能？這樣的智能范式也許會從根本上改變傳統的單智能體的智能上限。自然界存在大量的復雜系統，如人類社會系統、自然生態系統、人體免疫系統等。從控制和計算的角度來看，模型化的復雜系統是“由大量相互作用、相互依賴的單元構成的一個整體系統；一般在沒有中央控制情況下，這個整體系統可通過簡單的運作規則實現復雜的信息處理，進而產生復雜的集體行為，并能通過學習和進化產生自生長和自適應能力”。

人機混合智能：在這樣的環境下，人在回路的人機混合智能具備了基本的物理條件。目前，人工智能技術所具備的感知、認知能力，基本上是模型與數據結合，并以機器為中心所形成的計算智能，故也稱為機器智能。隨著互聯網、物聯網及新一代通信技術的發展，萬物泛在互聯成為現實。未來，大量物理設備、無人系統、人腦，通過泛在網絡實現“上線”和“互聯”。

這種機器智能在存儲、搜索、感知、確定性問題求解等方面性能表現優越，但在高級認知和復雜問題決策方面與人類智能相差很遠。雖然腦啟發計算取得了一些進展，但在可預期的未來，機器智能很難完全模仿和構造出人類智能或其他自然智能。換一個思路，如果將人的智能引入到機器智能的系統回路中，將充分融合人類智能和機器智能的優勢，從而形成更高級的智能水平。在未來較長的一段時間內，這種人機混合智能也許是一些復雜問題求解的有效途徑。

那么，在基于機器的計算智能基礎上，人作為具備智能的自然系統，如何參與到機器智能的系統回路中是一個關鍵問題。人機混合智能需要重點解決思維融合或決策融合的問題。具體而言，傳統的人機接口往往是單向的；在人機互聯情況下，人腦如何參與到機器智能的系統回路當中？如何同時讓人理解機器思維和讓機器理解人的思維，從而實現思維的無縫互動？

目前，一些探索和挖掘思維潛力的工具，如思維導圖、思維地圖、概念圖等，其理論基礎與形式化模型并不清晰。一些新型的腦機接口技術進展迅速?，但缺乏對人腦在直覺、意識、情感和決策方面的機理認知。也許，從技術上構建有效的人在回路智能通道，是當前人機混合智能亟待解決的關鍵問題之一
上述?4?類智能范式的研究，在現有圖靈等價的計算智能基礎上，或多或少地引入了人類智能或自然系統智能的部分機制，從而為未來智能系統的發展注入新的活力。

但是迄今為止，這些智能范式在可形式化、可計算、可構造等方面還存在諸多基礎性問題挑戰。如果這些模式是未來新型智能范式，那么它們是否還是圖靈等價的？這些問題值得我們從本源上進行探討。數據是人類社會、物理世界和機器世界之間的橋梁，同時數據也是人類社會和物理世界的符號化映射。因而，從數據入手是探索和實現上述新型智能范式的基本途徑。數據科學基礎理論，不僅對當前數據驅動的計算智能起到提質增效的作用，也將為未來新型智能范式研究提供理論支撐。

3、引領數據科學與計算智能研究的應用：作為一門實踐性強的學科，數據科學的發展離不開實際需求牽引與技術應用驅動。隨著感知、計算、通信、控制等技術的發展及綜合集成應用，“人-機-物”三元世界高度融合，在線形成了一個網絡化的大數據系統，其內部包含了互聯網、物聯網連接而成的各類數據。這是一個高度復雜、強不確定性、持續動態演化的復雜系統，是“系統的系統”。

它既是智慧城市、智能制造、健康醫療等各個領域應用的空間載體，也為國家安全、社會治理、數字經濟等領域的科學化、智能化發展提供了重要的數據資源供給。前文已提及，這個現實存在的大數據系統，除了具備高度復雜性、強不確定性等特性，人在回路也是其顯著特征。針對這一現實系統的研究與應用，將有可能為數據科學的理論與技術發展帶來機遇。針對這一復雜系統的典型場景展開研究，不僅有利于揭示數據的基本規律，也有可能因此而牽引未來新型智能范式的研究。其典型的應用場景有如下?4?種。

1、基于非確定數據的社會認知在社會系統中，我們搜集到的數據通常與真實的情況存在一定的偏差，大量的虛假內容、非確定性內容混雜在這些數據當中。如何能基于這樣不完備的、非確定的大數據進行社會認知是一個非常有挑戰的問題。社會認知具體包括真假判定、社會心理計算、輿情判定與導向等。而面向非確定數據的社會認知，其中一大關鍵在于如何對大量復雜的非確定數據進行假設建模，如何建立復雜社會系統中個人行為與群體社會認知之間的關聯。演化智能、復雜系統仿真與模擬也許是解決這一問題的突破口。

2、基于開放環境的群智決策：互聯網極大地方便了信息、知識和智慧的互聯互通。在互聯網中，已經有許多復雜問題可以通過群智決策的方式加以有效解決，如眾包計算、人本計算等。那么，一方面，未來我們該如何設計或改進群智決策中的內部個體交互、融合與反饋方式，以人工構造的群體智能方式進一步提升互聯網群智決策的智能上限？另一方面，從計算機的視角來看，該如何利用或者模擬這種人類的群智決策方式，來解決一些復雜的決策問題？考慮到智能系統的演化及復雜系統的仿真與模擬，對單個智能體及智能體之間復雜交互進行建模，也許是未來復雜問題求解的一個可能方向。

熱點：pi 大數據數據智能化計算機黃金

« 上一條| 下一條 »