數(shù)據(jù)科學研究的現(xiàn)狀與趨勢
作者:朝樂門(中國人民大學)、邢春曉(清華大學)、張勇(清華大學)
來源:《計算機科學》,2018,45(1):1-13.
摘 要
大數(shù)據(jù)時代的到來催生了一門新的學科——數(shù)據(jù)科學。
首先,探討了數(shù)據(jù)科學的內(nèi)涵、發(fā)展簡史、學科地位及知識體系等基本問題,并提出了專業(yè)數(shù)據(jù)科學與專業(yè)中的數(shù)據(jù)科學之間的區(qū)別與聯(lián)系;其次,分析現(xiàn)階段數(shù)據(jù)科學的研究特點,并分別提出了專業(yè)數(shù)據(jù)科學、專業(yè)中的數(shù)據(jù)科學及大數(shù)據(jù)生態(tài)系統(tǒng)中的相對熱門話題;接著,探討了數(shù)據(jù)科學研究中的10個爭議及挑戰(zhàn):思維模式的轉(zhuǎn)變(知識范式還是數(shù)據(jù)范式)、對數(shù)據(jù)的認識(主動屬性還是被動屬性)、對智能的認識(更好的算法還是更多的數(shù)據(jù))、主要瓶頸(數(shù)據(jù)密集型還是計算密集型)、數(shù)據(jù)準備(數(shù)據(jù)預處理還是數(shù)據(jù)加工)、服務質(zhì)量(精準度還是用戶體驗)、數(shù)據(jù)分析(解釋性分析還是預測性分析)、算法評價(復雜度還是擴展性)、研究范式(第三范式還是第四范式)、人才培養(yǎng)(數(shù)據(jù)工程師還是數(shù)據(jù)科學家)。
再次,提出了數(shù)據(jù)科學研究的10個發(fā)展趨勢:預測模型及相關分析的重視、模型集成及元分析的興起、數(shù)據(jù)在先,模式在后或無模式的出現(xiàn)、數(shù)據(jù)一致性及現(xiàn)實主義的回歸、多副本技術及靠近數(shù)據(jù)原則的廣泛應用、多樣化技術及一體化應用并存、簡單計算及實用主義占據(jù)主導地位、數(shù)據(jù)產(chǎn)品開發(fā)及數(shù)據(jù)科學的嵌入式應用、專家余及公眾數(shù)據(jù)科學的興起、數(shù)據(jù)科學家與人才培養(yǎng)的探討。
最后,結(jié)合本文工作,為數(shù)據(jù)科學研究者給出了幾點建議和注意事項。
大數(shù)據(jù)正在改變著人們的工作、生活與思維模式[1],進而對文化、技術和學術研究產(chǎn)生了深遠影響[2]。
一方面,大數(shù)據(jù)時代給各學科領域帶來了新的機遇——認識論和研究范式的轉(zhuǎn)變[3],出現(xiàn)了一種區(qū)別于傳統(tǒng)科學研究中沿用至今的“知識范式”的新研究范式——“數(shù)據(jù)范式”。
“數(shù)據(jù)范式”的廣為應用成為現(xiàn)代科學研究的一個重要轉(zhuǎn)變。
另一方面, 大數(shù)據(jù)帶來的挑戰(zhàn)在于數(shù)據(jù)的獲得、存儲、計算不再是瓶頸或難題,各學科領域中的傳統(tǒng)知識與新興數(shù)據(jù)之間的矛盾日益突出,傳統(tǒng)知識無法解釋和有效利用新興的大數(shù)據(jù),進而促使傳統(tǒng)理論與方法的革命性變化。
目前,大數(shù)據(jù)已受到各學科領域的高度關注,成為包括計算機科學和統(tǒng)計學在內(nèi)的多個學科領域的新研究方向,表現(xiàn)出不同專業(yè)領域中的數(shù)據(jù)研究相互高度融合的趨勢,進而即將獨立出一門新興學科——數(shù)據(jù)科學。
同時,大數(shù)據(jù)研究中仍存在一些誤區(qū)或曲解,如片面追求數(shù)據(jù)規(guī)模、過于強調(diào)計算架構(gòu)和算法、過度依賴分析工具、忽視數(shù)據(jù)重用、混淆數(shù)據(jù)科學與大數(shù)據(jù)的概念以及全盤否定大數(shù)據(jù)等[4]。
因此,現(xiàn)代社會需要一門新學科來系統(tǒng)研究大數(shù)據(jù)時代的新現(xiàn)象、理念、理論、方法、技術、工具和實踐,即“數(shù)據(jù)科學”。
本文第1節(jié)探討數(shù)據(jù)科學的內(nèi)涵、發(fā)展簡史、學科地位和知識體系等四個基本問題,并提出了數(shù)據(jù)科學的兩個基本類型——專業(yè)數(shù)據(jù)科學和專業(yè)中的數(shù)據(jù)科學。
第2節(jié)提出現(xiàn)階段數(shù)據(jù)科學研究的特點——本質(zhì)問題的系統(tǒng)研究較少,反而周邊問題的討論較多,并分別分析了專業(yè)數(shù)據(jù)科學、專業(yè)中數(shù)據(jù)科學以及大數(shù)據(jù)生態(tài)系統(tǒng)中的相對熱門話題。
第3節(jié)探討數(shù)據(jù)科學研究中的10個爭議——思維模式的轉(zhuǎn)變(知識范式還是數(shù)據(jù)范式)、對數(shù)據(jù)的認識視角(主動屬性還是被動屬性)、對智能的認識側(cè)重點(更好的算法還是更多的數(shù)據(jù))、主要瓶頸(數(shù)據(jù)密集型還是計算密集型)、數(shù)據(jù)準備(數(shù)據(jù)預處理還是數(shù)據(jù)加工)、服務質(zhì)量(精準度還是用戶體驗)、數(shù)據(jù)分析(解釋性分析還是預測性分析)、算法評價(復雜度還是擴展性)、研究范式(第三范式還是第四范式)和人才培養(yǎng)(數(shù)據(jù)工程師還是數(shù)據(jù)科學家),并分別提出了研究挑戰(zhàn)。
第4節(jié)分析了數(shù)據(jù)科學研究的10個發(fā)展趨勢——預測模型及相關分析的重視、模型集成及元分析的興起、數(shù)據(jù)在先,模式在后或無模式的出現(xiàn)、數(shù)據(jù)一致性及現(xiàn)實主義的回歸、多副本技術及靠近數(shù)據(jù)原則的應用、多樣化技術及一體化應用并存、簡單計算及實用主義占據(jù)主導地位、數(shù)據(jù)產(chǎn)品開發(fā)及數(shù)據(jù)科學的嵌入式應用、專家余及公眾數(shù)據(jù)科學的興起以及數(shù)據(jù)科學家與人才培養(yǎng)的探討。
最后總結(jié)全文,并對數(shù)據(jù)科學研究者提出了幾點建議。
數(shù)據(jù)科學:大數(shù)據(jù)背后的科學“數(shù)據(jù)科學”與“大數(shù)據(jù)”是兩個既有區(qū)別又有聯(lián)系的術語,可以將數(shù)據(jù)科學理解為大數(shù)據(jù)時代一門新科學[5],即以揭示數(shù)據(jù)時代,尤其是大數(shù)據(jù)時代新的挑戰(zhàn)、機會、思維和模式為研究目的,由大數(shù)據(jù)時代新出現(xiàn)的理論、方法、模型、技術、平臺、工具、應用和最佳實踐組成的一整套知識體系。
1.1 數(shù)據(jù)科學的內(nèi)涵及興起
1974年,著名計算機科學家、圖靈獎獲得者Peter Naur在其著作《計算機方法的簡明調(diào)研(Concise Survey of Computer Methods)》的前言中首次明確提出了數(shù)據(jù)科學(Data Science)的概念,“數(shù)據(jù)科學是一門基于數(shù)據(jù)處理的科學”,并提到了數(shù)據(jù)科學與數(shù)據(jù)學(Datalogy)的區(qū)別——前者是解決數(shù)據(jù)(問題)的科學(the science of dealing with data),而后者側(cè)重于數(shù)據(jù)處理及其在教育領域中的應用(the science of data and of data processes and its place in education)[6]。
Peter Naur首次明確提出數(shù)據(jù)科學的概念之后,數(shù)據(jù)科學研究研究經(jīng)歷了一段漫長的沉默期。
直到2001年,當時在貝爾實驗室工作的William S. Cleveland在學術期刊International Statistical Review上發(fā)表題為《數(shù)據(jù)科學——拓展統(tǒng)計學技術領域的行動計劃(Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics》的論文,主張數(shù)據(jù)科學是統(tǒng)計學的一個重要研究方向[7],數(shù)據(jù)科學再度受到統(tǒng)計學領域的關注。
之后,2013年,Mattmann C A[8]和 Dhar V[9]在《自然(Nature)》和《美國計算機學會通訊(Communications of the ACM)》 上分別發(fā)表題為《計算——數(shù)據(jù)科學的愿景(Computing: A vision for data science)》和《數(shù)據(jù)科學與預測(Data science and prediction)》論文,從計算機科學與技術視角討論數(shù)據(jù)科學的內(nèi)涵,使數(shù)據(jù)科學納入計算機科學與技術專業(yè)的研究范疇。
然而,數(shù)據(jù)科學被更多人關注是因為后來發(fā)生了三個標志性事件:一是Patil DJ和 Davenport T H于2012年在哈佛商業(yè)評論上發(fā)表題為《數(shù)據(jù)科學家——21世紀最性感的職業(yè)(Data scientist: the sexiest job of the 21st century)》[10];二是2012年大數(shù)據(jù)思維首次應用于美國總統(tǒng)大選,成就奧巴馬,擊敗羅姆尼,成功連任[11];三是美國白宮于2015年首次設立數(shù)據(jù)科學家的崗位,并聘請Patil DJ作為白宮第一任首席數(shù)據(jù)科學家[12]。
Gartner的調(diào)研及其新技術成長曲線(Gartner's 2014 Hype Cycle for Emerging Technologies)[13]表示,數(shù)據(jù)科學的發(fā)展于2014年7月已經(jīng)接近創(chuàng)新與膨脹期的末端,將在2~5年之內(nèi)開始應用于生產(chǎn)高地期(plateau of Productivity)。
同時,Gartner的另一項研究揭示了數(shù)據(jù)科學本身的成長曲線(Hype Cycle for Data Science)[14],如圖1所示。
從圖1可以看出,數(shù)據(jù)科學的各組成部分的成熟度不同:R的成熟度最高,已廣泛應用于生產(chǎn)活動;其次是模擬與仿真、集成學習、視頻與圖像分析、文本分析等,正在趨于成熟,即將投入實際應用;基于Hadoop的數(shù)據(jù)發(fā)現(xiàn)可能要消失;語音分析、模型管理、自然語言問答等已經(jīng)渡過了炒作期,正在走向?qū)嶋H應用;公眾數(shù)據(jù)科學、模型工廠、算法市場(經(jīng)濟)、規(guī)范分析等正處于高速發(fā)展之中。
圖1 數(shù)據(jù)科學的成長曲線(2016)
1.2 數(shù)據(jù)科學的學科地位
2010年,Drew Conway 提出了第一張揭示數(shù)據(jù)科學的學科地位的維恩圖——《數(shù)據(jù)科學維恩圖(The Data Science Venn Diagram)》(圖2),首次明確探討了數(shù)據(jù)科學的學科定位問題[15]。
在他看來,數(shù)據(jù)科學處于統(tǒng)計學、機器學習和領域知識的交叉之處。
后來,其他學者在此基礎上提出了諸多修正或改進版本,如圖3是Jerry Overton于2016年給出的數(shù)據(jù)科學維恩圖[16]。
但是,后續(xù)版本對數(shù)據(jù)科學的貢獻和影響遠不及Drew Convey首次提出的數(shù)據(jù)科學維恩圖。
圖2 Drew Conway的數(shù)據(jù)科學韋恩圖(2010) 圖3 Jerry Overton的數(shù)據(jù)科學韋恩圖(2016)
從Drew Conway的《數(shù)據(jù)科學維恩圖》的中心部分可看出,數(shù)據(jù)科學位于統(tǒng)計學、機器學和某一領域知識的交叉之處,具備較為顯著的交叉型學科的特點,即數(shù)據(jù)科學是一門以統(tǒng)計學、機器學習和領域知識為理論基礎的新興學科。
同時,從該圖的外圍可看出,數(shù)據(jù)科學家需要具備數(shù)學與統(tǒng)計學知識、領域?qū)崙?zhàn)和黑客精神,說明數(shù)據(jù)科學不僅需要理論知識和實踐經(jīng)驗,而且還涉及黑客精神,即數(shù)據(jù)科學具有三個基本要素:理論(數(shù)學與統(tǒng)計學)、實踐(領域?qū)崉眨┖途瘢ê诳途瘢?/p>
1.3 數(shù)據(jù)科學的知識體系
從知識體系看,數(shù)據(jù)科學主要以統(tǒng)計學、機器學習、數(shù)據(jù)可視化以及(某一)領域知識為理論基礎,其主要研究內(nèi)容包括數(shù)據(jù)科學基礎理論、數(shù)據(jù)加工、數(shù)據(jù)計算、數(shù)據(jù)管理、數(shù)據(jù)分析和數(shù)據(jù)產(chǎn)品開發(fā),如圖4所示[17]。
圖4 數(shù)據(jù)科學的知識體系
(1)基礎理論:主要包括數(shù)據(jù)科學中的新理念、理論、方法、技術及工具以及數(shù)據(jù)科學的研究目的、理論基礎、研究內(nèi)容、基本流程、主要原則、典型應用、人才培養(yǎng)、項目管理等。
需要特別提醒的是,“基礎理論”與“理論基礎”是兩個不同的概念。
數(shù)據(jù)科學的“基礎理論”在數(shù)據(jù)科學的研究邊界之內(nèi),而其“理論基礎”在數(shù)據(jù)科學的研究邊界之外,是數(shù)據(jù)科學的理論依據(jù)和來源。
(2)數(shù)據(jù)加工(Data Wrangling 或Data Munging):數(shù)據(jù)科學中關注的新問題之一。
為了提升數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)計算的復雜度、減少數(shù)據(jù)計算量以及提升數(shù)據(jù)處理的精準度,數(shù)據(jù)科學項目需要對原始數(shù)據(jù)進行一定的加工處理工作——數(shù)據(jù)審計、數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)脫敏、數(shù)據(jù)歸約和數(shù)據(jù)標注等。
值得一提的是,與傳統(tǒng)數(shù)據(jù)處理不同的是,數(shù)據(jù)科學中的數(shù)據(jù)加工更加強調(diào)的是數(shù)據(jù)處理中的增值過程,即如何將數(shù)據(jù)科學家的創(chuàng)造性設計、批判性思考和好奇性提問融入數(shù)據(jù)的加工活動之中。
(3)數(shù)據(jù)計算:在數(shù)據(jù)科學中,計算模式發(fā)生了根本性的變化——從集中式計算、分布式計算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算。
比較有代表性的是Google三大云計算技術(GFS、BigTable和MapReduce)、Hadoop MapReduce、Spark和YARN。
計算模式的變化意味著數(shù)據(jù)科學中所關注的數(shù)據(jù)計算的主要瓶頸、主要矛盾和思維模式發(fā)生了根本性變化。
(4)數(shù)據(jù)管理:在完成“數(shù)據(jù)加工”和“數(shù)據(jù)計算”之后,還需要對數(shù)據(jù)進行管理與維護,以便進行(再次進行)“數(shù)據(jù)分析”以及數(shù)據(jù)的再利用和長久存儲。
在數(shù)據(jù)科學中,數(shù)據(jù)管理方法與技術也發(fā)生了重要變革——不僅包括傳統(tǒng)關系型數(shù)據(jù)庫,而且還出現(xiàn)了一些新興數(shù)據(jù)管理技術,如NoSQL、NewSQL技術和關系云等。
(5)數(shù)據(jù)分析:數(shù)據(jù)科學中采用的數(shù)據(jù)分析方法具有較為明顯的專業(yè)性,通常以開源工具為主,與傳統(tǒng)數(shù)據(jù)分析有著較為顯著的差異。
目前,R語言和Python語言已成為數(shù)據(jù)科學家較為普遍應用的數(shù)據(jù)分析工具。
(6)數(shù)據(jù)產(chǎn)品開發(fā):“數(shù)據(jù)產(chǎn)品”在數(shù)據(jù)科學中具有特殊的含義——基于數(shù)據(jù)開發(fā)的產(chǎn)品的統(tǒng)稱。
數(shù)據(jù)產(chǎn)品開發(fā)是數(shù)據(jù)科學的主要研究使命之一,也是數(shù)據(jù)科學區(qū)別于其他科學的重要區(qū)別。
與傳統(tǒng)產(chǎn)品開發(fā)不同的是,數(shù)據(jù)產(chǎn)品開發(fā)具有以數(shù)據(jù)為中心、多樣性、層次性和增值性等特征。
數(shù)據(jù)產(chǎn)品開發(fā)能力也是數(shù)據(jù)科學家的主要競爭力之源。
因此,數(shù)據(jù)科學的學習目的之一是提升自己的數(shù)據(jù)產(chǎn)品開發(fā)能力。
1.4 專業(yè)數(shù)據(jù)科學及專業(yè)中的數(shù)據(jù)科學
數(shù)據(jù)科學是一門與領域知識和行業(yè)實踐高度交融的學科。
從目前的研究現(xiàn)狀看,數(shù)據(jù)科學可以分為兩類:專業(yè)數(shù)據(jù)科學與專業(yè)中的數(shù)據(jù)科學。
其中,“專業(yè)數(shù)據(jù)科學”是以獨立學科的形式存在,與其他傳統(tǒng)學科(如計算機科學、統(tǒng)計學、新聞學、社會學等)并列的一門新興科學;“專業(yè)中的數(shù)據(jù)科學”是指依存于某一專業(yè)領域中的大數(shù)據(jù)研究,其特點是與所屬專業(yè)的耦合度較高,難以直接移植到另一個專業(yè)領域,如數(shù)據(jù)新聞(Data Journalism)[18]、材料數(shù)據(jù)科學(Materials Data Science)[19]、大數(shù)據(jù)金融(Big Data Finance)[20]、大數(shù)據(jù)社會、大數(shù)據(jù)倫理(Big Data Ethics)[21]和大數(shù)據(jù)教育(Big Data Education)[22]等。
專業(yè)數(shù)據(jù)科學與專業(yè)中的數(shù)據(jù)科學的聯(lián)系如下:專業(yè)數(shù)據(jù)科學聚集了不同專業(yè)中的數(shù)據(jù)科學中的共性理念、理論、方法、術語與工具;相對于專業(yè)中的數(shù)據(jù)科學,專業(yè)數(shù)據(jù)科學更具有共性和可移植性,并為不同專業(yè)中的數(shù)據(jù)科學研究奠定了理論基礎;專業(yè)中的數(shù)據(jù)科學代表的是不同專業(yè)中對數(shù)據(jù)科學的差異性認識和區(qū)別化應用。
數(shù)據(jù)科學的研究熱點目前,數(shù)據(jù)科學的研究特點是對本質(zhì)問題的系統(tǒng)研究少,然而對周邊問題的討論較多,可從以下四個方面進行分類分析。
2.1 周邊問題仍為研究熱點
從文獻分布看,數(shù)據(jù)科學的研究主題可以分為兩類:核心問題和周邊問題。
前者代表的是數(shù)據(jù)科學的基礎理論——數(shù)據(jù)科學特有的理念、理論、方法、技術、工具、應用及代表性實踐;后者代表的是數(shù)據(jù)科學的底層理論(理論基礎,如統(tǒng)計學、機器學習等)、上層應用(應用理論,如數(shù)據(jù)新聞、大數(shù)據(jù)金融、大數(shù)據(jù)社會、大數(shù)據(jù)生態(tài)系統(tǒng)等)以及相關研究(如云計算、物聯(lián)網(wǎng)、移動計算等)。
文獻數(shù)量和研究深度表明,現(xiàn)階段的數(shù)據(jù)科學研究熱點仍聚焦在周邊問題的討論之上,而對數(shù)據(jù)科學的核心問題的研究遠遠不夠。
數(shù)據(jù)科學的周邊問題的研究主要集中在:
(1)大數(shù)據(jù)挑戰(zhàn)及數(shù)據(jù)科學的必要性。
在大數(shù)據(jù)時代,挑戰(zhàn)和機會并存[23]:挑戰(zhàn)不僅來自于數(shù)據(jù)量(Volume),而且還涉及其多個V特征,如種類多(Variety)、速度要求高(Velocity)和價值密度低(Value)[24][25]。
因此,社會與科技的發(fā)展亟待一門新的學科——數(shù)據(jù)科學,并對大數(shù)據(jù)時代的新問題和新思路進行系統(tǒng)研究[26]。
(2)數(shù)據(jù)科學對統(tǒng)計學和計算機科學的繼承與創(chuàng)新。
一方面數(shù)據(jù)科學作為新的研究方向,進一步拓展了統(tǒng)計學[27]和計算機科學與技術[28]的研究范疇;另一方面,數(shù)據(jù)科學不僅繼承了統(tǒng)計學和計算機科學等基礎理論,而且對其進行了創(chuàng)新與發(fā)展,逐漸成為一門獨立學科[29]。
(3)新技術在數(shù)據(jù)科學中的重要地位。
云計算、物聯(lián)網(wǎng)、移動計算等新技術的興起拓展了人的數(shù)據(jù)獲取、存儲和計算能力,促使大數(shù)據(jù)時代的到來,成為數(shù)據(jù)學科誕生的必要條件。
同時,數(shù)據(jù)科學中需要重點引入Spark[30]、Hadoop[31]、NoSQL[32]等新興技術,從而更好地面對大數(shù)據(jù)挑戰(zhàn)。
新技術的應用意味著數(shù)據(jù)科學對數(shù)據(jù)及其管理的認識發(fā)生了根本性變化——不僅開始接受了數(shù)據(jù)的復雜性,而且數(shù)據(jù)管理的理念從傳統(tǒng)的完美主義者轉(zhuǎn)向現(xiàn)實主義,“數(shù)據(jù)在先,模式在后或無模式”的數(shù)據(jù)管理范式、BASE原則以及CAP理論[33]等新理念已成為數(shù)據(jù)科學的基本共識。
(4)數(shù)據(jù)科學對特定領域的影響。
大數(shù)據(jù)及其背后的數(shù)據(jù)科學在特定領域的應用是近幾年的熱門話題,尤其在生命科學[34]、醫(yī)療保健[35]、政府治理[36]、教學教育[37]和業(yè)務管理[38]等領域的廣泛應用,出現(xiàn)了量化自我[39]、數(shù)據(jù)新聞[40]、大數(shù)據(jù)分析學[41]等新的研究課題。
(5)數(shù)據(jù)科學領域的人才培養(yǎng)。
與傳統(tǒng)科學領域不同的是,數(shù)據(jù)科學領域人才培養(yǎng)目的是培養(yǎng)學生的“以數(shù)據(jù)為中心的思考能力”[42]。
目前,相關研究主要涉及四個主題:數(shù)據(jù)科學課程的建設、相關課程的教學改革[43]、跨學科型人才培養(yǎng)[44]以及女性數(shù)據(jù)科學家的培養(yǎng)[45]。
從總體上看,數(shù)據(jù)科學的人才培養(yǎng)目的并不是數(shù)據(jù)工程師,而是數(shù)據(jù)科學家,尤其培養(yǎng)具有3C精神的數(shù)據(jù)科學家——原創(chuàng)性(Creative)設計、批判性(Critical)思考和好奇性(Curious)提問[46]。
2.2 專業(yè)數(shù)據(jù)科學研究中相對熱門話題
從研究視角看,數(shù)據(jù)科學的研究可以分為兩類:專業(yè)數(shù)據(jù)科學和專業(yè)中的數(shù)據(jù)科學。
前者代表的是將數(shù)據(jù)科學當作一門獨立于傳統(tǒng)科學的新興學科來研究,強調(diào)的是其學科基礎性:后者代表的是將數(shù)據(jù)科學當作傳統(tǒng)學科的新研究方向和思維模式來研究,強調(diào)的是數(shù)據(jù)科學的學科交叉性。
從目前的研究現(xiàn)狀看,專業(yè)數(shù)據(jù)科學研究的熱熱門話題有:
(1) DIKW模型。
DIKW模型刻畫的是人類對數(shù)據(jù)的認識程度的轉(zhuǎn)變過程[47]。
通常認為,數(shù)據(jù)科學的研究任務是將數(shù)據(jù)轉(zhuǎn)換成信息(Information)、知識(Knowledge)或(和)智慧(Wisdom), [48]。
從數(shù)據(jù)到智慧的轉(zhuǎn)變過程是一種從不可預知到可預知的增值過程,即數(shù)據(jù)通過還原其真實發(fā)生的背景(Context)成為信息,信息賦予其內(nèi)在含義(Meaning)之后成為知識,而知識通過理解轉(zhuǎn)變成智慧。
(2)數(shù)據(jù)分析學(Data Analytics)。
大數(shù)據(jù)分析研究正在成為一門相對成熟的研究方向——數(shù)據(jù)分析學。
需要注意的是,數(shù)據(jù)分析(Data Analysis)與數(shù)據(jù)分析學是兩個不同的概念:前者強調(diào)的是數(shù)據(jù)分析活動本身,而后者更加強調(diào)的是數(shù)據(jù)分析中的方法、技術和工具。
目前,大數(shù)據(jù)分析研究中的熱門話題有兩個:一是大數(shù)據(jù)分析學,尤其是大數(shù)據(jù)分析算法和工具的開發(fā);另一個面向特定領域的大數(shù)據(jù)分析,如面向物流與供應鏈管理[49]、網(wǎng)絡安全[50]以及醫(yī)療健康[51]的大數(shù)據(jù)分析學。
論文[52]給出了數(shù)據(jù)分析的主要類型及常見錯誤。
(3)數(shù)據(jù)化(Datafication)。
數(shù)據(jù)化是將客觀世界以及業(yè)務活動以數(shù)據(jù)的形式計量和記錄,形成大數(shù)據(jù),以便進行后續(xù)的開發(fā)利用。
除了物聯(lián)網(wǎng)和傳感器等公認的研究課題,量化自我(Quantified Self)[53][54]也在成為數(shù)據(jù)化的熱門話題。
數(shù)據(jù)化是大數(shù)據(jù)時代初級階段的主要關注的問題,隨著大數(shù)據(jù)的積淀,人們的研究焦點將從業(yè)務的數(shù)據(jù)化轉(zhuǎn)向數(shù)據(jù)的業(yè)務化,即研究重點將放在“基于數(shù)據(jù)定義和優(yōu)化業(yè)務”之上。
(4)數(shù)據(jù)治理(Data Governance)。
數(shù)據(jù)治理是指數(shù)據(jù)管理的管理。
目前,相關研究主要集中在頂層設計[55]、實現(xiàn)方法[56]、參考框架[57]以及如何保證數(shù)據(jù)管理的可持續(xù)性[58]。
此外,數(shù)據(jù)治理作為數(shù)據(jù)能力成熟度評估模型(Data Maturity Model)的關鍵過程域,重點關注的是如何通過數(shù)據(jù)治理提升組織數(shù)據(jù)管理能力的問題。
DMM中定義的關鍵過程域“數(shù)據(jù)治理”包括3個關鍵過程:治理管理(Governance Management)、業(yè)務術語表(Business Glossary)和元數(shù)據(jù)管理(Metadata Management)[59]。
(5)數(shù)據(jù)質(zhì)量。
大數(shù)據(jù)的質(zhì)量與可用性之間內(nèi)在聯(lián)系的討論已成為現(xiàn)階段數(shù)據(jù)科學的熱點問題之一,主要研究議題集中在大數(shù)據(jù)中的質(zhì)量問題會不會導致數(shù)據(jù)科學項目的根本性錯誤[60]以及大數(shù)據(jù)時代背景下的數(shù)據(jù)可用性的挑戰(zhàn)及新研究問題[61]。
但是,傳統(tǒng)數(shù)據(jù)管理和數(shù)據(jù)科學對數(shù)據(jù)質(zhì)量的關注點不同。
傳統(tǒng)數(shù)據(jù)管理主要從數(shù)據(jù)內(nèi)容視角關注質(zhì)量問題,強調(diào)的是數(shù)據(jù)是否為干凈數(shù)據(jù)(Clean Data)/臟數(shù)據(jù)(Dirty Data) [62];數(shù)據(jù)科學主要從數(shù)據(jù)形態(tài)視角關注質(zhì)量問題,重視的是數(shù)據(jù)是否為整齊數(shù)據(jù)(Tidy Data)/混亂數(shù)據(jù)(Messy Data)。
所謂的整齊數(shù)據(jù)是指數(shù)據(jù)的形態(tài)可以直接支持算法和數(shù)據(jù)處理的要求。
例如,著名的數(shù)據(jù)科學家Hadley Wickham 提出了整齊數(shù)據(jù)和數(shù)據(jù)整齊化處理(Data Tidying)的概念,并主張整齊數(shù)據(jù)應遵循三個基本原則: 每個觀察占且僅占一行、每個變量占且僅占一列以及每一類觀察單元構(gòu)成一個關系表[63]。
除了上述問題之外,大數(shù)據(jù)的安全[64]、大數(shù)據(jù)環(huán)境下的個人隱私保護[65]、數(shù)據(jù)科學的項目管理及團隊建設[66]、公眾數(shù)據(jù)科學(Citizen Data Science)[67]等是目前在專業(yè)數(shù)據(jù)科學研究中討論較多的問題。
2.3 專業(yè)中的數(shù)據(jù)科學研究的相對熱門話題
相對于專業(yè)數(shù)據(jù)科學,專業(yè)中的數(shù)據(jù)科學研究具有差異性和隱蔽性。
差異性主要表現(xiàn)在各學科領域?qū)?shù)據(jù)科學的關注點和視角不同;隱蔽性是指專業(yè)中的數(shù)據(jù)科學研究往往間接地吸收和借鑒數(shù)據(jù)科學或類似于數(shù)據(jù)科學的思想,而并不明確采用或直接運用數(shù)據(jù)科學的規(guī)范術語。
從目前的研究看,以下幾個專業(yè)中的數(shù)據(jù)科學研究尤為活躍:
(1)數(shù)據(jù)新聞(Data Journalism):新聞學領域的新研究方向之一,主要研究的是如何將大數(shù)據(jù)和數(shù)據(jù)科學的理念引入新聞領域,實現(xiàn)數(shù)據(jù)驅(qū)動型新聞(Data-driven Journalism)[68]。
(2)工業(yè)大數(shù)據(jù):主要研究如何將大數(shù)據(jù)應用于工業(yè)制造領域,進而實現(xiàn)工業(yè)制造的創(chuàng)新。
比較有代表性的是德國工業(yè)4.0(Industrie 4.0)、美國工業(yè)互聯(lián)網(wǎng)(Industrial internet)和中國制造2025(Made in China)。
(3) 消費大數(shù)據(jù):與工業(yè)大數(shù)據(jù)不同的是,消費大數(shù)據(jù)更加關注的是產(chǎn)品生命周期的末端,即如何將已生產(chǎn)出的產(chǎn)品推銷給更多的用戶,主要包括精準營銷[69]、用戶畫像(User Profiling)[70]以及廣告推送[71]。
(4)健康大數(shù)據(jù):主要關注大數(shù)據(jù)在健康與醫(yī)療領域的廣泛應用,包括生命日志(Life Logging)[72]、醫(yī)療診斷、藥物開發(fā)、衛(wèi)生保健[73]等具體領域的應用。
(5)生物大數(shù)據(jù):將大數(shù)據(jù)的理念、理論、方法、技術和工具應用于生物學領域,從而生物學從知識范轉(zhuǎn)向數(shù)據(jù)范式[74]。
(6)社會大數(shù)據(jù):綜合運用大數(shù)據(jù)和數(shù)據(jù)科學的理論,探討如何在大數(shù)據(jù)時代進行輿情分析、社會網(wǎng)絡分析以及熱點發(fā)現(xiàn)[75]。
(7)機構(gòu)大數(shù)據(jù):如何將大數(shù)據(jù)和數(shù)據(jù)科學的思想引入企業(yè)[76]、政府 [77]以及公益部門[78]的日常業(yè)務、戰(zhàn)略規(guī)劃與可持續(xù)改進。
(8)智慧類應用:如何將大數(shù)據(jù)應用于智慧城市、智慧醫(yī)療、智慧養(yǎng)老、智慧交通、智慧教育等領域,發(fā)揮數(shù)據(jù)的驅(qū)動作用,進而實現(xiàn)更高的智慧。
(9)敏捷類應用:如何將大數(shù)據(jù)思維用于軟件開發(fā)、項目管理以及組織管理之中,進而實現(xiàn)敏捷軟件開發(fā)、敏捷項目管理和敏捷組織,提升其應變能力和可持續(xù)發(fā)展能力。
2.4 大數(shù)據(jù)生態(tài)系統(tǒng)研究中相對熱門話題
數(shù)據(jù)科學生態(tài)系統(tǒng)(Big Data Ecosystem)是指包括基礎設施、支撐技術、工具與平臺、項目管理以及其他外部影響因素在內(nèi)的各種組成要素構(gòu)成的完整系統(tǒng)。
例如,大數(shù)據(jù)全景圖(Big Data Landscape)[79]較為全面地展示了大數(shù)據(jù)生態(tài)系統(tǒng)中的主要機構(gòu)及產(chǎn)品。
現(xiàn)有相關研究主要從組成要素及其相互關系兩個方面進行。
就目前而言,相關研究中的熱門話題集中在:
(1)基礎設施:主要關注云計算、物聯(lián)網(wǎng)、移動計算、社交媒體在內(nèi)的基礎設施對數(shù)據(jù)科學的影響以及數(shù)據(jù)科學中如何充分利用上述基礎設施。
(2)支撐技術:建立在基礎設施上的關鍵技術,現(xiàn)有研究主要討論機器學習、統(tǒng)計學、批處理、流計算、圖計算、交互計算、NoSQL、NewSQL和關系云等支撐技術在數(shù)據(jù)科學的應用;
(3)工具與平臺:支撐技術的具體實現(xiàn),目前的主要研究熱點集中在R、Python、Hadoop、Spark、MongoDB、HBase、Memcached、MongoDB、CouchDB和Redis等工具與平臺在數(shù)據(jù)科學中的應用;
(4)項目管理:涉及數(shù)據(jù)科學項目的范圍、時間、成本、質(zhì)量、風險、人力資源、溝通、采購及系統(tǒng)管理等9個方面的管理;
(5)環(huán)境因素:大數(shù)據(jù)時代對法律、政策、制度、文化、道德、倫理產(chǎn)生的影響與新需求。
其中,大數(shù)據(jù)權屬立法研究主要討論大數(shù)據(jù)權屬立法的必要性、可行性以及對策建議。
從大數(shù)據(jù)的重要性的認識看,大數(shù)據(jù)不再是一種資源,更是一種資產(chǎn)。
大數(shù)據(jù)權屬的立法已經(jīng)成為大數(shù)據(jù)時代信息資源開發(fā)利用的必要條件。
數(shù)據(jù)科學研究的爭議與挑戰(zhàn)在不同的學科領域,大數(shù)據(jù)時代的科學研究所面臨問題、挑戰(zhàn)和關注點不同。
從計算機科學視角看,新的數(shù)據(jù)處理需求已經(jīng)超出了現(xiàn)有的存儲與計算能力[80];從統(tǒng)計學視角看,大數(shù)據(jù)挑戰(zhàn)在于樣本的規(guī)模接近總體時,如何直接在總體上進行統(tǒng)計分析[1];從機器學習角度看,訓練樣本集接近測試樣本集時,如何用簡單模型及模型集成方法實現(xiàn)較高的智能水平[81];
從數(shù)據(jù)分析角度看,如何從海量數(shù)據(jù)中快速洞察有價值的數(shù)據(jù),并通過試驗設計和模擬仿真,實現(xiàn)數(shù)據(jù)到智慧的轉(zhuǎn)變[82]。
但是,從數(shù)據(jù)科學視角看,其研究中的常見爭議及背后的研究挑戰(zhàn)可以歸納為10個方面:
3.1 思維模式——知識范式還是數(shù)據(jù)范式
在傳統(tǒng)科學研究中,由于數(shù)據(jù)的獲得、存儲和計算能力所限,人們往往采取的是知識范式(“數(shù)據(jù)→知識→問題”的范式),從數(shù)據(jù),尤其是樣本數(shù)據(jù)中提煉出知識之后,用知識去解決現(xiàn)實問題。
大數(shù)據(jù)時代的到來及數(shù)據(jù)科學出現(xiàn)為人們提供了另一種研究思路,即數(shù)據(jù)范式(“數(shù)據(jù)→問題”范式),在尚未從數(shù)據(jù)中提煉出知識的前提下,用數(shù)據(jù)直接解決問題。
數(shù)據(jù)范式強調(diào)的是在尚未將數(shù)據(jù)轉(zhuǎn)換為知識的前提下,直接用數(shù)據(jù)去解決現(xiàn)實世界中的問題。
以機器翻譯為例,傳統(tǒng)機器翻譯方法是基于自然語言理解,準確說是基于語言學和統(tǒng)計學的知識進行,屬于知識范式的范疇。
但是,這種傳統(tǒng)機器翻譯效果一直并不理想,且尚無突破性進展。
然而,近幾年興起的機器翻譯方法改變了傳統(tǒng)機器翻譯的思維模式,采取的是“數(shù)據(jù)范式”——直接從歷史跨語言語料庫中快速洞見所需結(jié)果。
上世紀五十年以來的IBM 機器翻譯的緩慢發(fā)展以及2000以后的Google機器翻譯的迅速興起也反映了這種思維模式的變革。
與傳統(tǒng)認識中的“知識就是力量”類似,在大數(shù)據(jù)時代,數(shù)據(jù)也成為一種重要力量。
如何組織、挖掘和利用數(shù)據(jù)成為現(xiàn)代組織的核心競爭力。
目前,思維模式變革的主要挑戰(zhàn)在于如何完成以數(shù)據(jù)為中心的設計、數(shù)據(jù)驅(qū)動型決策[83]和數(shù)據(jù)密集型應用[84]。
3.2 數(shù)據(jù)的認識——主動屬性還是被動屬性
在傳統(tǒng)科學研究中,數(shù)據(jù)一直被當作是被動的東西,人們主要從被動屬性方面去對待數(shù)據(jù)。
以關系數(shù)據(jù)庫為例,人們先定義關系模式,然后將數(shù)據(jù)按照關系模式的要求進行強制轉(zhuǎn)換后放入數(shù)據(jù)庫中,完成數(shù)據(jù)挖掘和分析任務。
在大數(shù)據(jù)思維模式的背后,一個根本性的變革在于人們開始意識到數(shù)據(jù)的主動屬性——不再簡單認為數(shù)據(jù)是一種死的、被動的東西,而更加重視數(shù)據(jù)的積極作者用,提出了數(shù)據(jù)在先、模式在后或無模式、讓數(shù)據(jù)說話、數(shù)據(jù)驅(qū)動型應用、數(shù)據(jù)業(yè)務化、數(shù)據(jù)洞察和以數(shù)據(jù)為中心的思維模式等新術語。
因此,如何正確認識數(shù)據(jù)及如何充分發(fā)揮數(shù)據(jù)的主動屬性成為數(shù)據(jù)科學的重要研究任務。
目前,相關研究的主要挑戰(zhàn)在于如何實現(xiàn)數(shù)據(jù)洞察、以數(shù)據(jù)為中心的設計、敏捷軟件開發(fā)、數(shù)據(jù)驅(qū)動型決策以及智慧類應用研發(fā)。
3.3 智能的認識——更好的算法還是更多的數(shù)據(jù)
在傳統(tǒng)學術研究中,智能主要來自于算法,尤其是復雜的算法。
算法的復雜度隨著智能水平得到提升。
例如,KNN算法是機器學習中常用的分類算法,其算法思想非常簡單。
人們根據(jù)不同應用場景提出多種改進或演化方案,雖然智能水平有所提高,但隨之而來的問題是算法復雜度的提升[85]。
但是,數(shù)據(jù)范式表明,數(shù)據(jù)也可以直接用于解決問題,引發(fā)了一場關于“更多數(shù)據(jù)還是更好模型(More data or Better Model debate)”的討論[86],經(jīng)過這場大討論,人們得出了相對一致的結(jié)論——“更多數(shù)據(jù)+簡單算法最好的模型(more data+ simple Algorithem the best model)”。
因此,如何設計出簡單高效的算法以及算法的集成應用成為數(shù)據(jù)科學的重要挑戰(zhàn)。
目前,關于智能的實現(xiàn)方式的挑戰(zhàn)在于算法設計、算法集成、維度災難和深度學習。
3.4 研發(fā)瓶頸——數(shù)據(jù)密集型還是計算密集型
傳統(tǒng)的軟件開發(fā)與算法設計的重點是解決計算密集型的問題,計算是研究難點和瓶頸。
但是,隨著大規(guī)模分布式計算,尤其是云計算的普及,計算不再是人們需要解決的首要瓶頸。
因此,軟件開發(fā)與算法設計的主要矛盾從計算轉(zhuǎn)向數(shù)據(jù),出現(xiàn)了數(shù)據(jù)密集型應用。
在數(shù)據(jù)密集型應用中,數(shù)據(jù)是主要關注點與瓶頸[87]。
數(shù)據(jù)密集型問題的研究將進一步推動以數(shù)據(jù)為中心的研究范式。
目前,數(shù)據(jù)密集型應用的主要挑戰(zhàn)在于副本數(shù)據(jù)技術、物化視圖、計算的本地化、數(shù)據(jù)模型的多樣化和數(shù)據(jù)一致性保障。
3.5 數(shù)據(jù)準備——數(shù)據(jù)預處理還是數(shù)據(jù)加工
在傳統(tǒng)數(shù)據(jù)研究中,數(shù)據(jù)準備主要強調(diào)的是將復雜數(shù)據(jù)轉(zhuǎn)換為簡單數(shù)據(jù),對臟數(shù)據(jù)進行清洗處理后得到干凈數(shù)據(jù),從而防止“垃圾進垃圾出”現(xiàn)象的出現(xiàn),主要涉及重復數(shù)據(jù)的過濾、錯誤數(shù)據(jù)的識別以及缺失數(shù)據(jù)的處理。
可見,數(shù)據(jù)預處理主要關注的是數(shù)據(jù)的質(zhì)量維度的問題。
但是,由于從小數(shù)據(jù)到大數(shù)據(jù)之間存在質(zhì)量涌現(xiàn)現(xiàn)象——個別小數(shù)據(jù)的質(zhì)量問題(如缺失數(shù)據(jù)、錯誤數(shù)據(jù)或重復數(shù)據(jù))不影響整個大數(shù)據(jù)的可用性,大數(shù)據(jù)處理中關注的并非為傳統(tǒng)意義上的數(shù)據(jù)預處理,而其關注點轉(zhuǎn)向另一個重要課題——數(shù)據(jù)加工。
在數(shù)據(jù)科學中,數(shù)據(jù)加工是指數(shù)據(jù)的創(chuàng)造性增值過程,包括兩種表現(xiàn)形式:數(shù)據(jù)打磨(data wrangling)或數(shù)據(jù)改寫(data munging)。
與數(shù)據(jù)預處理不同的是,數(shù)據(jù)加工更加強調(diào)的是如何將數(shù)據(jù)科學家的3C精神融入數(shù)據(jù)處理工作之中,從而達到數(shù)據(jù)增值的目的。
因此,數(shù)據(jù)加工并不僅限于技術工作的范疇,而且還涉及到藝術層面的創(chuàng)造,如需要采用數(shù)據(jù)柔術(Data Jujitsu)和整齊化處理(Data Tidying)的方法進行數(shù)據(jù)加工處理。
數(shù)據(jù)加工概念的提出意味著人們對數(shù)據(jù)復雜性的認識發(fā)生了重要的變革,即開始接受數(shù)據(jù)的復雜性特征,認為復雜性是數(shù)據(jù)本身的固有特征。
與此同時,數(shù)據(jù)準備的關注點轉(zhuǎn)向另一個重要問題,即如何發(fā)揮人的增值作用。
目前,數(shù)據(jù)加工的研究主要挑戰(zhàn)集中在:
· 數(shù)據(jù)打磨或數(shù)據(jù)改寫理念的提出:如何在數(shù)據(jù)科學項目中充分發(fā)揮數(shù)據(jù)科學家的作用,進而實現(xiàn)數(shù)據(jù)處理活動的增值效果;
· 數(shù)據(jù)打磨或數(shù)據(jù)改寫技術的實現(xiàn):基于Python、R以及大數(shù)據(jù)技術實現(xiàn)數(shù)據(jù)加工的理念與方法;
·數(shù)據(jù)柔術:如何有藝術性地將數(shù)據(jù)轉(zhuǎn)換為產(chǎn)品;
·整齊化處理:將數(shù)據(jù)轉(zhuǎn)換為大數(shù)據(jù)算法和大數(shù)據(jù)技術能夠直接處理的形態(tài)。
3.6 服務質(zhì)量——精準度還是用戶體驗
查全率和查準率是傳統(tǒng)數(shù)據(jù)研究中評價服務質(zhì)量的兩個核心指標。
但是,當總體為未知、數(shù)據(jù)量迅速增長、數(shù)據(jù)種類不斷變化和數(shù)據(jù)處理速度要求高時,查全率和查準率的追求成為不可能。
因此,在大數(shù)據(jù)環(huán)境下,更加重視的是用戶體驗,而不是查全率和查準率。
在用戶體驗的評價中,響應速度是最為重要指標之一。
Aberdeen Group的調(diào)查發(fā)現(xiàn)“頁面的顯示速度每延遲1秒,網(wǎng)站訪問量就會降低11%,從而導致營業(yè)額減少7%,顧客滿意度下降16%”Google發(fā)現(xiàn)“響應時間每延遲0.5秒,查詢數(shù)將會減少20%”;Amazon發(fā)現(xiàn)“響應時間延遲0.1秒,營業(yè)額下降1%[88]。
目前,用戶體驗研究的主要挑戰(zhàn)在于如何確保較快的響應速度、設計人機交互、實現(xiàn)服務虛擬化以及提供按需服務。
3.7 數(shù)據(jù)分析——解釋性分析還是預測性分析
理論完美主義者認為只有掌握了因果關系才能正確認識和有效利用客觀現(xiàn)象。
傳統(tǒng)數(shù)據(jù)分析往往是理論完美主義的指導下完成,試圖通過對歷史數(shù)據(jù)進行深度分析之后,達到深刻理解自我或解釋客觀現(xiàn)象的目的,側(cè)重的是因果分析,即以解釋型分析為主。
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)分析的重點從因果分析轉(zhuǎn)向相關分析,更加重視的是事物之間的相關關系[89]。
然而,在這種變革的背后是數(shù)據(jù)分析指導思想的根本性變化——從理論完美主義轉(zhuǎn)向現(xiàn)實實用主義,側(cè)重于數(shù)據(jù)分析的實用性,更加重視對未來的預測,即預測型分析。
相對于解釋性分析,預測性分析具有更強的時效性,可以迅速洞見事物之間的內(nèi)在聯(lián)系以及其商業(yè)價值。
因此,數(shù)據(jù)科學的一個重要特點是預測性分析和解釋性分析的分離。
預測性分析主要由數(shù)據(jù)科學家完成,一般不需要領域知識;解釋性分析則發(fā)生在預測性分析之后,數(shù)據(jù)科學家將預測性分析中的洞察結(jié)果轉(zhuǎn)交給領域?qū)<遥深I域?qū)<邑撠熗瓿山忉屝苑治觥?/p>
可見,數(shù)據(jù)科學家一般不做解釋性分析,或者說,解釋性分析往往超出數(shù)據(jù)科學家的能力范疇,需要由具體領域的專家完成。
預測性分析和解釋性分析的分離也是數(shù)據(jù)科學家和領域?qū)<抑g協(xié)同工作的主要實現(xiàn)方式。
大數(shù)據(jù)分析的主要挑戰(zhàn)源自于數(shù)據(jù)的復雜性、噪聲數(shù)據(jù)的分析、數(shù)據(jù)的依賴度[90]。
提出面向大數(shù)據(jù)分析的新方法、技術與工具,尤其是大數(shù)據(jù)分析方法的動態(tài)演化、實時計算和彈性計算成為相關研究中亟待解決的問題。
3.8 算法評價——復雜度還是可擴展性
復雜度,尤其是時間復雜度和空間復雜度,是傳統(tǒng)算法的兩個重要評價指標 [91],分別代表的是算法的運行所需的時間成本和內(nèi)存成本。
但是,在大數(shù)據(jù)環(huán)境下,算法設計的一個重要特點是上層需求和底層數(shù)據(jù)處于動態(tài)變化之中,因此,算法應支持按需服務和數(shù)據(jù)驅(qū)動型應用。
例如,谷歌于2008年推出預測流感疫情工具——谷歌流感趨勢(Google Flu Trends,GFT),及時準確預測了當時H1N1在全美范圍的傳播[92],但是,2013年1月的估計比實際數(shù)據(jù)高兩倍,主要原因之一是缺乏算法動態(tài)性(Algorithm Dynamics)和用戶使用行為習慣的變化[93]。
在大數(shù)據(jù)時代,算法的可擴展性主要代表的是算法的可伸縮能力。
目前,相關研究的主要挑戰(zhàn)在于低維度算法在高維數(shù)據(jù)中的應用、維度災難、數(shù)據(jù)規(guī)約以及數(shù)據(jù)密集型應用。
3.9 研究范式——第三范式還是第四范式
圖靈獎獲得者Jim Gray 曾提出,人類科學研究活動已經(jīng)歷過三種不同范式的演變過程(原始社會的“實驗科學范式”、以模型和歸納為特征的“理論科學范式”和以模擬仿真為特征的“計算科學范式”),目前正在從“計算科學范式”轉(zhuǎn)向“數(shù)據(jù)密集型科學發(fā)現(xiàn)范式(Data-intensive Scientific Discovery)”。
第四范式,即“數(shù)據(jù)密集型科學發(fā)現(xiàn)范式”的主要特點是科學研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識,無須直接面對所研究的物理對象。
例如,在大數(shù)據(jù)時代,天文學家的研究方式發(fā)生了新的變化——其主要研究任務變?yōu)閺暮A繑?shù)據(jù)庫中發(fā)現(xiàn)所需的物體或現(xiàn)象的照片,而不再需要親自進行太空拍照[94]。
第四范式的提出反映了人們對世界的固有認識發(fā)生了根本性的變化——從二元認識(精神世界/物理世界)轉(zhuǎn)向三元認識(精神世界/數(shù)據(jù)世界/物理世界),即在原有的“精神世界”和“物理世界”之間出現(xiàn)了一個新的世界——數(shù)據(jù)世界。
因此,科學研究者往往直接面對的是數(shù)據(jù)世界,通過對數(shù)據(jù)世界的研究達到認識和改造物理世界的目的。
對于科學研究者而言,數(shù)據(jù)世界中已積累的“歷史數(shù)據(jù)”往往足以完成一項科研任務,數(shù)據(jù)科學家不需要親自到物理世界采用問卷和訪談的方法收集數(shù)據(jù)——“調(diào)研數(shù)據(jù)”。
同時,與“調(diào)研數(shù)據(jù)”相比,“歷史數(shù)據(jù)”更具有客觀性和可信度。
目前,相關研究主要挑戰(zhàn)在于第三范式與第四范式的區(qū)別、第四范式的內(nèi)涵、理論深入研究以及領域應用。
3.10 人才培養(yǎng)——數(shù)據(jù)工程師還是數(shù)據(jù)科學家
傳統(tǒng)科學領域中,數(shù)據(jù)相關的人才培養(yǎng)的目標定位于數(shù)據(jù)工程師——從事數(shù)據(jù)的組織、管理、備份、恢復工作的人才。
但是,在大數(shù)據(jù)時代,數(shù)據(jù)工程師無法勝任數(shù)據(jù)科學的研究任務,需要的是一類全新的人才——數(shù)據(jù)科學家。
二者的主要區(qū)別在于:數(shù)據(jù)工程師負責的是數(shù)據(jù)的管理,而數(shù)據(jù)科學家擅長的是基于數(shù)據(jù)的管理,如基于數(shù)據(jù)的決策、產(chǎn)品開發(fā)、業(yè)務定義等。
目前,關于數(shù)據(jù)科學家的研究及人才培養(yǎng)的挑戰(zhàn)在于正確分析崗位職責與用人需求、數(shù)據(jù)科學家的素質(zhì)與能力要求、數(shù)據(jù)科學項目管理以及數(shù)據(jù)科學家的職業(yè)規(guī)劃。
數(shù)據(jù)科學研究的發(fā)展趨勢在梳理研究熱點、爭議及挑戰(zhàn)的基礎上,我們需要進一步分析數(shù)據(jù)科學研究的發(fā)展趨勢。
從整體上講,數(shù)據(jù)科學研究的主要發(fā)展趨勢可以總結(jié)為:· “思維模式的多樣化和研究范式的變遷”是根本趨勢。
其中,思維模式的多樣化主要體現(xiàn)在數(shù)據(jù)范式的興起以及其與傳統(tǒng)的知識范式并存;研究范式的變遷是指科學研究范式從“計算科學范式”轉(zhuǎn)向“數(shù)據(jù)密集型科學發(fā)現(xiàn)范式”,進而改變?nèi)藗儗κ澜绲亩J識,相關研究重點將轉(zhuǎn)變?yōu)橥ㄟ^數(shù)據(jù)世界的研究認識和改造物理世界。
思維模式的多樣化和研究范式的變遷對數(shù)據(jù)科學研究產(chǎn)生深遠影響,將改變?nèi)藗儗?shù)據(jù)的認識視角、開發(fā)動因和利用方式。
· “專業(yè)中的數(shù)據(jù)科學”是研究熱點。
大數(shù)據(jù)時代,各專業(yè)領域面臨的主要挑戰(zhàn)在于如何解決新興數(shù)據(jù)與傳統(tǒng)知識之間的矛盾,即數(shù)據(jù)已經(jīng)變了,但知識沒有更新,各學科中的傳統(tǒng)知識無法解決大數(shù)據(jù)帶來的新問題。
因此,大數(shù)據(jù)時代的機遇與挑戰(zhàn)即將成為各學科領域研究的新方向,也就是說,專業(yè)中的數(shù)據(jù)科學成為相關研究的熱點問題。
· “專業(yè)數(shù)據(jù)科學”是研究難點。
“專業(yè)中的數(shù)據(jù)科學”從不同專業(yè)視角解讀數(shù)據(jù)科學,存在研究興趣點和研究發(fā)現(xiàn)(如理論、方法、技術、工具和典型實踐等)的差異性,甚至可能出現(xiàn)相互重疊與沖突的現(xiàn)象。
在這種背景下,如何將分散不同學科領域中的共性問題及通用結(jié)論提煉成一門新的學科——“專業(yè)數(shù)據(jù)科學”,進而為各個學科領域的研究提供新的理論基礎是未來研究的難點所在。
· “數(shù)據(jù)生態(tài)系統(tǒng)的建設”是終極問題。
數(shù)據(jù)學科是一門實踐性極強的學科,其研究和應用均不能脫離具體領域。
數(shù)據(jù)科學的研究和應用將會超出技術范疇,還涉及到發(fā)展戰(zhàn)略、基礎設施、人力資源、政策、法律與文化環(huán)境等諸多因素。
因此,數(shù)據(jù)科學需要解決的終極問題是將大數(shù)據(jù)放在一個完整的生態(tài)系統(tǒng)之中去認識與利用,從生態(tài)系統(tǒng)層次統(tǒng)籌和規(guī)劃,避免片面認識數(shù)據(jù)問題,進而推動數(shù)據(jù)、能源和物質(zhì)之間的相互轉(zhuǎn)化。
4.1 預測模型及相關分析的重視
數(shù)據(jù)科學的研究責任在于預測模型而不在于解釋模型。
以預測模型為中心的數(shù)據(jù)科學更偏向于實用主義,更加關注的是“對未來的預測能力”,而不是“對過去的解釋水平”[95]。
因此,數(shù)據(jù)科學的研究更加重視的是“現(xiàn)在能為未來做什么?”,而不是“過去對現(xiàn)在的影響是什么?”
數(shù)據(jù)科學中重視預測模型而不是解釋模型的另一個現(xiàn)實基礎在于“人們往往先發(fā)現(xiàn)規(guī)律,后發(fā)現(xiàn)原因”[96]。
從方法論層次看,以發(fā)現(xiàn)預測模型為目的的研究往往提倡的是假設演繹(Hypothetico-Deductive)研究范式[97],先提出研究假設,然后采用試驗設計和演繹分析方法論證研究假設成立與否。
然而,一個好的研究假設的提出需要研究者,尤其是數(shù)據(jù)科學家的特有素質(zhì)——創(chuàng)造力、批判性思考和好奇心。
與解釋模型不同的是,預測模型更加重視的是模型的簡單性,而不是復雜性,主要原因有兩個,一是預測模型對計算時間的要求較高,甚至需要進行實時分析,然而簡單模型的計算效率往往高于復雜模型;二是經(jīng)驗證明,正如奧卡姆剃刀定律(Occam's razor)[98]所言,在其他條件相同的情況下,就預測而言,簡單模型比復雜模型更可靠。
預測模型往往建立在相關關系,而不是因果關系。
通常,相關關系可以幫助我們預測未來,而因果關系有助于進一步理解和控制未來。
從表面上看,預測模型依賴的是相關關系的分析,但在本質(zhì)上屬于一種數(shù)據(jù)驅(qū)動型的“數(shù)據(jù)范式”,與基于知識范式的解釋模型有著本質(zhì)性的區(qū)別。
4.2 模型集成及元分析的興起
傳統(tǒng)數(shù)據(jù)分析的通用做法是用一個數(shù)據(jù)模型即可解決一項數(shù)據(jù)處理任務。
在這種以單一模型為基礎的數(shù)據(jù)分析中,為了提升數(shù)據(jù)處理的信度和效度,需要對模型進行優(yōu)化和調(diào)整,導致數(shù)據(jù)模型復雜度的增長。
也就是說,傳統(tǒng)數(shù)據(jù)分析中的數(shù)據(jù)模型有兩個基本特征:單一性和復雜性。
但是,在大數(shù)據(jù)背景下,人們很難找到一個能夠處理動態(tài)且異構(gòu)數(shù)據(jù)的單一模型,因此,開始尋求多個模型的集成應用。
與傳統(tǒng)數(shù)據(jù)分析不同的是,大數(shù)據(jù)分析中所涉及的模型往往是極其簡單,即大數(shù)據(jù)分析中的數(shù)據(jù)模型也有兩個基本特征:多樣性和簡單性。
可見,模型集成成為數(shù)據(jù)科學研究的一個新問題。
通常,大數(shù)據(jù)分析采用多個較為簡單的數(shù)據(jù)模型,將數(shù)據(jù)分析任務分解成分散在多個層次,多個活動的小任務,并通過簡單模型及其集成方法達到最終數(shù)據(jù)處理目的。
例如,在深度學習之中,由多處理層組成的計算模型可通過多層抽象來學習數(shù)據(jù)表征[99]。
模型集成的背后是元分析的興起。
傳統(tǒng)統(tǒng)計學重視的基于零次或一次數(shù)據(jù)的基本分析,包括描述性統(tǒng)計、參數(shù)估計和假設檢驗。
在大數(shù)據(jù)環(huán)境下,二次數(shù)據(jù)和三次數(shù)據(jù)的分析顯得更為重要,數(shù)據(jù)分析工作往往在眾多小模型的分析結(jié)果的基礎上進行二次分析,即元分析。
4.3 數(shù)據(jù)在先,模式在后或無模式的出現(xiàn)
傳統(tǒng)數(shù)據(jù)管理,尤其是關系型數(shù)據(jù)庫中采用的是“模式在先、數(shù)據(jù)在后(Schema First,Data Later)”的建設模式[100],即先定義模式,然后嚴格按照模式要求存儲和管理數(shù)據(jù);當需要調(diào)整模式時,不僅需要重定義數(shù)據(jù)結(jié)構(gòu),而且還需要修改上層應用程序。
然而,在大數(shù)據(jù)環(huán)境下,無法沿用“模式在先、數(shù)據(jù)在后(Schema First,Data Later)”的建設模式,主要原因有兩個:一是數(shù)據(jù)模式可能為不斷變化或根本不存在;二是按照預定模式進行數(shù)據(jù)的存儲和處理時容易導致信息丟失。
因此,“數(shù)據(jù)在先,模式在后或無模式(Data First, Schema Later or Never)”成為數(shù)據(jù)產(chǎn)品設計的主要趨勢。
以NoSQL為例,采用非常簡單的鍵值數(shù)據(jù)模型,通過模式在后(Schema Later)或無模式(Schemaless)的方式確保數(shù)據(jù)管理系統(tǒng)的敏捷性。
當然,模式在后或無模式也會帶來新問題,如限制數(shù)據(jù)管理系統(tǒng)的處理能力及加大應用系統(tǒng)的開發(fā)難度。
在“數(shù)據(jù)在先,模式在后或無模式”的興起背后是信息系統(tǒng)建設模式的歷史性變革——從先行支付(Pay-before-you-go)轉(zhuǎn)向現(xiàn)收現(xiàn)付(Pay-as-you-go)的建設模式。
信息系統(tǒng)建設中的先行支付模式的特點是根據(jù)特定時間點的需求定義信息系統(tǒng),信息系統(tǒng)一旦開發(fā)完畢,在一定時間內(nèi)相對穩(wěn)定。
先行支付模式的缺點在于無法適應底層數(shù)據(jù)的復雜性和上層應用的動態(tài)變化。
4.4 數(shù)據(jù)一致性及現(xiàn)實主義的回歸
在傳統(tǒng)數(shù)據(jù)管理中,對數(shù)據(jù)一致性的要求是接近于完美主義——強一致性,即任何時候從任何地方讀出的任何數(shù)據(jù)均為正確數(shù)據(jù)。
為了保證數(shù)據(jù)的一致性,在關系數(shù)據(jù)庫中引入了事務、兩端封鎖協(xié)議和兩端提交協(xié)議等方法或機制。
強一致性的優(yōu)點在于不僅可以保證數(shù)據(jù)質(zhì)量,而且可以降低后續(xù)計算的成本。
但是,強一致性不符合大數(shù)據(jù)時代的數(shù)據(jù)管理要求——高擴展性、高性能、高容錯性、高伸縮性和高經(jīng)濟性。
因此,NoSQL等新興數(shù)據(jù)管理技術從根本上改變了人們對數(shù)據(jù)一致性的傳統(tǒng)認識,主要表現(xiàn)在提出CAP理論和BASE原則等新興數(shù)據(jù)管理理念,引入弱一致性、最終一致性等概念,并提供了不同的解決方案,如更新一致性、讀寫一致性和會話一致性等。
可見,在數(shù)據(jù)科學研究中,數(shù)據(jù)的一致性出現(xiàn)了多樣化趨勢,即根據(jù)不同應用場景,有針對性地選擇具體的一致性及其實現(xiàn)方法。
在數(shù)據(jù)一致性的多樣化認識的轉(zhuǎn)變反映了們對數(shù)據(jù)數(shù)據(jù)管理目標的根本轉(zhuǎn)折——從完美主義回歸至現(xiàn)實主義。
以CAP理論[101]為例,人們對分布式系統(tǒng)的設計目的發(fā)生了改變,不再追求強一致性(Consistency)、可用性(Availability)和分區(qū)容錯性(Partition Tolerance)三個指標的同時最優(yōu),反而意識到了三者中的任何兩個特征的保證(或爭取)可能導致另一個特征的損失(或放棄)。
例如,Cassadra和Dynamo 為了爭取可用性和分區(qū)容錯性而放棄了一致性。
4.5 多副本技術及靠近數(shù)據(jù)原則的應用
傳統(tǒng)關系數(shù)據(jù)庫更加看重的是數(shù)據(jù)冗余的負面影響——冗余數(shù)據(jù)導致的數(shù)據(jù)一致性保障成本較高。
與此不同的是,數(shù)據(jù)科學中更加重視的是冗余數(shù)據(jù)的積極作用,即冗余數(shù)據(jù)在負載均衡、災難恢復和完整性檢驗中的積極作用。
同時,還通過引入多副本技術和物化視圖的方法豐富冗余數(shù)據(jù)的存在形式,縮短用戶請求的響應時間,確保了良好用戶體驗。
以Google搜索為例,采用緩存和照相(images)技術,重復利用搜索結(jié)果。
同時,在計算和應用系統(tǒng)的部署上,改變傳統(tǒng)的“數(shù)據(jù)靠近計算的原則”,反而開始采取了“計算靠近數(shù)據(jù)的原則”。
例如,在Spark系統(tǒng)提供了操作getPreferredLocations(),支持RDD的本地化計算[102];在MapReduce中,盡量將Map任務調(diào)度至存放副本數(shù)據(jù)數(shù)據(jù)的機器上。
可見,多副本技術和靠近數(shù)據(jù)原則均表明傳統(tǒng)的“以計算為中心”的產(chǎn)品部署模式正向“以數(shù)據(jù)為中心”的產(chǎn)品部署模式的轉(zhuǎn)變。
4.6 多樣化技術及一體化應用并存
傳統(tǒng)關系數(shù)據(jù)庫類產(chǎn)品雖多,但標準化程度較高,如均采用關系模型和SQL語言。
但是,新興的NoSQL數(shù)據(jù)庫代表的不是一種特定技術,而是包括基于不同數(shù)據(jù)模型和查詢接口的多種數(shù)據(jù)管理技術,如Key-Value、Key-Document和Key-Column和圖存儲模型等。
可見,在技術實現(xiàn)層次上,新興技術表現(xiàn)出了多樣化發(fā)展及高度專業(yè)化的趨勢,即一項新技術專注于一個問題、一項功能或一種應用場景。
例如,MapReduce、Tez、Storm、Druid等技術的定位相對單一,分別專注于分布式批處理、Map/Reduce過程的拆分與組合、實時處理和面向OLAP的列存儲等較為單一功能的實現(xiàn)。
當然,Spark、YARN等較為通用性技術的出現(xiàn)也為技術層次上的高度專業(yè)化趨勢提供了一種補充的解決方案。
同時,在傳統(tǒng)數(shù)據(jù)計算/管理環(huán)境中,不同數(shù)據(jù)產(chǎn)品的界限是比較清楚的,所依賴的技術也是單一的,要么關系模型,要么層次或網(wǎng)狀模型。
但是,大數(shù)據(jù)時代的到來導致不同計算/管理技術的高度融合,出現(xiàn)一些支持多種數(shù)據(jù)計算/管理技術集成產(chǎn)品,甚至顯現(xiàn)出了軟硬件一體化或嵌入式應用趨勢。
例如,Oracle大數(shù)據(jù)解決方案(Big Data Appliance)[103]集成了HDFS、Oracle NoSQL、Cloudera CDH、數(shù)據(jù)倉庫、內(nèi)存計算和分析型應用。
可見,在數(shù)據(jù)科學研究中一體化應用和專業(yè)化趨勢并存。
在產(chǎn)品與服務的實現(xiàn)層次上,一體化趨勢越來越顯著,一種產(chǎn)品的實現(xiàn)往往涉及多種不同技術的集成應用;在技術本身的實現(xiàn)層面,專業(yè)化趨勢成為主流,一項新技術專注于解決相對單一問題。
4.7 簡單計算及實用主義占據(jù)主導地位
“簡單”是數(shù)據(jù)科學的基本原則之一,代表著采用相對簡單的技術來應對復雜的基礎數(shù)據(jù)及不斷變化的應用場景。
與此不同的是,傳統(tǒng)數(shù)據(jù)管理中采用的技術實現(xiàn)往往較為復雜。
例如,傳統(tǒng)關系數(shù)據(jù)庫技術采用Join運算實現(xiàn)了多表查詢等復雜操作。
但是,這些復雜操作反而成為了關系數(shù)據(jù)庫在提升數(shù)據(jù)管理能力的一個重要瓶頸,如Join操作要求被處理數(shù)據(jù)不能分布在不同節(jié)點。
為此,NoSQL放棄了Join等復雜處理操作,突出了簡單計算較高的效率和效果。
從復雜計算到簡單計算的轉(zhuǎn)變表明人們對數(shù)據(jù)產(chǎn)品開發(fā)的理念從完美主義回歸至實用主義。
數(shù)據(jù)科學是一門實踐性很強的學科,現(xiàn)階段其研究主要關注的是實用性,即解決當前社會亟待解決的實際問題,而不是復雜計算的實現(xiàn)。
4.8 數(shù)據(jù)產(chǎn)品開發(fā)及數(shù)據(jù)科學的嵌入式應用
作為數(shù)據(jù)科學的特有研究內(nèi)容,數(shù)據(jù)產(chǎn)品開發(fā)將成為未來研究重要課題。
在數(shù)據(jù)科學中,所謂的數(shù)據(jù)產(chǎn)品(Data Products)并不限于“數(shù)據(jù)形態(tài)”的產(chǎn)品,而泛指“能夠通過數(shù)據(jù)來幫助用戶實現(xiàn)其某一個(些)目標的產(chǎn)品”[104]。
可見,數(shù)據(jù)產(chǎn)品是指在數(shù)據(jù)科學項目中形成,能夠被人、計算機以及其他軟硬件系統(tǒng)消費、調(diào)用或使用,并滿足他們(它們)某種需求的任何產(chǎn)品,包括數(shù)據(jù)集、文檔、知識庫、應用系統(tǒng)、硬件系統(tǒng)、服務、洞見、決策及它們的各種組合。
以Google眼鏡為例,雖然其產(chǎn)品形態(tài)上看似乎是“眼鏡類產(chǎn)品”,但從其主要競爭力之源看,確實屬于“數(shù)據(jù)產(chǎn)品”。
數(shù)據(jù)產(chǎn)品開發(fā)主要關注的是如何將數(shù)據(jù)科學的理論融入傳統(tǒng)產(chǎn)品開發(fā)實踐之中,進而實現(xiàn)產(chǎn)品的更新?lián)Q代和用戶體驗的提升。
未來,數(shù)據(jù)產(chǎn)品開發(fā)將嵌入至傳統(tǒng)產(chǎn)品的研發(fā)之中,二者的界限越來越模糊。
如何將數(shù)據(jù)科學家的創(chuàng)造性設計、批判性思考和好奇性提問的職業(yè)素質(zhì)融入產(chǎn)品研發(fā)之中,從而實現(xiàn)傳統(tǒng)產(chǎn)品的增值和核心競爭力的提升是未來數(shù)據(jù)產(chǎn)品開發(fā)的難點所在。
在此背景下,以數(shù)據(jù)為中心的設計思維將會是數(shù)據(jù)產(chǎn)品開發(fā)的主要思維模式。
同時,良好的用戶體驗將成為產(chǎn)品開發(fā)的主要評價指標之一。
數(shù)據(jù)產(chǎn)品開發(fā)的興起將推動數(shù)據(jù)科學的嵌入式應用。
數(shù)據(jù)科學將作為傳統(tǒng)產(chǎn)品的創(chuàng)新點、增值點和競爭力之源,成為產(chǎn)品開發(fā)的必要環(huán)節(jié),數(shù)據(jù)科學與領域?qū)嵆尸F(xiàn)出了高度融合的趨勢。
4.9 專家余及公眾數(shù)據(jù)科學的興起
在傳統(tǒng)數(shù)據(jù)分析中,專家,尤其是領域?qū)<沂侵R的主要來源之一。
例如,本體的建設需要由領域?qū)<彝瓿桑粚<蚁到y(tǒng)中的知識庫建立在專家的知識之上。
但是,在大數(shù)據(jù)時代,專家余(ProAm)[105]成為數(shù)據(jù)處理項目的主要貢獻者。
與專家不同的是,專家余是指其能力在專家與業(yè)務之間的準專家型人群。
近年來,眾包(包括眾創(chuàng)、眾籌等)成為大數(shù)據(jù)時代的重要數(shù)據(jù)處理模式,其主要參與者均為專家余,而并非是嚴格意義上的專家或業(yè)余人群。
例如,與傳統(tǒng)意義上的專家編寫的百科全書不同,Wikipedia是由來自各領域的專家余共同完成的知識庫。
眾包的廣泛應用為傳統(tǒng)知識庫建設中的數(shù)據(jù)量與形式化程度之間的矛盾提供了新的解決方案。
在傳統(tǒng)知識庫建設中,要么形式化程度高,但數(shù)據(jù)量不夠,反之亦然。
眾包數(shù)據(jù)處理模式的出現(xiàn)使位于數(shù)據(jù)鏈長尾的專家余成為知識的主要貢獻者和積極參與者。
從協(xié)同方式看,眾包中大規(guī)模協(xié)同可以分為機器協(xié)同、人機協(xié)同和人際協(xié)同三種表現(xiàn)形式。
其中,人機協(xié)同是數(shù)據(jù)科學研究的重要課題。
例如,混合智能——人與機器的互補型智能正成為人工智能的新課題。
再如,語義Web技術的出現(xiàn)為人機協(xié)同提供了一種重要的技術支撐。
公眾數(shù)據(jù)科學(Citizen Data Science)是專家余和大規(guī)模協(xié)同在數(shù)據(jù)科學領域的應用的主要表現(xiàn)形式之一。
所謂的公眾數(shù)據(jù)科學屬于公眾科學(Citizen Science),是指公眾參與的數(shù)據(jù)科學,與數(shù)據(jù)科學(Data Science)的區(qū)別在于參與研究者以非職業(yè)的興趣愛好者和志愿者為主。
也就是說,公眾數(shù)據(jù)科學是一種基于眾包和專家余的準數(shù)據(jù)科學,也是在數(shù)據(jù)科學成為一門廣為接受的正式科學之前的過渡型理論。
4.10 數(shù)據(jù)科學家與人才培養(yǎng)的探討
數(shù)據(jù)科學項目任務往往是富有挑戰(zhàn)性的工作,每一項任務都是獨一無二的,對工作人員的要求超出數(shù)據(jù)工程師的能力范疇,亟待由一類新型人才——數(shù)據(jù)科學家來承擔。
從Drew Convey的數(shù)據(jù)科學維恩圖[106]可看出,數(shù)據(jù)科學具有三個基本要素,即理論(統(tǒng)計學與數(shù)學知識)、實踐(領域?qū)崙?zhàn))和精神(黑客精神)。
可見,數(shù)據(jù)科學與傳統(tǒng)科學的人才需求不同,前者不僅要求傳統(tǒng)科學中的理論與實踐,而且還需要有數(shù)據(jù)科學家的“精神”素質(zhì),即原創(chuàng)性設計、批判性思考和好奇心地提問的能力。
因此,如何培養(yǎng)“理論、實踐和精神為一體”的綜合性人才是未來研究的重要課題。
相關研究主要以下四個層面開展:1)辦學層次,如何培養(yǎng)本科[107]、碩士[108]和博士[109]層次的數(shù)據(jù)科學人才。
目前,國內(nèi)和國外對數(shù)據(jù)科學人才培養(yǎng)層次的關注點不同,分別關注的是本科層次和碩士層次人才的培養(yǎng),但對博士層次的人才的討論相對少;
2)專業(yè)設置:是否需要設立數(shù)據(jù)科學專業(yè)?例如,國內(nèi)主要討論的是如何建設“數(shù)據(jù)科學與大數(shù)據(jù)技術”專業(yè)。
3)學科方向的選擇:如何將數(shù)據(jù)科學與傳統(tǒng)學科向結(jié)合,確定數(shù)據(jù)科學的學科地位;
4)課程改革[110]:如何完成傳統(tǒng)課程的改革以及數(shù)據(jù)科學新課程的創(chuàng)造性設計。
結(jié) 論
數(shù)據(jù)科學是一門極其特殊的新興學科,具有與其他學科不同的新特征,例如思維模式的轉(zhuǎn)變(從數(shù)據(jù)范式到知識范式的轉(zhuǎn)變)、對數(shù)據(jù)認識的變化(從數(shù)據(jù)的被動屬性到主動屬性的轉(zhuǎn)移)、指導思想的變化(實用主義和現(xiàn)實主義的回歸)、以數(shù)據(jù)產(chǎn)品開發(fā)為主要目的(數(shù)據(jù)成為傳統(tǒng)產(chǎn)品的主要創(chuàng)新點)、專業(yè)數(shù)據(jù)科學與專業(yè)中的數(shù)據(jù)科學的差異性以及數(shù)據(jù)科學的三要素(不僅涉及理論和實踐,而且還包括精神素質(zhì))。
因此,數(shù)據(jù)科學的研究不能簡單照搬傳統(tǒng)學科的經(jīng)驗,應尊重其特殊使命和屬性。
為此,我們對數(shù)據(jù)科學研究者提出如下幾點建議:(1)正確認識數(shù)據(jù)科學。
正確認識數(shù)據(jù)科學的內(nèi)涵是有效學習和規(guī)范研究數(shù)據(jù)科學的前提。
目前,部分學者誤以為“數(shù)據(jù)科學統(tǒng)計學+機器學習”,過于強調(diào)統(tǒng)計學和機器學習,而忽略了數(shù)據(jù)科學本身。
其實,統(tǒng)計學和機器學習是數(shù)據(jù)科學的理論基礎,而并非其核心內(nèi)容。
數(shù)據(jù)科學具有區(qū)別與其他學科的獨特的研究使命、研究視角、思維模式、做事原則和知識體系。
如果脫離了這些獨到之處,數(shù)據(jù)科學的學習和研究將發(fā)生方向性的誤讀和本質(zhì)性的扭曲。
(2)突出數(shù)據(jù)的主動屬性。
數(shù)據(jù)科學的一個重要貢獻或價值就在于改變了人們對數(shù)據(jù)的研究方向,即從被動屬性轉(zhuǎn)向主動屬性。
一直以來,人們習慣性地把數(shù)據(jù)當做被動或死的東西,關注的是“你能對數(shù)據(jù)做什么?”,如模式定義,結(jié)構(gòu)化處理和預處理,都試圖將復雜數(shù)據(jù)轉(zhuǎn)換成簡單數(shù)據(jù)。
但是,大數(shù)據(jù)時代更加關注的是數(shù)據(jù)的另一個屬性——主動屬性,強調(diào)的是“數(shù)據(jù)能給你帶來什么?”,如數(shù)據(jù)驅(qū)動型應用、以數(shù)據(jù)為中心的設計、讓數(shù)據(jù)說話、數(shù)據(jù)洞見等,將復雜性認為數(shù)據(jù)的自然屬性,開始接受數(shù)據(jù)的復雜性。
研究方向從數(shù)據(jù)的被動屬性到主動屬性的轉(zhuǎn)變是學習和研究這一門新學科的基本出發(fā)點。
如果忽略了這一點,容易將數(shù)據(jù)科學當成數(shù)據(jù)工程來學習和研究。
(3)平衡數(shù)據(jù)科學的三個要素。
與其他課程,尤其是技術類課程不同的是,數(shù)據(jù)科學既包括理論和實踐,更需要精神——原創(chuàng)性設計、批判性思考和好奇性提問的素質(zhì)。
因此,數(shù)據(jù)科學的學習中不僅要強調(diào)理論聯(lián)系實際,而且還不能忽略對數(shù)據(jù)科學家精神的培養(yǎng)。
積極參與數(shù)據(jù)科學相關的開源項目和學術活動類項目是兼顧數(shù)據(jù)科學的三個基本要素的兩個重要捷徑。
(4)側(cè)重培養(yǎng)信心和興趣,學會跟蹤數(shù)據(jù)科學的最新動態(tài)。
一方面,數(shù)據(jù)科學建立在統(tǒng)計學和機器學習等基礎理論之上,學習門檻較高,因此,培育自己對數(shù)據(jù)科學的學習信心和興趣尤為重要;另一方面,數(shù)據(jù)科學仍屬于一門快速發(fā)展的新興學科,其理念、理論、方法、技術和工具在不斷變化之中,要求我們必須掌握動態(tài)跟蹤數(shù)據(jù)科學領域的國際頂級會議、重要學術期刊、主要研究機構(gòu)、代表性人物和標志性實踐的能力。
(5)重視試驗設計及假設檢驗。
試驗設計是數(shù)據(jù)科學項目的重要活動之一。
數(shù)據(jù)科學家應根據(jù)數(shù)據(jù)科學項目的研究目的,有創(chuàng)造性地提出研究假設,并設計對應的試驗,最終通過這些試驗達到假設檢驗的目的。
以華盛頓大學和加州大學伯克利分校的數(shù)據(jù)科學專業(yè)人才培養(yǎng)方案為例,分別開出了課程《應用統(tǒng)計與試驗設計(Applied Statistics & Experimental Design)和《試驗與因果分析(Experiments and Causality)》,重點培養(yǎng)學生的試驗設計和假設檢驗的能力。
(6)不要忽視因果分析。
在大數(shù)據(jù)時代,很多人誤以為“因果分析不再重要了”,并把研究重點僅限在相關分析。
相關分析只能用于識別事物之間的關聯(lián)關系,而無法指導如何優(yōu)化和干預這種相關關系。
因此,當相關關系發(fā)生變化或需要人為干預相關關系時,必須進一步研究其因果關系。
在數(shù)據(jù)科學項目中,數(shù)據(jù)科學家的關注重點是發(fā)現(xiàn)各種可能的關聯(lián)關系,而關聯(lián)關系的產(chǎn)生機制和優(yōu)化方法需要由領域?qū)<彝瓿伞?/p>
加州大學伯克利分校和哥倫比亞大學分別開設《實驗與因果分析(Experiments and Causality)》和《因果推理與數(shù)據(jù)科學(Causal Inference for Data Science)》,均反映了因果分析在數(shù)據(jù)科學中的重要地位。
(7)以數(shù)據(jù)產(chǎn)品開發(fā)為主要抓手。
數(shù)據(jù)產(chǎn)品開發(fā)是學習與研究數(shù)據(jù)科學的主要抓手之一。
需要注意的是,數(shù)據(jù)產(chǎn)品不限于數(shù)據(jù)形態(tài)的產(chǎn)品,任何用數(shù)據(jù)來幫助目標用戶實現(xiàn)其某一目的的產(chǎn)品都可視為數(shù)據(jù)產(chǎn)品。
數(shù)據(jù)是未來產(chǎn)品的創(chuàng)新點和增值點。
因此,向數(shù)據(jù)產(chǎn)品的轉(zhuǎn)變是傳統(tǒng)產(chǎn)品的重要發(fā)展趨勢。
以Google眼鏡[111]為例,其創(chuàng)新源自數(shù)據(jù),而不在于其外觀和選材,以數(shù)據(jù)為中心的產(chǎn)品設計才是該產(chǎn)品與傳統(tǒng)的眼鏡類產(chǎn)品的根本區(qū)別。
可見,數(shù)據(jù)產(chǎn)品開發(fā)是數(shù)據(jù)科學的最為直接且最為普遍的應用。
(8)準確定位人才培養(yǎng)目的。
數(shù)據(jù)科學的學習和人才培養(yǎng)的目的是培養(yǎng)數(shù)據(jù)科學家而不是數(shù)據(jù)工程師。
二者的區(qū)別在于,數(shù)據(jù)工程師負責的是“數(shù)據(jù)本身的管理”,而數(shù)據(jù)科學家的主要職責是“基于數(shù)據(jù)的管理”,包括基于數(shù)據(jù)的分析、決策、流程定義與再造、產(chǎn)品設計和服務提供等。
因此,相對于數(shù)據(jù)工程師,數(shù)據(jù)科學家對人才的要求更高,不僅要有理論功底和實踐經(jīng)驗,而且還要求有精神素質(zhì),即創(chuàng)造性設計、批判性思考和好奇性提問的能力。
參考文獻
[1] John Walker S. Big data: A revolution that will transform how we live, work, and think[J]. 2014.
[2] Boyd D, Crawford K. Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon[J]. Information, communication & society, 2012, 15(5): 662-679.
[3] Kitchin R. Big Data, new epistemologies and paradigm shifts[J]. Big Data & Society, 2014, 1(1): 2053951714528481.
[4] Jagadish H V. Big data and science: myths and reality[J]. Big Data Research, 2015, 2(2): 49-52.
[5] Provost F, Fawcett T. Data science and its relationship to big data and data-driven decision making[J]. Big Data, 2013, 1(1): 51-59.
[6] Naur P. Concise survey of computer methods[M]Studentlitteratur AB: 1974.
[7] Cleveland W S. Data science: an action plan for expanding the technical areas of the field of statistics[J]. International statistical review, 2001, 69(1): 21-26.
[8]Mattmann C A. Computing: A vision for data science[J]. Nature, 2013, 493(7433): 473-475.
[9]Dhar V. Data science and prediction[J]. Communications of the ACM, 2013, 56(12): 64-73.
[10] Patil T, Davenport T. Data scientist: the sexiest job of the 21st century[J]. Harvard Business Review, 2012.
[11] Kitchin R. Big data and human geography: Opportunities, challenges and risks[J]. Dialogues in human geography, 2013, 3(3): 262-267.
[12] Smith M. The White House names Dr. DJ Patil as the first US chief data scientist[J]. The White House Blog, 2015.
[13] Gartner J. Gartner’s 2014 hype cycle for emerging technologies maps the journey to digital business[OL]. http://www.gartner.com/newsroom/id/2819918.
[14] Gartner J. Hype Cycle for Data Science, 2016 [OL]. https://www.gartner.com/doc/3388917/hype-cycle-data-science-.(25 July 2016 )
[15] Schutt R, O'Neil C. Doing data science: Straight talk from the frontline[M]. O'Reilly Media, Inc., 2013:7.
[16] Jerry Overton.Going Pro in Data Science [M].O’Reilly Media, Inc,2016:12.
[17] 朝樂門.數(shù)據(jù)科學理論與實踐[M].北京:清華大學出版社,2017:15.
[18] Gray J, Chambers L, Bounegru L. The data journalism handbook: how journalists can use data to improve the news[M]. " O'Reilly Media, Inc.", 2012.
[19] Kalidindi S R, De Graef M. Materials data science: current status and future outlook[J]. Annual Review of Materials Research, 2015, 45: 171-193.
[20] Fang B, Zhang P. Big Data in Finance[M]//Big Data Concepts, Theories, and Applications. Springer International Publishing, 2016: 391-412.
[21] Davis K. Ethics of Big Data: Balancing risk and innovation[M]. " O'Reilly Media, Inc.", 2012.
[22] West D M. Big data for education: Data mining, data analytics, and web dashboards[J]. Governance Studies at Brookings, 2012, 4: 1-0.
[23] Labrinidis A, Jagadish H V. Challenges and opportunities with big data[J]. Proceedings of the VLDB Endowment, 2012, 5(12): 2032-2033.
[24] Kaisler S, Armour F, Espinosa J A, et al. Big data: Issues and challenges moving forward[C].System Sciences (HICSS), 2013 46th Hawaii International Conference on. IEEE, 2013: 995-1004.
[25] Chen H, Chiang R H L, Storey V C. Business intelligence and analytics: From big data to big impact[J]. MIS quarterly, 2012, 36(4).
[26] Provost F, Fawcett T. Data science and its relationship to big data and data-driven decision making[J]. Big Data, 2013, 1(1): 51-59.
[27] Cleveland W S. Data science: an action plan for expanding the technical areas of the field of statistics[J]. International statistical review, 2001, 69(1): 21-26.
[28] Mattmann C A. Computing: A vision for data science[J]. Nature, 2013, 493(7433): 473-475.
[29] Schutt R, O'Neil C. Doing data science: Straight talk from the frontline[M]. " O'Reilly Media, Inc.", 2013.
[30] Shanahan J G, Dai L. Large scale distributed data science using apache spark[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2015: 2323-2324.
[31] Holmes A. Hadoop in practice[M]. Manning Publications Co., 2012.
[32] Sharma S, Shandilya R, Patnaik S, et al. Leading NoSQL models for handling Big Data: a brief review[J]. International Journal of Business Information Systems, 2016, 22(1): 1-25.
[33] Sadalage P J, Fowler M. NoSQL distilled: a brief guide to the emerging world of polyglot persistence[M]. Pearson Education, 2012.
[34] Marx V. Biology: The big challenges of big data[J]. Nature, 2013, 498(7453): 255-260.
[35] Raghupathi W, Raghupathi V. Big data analytics in healthcare: promise and potential[J]. Health information science and systems, 2014, 2(1): 3.
[36] Kim G H, Trimi S, Chung J H. Big-data applications in the government sector[J]. Communications of the ACM, 2014, 57(3): 78-85.
[37] Daniel B. Big data and analytics in higher education: Opportunities and challenges[J]. British journal of educational technology, 2015, 46(5): 904-920.
[38] George G, Haas M R, Pentland A. Big data and management[J]. Academy of Management Journal, 2014, 57(2): 321-326.
[39] Swan M. The quantified self: Fundamental disruption in big data science and biological discovery[J]. Big Data, 2013, 1(2): 85-99.
[40] Lewis S C. Journalism in an Era of Big Data: Cases, concepts, and critiques[J]. 2015.
[41] Rahm E. Big Data Analytics[J]. it-Information Technology, 2016, 58(4): 155-156.
[42] Baumer B. A data science course for undergraduates: Thinking with data[J]. The American Statistician, 2015, 69(4): 334-342.
[43] Hardin J, Hoerl R, Horton N J, et al. Data science in statistics curricula: Preparing students to “think with data”[J]. The American Statistician, 2015, 69(4): 343-353.
[44] Cassel L N, Posner M, Dicheva D, et al. Advancing data science for students of all majors[C]//Proceedings of the 2017 ACM SIGCSE Technical Symposium on Computer Science Education. ACM, 2017: 722-722.
[45] Berman F D, Bourne P E. Let's make gender diversity in data science a priority right from the start[J]. PLoS biology, 2015, 13(7): e1002206.
[46] Lemen Chao.Data Science [M].Tsinghua University Press,2016.
[47] Cooper P. Data, information, knowledge and wisdom[J]. Anaesthesia & Intensive Care Medicine, 2014, 15(1): 44-45.
[48] Erl T, Khattak W, Buhler P. Big data fundamentals: concepts, drivers & techniques[M]. Prentice Hall Press, 2016.
[49] Wang G, Gunasekaran A, Ngai E W T, et al. Big data analytics in logistics and supply chain management: Certain investigations for research and applications[J]. International Journal of Production Economics, 2016, 176: 98-110.
[50] Cardenas A A, Manadhata P K, Rajan S P. Big data analytics for security[J]. IEEE Security & Privacy, 2013, 11(6): 74-76.
[51] Raghupathi W, Raghupathi V. Big data analytics in healthcare: promise and potential[J]. Health information science and systems, 2014, 2(1): 3.
[52] Jeffery T. Leek, Roger D. Peng.What is the question? Mistaking the type of question being considered is the most common error in data analysis[J].Science,2015,374(6228):1314-1315.
[53] Swan M. The quantified self: Fundamental disruption in big data science and biological discovery[J]. Big Data, 2013, 1(2): 85-99.
[54] Ruckenstein M, Pantzar M. Beyond the quantified self: Thematic exploration of a dataistic paradigm[J]. new media & society, 2017, 19(3): 401-418.
[55] Khatri V, Brown C V. Designing data governance[J]. Communications of the ACM, 2010, 53(1): 148-152.
[56] Khatri V, Brown C V. Designing data governance[J]. Communications of the ACM, 2010, 53(1): 148-152.
[57] Thomas G. The DGI data governance framework[J]. The Data Governance Institute, Orlando, FL (USA), 2006.
[58] Lee S U, Zhu L, Jeffery R. Design Choices for Data Governance in Platform Ecosystems: A Contingency Model[J]. arXiv preprint arXiv:1706.07560, 2017.
[59] CMMI Institute.Data Management Maturity (DMM)? Model[OL].http://cmmiinstitute.com/ data-management-maturity
[60] Liu J, Li J, Li W, et al. Rethinking big data: A review on the data quality and usage issues[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 115: 134-142.
[61] 李建中, 王宏志, 高宏. 大數(shù)據(jù)可用性的研究進展[J]. 軟件學報, 2016, 27(7): 1605-1625.
[62] Rahm E, Do H H. Data cleaning: Problems and current approaches[J]. IEEE Data Eng. Bull., 2000, 23(4): 3-13.
[63] Wickham H. Tidy data[J]. Journal of Statistical Software, 2014, 59(10): 1-23.
[64] Lafuente G. The big data security challenge[J]. Network security, 2015, 2015(1): 12-14.
[65] Perera C, Ranjan R, Wang L, et al. Big data privacy in the internet of things era[J]. IT Professional, 2015, 17(3): 32-39.
[66] Patil D, Noren A. Building Data Science Teams: The Skills, Tools and Perspectives Behind Great Data Science Groups[M]. O'Reilly, 2011.
[67] Banerjee S. Citizen Data Science for Social Good: Case Studies and Vignettes from Recent Projects. doi: 10.13140/RG. 2.1. 1846.6002[J]. URL https://www. researchgate. net/publication/283119007_Citizen_Data_Science_for_Social_Goo d_Case_Studies_and_Vignettes_from_Recent_Projects, 2015.
[68] Parasie S, Dagiral E. Data-driven journalism and the public good:“Computer-assisted-reporters” and “programmer-journalists” in Chicago[J]. New media & society, 2013, 15(6): 853-871.
[69] Du D, Li A, Zhang L. Survey on the applications of big data in Chinese real estate enterprise[J]. Procedia Computer Science, 2014, 30: 24-33.
[70] Middleton S E, Shadbolt N R, De Roure D C. Ontological user profiling in recommender systems[J]. ACM Transactions on Information Systems (TOIS), 2004, 22(1): 54-88.
[71] Marshall P, Todd B, Rhodes M. Ultimate Guide to Google AdWords[M]. Entrepreneur Press, 2014.
[72] Gurrin C, Smeaton A F, Doherty A R. Lifelogging: Personal big data[J]. Foundations and Trends? in Information Retrieval, 2014, 8(1): 1-125.
[73] Raghupathi W, Raghupathi V. Big data analytics in healthcare: promise and potential[J]. Health information science and systems, 2014, 2(1): 3.
[74] Marx V. Biology: The big challenges of big data[J]. Nature, 2013, 498(7453): 255-260.
[75] Bello-Orgaz G, Jung J J, Camacho D. Social big data: Recent achievements and new challenges[J]. Information Fusion, 2016, 28: 45-59.
[76] Mohanty S, Jagadeesh M, Srivatsa H. Big data imperatives: Enterprise ‘Big Data’warehouse,‘BI’implementations and analytics[M]. Apress, 2013.
[77] Bertot J C, Gorham U, Jaeger P T, et al. Big data, open government and e-government: Issues, policies and recommendations[J]. Information Polity, 2014, 19(1, 2): 5-16.
[78] Aggarwal A. Opportunities and Challenges of Big Data in Public Sector[J]. Managing Big Data Integration in the Public Sector, 2015: 289.
[79] Matt Turck.Big Data Landscape 2016 v18 FINAL[OL].(2016-4-28).http://mattturck.com/big-data-landscape-2016-v18-final/
[80] Kaisler S, Armour F, Espinosa J A, et al. Big data: Issues and challenges moving forward[C]//System Sciences (HICSS), 2013 46th Hawaii International Conference on. IEEE, 2013: 995-1004
[81] Al-Jarrah, Omar Y., et al. "Efficient machine learning for big data: A review." Big Data Research 2.3 (2015): 87-93.
[82] Batra, Surinder. "Big data analytics and its reflections on DIKW hierarchy." Review of Management 4.1/2 (2014): 5.
[83] Donhost M J, Anfara Jr V A. Data-driven decision making[J]. Middle School Journal, 2010, 42(2): 56-63.
[84] Chen C L P, Zhang C Y. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data[J]. Information Sciences, 2014, 275: 314-347.
[85] Voulgaris Z, Magoulas G D. Extensions of the k nearest neighbour methods for classification problems[C]//Proc. of the 26th IASTED International Conference on Artificial Intelligence and Applications (AIA), Innsbruck, Austria, February 11. 2008, 13: 23-28.
[86] Datawocky.More data usually beats better algorithms[OL].(2008-3-24).http://anand.typepad.com/datawocky/2008/03/more-data-usual.html
[87] Kleppmann, Martin. Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. " O'Reilly Media, Inc.", 2017.
[88] Eric Brewer.Parallelism in the Cloud[OL].(2013-6-24)
.https://www.usenix.org/sites/default/files/conference/protected-files/brewer_hotpar13_slides.pdf
[89] McAfee A, Brynjolfsson E, Davenport T H. Big data: the management revolution[J]. Harvard business review, 2012, 90(10): 60-68.
[90] Fan, Jianqing, Fang Han, and Han Liu. "Challenges of big data analysis." National science review 1.2 (2014): 293-314.
[91] Edgar, Robert C. "MUSCLE: a multiple sequence alignment method with reduced time and space complexity." BMC bioinformatics 5.1 (2004): 113.
[92] Ginsberg J, Mohebbi M H, Patel R S, et al. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012-1014.
[93] Lazer D, Kennedy R, King G, et al. The Parable of Google Flu: Traps in Big Data Analysis[J]. Science, 2014, 343(6176): 1203-1205.
[94] Tansley, Stewart, and Kristin M. Tolle. The fourth paradigm: data-intensive scientific discovery. Ed. Tony Hey. Vol. 1. Redmond, WA: Microsoft research, 2009.
[95] Provost F, Fawcett T. Data science and its relationship to big data and data-driven decision making[J]. Big Data, 2013, 1(1): 51-59.
[96] Dhar V, Chou D. A comparison of nonlinear models for financial prediction[J]. IEEE Transactions on Neural networks, 2001, 12(4): 907-921.
[97] F?llesdal, Dagfinn. "Hermeneutics and the hypothetico‐deductive method." Dialectica 33.3‐4 (1979): 319-336.
[98] Blumer A, Ehrenfeucht A, Haussler D, et al. Occam's razor[J]. Information processing letters, 1987, 24(6): 377-380.
[99] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[100] Liu Z H, Hammerschmidt B, McMahon D. JSON data management: supporting schema-less development in RDBMS[C]//Proceedings of the 2014 ACM SIGMOD international conference on Management of data. ACM, 2014: 1247-1258.
[101] Brewer E. CAP twelve years later: How the" rules" have changed[J]. Computer, 2012, 45(2): 23-29.
[102] Zaharia M, Chowdhury M, Franklin M J, et al. Spark: Cluster computing with working sets[J]. HotCloud, 2010, 10(10-10): 95.
[103] Plunkett, Tom, et al. Oracle Big Data Handbook. McGraw-Hill Osborne Media, 2013.
[104] Patil D J. Data Jujitsu: the art of turning data into product[M]. " O'Reilly Media, Inc.", 2012.
[105] Leadbeater C, Miller P. The Pro-Am revolution: How enthusiasts are changing our society and economy[M]. Demos, 2004.
[106] Conway D. Data Science in the US Intelligence Community[J]. IQT Quarterly, 2011, 2(4): 24-27.
[107] Anderson P, McGuffee J, Uminsky D. Data science as an undergraduate degree[C]//Proceedings of the 45th ACM technical symposium on Computer science education. ACM, 2014: 705-706.
[108] Marshall L, Eloff J H P. Towards an Interdisciplinary Master’s Degree Programme in Big Data and Data Science: A South African Perspective[C]//Annual Conference of the Southern African Computer Lecturers' Association. Springer International Publishing, 2016: 131-139.
[109] West J D, Portenoy J. 10 The Data Gold Rush in Higher Education[J]. Big Data Is Not a Monolith, 2016: 129.
[110] Anderson P, Bowring J, McCauley R, et al. An undergraduate degree in data science: curriculum and a decade of implementation experience[C]//Proceedings of the 45th ACM technical symposium on Computer science education. ACM, 2014: 145-150.
[111] Muensterer O J, Lacher M, Zoeller C, et al. Google Glass in pediatric surgery: an exploratory study [J]. International journal of surgery, 2014, 12(4): 281-289.
基金項目:國家自然科學基金項目(91646202;71103020);國家社會科學基金(15BTQ054;12&ZD220)
作者簡介:朝樂門(1979-),男,中國人民大學副教授,博士生導師,研究方向:數(shù)據(jù)科學與大數(shù)據(jù)分析;邢春曉(1967-),男,清華大學教授,博士生導師,研究方向:云計算與大數(shù)據(jù)分析;張勇(1973-),男,清華大學副教授,博士生導師,研究方向:數(shù)據(jù)管理與大數(shù)據(jù)分析。

? 2025. All Rights Reserved. 滬ICP備2023009024號-1