數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢(shì)
作者:朝樂(lè)門(中國(guó)人民大學(xué))、邢春曉(清華大學(xué))、張勇(清華大學(xué))
來(lái)源:《計(jì)算機(jī)科學(xué)》,2018,45(1):1-13.
摘 要
大數(shù)據(jù)時(shí)代的到來(lái)催生了一門新的學(xué)科——數(shù)據(jù)科學(xué)。
首先,探討了數(shù)據(jù)科學(xué)的內(nèi)涵、發(fā)展簡(jiǎn)史、學(xué)科地位及知識(shí)體系等基本問(wèn)題,并提出了專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)之間的區(qū)別與聯(lián)系;其次,分析現(xiàn)階段數(shù)據(jù)科學(xué)的研究特點(diǎn),并分別提出了專業(yè)數(shù)據(jù)科學(xué)、專業(yè)中的數(shù)據(jù)科學(xué)及大數(shù)據(jù)生態(tài)系統(tǒng)中的相對(duì)熱門話題;接著,探討了數(shù)據(jù)科學(xué)研究中的10個(gè)爭(zhēng)議及挑戰(zhàn):思維模式的轉(zhuǎn)變(知識(shí)范式還是數(shù)據(jù)范式)、對(duì)數(shù)據(jù)的認(rèn)識(shí)(主動(dòng)屬性還是被動(dòng)屬性)、對(duì)智能的認(rèn)識(shí)(更好的算法還是更多的數(shù)據(jù))、主要瓶頸(數(shù)據(jù)密集型還是計(jì)算密集型)、數(shù)據(jù)準(zhǔn)備(數(shù)據(jù)預(yù)處理還是數(shù)據(jù)加工)、服務(wù)質(zhì)量(精準(zhǔn)度還是用戶體驗(yàn))、數(shù)據(jù)分析(解釋性分析還是預(yù)測(cè)性分析)、算法評(píng)價(jià)(復(fù)雜度還是擴(kuò)展性)、研究范式(第三范式還是第四范式)、人才培養(yǎng)(數(shù)據(jù)工程師還是數(shù)據(jù)科學(xué)家)。
再次,提出了數(shù)據(jù)科學(xué)研究的10個(gè)發(fā)展趨勢(shì):預(yù)測(cè)模型及相關(guān)分析的重視、模型集成及元分析的興起、數(shù)據(jù)在先,模式在后或無(wú)模式的出現(xiàn)、數(shù)據(jù)一致性及現(xiàn)實(shí)主義的回歸、多副本技術(shù)及靠近數(shù)據(jù)原則的廣泛應(yīng)用、多樣化技術(shù)及一體化應(yīng)用并存、簡(jiǎn)單計(jì)算及實(shí)用主義占據(jù)主導(dǎo)地位、數(shù)據(jù)產(chǎn)品開(kāi)發(fā)及數(shù)據(jù)科學(xué)的嵌入式應(yīng)用、專家余及公眾數(shù)據(jù)科學(xué)的興起、數(shù)據(jù)科學(xué)家與人才培養(yǎng)的探討。
最后,結(jié)合本文工作,為數(shù)據(jù)科學(xué)研究者給出了幾點(diǎn)建議和注意事項(xiàng)。
大數(shù)據(jù)正在改變著人們的工作、生活與思維模式[1],進(jìn)而對(duì)文化、技術(shù)和學(xué)術(shù)研究產(chǎn)生了深遠(yuǎn)影響[2]。
一方面,大數(shù)據(jù)時(shí)代給各學(xué)科領(lǐng)域帶來(lái)了新的機(jī)遇——認(rèn)識(shí)論和研究范式的轉(zhuǎn)變[3],出現(xiàn)了一種區(qū)別于傳統(tǒng)科學(xué)研究中沿用至今的“知識(shí)范式”的新研究范式——“數(shù)據(jù)范式”。
“數(shù)據(jù)范式”的廣為應(yīng)用成為現(xiàn)代科學(xué)研究的一個(gè)重要轉(zhuǎn)變。
另一方面, 大數(shù)據(jù)帶來(lái)的挑戰(zhàn)在于數(shù)據(jù)的獲得、存儲(chǔ)、計(jì)算不再是瓶頸或難題,各學(xué)科領(lǐng)域中的傳統(tǒng)知識(shí)與新興數(shù)據(jù)之間的矛盾日益突出,傳統(tǒng)知識(shí)無(wú)法解釋和有效利用新興的大數(shù)據(jù),進(jìn)而促使傳統(tǒng)理論與方法的革命性變化。
目前,大數(shù)據(jù)已受到各學(xué)科領(lǐng)域的高度關(guān)注,成為包括計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)在內(nèi)的多個(gè)學(xué)科領(lǐng)域的新研究方向,表現(xiàn)出不同專業(yè)領(lǐng)域中的數(shù)據(jù)研究相互高度融合的趨勢(shì),進(jìn)而即將獨(dú)立出一門新興學(xué)科——數(shù)據(jù)科學(xué)。
同時(shí),大數(shù)據(jù)研究中仍存在一些誤區(qū)或曲解,如片面追求數(shù)據(jù)規(guī)模、過(guò)于強(qiáng)調(diào)計(jì)算架構(gòu)和算法、過(guò)度依賴分析工具、忽視數(shù)據(jù)重用、混淆數(shù)據(jù)科學(xué)與大數(shù)據(jù)的概念以及全盤否定大數(shù)據(jù)等[4]。
因此,現(xiàn)代社會(huì)需要一門新學(xué)科來(lái)系統(tǒng)研究大數(shù)據(jù)時(shí)代的新現(xiàn)象、理念、理論、方法、技術(shù)、工具和實(shí)踐,即“數(shù)據(jù)科學(xué)”。
本文第1節(jié)探討數(shù)據(jù)科學(xué)的內(nèi)涵、發(fā)展簡(jiǎn)史、學(xué)科地位和知識(shí)體系等四個(gè)基本問(wèn)題,并提出了數(shù)據(jù)科學(xué)的兩個(gè)基本類型——專業(yè)數(shù)據(jù)科學(xué)和專業(yè)中的數(shù)據(jù)科學(xué)。
第2節(jié)提出現(xiàn)階段數(shù)據(jù)科學(xué)研究的特點(diǎn)——本質(zhì)問(wèn)題的系統(tǒng)研究較少,反而周邊問(wèn)題的討論較多,并分別分析了專業(yè)數(shù)據(jù)科學(xué)、專業(yè)中數(shù)據(jù)科學(xué)以及大數(shù)據(jù)生態(tài)系統(tǒng)中的相對(duì)熱門話題。
第3節(jié)探討數(shù)據(jù)科學(xué)研究中的10個(gè)爭(zhēng)議——思維模式的轉(zhuǎn)變(知識(shí)范式還是數(shù)據(jù)范式)、對(duì)數(shù)據(jù)的認(rèn)識(shí)視角(主動(dòng)屬性還是被動(dòng)屬性)、對(duì)智能的認(rèn)識(shí)側(cè)重點(diǎn)(更好的算法還是更多的數(shù)據(jù))、主要瓶頸(數(shù)據(jù)密集型還是計(jì)算密集型)、數(shù)據(jù)準(zhǔn)備(數(shù)據(jù)預(yù)處理還是數(shù)據(jù)加工)、服務(wù)質(zhì)量(精準(zhǔn)度還是用戶體驗(yàn))、數(shù)據(jù)分析(解釋性分析還是預(yù)測(cè)性分析)、算法評(píng)價(jià)(復(fù)雜度還是擴(kuò)展性)、研究范式(第三范式還是第四范式)和人才培養(yǎng)(數(shù)據(jù)工程師還是數(shù)據(jù)科學(xué)家),并分別提出了研究挑戰(zhàn)。
第4節(jié)分析了數(shù)據(jù)科學(xué)研究的10個(gè)發(fā)展趨勢(shì)——預(yù)測(cè)模型及相關(guān)分析的重視、模型集成及元分析的興起、數(shù)據(jù)在先,模式在后或無(wú)模式的出現(xiàn)、數(shù)據(jù)一致性及現(xiàn)實(shí)主義的回歸、多副本技術(shù)及靠近數(shù)據(jù)原則的應(yīng)用、多樣化技術(shù)及一體化應(yīng)用并存、簡(jiǎn)單計(jì)算及實(shí)用主義占據(jù)主導(dǎo)地位、數(shù)據(jù)產(chǎn)品開(kāi)發(fā)及數(shù)據(jù)科學(xué)的嵌入式應(yīng)用、專家余及公眾數(shù)據(jù)科學(xué)的興起以及數(shù)據(jù)科學(xué)家與人才培養(yǎng)的探討。
最后總結(jié)全文,并對(duì)數(shù)據(jù)科學(xué)研究者提出了幾點(diǎn)建議。
數(shù)據(jù)科學(xué):大數(shù)據(jù)背后的科學(xué)“數(shù)據(jù)科學(xué)”與“大數(shù)據(jù)”是兩個(gè)既有區(qū)別又有聯(lián)系的術(shù)語(yǔ),可以將數(shù)據(jù)科學(xué)理解為大數(shù)據(jù)時(shí)代一門新科學(xué)[5],即以揭示數(shù)據(jù)時(shí)代,尤其是大數(shù)據(jù)時(shí)代新的挑戰(zhàn)、機(jī)會(huì)、思維和模式為研究目的,由大數(shù)據(jù)時(shí)代新出現(xiàn)的理論、方法、模型、技術(shù)、平臺(tái)、工具、應(yīng)用和最佳實(shí)踐組成的一整套知識(shí)體系。
1.1 數(shù)據(jù)科學(xué)的內(nèi)涵及興起
1974年,著名計(jì)算機(jī)科學(xué)家、圖靈獎(jiǎng)獲得者Peter Naur在其著作《計(jì)算機(jī)方法的簡(jiǎn)明調(diào)研(Concise Survey of Computer Methods)》的前言中首次明確提出了數(shù)據(jù)科學(xué)(Data Science)的概念,“數(shù)據(jù)科學(xué)是一門基于數(shù)據(jù)處理的科學(xué)”,并提到了數(shù)據(jù)科學(xué)與數(shù)據(jù)學(xué)(Datalogy)的區(qū)別——前者是解決數(shù)據(jù)(問(wèn)題)的科學(xué)(the science of dealing with data),而后者側(cè)重于數(shù)據(jù)處理及其在教育領(lǐng)域中的應(yīng)用(the science of data and of data processes and its place in education)[6]。
Peter Naur首次明確提出數(shù)據(jù)科學(xué)的概念之后,數(shù)據(jù)科學(xué)研究研究經(jīng)歷了一段漫長(zhǎng)的沉默期。
直到2001年,當(dāng)時(shí)在貝爾實(shí)驗(yàn)室工作的William S. Cleveland在學(xué)術(shù)期刊International Statistical Review上發(fā)表題為《數(shù)據(jù)科學(xué)——拓展統(tǒng)計(jì)學(xué)技術(shù)領(lǐng)域的行動(dòng)計(jì)劃(Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics》的論文,主張數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個(gè)重要研究方向[7],數(shù)據(jù)科學(xué)再度受到統(tǒng)計(jì)學(xué)領(lǐng)域的關(guān)注。
之后,2013年,Mattmann C A[8]和 Dhar V[9]在《自然(Nature)》和《美國(guó)計(jì)算機(jī)學(xué)會(huì)通訊(Communications of the ACM)》 上分別發(fā)表題為《計(jì)算——數(shù)據(jù)科學(xué)的愿景(Computing: A vision for data science)》和《數(shù)據(jù)科學(xué)與預(yù)測(cè)(Data science and prediction)》論文,從計(jì)算機(jī)科學(xué)與技術(shù)視角討論數(shù)據(jù)科學(xué)的內(nèi)涵,使數(shù)據(jù)科學(xué)納入計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的研究范疇。
然而,數(shù)據(jù)科學(xué)被更多人關(guān)注是因?yàn)楹髞?lái)發(fā)生了三個(gè)標(biāo)志性事件:一是Patil DJ和 Davenport T H于2012年在哈佛商業(yè)評(píng)論上發(fā)表題為《數(shù)據(jù)科學(xué)家——21世紀(jì)最性感的職業(yè)(Data scientist: the sexiest job of the 21st century)》[10];二是2012年大數(shù)據(jù)思維首次應(yīng)用于美國(guó)總統(tǒng)大選,成就奧巴馬,擊敗羅姆尼,成功連任[11];三是美國(guó)白宮于2015年首次設(shè)立數(shù)據(jù)科學(xué)家的崗位,并聘請(qǐng)Patil DJ作為白宮第一任首席數(shù)據(jù)科學(xué)家[12]。
Gartner的調(diào)研及其新技術(shù)成長(zhǎng)曲線(Gartner's 2014 Hype Cycle for Emerging Technologies)[13]表示,數(shù)據(jù)科學(xué)的發(fā)展于2014年7月已經(jīng)接近創(chuàng)新與膨脹期的末端,將在2~5年之內(nèi)開(kāi)始應(yīng)用于生產(chǎn)高地期(plateau of Productivity)。
同時(shí),Gartner的另一項(xiàng)研究揭示了數(shù)據(jù)科學(xué)本身的成長(zhǎng)曲線(Hype Cycle for Data Science)[14],如圖1所示。
從圖1可以看出,數(shù)據(jù)科學(xué)的各組成部分的成熟度不同:R的成熟度最高,已廣泛應(yīng)用于生產(chǎn)活動(dòng);其次是模擬與仿真、集成學(xué)習(xí)、視頻與圖像分析、文本分析等,正在趨于成熟,即將投入實(shí)際應(yīng)用;基于Hadoop的數(shù)據(jù)發(fā)現(xiàn)可能要消失;語(yǔ)音分析、模型管理、自然語(yǔ)言問(wèn)答等已經(jīng)渡過(guò)了炒作期,正在走向?qū)嶋H應(yīng)用;公眾數(shù)據(jù)科學(xué)、模型工廠、算法市場(chǎng)(經(jīng)濟(jì))、規(guī)范分析等正處于高速發(fā)展之中。
圖1 數(shù)據(jù)科學(xué)的成長(zhǎng)曲線(2016)
1.2 數(shù)據(jù)科學(xué)的學(xué)科地位
2010年,Drew Conway 提出了第一張揭示數(shù)據(jù)科學(xué)的學(xué)科地位的維恩圖——《數(shù)據(jù)科學(xué)維恩圖(The Data Science Venn Diagram)》(圖2),首次明確探討了數(shù)據(jù)科學(xué)的學(xué)科定位問(wèn)題[15]。
在他看來(lái),數(shù)據(jù)科學(xué)處于統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和領(lǐng)域知識(shí)的交叉之處。
后來(lái),其他學(xué)者在此基礎(chǔ)上提出了諸多修正或改進(jìn)版本,如圖3是Jerry Overton于2016年給出的數(shù)據(jù)科學(xué)維恩圖[16]。
但是,后續(xù)版本對(duì)數(shù)據(jù)科學(xué)的貢獻(xiàn)和影響遠(yuǎn)不及Drew Convey首次提出的數(shù)據(jù)科學(xué)維恩圖。
圖2 Drew Conway的數(shù)據(jù)科學(xué)韋恩圖(2010) 圖3 Jerry Overton的數(shù)據(jù)科學(xué)韋恩圖(2016)
從Drew Conway的《數(shù)據(jù)科學(xué)維恩圖》的中心部分可看出,數(shù)據(jù)科學(xué)位于統(tǒng)計(jì)學(xué)、機(jī)器學(xué)和某一領(lǐng)域知識(shí)的交叉之處,具備較為顯著的交叉型學(xué)科的特點(diǎn),即數(shù)據(jù)科學(xué)是一門以統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和領(lǐng)域知識(shí)為理論基礎(chǔ)的新興學(xué)科。
同時(shí),從該圖的外圍可看出,數(shù)據(jù)科學(xué)家需要具備數(shù)學(xué)與統(tǒng)計(jì)學(xué)知識(shí)、領(lǐng)域?qū)崙?zhàn)和黑客精神,說(shuō)明數(shù)據(jù)科學(xué)不僅需要理論知識(shí)和實(shí)踐經(jīng)驗(yàn),而且還涉及黑客精神,即數(shù)據(jù)科學(xué)具有三個(gè)基本要素:理論(數(shù)學(xué)與統(tǒng)計(jì)學(xué))、實(shí)踐(領(lǐng)域?qū)崉?wù))和精神(黑客精神)。
1.3 數(shù)據(jù)科學(xué)的知識(shí)體系
從知識(shí)體系看,數(shù)據(jù)科學(xué)主要以統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化以及(某一)領(lǐng)域知識(shí)為理論基礎(chǔ),其主要研究?jī)?nèi)容包括數(shù)據(jù)科學(xué)基礎(chǔ)理論、數(shù)據(jù)加工、數(shù)據(jù)計(jì)算、數(shù)據(jù)管理、數(shù)據(jù)分析和數(shù)據(jù)產(chǎn)品開(kāi)發(fā),如圖4所示[17]。
圖4 數(shù)據(jù)科學(xué)的知識(shí)體系
(1)基礎(chǔ)理論:主要包括數(shù)據(jù)科學(xué)中的新理念、理論、方法、技術(shù)及工具以及數(shù)據(jù)科學(xué)的研究目的、理論基礎(chǔ)、研究?jī)?nèi)容、基本流程、主要原則、典型應(yīng)用、人才培養(yǎng)、項(xiàng)目管理等。
需要特別提醒的是,“基礎(chǔ)理論”與“理論基礎(chǔ)”是兩個(gè)不同的概念。
數(shù)據(jù)科學(xué)的“基礎(chǔ)理論”在數(shù)據(jù)科學(xué)的研究邊界之內(nèi),而其“理論基礎(chǔ)”在數(shù)據(jù)科學(xué)的研究邊界之外,是數(shù)據(jù)科學(xué)的理論依據(jù)和來(lái)源。
(2)數(shù)據(jù)加工(Data Wrangling 或Data Munging):數(shù)據(jù)科學(xué)中關(guān)注的新問(wèn)題之一。
為了提升數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)計(jì)算的復(fù)雜度、減少數(shù)據(jù)計(jì)算量以及提升數(shù)據(jù)處理的精準(zhǔn)度,數(shù)據(jù)科學(xué)項(xiàng)目需要對(duì)原始數(shù)據(jù)進(jìn)行一定的加工處理工作——數(shù)據(jù)審計(jì)、數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)脫敏、數(shù)據(jù)歸約和數(shù)據(jù)標(biāo)注等。
值得一提的是,與傳統(tǒng)數(shù)據(jù)處理不同的是,數(shù)據(jù)科學(xué)中的數(shù)據(jù)加工更加強(qiáng)調(diào)的是數(shù)據(jù)處理中的增值過(guò)程,即如何將數(shù)據(jù)科學(xué)家的創(chuàng)造性設(shè)計(jì)、批判性思考和好奇性提問(wèn)融入數(shù)據(jù)的加工活動(dòng)之中。
(3)數(shù)據(jù)計(jì)算:在數(shù)據(jù)科學(xué)中,計(jì)算模式發(fā)生了根本性的變化——從集中式計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過(guò)渡至云計(jì)算。
比較有代表性的是Google三大云計(jì)算技術(shù)(GFS、BigTable和MapReduce)、Hadoop MapReduce、Spark和YARN。
計(jì)算模式的變化意味著數(shù)據(jù)科學(xué)中所關(guān)注的數(shù)據(jù)計(jì)算的主要瓶頸、主要矛盾和思維模式發(fā)生了根本性變化。
(4)數(shù)據(jù)管理:在完成“數(shù)據(jù)加工”和“數(shù)據(jù)計(jì)算”之后,還需要對(duì)數(shù)據(jù)進(jìn)行管理與維護(hù),以便進(jìn)行(再次進(jìn)行)“數(shù)據(jù)分析”以及數(shù)據(jù)的再利用和長(zhǎng)久存儲(chǔ)。
在數(shù)據(jù)科學(xué)中,數(shù)據(jù)管理方法與技術(shù)也發(fā)生了重要變革——不僅包括傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),而且還出現(xiàn)了一些新興數(shù)據(jù)管理技術(shù),如NoSQL、NewSQL技術(shù)和關(guān)系云等。
(5)數(shù)據(jù)分析:數(shù)據(jù)科學(xué)中采用的數(shù)據(jù)分析方法具有較為明顯的專業(yè)性,通常以開(kāi)源工具為主,與傳統(tǒng)數(shù)據(jù)分析有著較為顯著的差異。
目前,R語(yǔ)言和Python語(yǔ)言已成為數(shù)據(jù)科學(xué)家較為普遍應(yīng)用的數(shù)據(jù)分析工具。
(6)數(shù)據(jù)產(chǎn)品開(kāi)發(fā):“數(shù)據(jù)產(chǎn)品”在數(shù)據(jù)科學(xué)中具有特殊的含義——基于數(shù)據(jù)開(kāi)發(fā)的產(chǎn)品的統(tǒng)稱。
數(shù)據(jù)產(chǎn)品開(kāi)發(fā)是數(shù)據(jù)科學(xué)的主要研究使命之一,也是數(shù)據(jù)科學(xué)區(qū)別于其他科學(xué)的重要區(qū)別。
與傳統(tǒng)產(chǎn)品開(kāi)發(fā)不同的是,數(shù)據(jù)產(chǎn)品開(kāi)發(fā)具有以數(shù)據(jù)為中心、多樣性、層次性和增值性等特征。
數(shù)據(jù)產(chǎn)品開(kāi)發(fā)能力也是數(shù)據(jù)科學(xué)家的主要競(jìng)爭(zhēng)力之源。
因此,數(shù)據(jù)科學(xué)的學(xué)習(xí)目的之一是提升自己的數(shù)據(jù)產(chǎn)品開(kāi)發(fā)能力。
1.4 專業(yè)數(shù)據(jù)科學(xué)及專業(yè)中的數(shù)據(jù)科學(xué)
數(shù)據(jù)科學(xué)是一門與領(lǐng)域知識(shí)和行業(yè)實(shí)踐高度交融的學(xué)科。
從目前的研究現(xiàn)狀看,數(shù)據(jù)科學(xué)可以分為兩類:專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)。
其中,“專業(yè)數(shù)據(jù)科學(xué)”是以獨(dú)立學(xué)科的形式存在,與其他傳統(tǒng)學(xué)科(如計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、新聞學(xué)、社會(huì)學(xué)等)并列的一門新興科學(xué);“專業(yè)中的數(shù)據(jù)科學(xué)”是指依存于某一專業(yè)領(lǐng)域中的大數(shù)據(jù)研究,其特點(diǎn)是與所屬專業(yè)的耦合度較高,難以直接移植到另一個(gè)專業(yè)領(lǐng)域,如數(shù)據(jù)新聞(Data Journalism)[18]、材料數(shù)據(jù)科學(xué)(Materials Data Science)[19]、大數(shù)據(jù)金融(Big Data Finance)[20]、大數(shù)據(jù)社會(huì)、大數(shù)據(jù)倫理(Big Data Ethics)[21]和大數(shù)據(jù)教育(Big Data Education)[22]等。
專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)的聯(lián)系如下:專業(yè)數(shù)據(jù)科學(xué)聚集了不同專業(yè)中的數(shù)據(jù)科學(xué)中的共性理念、理論、方法、術(shù)語(yǔ)與工具;相對(duì)于專業(yè)中的數(shù)據(jù)科學(xué),專業(yè)數(shù)據(jù)科學(xué)更具有共性和可移植性,并為不同專業(yè)中的數(shù)據(jù)科學(xué)研究奠定了理論基礎(chǔ);專業(yè)中的數(shù)據(jù)科學(xué)代表的是不同專業(yè)中對(duì)數(shù)據(jù)科學(xué)的差異性認(rèn)識(shí)和區(qū)別化應(yīng)用。
數(shù)據(jù)科學(xué)的研究熱點(diǎn)目前,數(shù)據(jù)科學(xué)的研究特點(diǎn)是對(duì)本質(zhì)問(wèn)題的系統(tǒng)研究少,然而對(duì)周邊問(wèn)題的討論較多,可從以下四個(gè)方面進(jìn)行分類分析。
2.1 周邊問(wèn)題仍為研究熱點(diǎn)
從文獻(xiàn)分布看,數(shù)據(jù)科學(xué)的研究主題可以分為兩類:核心問(wèn)題和周邊問(wèn)題。
前者代表的是數(shù)據(jù)科學(xué)的基礎(chǔ)理論——數(shù)據(jù)科學(xué)特有的理念、理論、方法、技術(shù)、工具、應(yīng)用及代表性實(shí)踐;后者代表的是數(shù)據(jù)科學(xué)的底層理論(理論基礎(chǔ),如統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等)、上層應(yīng)用(應(yīng)用理論,如數(shù)據(jù)新聞、大數(shù)據(jù)金融、大數(shù)據(jù)社會(huì)、大數(shù)據(jù)生態(tài)系統(tǒng)等)以及相關(guān)研究(如云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)計(jì)算等)。
文獻(xiàn)數(shù)量和研究深度表明,現(xiàn)階段的數(shù)據(jù)科學(xué)研究熱點(diǎn)仍聚焦在周邊問(wèn)題的討論之上,而對(duì)數(shù)據(jù)科學(xué)的核心問(wèn)題的研究遠(yuǎn)遠(yuǎn)不夠。
數(shù)據(jù)科學(xué)的周邊問(wèn)題的研究主要集中在:
(1)大數(shù)據(jù)挑戰(zhàn)及數(shù)據(jù)科學(xué)的必要性。
在大數(shù)據(jù)時(shí)代,挑戰(zhàn)和機(jī)會(huì)并存[23]:挑戰(zhàn)不僅來(lái)自于數(shù)據(jù)量(Volume),而且還涉及其多個(gè)V特征,如種類多(Variety)、速度要求高(Velocity)和價(jià)值密度低(Value)[24][25]。
因此,社會(huì)與科技的發(fā)展亟待一門新的學(xué)科——數(shù)據(jù)科學(xué),并對(duì)大數(shù)據(jù)時(shí)代的新問(wèn)題和新思路進(jìn)行系統(tǒng)研究[26]。
(2)數(shù)據(jù)科學(xué)對(duì)統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的繼承與創(chuàng)新。
一方面數(shù)據(jù)科學(xué)作為新的研究方向,進(jìn)一步拓展了統(tǒng)計(jì)學(xué)[27]和計(jì)算機(jī)科學(xué)與技術(shù)[28]的研究范疇;另一方面,數(shù)據(jù)科學(xué)不僅繼承了統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)等基礎(chǔ)理論,而且對(duì)其進(jìn)行了創(chuàng)新與發(fā)展,逐漸成為一門獨(dú)立學(xué)科[29]。
(3)新技術(shù)在數(shù)據(jù)科學(xué)中的重要地位。
云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)計(jì)算等新技術(shù)的興起拓展了人的數(shù)據(jù)獲取、存儲(chǔ)和計(jì)算能力,促使大數(shù)據(jù)時(shí)代的到來(lái),成為數(shù)據(jù)學(xué)科誕生的必要條件。
同時(shí),數(shù)據(jù)科學(xué)中需要重點(diǎn)引入Spark[30]、Hadoop[31]、NoSQL[32]等新興技術(shù),從而更好地面對(duì)大數(shù)據(jù)挑戰(zhàn)。
新技術(shù)的應(yīng)用意味著數(shù)據(jù)科學(xué)對(duì)數(shù)據(jù)及其管理的認(rèn)識(shí)發(fā)生了根本性變化——不僅開(kāi)始接受了數(shù)據(jù)的復(fù)雜性,而且數(shù)據(jù)管理的理念從傳統(tǒng)的完美主義者轉(zhuǎn)向現(xiàn)實(shí)主義,“數(shù)據(jù)在先,模式在后或無(wú)模式”的數(shù)據(jù)管理范式、BASE原則以及CAP理論[33]等新理念已成為數(shù)據(jù)科學(xué)的基本共識(shí)。
(4)數(shù)據(jù)科學(xué)對(duì)特定領(lǐng)域的影響。
大數(shù)據(jù)及其背后的數(shù)據(jù)科學(xué)在特定領(lǐng)域的應(yīng)用是近幾年的熱門話題,尤其在生命科學(xué)[34]、醫(yī)療保健[35]、政府治理[36]、教學(xué)教育[37]和業(yè)務(wù)管理[38]等領(lǐng)域的廣泛應(yīng)用,出現(xiàn)了量化自我[39]、數(shù)據(jù)新聞[40]、大數(shù)據(jù)分析學(xué)[41]等新的研究課題。
(5)數(shù)據(jù)科學(xué)領(lǐng)域的人才培養(yǎng)。
與傳統(tǒng)科學(xué)領(lǐng)域不同的是,數(shù)據(jù)科學(xué)領(lǐng)域人才培養(yǎng)目的是培養(yǎng)學(xué)生的“以數(shù)據(jù)為中心的思考能力”[42]。
目前,相關(guān)研究主要涉及四個(gè)主題:數(shù)據(jù)科學(xué)課程的建設(shè)、相關(guān)課程的教學(xué)改革[43]、跨學(xué)科型人才培養(yǎng)[44]以及女性數(shù)據(jù)科學(xué)家的培養(yǎng)[45]。
從總體上看,數(shù)據(jù)科學(xué)的人才培養(yǎng)目的并不是數(shù)據(jù)工程師,而是數(shù)據(jù)科學(xué)家,尤其培養(yǎng)具有3C精神的數(shù)據(jù)科學(xué)家——原創(chuàng)性(Creative)設(shè)計(jì)、批判性(Critical)思考和好奇性(Curious)提問(wèn)[46]。
2.2 專業(yè)數(shù)據(jù)科學(xué)研究中相對(duì)熱門話題
從研究視角看,數(shù)據(jù)科學(xué)的研究可以分為兩類:專業(yè)數(shù)據(jù)科學(xué)和專業(yè)中的數(shù)據(jù)科學(xué)。
前者代表的是將數(shù)據(jù)科學(xué)當(dāng)作一門獨(dú)立于傳統(tǒng)科學(xué)的新興學(xué)科來(lái)研究,強(qiáng)調(diào)的是其學(xué)科基礎(chǔ)性:后者代表的是將數(shù)據(jù)科學(xué)當(dāng)作傳統(tǒng)學(xué)科的新研究方向和思維模式來(lái)研究,強(qiáng)調(diào)的是數(shù)據(jù)科學(xué)的學(xué)科交叉性。
從目前的研究現(xiàn)狀看,專業(yè)數(shù)據(jù)科學(xué)研究的熱熱門話題有:
(1) DIKW模型。
DIKW模型刻畫的是人類對(duì)數(shù)據(jù)的認(rèn)識(shí)程度的轉(zhuǎn)變過(guò)程[47]。
通常認(rèn)為,數(shù)據(jù)科學(xué)的研究任務(wù)是將數(shù)據(jù)轉(zhuǎn)換成信息(Information)、知識(shí)(Knowledge)或(和)智慧(Wisdom), [48]。
從數(shù)據(jù)到智慧的轉(zhuǎn)變過(guò)程是一種從不可預(yù)知到可預(yù)知的增值過(guò)程,即數(shù)據(jù)通過(guò)還原其真實(shí)發(fā)生的背景(Context)成為信息,信息賦予其內(nèi)在含義(Meaning)之后成為知識(shí),而知識(shí)通過(guò)理解轉(zhuǎn)變成智慧。
(2)數(shù)據(jù)分析學(xué)(Data Analytics)。
大數(shù)據(jù)分析研究正在成為一門相對(duì)成熟的研究方向——數(shù)據(jù)分析學(xué)。
需要注意的是,數(shù)據(jù)分析(Data Analysis)與數(shù)據(jù)分析學(xué)是兩個(gè)不同的概念:前者強(qiáng)調(diào)的是數(shù)據(jù)分析活動(dòng)本身,而后者更加強(qiáng)調(diào)的是數(shù)據(jù)分析中的方法、技術(shù)和工具。
目前,大數(shù)據(jù)分析研究中的熱門話題有兩個(gè):一是大數(shù)據(jù)分析學(xué),尤其是大數(shù)據(jù)分析算法和工具的開(kāi)發(fā);另一個(gè)面向特定領(lǐng)域的大數(shù)據(jù)分析,如面向物流與供應(yīng)鏈管理[49]、網(wǎng)絡(luò)安全[50]以及醫(yī)療健康[51]的大數(shù)據(jù)分析學(xué)。
論文[52]給出了數(shù)據(jù)分析的主要類型及常見(jiàn)錯(cuò)誤。
(3)數(shù)據(jù)化(Datafication)。
數(shù)據(jù)化是將客觀世界以及業(yè)務(wù)活動(dòng)以數(shù)據(jù)的形式計(jì)量和記錄,形成大數(shù)據(jù),以便進(jìn)行后續(xù)的開(kāi)發(fā)利用。
除了物聯(lián)網(wǎng)和傳感器等公認(rèn)的研究課題,量化自我(Quantified Self)[53][54]也在成為數(shù)據(jù)化的熱門話題。
數(shù)據(jù)化是大數(shù)據(jù)時(shí)代初級(jí)階段的主要關(guān)注的問(wèn)題,隨著大數(shù)據(jù)的積淀,人們的研究焦點(diǎn)將從業(yè)務(wù)的數(shù)據(jù)化轉(zhuǎn)向數(shù)據(jù)的業(yè)務(wù)化,即研究重點(diǎn)將放在“基于數(shù)據(jù)定義和優(yōu)化業(yè)務(wù)”之上。
(4)數(shù)據(jù)治理(Data Governance)。
數(shù)據(jù)治理是指數(shù)據(jù)管理的管理。
目前,相關(guān)研究主要集中在頂層設(shè)計(jì)[55]、實(shí)現(xiàn)方法[56]、參考框架[57]以及如何保證數(shù)據(jù)管理的可持續(xù)性[58]。
此外,數(shù)據(jù)治理作為數(shù)據(jù)能力成熟度評(píng)估模型(Data Maturity Model)的關(guān)鍵過(guò)程域,重點(diǎn)關(guān)注的是如何通過(guò)數(shù)據(jù)治理提升組織數(shù)據(jù)管理能力的問(wèn)題。
DMM中定義的關(guān)鍵過(guò)程域“數(shù)據(jù)治理”包括3個(gè)關(guān)鍵過(guò)程:治理管理(Governance Management)、業(yè)務(wù)術(shù)語(yǔ)表(Business Glossary)和元數(shù)據(jù)管理(Metadata Management)[59]。
(5)數(shù)據(jù)質(zhì)量。
大數(shù)據(jù)的質(zhì)量與可用性之間內(nèi)在聯(lián)系的討論已成為現(xiàn)階段數(shù)據(jù)科學(xué)的熱點(diǎn)問(wèn)題之一,主要研究議題集中在大數(shù)據(jù)中的質(zhì)量問(wèn)題會(huì)不會(huì)導(dǎo)致數(shù)據(jù)科學(xué)項(xiàng)目的根本性錯(cuò)誤[60]以及大數(shù)據(jù)時(shí)代背景下的數(shù)據(jù)可用性的挑戰(zhàn)及新研究問(wèn)題[61]。
但是,傳統(tǒng)數(shù)據(jù)管理和數(shù)據(jù)科學(xué)對(duì)數(shù)據(jù)質(zhì)量的關(guān)注點(diǎn)不同。
傳統(tǒng)數(shù)據(jù)管理主要從數(shù)據(jù)內(nèi)容視角關(guān)注質(zhì)量問(wèn)題,強(qiáng)調(diào)的是數(shù)據(jù)是否為干凈數(shù)據(jù)(Clean Data)/臟數(shù)據(jù)(Dirty Data) [62];數(shù)據(jù)科學(xué)主要從數(shù)據(jù)形態(tài)視角關(guān)注質(zhì)量問(wèn)題,重視的是數(shù)據(jù)是否為整齊數(shù)據(jù)(Tidy Data)/混亂數(shù)據(jù)(Messy Data)。
所謂的整齊數(shù)據(jù)是指數(shù)據(jù)的形態(tài)可以直接支持算法和數(shù)據(jù)處理的要求。
例如,著名的數(shù)據(jù)科學(xué)家Hadley Wickham 提出了整齊數(shù)據(jù)和數(shù)據(jù)整齊化處理(Data Tidying)的概念,并主張整齊數(shù)據(jù)應(yīng)遵循三個(gè)基本原則: 每個(gè)觀察占且僅占一行、每個(gè)變量占且僅占一列以及每一類觀察單元構(gòu)成一個(gè)關(guān)系表[63]。
除了上述問(wèn)題之外,大數(shù)據(jù)的安全[64]、大數(shù)據(jù)環(huán)境下的個(gè)人隱私保護(hù)[65]、數(shù)據(jù)科學(xué)的項(xiàng)目管理及團(tuán)隊(duì)建設(shè)[66]、公眾數(shù)據(jù)科學(xué)(Citizen Data Science)[67]等是目前在專業(yè)數(shù)據(jù)科學(xué)研究中討論較多的問(wèn)題。
2.3 專業(yè)中的數(shù)據(jù)科學(xué)研究的相對(duì)熱門話題
相對(duì)于專業(yè)數(shù)據(jù)科學(xué),專業(yè)中的數(shù)據(jù)科學(xué)研究具有差異性和隱蔽性。
差異性主要表現(xiàn)在各學(xué)科領(lǐng)域?qū)?shù)據(jù)科學(xué)的關(guān)注點(diǎn)和視角不同;隱蔽性是指專業(yè)中的數(shù)據(jù)科學(xué)研究往往間接地吸收和借鑒數(shù)據(jù)科學(xué)或類似于數(shù)據(jù)科學(xué)的思想,而并不明確采用或直接運(yùn)用數(shù)據(jù)科學(xué)的規(guī)范術(shù)語(yǔ)。
從目前的研究看,以下幾個(gè)專業(yè)中的數(shù)據(jù)科學(xué)研究尤為活躍:
(1)數(shù)據(jù)新聞(Data Journalism):新聞學(xué)領(lǐng)域的新研究方向之一,主要研究的是如何將大數(shù)據(jù)和數(shù)據(jù)科學(xué)的理念引入新聞?lì)I(lǐng)域,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)型新聞(Data-driven Journalism)[68]。
(2)工業(yè)大數(shù)據(jù):主要研究如何將大數(shù)據(jù)應(yīng)用于工業(yè)制造領(lǐng)域,進(jìn)而實(shí)現(xiàn)工業(yè)制造的創(chuàng)新。
比較有代表性的是德國(guó)工業(yè)4.0(Industrie 4.0)、美國(guó)工業(yè)互聯(lián)網(wǎng)(Industrial internet)和中國(guó)制造2025(Made in China)。
(3) 消費(fèi)大數(shù)據(jù):與工業(yè)大數(shù)據(jù)不同的是,消費(fèi)大數(shù)據(jù)更加關(guān)注的是產(chǎn)品生命周期的末端,即如何將已生產(chǎn)出的產(chǎn)品推銷給更多的用戶,主要包括精準(zhǔn)營(yíng)銷[69]、用戶畫像(User Profiling)[70]以及廣告推送[71]。
(4)健康大數(shù)據(jù):主要關(guān)注大數(shù)據(jù)在健康與醫(yī)療領(lǐng)域的廣泛應(yīng)用,包括生命日志(Life Logging)[72]、醫(yī)療診斷、藥物開(kāi)發(fā)、衛(wèi)生保健[73]等具體領(lǐng)域的應(yīng)用。
(5)生物大數(shù)據(jù):將大數(shù)據(jù)的理念、理論、方法、技術(shù)和工具應(yīng)用于生物學(xué)領(lǐng)域,從而生物學(xué)從知識(shí)范轉(zhuǎn)向數(shù)據(jù)范式[74]。
(6)社會(huì)大數(shù)據(jù):綜合運(yùn)用大數(shù)據(jù)和數(shù)據(jù)科學(xué)的理論,探討如何在大數(shù)據(jù)時(shí)代進(jìn)行輿情分析、社會(huì)網(wǎng)絡(luò)分析以及熱點(diǎn)發(fā)現(xiàn)[75]。
(7)機(jī)構(gòu)大數(shù)據(jù):如何將大數(shù)據(jù)和數(shù)據(jù)科學(xué)的思想引入企業(yè)[76]、政府 [77]以及公益部門[78]的日常業(yè)務(wù)、戰(zhàn)略規(guī)劃與可持續(xù)改進(jìn)。
(8)智慧類應(yīng)用:如何將大數(shù)據(jù)應(yīng)用于智慧城市、智慧醫(yī)療、智慧養(yǎng)老、智慧交通、智慧教育等領(lǐng)域,發(fā)揮數(shù)據(jù)的驅(qū)動(dòng)作用,進(jìn)而實(shí)現(xiàn)更高的智慧。
(9)敏捷類應(yīng)用:如何將大數(shù)據(jù)思維用于軟件開(kāi)發(fā)、項(xiàng)目管理以及組織管理之中,進(jìn)而實(shí)現(xiàn)敏捷軟件開(kāi)發(fā)、敏捷項(xiàng)目管理和敏捷組織,提升其應(yīng)變能力和可持續(xù)發(fā)展能力。
2.4 大數(shù)據(jù)生態(tài)系統(tǒng)研究中相對(duì)熱門話題
數(shù)據(jù)科學(xué)生態(tài)系統(tǒng)(Big Data Ecosystem)是指包括基礎(chǔ)設(shè)施、支撐技術(shù)、工具與平臺(tái)、項(xiàng)目管理以及其他外部影響因素在內(nèi)的各種組成要素構(gòu)成的完整系統(tǒng)。
例如,大數(shù)據(jù)全景圖(Big Data Landscape)[79]較為全面地展示了大數(shù)據(jù)生態(tài)系統(tǒng)中的主要機(jī)構(gòu)及產(chǎn)品。
現(xiàn)有相關(guān)研究主要從組成要素及其相互關(guān)系兩個(gè)方面進(jìn)行。
就目前而言,相關(guān)研究中的熱門話題集中在:
(1)基礎(chǔ)設(shè)施:主要關(guān)注云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)計(jì)算、社交媒體在內(nèi)的基礎(chǔ)設(shè)施對(duì)數(shù)據(jù)科學(xué)的影響以及數(shù)據(jù)科學(xué)中如何充分利用上述基礎(chǔ)設(shè)施。
(2)支撐技術(shù):建立在基礎(chǔ)設(shè)施上的關(guān)鍵技術(shù),現(xiàn)有研究主要討論機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、批處理、流計(jì)算、圖計(jì)算、交互計(jì)算、NoSQL、NewSQL和關(guān)系云等支撐技術(shù)在數(shù)據(jù)科學(xué)的應(yīng)用;
(3)工具與平臺(tái):支撐技術(shù)的具體實(shí)現(xiàn),目前的主要研究熱點(diǎn)集中在R、Python、Hadoop、Spark、MongoDB、HBase、Memcached、MongoDB、CouchDB和Redis等工具與平臺(tái)在數(shù)據(jù)科學(xué)中的應(yīng)用;
(4)項(xiàng)目管理:涉及數(shù)據(jù)科學(xué)項(xiàng)目的范圍、時(shí)間、成本、質(zhì)量、風(fēng)險(xiǎn)、人力資源、溝通、采購(gòu)及系統(tǒng)管理等9個(gè)方面的管理;
(5)環(huán)境因素:大數(shù)據(jù)時(shí)代對(duì)法律、政策、制度、文化、道德、倫理產(chǎn)生的影響與新需求。
其中,大數(shù)據(jù)權(quán)屬立法研究主要討論大數(shù)據(jù)權(quán)屬立法的必要性、可行性以及對(duì)策建議。
從大數(shù)據(jù)的重要性的認(rèn)識(shí)看,大數(shù)據(jù)不再是一種資源,更是一種資產(chǎn)。
大數(shù)據(jù)權(quán)屬的立法已經(jīng)成為大數(shù)據(jù)時(shí)代信息資源開(kāi)發(fā)利用的必要條件。
數(shù)據(jù)科學(xué)研究的爭(zhēng)議與挑戰(zhàn)在不同的學(xué)科領(lǐng)域,大數(shù)據(jù)時(shí)代的科學(xué)研究所面臨問(wèn)題、挑戰(zhàn)和關(guān)注點(diǎn)不同。
從計(jì)算機(jī)科學(xué)視角看,新的數(shù)據(jù)處理需求已經(jīng)超出了現(xiàn)有的存儲(chǔ)與計(jì)算能力[80];從統(tǒng)計(jì)學(xué)視角看,大數(shù)據(jù)挑戰(zhàn)在于樣本的規(guī)模接近總體時(shí),如何直接在總體上進(jìn)行統(tǒng)計(jì)分析[1];從機(jī)器學(xué)習(xí)角度看,訓(xùn)練樣本集接近測(cè)試樣本集時(shí),如何用簡(jiǎn)單模型及模型集成方法實(shí)現(xiàn)較高的智能水平[81];
從數(shù)據(jù)分析角度看,如何從海量數(shù)據(jù)中快速洞察有價(jià)值的數(shù)據(jù),并通過(guò)試驗(yàn)設(shè)計(jì)和模擬仿真,實(shí)現(xiàn)數(shù)據(jù)到智慧的轉(zhuǎn)變[82]。
但是,從數(shù)據(jù)科學(xué)視角看,其研究中的常見(jiàn)爭(zhēng)議及背后的研究挑戰(zhàn)可以歸納為10個(gè)方面:
3.1 思維模式——知識(shí)范式還是數(shù)據(jù)范式
在傳統(tǒng)科學(xué)研究中,由于數(shù)據(jù)的獲得、存儲(chǔ)和計(jì)算能力所限,人們往往采取的是知識(shí)范式(“數(shù)據(jù)→知識(shí)→問(wèn)題”的范式),從數(shù)據(jù),尤其是樣本數(shù)據(jù)中提煉出知識(shí)之后,用知識(shí)去解決現(xiàn)實(shí)問(wèn)題。
大數(shù)據(jù)時(shí)代的到來(lái)及數(shù)據(jù)科學(xué)出現(xiàn)為人們提供了另一種研究思路,即數(shù)據(jù)范式(“數(shù)據(jù)→問(wèn)題”范式),在尚未從數(shù)據(jù)中提煉出知識(shí)的前提下,用數(shù)據(jù)直接解決問(wèn)題。
數(shù)據(jù)范式強(qiáng)調(diào)的是在尚未將數(shù)據(jù)轉(zhuǎn)換為知識(shí)的前提下,直接用數(shù)據(jù)去解決現(xiàn)實(shí)世界中的問(wèn)題。
以機(jī)器翻譯為例,傳統(tǒng)機(jī)器翻譯方法是基于自然語(yǔ)言理解,準(zhǔn)確說(shuō)是基于語(yǔ)言學(xué)和統(tǒng)計(jì)學(xué)的知識(shí)進(jìn)行,屬于知識(shí)范式的范疇。
但是,這種傳統(tǒng)機(jī)器翻譯效果一直并不理想,且尚無(wú)突破性進(jìn)展。
然而,近幾年興起的機(jī)器翻譯方法改變了傳統(tǒng)機(jī)器翻譯的思維模式,采取的是“數(shù)據(jù)范式”——直接從歷史跨語(yǔ)言語(yǔ)料庫(kù)中快速洞見(jiàn)所需結(jié)果。
上世紀(jì)五十年以來(lái)的IBM 機(jī)器翻譯的緩慢發(fā)展以及2000以后的Google機(jī)器翻譯的迅速興起也反映了這種思維模式的變革。
與傳統(tǒng)認(rèn)識(shí)中的“知識(shí)就是力量”類似,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)也成為一種重要力量。
如何組織、挖掘和利用數(shù)據(jù)成為現(xiàn)代組織的核心競(jìng)爭(zhēng)力。
目前,思維模式變革的主要挑戰(zhàn)在于如何完成以數(shù)據(jù)為中心的設(shè)計(jì)、數(shù)據(jù)驅(qū)動(dòng)型決策[83]和數(shù)據(jù)密集型應(yīng)用[84]。
3.2 數(shù)據(jù)的認(rèn)識(shí)——主動(dòng)屬性還是被動(dòng)屬性
在傳統(tǒng)科學(xué)研究中,數(shù)據(jù)一直被當(dāng)作是被動(dòng)的東西,人們主要從被動(dòng)屬性方面去對(duì)待數(shù)據(jù)。
以關(guān)系數(shù)據(jù)庫(kù)為例,人們先定義關(guān)系模式,然后將數(shù)據(jù)按照關(guān)系模式的要求進(jìn)行強(qiáng)制轉(zhuǎn)換后放入數(shù)據(jù)庫(kù)中,完成數(shù)據(jù)挖掘和分析任務(wù)。
在大數(shù)據(jù)思維模式的背后,一個(gè)根本性的變革在于人們開(kāi)始意識(shí)到數(shù)據(jù)的主動(dòng)屬性——不再簡(jiǎn)單認(rèn)為數(shù)據(jù)是一種死的、被動(dòng)的東西,而更加重視數(shù)據(jù)的積極作者用,提出了數(shù)據(jù)在先、模式在后或無(wú)模式、讓數(shù)據(jù)說(shuō)話、數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用、數(shù)據(jù)業(yè)務(wù)化、數(shù)據(jù)洞察和以數(shù)據(jù)為中心的思維模式等新術(shù)語(yǔ)。
因此,如何正確認(rèn)識(shí)數(shù)據(jù)及如何充分發(fā)揮數(shù)據(jù)的主動(dòng)屬性成為數(shù)據(jù)科學(xué)的重要研究任務(wù)。
目前,相關(guān)研究的主要挑戰(zhàn)在于如何實(shí)現(xiàn)數(shù)據(jù)洞察、以數(shù)據(jù)為中心的設(shè)計(jì)、敏捷軟件開(kāi)發(fā)、數(shù)據(jù)驅(qū)動(dòng)型決策以及智慧類應(yīng)用研發(fā)。
3.3 智能的認(rèn)識(shí)——更好的算法還是更多的數(shù)據(jù)
在傳統(tǒng)學(xué)術(shù)研究中,智能主要來(lái)自于算法,尤其是復(fù)雜的算法。
算法的復(fù)雜度隨著智能水平得到提升。
例如,KNN算法是機(jī)器學(xué)習(xí)中常用的分類算法,其算法思想非常簡(jiǎn)單。
人們根據(jù)不同應(yīng)用場(chǎng)景提出多種改進(jìn)或演化方案,雖然智能水平有所提高,但隨之而來(lái)的問(wèn)題是算法復(fù)雜度的提升[85]。
但是,數(shù)據(jù)范式表明,數(shù)據(jù)也可以直接用于解決問(wèn)題,引發(fā)了一場(chǎng)關(guān)于“更多數(shù)據(jù)還是更好模型(More data or Better Model debate)”的討論[86],經(jīng)過(guò)這場(chǎng)大討論,人們得出了相對(duì)一致的結(jié)論——“更多數(shù)據(jù)+簡(jiǎn)單算法最好的模型(more data+ simple Algorithem the best model)”。
因此,如何設(shè)計(jì)出簡(jiǎn)單高效的算法以及算法的集成應(yīng)用成為數(shù)據(jù)科學(xué)的重要挑戰(zhàn)。
目前,關(guān)于智能的實(shí)現(xiàn)方式的挑戰(zhàn)在于算法設(shè)計(jì)、算法集成、維度災(zāi)難和深度學(xué)習(xí)。
3.4 研發(fā)瓶頸——數(shù)據(jù)密集型還是計(jì)算密集型
傳統(tǒng)的軟件開(kāi)發(fā)與算法設(shè)計(jì)的重點(diǎn)是解決計(jì)算密集型的問(wèn)題,計(jì)算是研究難點(diǎn)和瓶頸。
但是,隨著大規(guī)模分布式計(jì)算,尤其是云計(jì)算的普及,計(jì)算不再是人們需要解決的首要瓶頸。
因此,軟件開(kāi)發(fā)與算法設(shè)計(jì)的主要矛盾從計(jì)算轉(zhuǎn)向數(shù)據(jù),出現(xiàn)了數(shù)據(jù)密集型應(yīng)用。
在數(shù)據(jù)密集型應(yīng)用中,數(shù)據(jù)是主要關(guān)注點(diǎn)與瓶頸[87]。
數(shù)據(jù)密集型問(wèn)題的研究將進(jìn)一步推動(dòng)以數(shù)據(jù)為中心的研究范式。
目前,數(shù)據(jù)密集型應(yīng)用的主要挑戰(zhàn)在于副本數(shù)據(jù)技術(shù)、物化視圖、計(jì)算的本地化、數(shù)據(jù)模型的多樣化和數(shù)據(jù)一致性保障。
3.5 數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)預(yù)處理還是數(shù)據(jù)加工
在傳統(tǒng)數(shù)據(jù)研究中,數(shù)據(jù)準(zhǔn)備主要強(qiáng)調(diào)的是將復(fù)雜數(shù)據(jù)轉(zhuǎn)換為簡(jiǎn)單數(shù)據(jù),對(duì)臟數(shù)據(jù)進(jìn)行清洗處理后得到干凈數(shù)據(jù),從而防止“垃圾進(jìn)垃圾出”現(xiàn)象的出現(xiàn),主要涉及重復(fù)數(shù)據(jù)的過(guò)濾、錯(cuò)誤數(shù)據(jù)的識(shí)別以及缺失數(shù)據(jù)的處理。
可見(jiàn),數(shù)據(jù)預(yù)處理主要關(guān)注的是數(shù)據(jù)的質(zhì)量維度的問(wèn)題。
但是,由于從小數(shù)據(jù)到大數(shù)據(jù)之間存在質(zhì)量涌現(xiàn)現(xiàn)象——個(gè)別小數(shù)據(jù)的質(zhì)量問(wèn)題(如缺失數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)或重復(fù)數(shù)據(jù))不影響整個(gè)大數(shù)據(jù)的可用性,大數(shù)據(jù)處理中關(guān)注的并非為傳統(tǒng)意義上的數(shù)據(jù)預(yù)處理,而其關(guān)注點(diǎn)轉(zhuǎn)向另一個(gè)重要課題——數(shù)據(jù)加工。
在數(shù)據(jù)科學(xué)中,數(shù)據(jù)加工是指數(shù)據(jù)的創(chuàng)造性增值過(guò)程,包括兩種表現(xiàn)形式:數(shù)據(jù)打磨(data wrangling)或數(shù)據(jù)改寫(data munging)。
與數(shù)據(jù)預(yù)處理不同的是,數(shù)據(jù)加工更加強(qiáng)調(diào)的是如何將數(shù)據(jù)科學(xué)家的3C精神融入數(shù)據(jù)處理工作之中,從而達(dá)到數(shù)據(jù)增值的目的。
因此,數(shù)據(jù)加工并不僅限于技術(shù)工作的范疇,而且還涉及到藝術(shù)層面的創(chuàng)造,如需要采用數(shù)據(jù)柔術(shù)(Data Jujitsu)和整齊化處理(Data Tidying)的方法進(jìn)行數(shù)據(jù)加工處理。
數(shù)據(jù)加工概念的提出意味著人們對(duì)數(shù)據(jù)復(fù)雜性的認(rèn)識(shí)發(fā)生了重要的變革,即開(kāi)始接受數(shù)據(jù)的復(fù)雜性特征,認(rèn)為復(fù)雜性是數(shù)據(jù)本身的固有特征。
與此同時(shí),數(shù)據(jù)準(zhǔn)備的關(guān)注點(diǎn)轉(zhuǎn)向另一個(gè)重要問(wèn)題,即如何發(fā)揮人的增值作用。
目前,數(shù)據(jù)加工的研究主要挑戰(zhàn)集中在:
· 數(shù)據(jù)打磨或數(shù)據(jù)改寫理念的提出:如何在數(shù)據(jù)科學(xué)項(xiàng)目中充分發(fā)揮數(shù)據(jù)科學(xué)家的作用,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)處理活動(dòng)的增值效果;
· 數(shù)據(jù)打磨或數(shù)據(jù)改寫技術(shù)的實(shí)現(xiàn):基于Python、R以及大數(shù)據(jù)技術(shù)實(shí)現(xiàn)數(shù)據(jù)加工的理念與方法;
·數(shù)據(jù)柔術(shù):如何有藝術(shù)性地將數(shù)據(jù)轉(zhuǎn)換為產(chǎn)品;
·整齊化處理:將數(shù)據(jù)轉(zhuǎn)換為大數(shù)據(jù)算法和大數(shù)據(jù)技術(shù)能夠直接處理的形態(tài)。
3.6 服務(wù)質(zhì)量——精準(zhǔn)度還是用戶體驗(yàn)
查全率和查準(zhǔn)率是傳統(tǒng)數(shù)據(jù)研究中評(píng)價(jià)服務(wù)質(zhì)量的兩個(gè)核心指標(biāo)。
但是,當(dāng)總體為未知、數(shù)據(jù)量迅速增長(zhǎng)、數(shù)據(jù)種類不斷變化和數(shù)據(jù)處理速度要求高時(shí),查全率和查準(zhǔn)率的追求成為不可能。
因此,在大數(shù)據(jù)環(huán)境下,更加重視的是用戶體驗(yàn),而不是查全率和查準(zhǔn)率。
在用戶體驗(yàn)的評(píng)價(jià)中,響應(yīng)速度是最為重要指標(biāo)之一。
Aberdeen Group的調(diào)查發(fā)現(xiàn)“頁(yè)面的顯示速度每延遲1秒,網(wǎng)站訪問(wèn)量就會(huì)降低11%,從而導(dǎo)致?tīng)I(yíng)業(yè)額減少7%,顧客滿意度下降16%”Google發(fā)現(xiàn)“響應(yīng)時(shí)間每延遲0.5秒,查詢數(shù)將會(huì)減少20%”;Amazon發(fā)現(xiàn)“響應(yīng)時(shí)間延遲0.1秒,營(yíng)業(yè)額下降1%[88]。
目前,用戶體驗(yàn)研究的主要挑戰(zhàn)在于如何確保較快的響應(yīng)速度、設(shè)計(jì)人機(jī)交互、實(shí)現(xiàn)服務(wù)虛擬化以及提供按需服務(wù)。
3.7 數(shù)據(jù)分析——解釋性分析還是預(yù)測(cè)性分析
理論完美主義者認(rèn)為只有掌握了因果關(guān)系才能正確認(rèn)識(shí)和有效利用客觀現(xiàn)象。
傳統(tǒng)數(shù)據(jù)分析往往是理論完美主義的指導(dǎo)下完成,試圖通過(guò)對(duì)歷史數(shù)據(jù)進(jìn)行深度分析之后,達(dá)到深刻理解自我或解釋客觀現(xiàn)象的目的,側(cè)重的是因果分析,即以解釋型分析為主。
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)分析的重點(diǎn)從因果分析轉(zhuǎn)向相關(guān)分析,更加重視的是事物之間的相關(guān)關(guān)系[89]。
然而,在這種變革的背后是數(shù)據(jù)分析指導(dǎo)思想的根本性變化——從理論完美主義轉(zhuǎn)向現(xiàn)實(shí)實(shí)用主義,側(cè)重于數(shù)據(jù)分析的實(shí)用性,更加重視對(duì)未來(lái)的預(yù)測(cè),即預(yù)測(cè)型分析。
相對(duì)于解釋性分析,預(yù)測(cè)性分析具有更強(qiáng)的時(shí)效性,可以迅速洞見(jiàn)事物之間的內(nèi)在聯(lián)系以及其商業(yè)價(jià)值。
因此,數(shù)據(jù)科學(xué)的一個(gè)重要特點(diǎn)是預(yù)測(cè)性分析和解釋性分析的分離。
預(yù)測(cè)性分析主要由數(shù)據(jù)科學(xué)家完成,一般不需要領(lǐng)域知識(shí);解釋性分析則發(fā)生在預(yù)測(cè)性分析之后,數(shù)據(jù)科學(xué)家將預(yù)測(cè)性分析中的洞察結(jié)果轉(zhuǎn)交給領(lǐng)域?qū)<遥深I(lǐng)域?qū)<邑?fù)責(zé)完成解釋性分析。
可見(jiàn),數(shù)據(jù)科學(xué)家一般不做解釋性分析,或者說(shuō),解釋性分析往往超出數(shù)據(jù)科學(xué)家的能力范疇,需要由具體領(lǐng)域的專家完成。
預(yù)測(cè)性分析和解釋性分析的分離也是數(shù)據(jù)科學(xué)家和領(lǐng)域?qū)<抑g協(xié)同工作的主要實(shí)現(xiàn)方式。
大數(shù)據(jù)分析的主要挑戰(zhàn)源自于數(shù)據(jù)的復(fù)雜性、噪聲數(shù)據(jù)的分析、數(shù)據(jù)的依賴度[90]。
提出面向大數(shù)據(jù)分析的新方法、技術(shù)與工具,尤其是大數(shù)據(jù)分析方法的動(dòng)態(tài)演化、實(shí)時(shí)計(jì)算和彈性計(jì)算成為相關(guān)研究中亟待解決的問(wèn)題。
3.8 算法評(píng)價(jià)——復(fù)雜度還是可擴(kuò)展性
復(fù)雜度,尤其是時(shí)間復(fù)雜度和空間復(fù)雜度,是傳統(tǒng)算法的兩個(gè)重要評(píng)價(jià)指標(biāo) [91],分別代表的是算法的運(yùn)行所需的時(shí)間成本和內(nèi)存成本。
但是,在大數(shù)據(jù)環(huán)境下,算法設(shè)計(jì)的一個(gè)重要特點(diǎn)是上層需求和底層數(shù)據(jù)處于動(dòng)態(tài)變化之中,因此,算法應(yīng)支持按需服務(wù)和數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用。
例如,谷歌于2008年推出預(yù)測(cè)流感疫情工具——谷歌流感趨勢(shì)(Google Flu Trends,GFT),及時(shí)準(zhǔn)確預(yù)測(cè)了當(dāng)時(shí)H1N1在全美范圍的傳播[92],但是,2013年1月的估計(jì)比實(shí)際數(shù)據(jù)高兩倍,主要原因之一是缺乏算法動(dòng)態(tài)性(Algorithm Dynamics)和用戶使用行為習(xí)慣的變化[93]。
在大數(shù)據(jù)時(shí)代,算法的可擴(kuò)展性主要代表的是算法的可伸縮能力。
目前,相關(guān)研究的主要挑戰(zhàn)在于低維度算法在高維數(shù)據(jù)中的應(yīng)用、維度災(zāi)難、數(shù)據(jù)規(guī)約以及數(shù)據(jù)密集型應(yīng)用。
3.9 研究范式——第三范式還是第四范式
圖靈獎(jiǎng)獲得者Jim Gray 曾提出,人類科學(xué)研究活動(dòng)已經(jīng)歷過(guò)三種不同范式的演變過(guò)程(原始社會(huì)的“實(shí)驗(yàn)科學(xué)范式”、以模型和歸納為特征的“理論科學(xué)范式”和以模擬仿真為特征的“計(jì)算科學(xué)范式”),目前正在從“計(jì)算科學(xué)范式”轉(zhuǎn)向“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式(Data-intensive Scientific Discovery)”。
第四范式,即“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式”的主要特點(diǎn)是科學(xué)研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識(shí),無(wú)須直接面對(duì)所研究的物理對(duì)象。
例如,在大數(shù)據(jù)時(shí)代,天文學(xué)家的研究方式發(fā)生了新的變化——其主要研究任務(wù)變?yōu)閺暮A繑?shù)據(jù)庫(kù)中發(fā)現(xiàn)所需的物體或現(xiàn)象的照片,而不再需要親自進(jìn)行太空拍照[94]。
第四范式的提出反映了人們對(duì)世界的固有認(rèn)識(shí)發(fā)生了根本性的變化——從二元認(rèn)識(shí)(精神世界/物理世界)轉(zhuǎn)向三元認(rèn)識(shí)(精神世界/數(shù)據(jù)世界/物理世界),即在原有的“精神世界”和“物理世界”之間出現(xiàn)了一個(gè)新的世界——數(shù)據(jù)世界。
因此,科學(xué)研究者往往直接面對(duì)的是數(shù)據(jù)世界,通過(guò)對(duì)數(shù)據(jù)世界的研究達(dá)到認(rèn)識(shí)和改造物理世界的目的。
對(duì)于科學(xué)研究者而言,數(shù)據(jù)世界中已積累的“歷史數(shù)據(jù)”往往足以完成一項(xiàng)科研任務(wù),數(shù)據(jù)科學(xué)家不需要親自到物理世界采用問(wèn)卷和訪談的方法收集數(shù)據(jù)——“調(diào)研數(shù)據(jù)”。
同時(shí),與“調(diào)研數(shù)據(jù)”相比,“歷史數(shù)據(jù)”更具有客觀性和可信度。
目前,相關(guān)研究主要挑戰(zhàn)在于第三范式與第四范式的區(qū)別、第四范式的內(nèi)涵、理論深入研究以及領(lǐng)域應(yīng)用。
3.10 人才培養(yǎng)——數(shù)據(jù)工程師還是數(shù)據(jù)科學(xué)家
傳統(tǒng)科學(xué)領(lǐng)域中,數(shù)據(jù)相關(guān)的人才培養(yǎng)的目標(biāo)定位于數(shù)據(jù)工程師——從事數(shù)據(jù)的組織、管理、備份、恢復(fù)工作的人才。
但是,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)工程師無(wú)法勝任數(shù)據(jù)科學(xué)的研究任務(wù),需要的是一類全新的人才——數(shù)據(jù)科學(xué)家。
二者的主要區(qū)別在于:數(shù)據(jù)工程師負(fù)責(zé)的是數(shù)據(jù)的管理,而數(shù)據(jù)科學(xué)家擅長(zhǎng)的是基于數(shù)據(jù)的管理,如基于數(shù)據(jù)的決策、產(chǎn)品開(kāi)發(fā)、業(yè)務(wù)定義等。
目前,關(guān)于數(shù)據(jù)科學(xué)家的研究及人才培養(yǎng)的挑戰(zhàn)在于正確分析崗位職責(zé)與用人需求、數(shù)據(jù)科學(xué)家的素質(zhì)與能力要求、數(shù)據(jù)科學(xué)項(xiàng)目管理以及數(shù)據(jù)科學(xué)家的職業(yè)規(guī)劃。
數(shù)據(jù)科學(xué)研究的發(fā)展趨勢(shì)在梳理研究熱點(diǎn)、爭(zhēng)議及挑戰(zhàn)的基礎(chǔ)上,我們需要進(jìn)一步分析數(shù)據(jù)科學(xué)研究的發(fā)展趨勢(shì)。
從整體上講,數(shù)據(jù)科學(xué)研究的主要發(fā)展趨勢(shì)可以總結(jié)為:· “思維模式的多樣化和研究范式的變遷”是根本趨勢(shì)。
其中,思維模式的多樣化主要體現(xiàn)在數(shù)據(jù)范式的興起以及其與傳統(tǒng)的知識(shí)范式并存;研究范式的變遷是指科學(xué)研究范式從“計(jì)算科學(xué)范式”轉(zhuǎn)向“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式”,進(jìn)而改變?nèi)藗儗?duì)世界的二元認(rèn)識(shí),相關(guān)研究重點(diǎn)將轉(zhuǎn)變?yōu)橥ㄟ^(guò)數(shù)據(jù)世界的研究認(rèn)識(shí)和改造物理世界。
思維模式的多樣化和研究范式的變遷對(duì)數(shù)據(jù)科學(xué)研究產(chǎn)生深遠(yuǎn)影響,將改變?nèi)藗儗?duì)數(shù)據(jù)的認(rèn)識(shí)視角、開(kāi)發(fā)動(dòng)因和利用方式。
· “專業(yè)中的數(shù)據(jù)科學(xué)”是研究熱點(diǎn)。
大數(shù)據(jù)時(shí)代,各專業(yè)領(lǐng)域面臨的主要挑戰(zhàn)在于如何解決新興數(shù)據(jù)與傳統(tǒng)知識(shí)之間的矛盾,即數(shù)據(jù)已經(jīng)變了,但知識(shí)沒(méi)有更新,各學(xué)科中的傳統(tǒng)知識(shí)無(wú)法解決大數(shù)據(jù)帶來(lái)的新問(wèn)題。
因此,大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)即將成為各學(xué)科領(lǐng)域研究的新方向,也就是說(shuō),專業(yè)中的數(shù)據(jù)科學(xué)成為相關(guān)研究的熱點(diǎn)問(wèn)題。
· “專業(yè)數(shù)據(jù)科學(xué)”是研究難點(diǎn)。
“專業(yè)中的數(shù)據(jù)科學(xué)”從不同專業(yè)視角解讀數(shù)據(jù)科學(xué),存在研究興趣點(diǎn)和研究發(fā)現(xiàn)(如理論、方法、技術(shù)、工具和典型實(shí)踐等)的差異性,甚至可能出現(xiàn)相互重疊與沖突的現(xiàn)象。
在這種背景下,如何將分散不同學(xué)科領(lǐng)域中的共性問(wèn)題及通用結(jié)論提煉成一門新的學(xué)科——“專業(yè)數(shù)據(jù)科學(xué)”,進(jìn)而為各個(gè)學(xué)科領(lǐng)域的研究提供新的理論基礎(chǔ)是未來(lái)研究的難點(diǎn)所在。
· “數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”是終極問(wèn)題。
數(shù)據(jù)學(xué)科是一門實(shí)踐性極強(qiáng)的學(xué)科,其研究和應(yīng)用均不能脫離具體領(lǐng)域。
數(shù)據(jù)科學(xué)的研究和應(yīng)用將會(huì)超出技術(shù)范疇,還涉及到發(fā)展戰(zhàn)略、基礎(chǔ)設(shè)施、人力資源、政策、法律與文化環(huán)境等諸多因素。
因此,數(shù)據(jù)科學(xué)需要解決的終極問(wèn)題是將大數(shù)據(jù)放在一個(gè)完整的生態(tài)系統(tǒng)之中去認(rèn)識(shí)與利用,從生態(tài)系統(tǒng)層次統(tǒng)籌和規(guī)劃,避免片面認(rèn)識(shí)數(shù)據(jù)問(wèn)題,進(jìn)而推動(dòng)數(shù)據(jù)、能源和物質(zhì)之間的相互轉(zhuǎn)化。
4.1 預(yù)測(cè)模型及相關(guān)分析的重視
數(shù)據(jù)科學(xué)的研究責(zé)任在于預(yù)測(cè)模型而不在于解釋模型。
以預(yù)測(cè)模型為中心的數(shù)據(jù)科學(xué)更偏向于實(shí)用主義,更加關(guān)注的是“對(duì)未來(lái)的預(yù)測(cè)能力”,而不是“對(duì)過(guò)去的解釋水平”[95]。
因此,數(shù)據(jù)科學(xué)的研究更加重視的是“現(xiàn)在能為未來(lái)做什么?”,而不是“過(guò)去對(duì)現(xiàn)在的影響是什么?”
數(shù)據(jù)科學(xué)中重視預(yù)測(cè)模型而不是解釋模型的另一個(gè)現(xiàn)實(shí)基礎(chǔ)在于“人們往往先發(fā)現(xiàn)規(guī)律,后發(fā)現(xiàn)原因”[96]。
從方法論層次看,以發(fā)現(xiàn)預(yù)測(cè)模型為目的的研究往往提倡的是假設(shè)演繹(Hypothetico-Deductive)研究范式[97],先提出研究假設(shè),然后采用試驗(yàn)設(shè)計(jì)和演繹分析方法論證研究假設(shè)成立與否。
然而,一個(gè)好的研究假設(shè)的提出需要研究者,尤其是數(shù)據(jù)科學(xué)家的特有素質(zhì)——?jiǎng)?chuàng)造力、批判性思考和好奇心。
與解釋模型不同的是,預(yù)測(cè)模型更加重視的是模型的簡(jiǎn)單性,而不是復(fù)雜性,主要原因有兩個(gè),一是預(yù)測(cè)模型對(duì)計(jì)算時(shí)間的要求較高,甚至需要進(jìn)行實(shí)時(shí)分析,然而簡(jiǎn)單模型的計(jì)算效率往往高于復(fù)雜模型;二是經(jīng)驗(yàn)證明,正如奧卡姆剃刀定律(Occam's razor)[98]所言,在其他條件相同的情況下,就預(yù)測(cè)而言,簡(jiǎn)單模型比復(fù)雜模型更可靠。
預(yù)測(cè)模型往往建立在相關(guān)關(guān)系,而不是因果關(guān)系。
通常,相關(guān)關(guān)系可以幫助我們預(yù)測(cè)未來(lái),而因果關(guān)系有助于進(jìn)一步理解和控制未來(lái)。
從表面上看,預(yù)測(cè)模型依賴的是相關(guān)關(guān)系的分析,但在本質(zhì)上屬于一種數(shù)據(jù)驅(qū)動(dòng)型的“數(shù)據(jù)范式”,與基于知識(shí)范式的解釋模型有著本質(zhì)性的區(qū)別。
4.2 模型集成及元分析的興起
傳統(tǒng)數(shù)據(jù)分析的通用做法是用一個(gè)數(shù)據(jù)模型即可解決一項(xiàng)數(shù)據(jù)處理任務(wù)。
在這種以單一模型為基礎(chǔ)的數(shù)據(jù)分析中,為了提升數(shù)據(jù)處理的信度和效度,需要對(duì)模型進(jìn)行優(yōu)化和調(diào)整,導(dǎo)致數(shù)據(jù)模型復(fù)雜度的增長(zhǎng)。
也就是說(shuō),傳統(tǒng)數(shù)據(jù)分析中的數(shù)據(jù)模型有兩個(gè)基本特征:?jiǎn)我恍院蛷?fù)雜性。
但是,在大數(shù)據(jù)背景下,人們很難找到一個(gè)能夠處理動(dòng)態(tài)且異構(gòu)數(shù)據(jù)的單一模型,因此,開(kāi)始尋求多個(gè)模型的集成應(yīng)用。
與傳統(tǒng)數(shù)據(jù)分析不同的是,大數(shù)據(jù)分析中所涉及的模型往往是極其簡(jiǎn)單,即大數(shù)據(jù)分析中的數(shù)據(jù)模型也有兩個(gè)基本特征:多樣性和簡(jiǎn)單性。
可見(jiàn),模型集成成為數(shù)據(jù)科學(xué)研究的一個(gè)新問(wèn)題。
通常,大數(shù)據(jù)分析采用多個(gè)較為簡(jiǎn)單的數(shù)據(jù)模型,將數(shù)據(jù)分析任務(wù)分解成分散在多個(gè)層次,多個(gè)活動(dòng)的小任務(wù),并通過(guò)簡(jiǎn)單模型及其集成方法達(dá)到最終數(shù)據(jù)處理目的。
例如,在深度學(xué)習(xí)之中,由多處理層組成的計(jì)算模型可通過(guò)多層抽象來(lái)學(xué)習(xí)數(shù)據(jù)表征[99]。
模型集成的背后是元分析的興起。
傳統(tǒng)統(tǒng)計(jì)學(xué)重視的基于零次或一次數(shù)據(jù)的基本分析,包括描述性統(tǒng)計(jì)、參數(shù)估計(jì)和假設(shè)檢驗(yàn)。
在大數(shù)據(jù)環(huán)境下,二次數(shù)據(jù)和三次數(shù)據(jù)的分析顯得更為重要,數(shù)據(jù)分析工作往往在眾多小模型的分析結(jié)果的基礎(chǔ)上進(jìn)行二次分析,即元分析。
4.3 數(shù)據(jù)在先,模式在后或無(wú)模式的出現(xiàn)
傳統(tǒng)數(shù)據(jù)管理,尤其是關(guān)系型數(shù)據(jù)庫(kù)中采用的是“模式在先、數(shù)據(jù)在后(Schema First,Data Later)”的建設(shè)模式[100],即先定義模式,然后嚴(yán)格按照模式要求存儲(chǔ)和管理數(shù)據(jù);當(dāng)需要調(diào)整模式時(shí),不僅需要重定義數(shù)據(jù)結(jié)構(gòu),而且還需要修改上層應(yīng)用程序。
然而,在大數(shù)據(jù)環(huán)境下,無(wú)法沿用“模式在先、數(shù)據(jù)在后(Schema First,Data Later)”的建設(shè)模式,主要原因有兩個(gè):一是數(shù)據(jù)模式可能為不斷變化或根本不存在;二是按照預(yù)定模式進(jìn)行數(shù)據(jù)的存儲(chǔ)和處理時(shí)容易導(dǎo)致信息丟失。
因此,“數(shù)據(jù)在先,模式在后或無(wú)模式(Data First, Schema Later or Never)”成為數(shù)據(jù)產(chǎn)品設(shè)計(jì)的主要趨勢(shì)。
以NoSQL為例,采用非常簡(jiǎn)單的鍵值數(shù)據(jù)模型,通過(guò)模式在后(Schema Later)或無(wú)模式(Schemaless)的方式確保數(shù)據(jù)管理系統(tǒng)的敏捷性。
當(dāng)然,模式在后或無(wú)模式也會(huì)帶來(lái)新問(wèn)題,如限制數(shù)據(jù)管理系統(tǒng)的處理能力及加大應(yīng)用系統(tǒng)的開(kāi)發(fā)難度。
在“數(shù)據(jù)在先,模式在后或無(wú)模式”的興起背后是信息系統(tǒng)建設(shè)模式的歷史性變革——從先行支付(Pay-before-you-go)轉(zhuǎn)向現(xiàn)收現(xiàn)付(Pay-as-you-go)的建設(shè)模式。
信息系統(tǒng)建設(shè)中的先行支付模式的特點(diǎn)是根據(jù)特定時(shí)間點(diǎn)的需求定義信息系統(tǒng),信息系統(tǒng)一旦開(kāi)發(fā)完畢,在一定時(shí)間內(nèi)相對(duì)穩(wěn)定。
先行支付模式的缺點(diǎn)在于無(wú)法適應(yīng)底層數(shù)據(jù)的復(fù)雜性和上層應(yīng)用的動(dòng)態(tài)變化。
4.4 數(shù)據(jù)一致性及現(xiàn)實(shí)主義的回歸
在傳統(tǒng)數(shù)據(jù)管理中,對(duì)數(shù)據(jù)一致性的要求是接近于完美主義——強(qiáng)一致性,即任何時(shí)候從任何地方讀出的任何數(shù)據(jù)均為正確數(shù)據(jù)。
為了保證數(shù)據(jù)的一致性,在關(guān)系數(shù)據(jù)庫(kù)中引入了事務(wù)、兩端封鎖協(xié)議和兩端提交協(xié)議等方法或機(jī)制。
強(qiáng)一致性的優(yōu)點(diǎn)在于不僅可以保證數(shù)據(jù)質(zhì)量,而且可以降低后續(xù)計(jì)算的成本。
但是,強(qiáng)一致性不符合大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理要求——高擴(kuò)展性、高性能、高容錯(cuò)性、高伸縮性和高經(jīng)濟(jì)性。
因此,NoSQL等新興數(shù)據(jù)管理技術(shù)從根本上改變了人們對(duì)數(shù)據(jù)一致性的傳統(tǒng)認(rèn)識(shí),主要表現(xiàn)在提出CAP理論和BASE原則等新興數(shù)據(jù)管理理念,引入弱一致性、最終一致性等概念,并提供了不同的解決方案,如更新一致性、讀寫一致性和會(huì)話一致性等。
可見(jiàn),在數(shù)據(jù)科學(xué)研究中,數(shù)據(jù)的一致性出現(xiàn)了多樣化趨勢(shì),即根據(jù)不同應(yīng)用場(chǎng)景,有針對(duì)性地選擇具體的一致性及其實(shí)現(xiàn)方法。
在數(shù)據(jù)一致性的多樣化認(rèn)識(shí)的轉(zhuǎn)變反映了們對(duì)數(shù)據(jù)數(shù)據(jù)管理目標(biāo)的根本轉(zhuǎn)折——從完美主義回歸至現(xiàn)實(shí)主義。
以CAP理論[101]為例,人們對(duì)分布式系統(tǒng)的設(shè)計(jì)目的發(fā)生了改變,不再追求強(qiáng)一致性(Consistency)、可用性(Availability)和分區(qū)容錯(cuò)性(Partition Tolerance)三個(gè)指標(biāo)的同時(shí)最優(yōu),反而意識(shí)到了三者中的任何兩個(gè)特征的保證(或爭(zhēng)取)可能導(dǎo)致另一個(gè)特征的損失(或放棄)。
例如,Cassadra和Dynamo 為了爭(zhēng)取可用性和分區(qū)容錯(cuò)性而放棄了一致性。
4.5 多副本技術(shù)及靠近數(shù)據(jù)原則的應(yīng)用
傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)更加看重的是數(shù)據(jù)冗余的負(fù)面影響——冗余數(shù)據(jù)導(dǎo)致的數(shù)據(jù)一致性保障成本較高。
與此不同的是,數(shù)據(jù)科學(xué)中更加重視的是冗余數(shù)據(jù)的積極作用,即冗余數(shù)據(jù)在負(fù)載均衡、災(zāi)難恢復(fù)和完整性檢驗(yàn)中的積極作用。
同時(shí),還通過(guò)引入多副本技術(shù)和物化視圖的方法豐富冗余數(shù)據(jù)的存在形式,縮短用戶請(qǐng)求的響應(yīng)時(shí)間,確保了良好用戶體驗(yàn)。
以Google搜索為例,采用緩存和照相(images)技術(shù),重復(fù)利用搜索結(jié)果。
同時(shí),在計(jì)算和應(yīng)用系統(tǒng)的部署上,改變傳統(tǒng)的“數(shù)據(jù)靠近計(jì)算的原則”,反而開(kāi)始采取了“計(jì)算靠近數(shù)據(jù)的原則”。
例如,在Spark系統(tǒng)提供了操作getPreferredLocations(),支持RDD的本地化計(jì)算[102];在MapReduce中,盡量將Map任務(wù)調(diào)度至存放副本數(shù)據(jù)數(shù)據(jù)的機(jī)器上。
可見(jiàn),多副本技術(shù)和靠近數(shù)據(jù)原則均表明傳統(tǒng)的“以計(jì)算為中心”的產(chǎn)品部署模式正向“以數(shù)據(jù)為中心”的產(chǎn)品部署模式的轉(zhuǎn)變。
4.6 多樣化技術(shù)及一體化應(yīng)用并存
傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)類產(chǎn)品雖多,但標(biāo)準(zhǔn)化程度較高,如均采用關(guān)系模型和SQL語(yǔ)言。
但是,新興的NoSQL數(shù)據(jù)庫(kù)代表的不是一種特定技術(shù),而是包括基于不同數(shù)據(jù)模型和查詢接口的多種數(shù)據(jù)管理技術(shù),如Key-Value、Key-Document和Key-Column和圖存儲(chǔ)模型等。
可見(jiàn),在技術(shù)實(shí)現(xiàn)層次上,新興技術(shù)表現(xiàn)出了多樣化發(fā)展及高度專業(yè)化的趨勢(shì),即一項(xiàng)新技術(shù)專注于一個(gè)問(wèn)題、一項(xiàng)功能或一種應(yīng)用場(chǎng)景。
例如,MapReduce、Tez、Storm、Druid等技術(shù)的定位相對(duì)單一,分別專注于分布式批處理、Map/Reduce過(guò)程的拆分與組合、實(shí)時(shí)處理和面向OLAP的列存儲(chǔ)等較為單一功能的實(shí)現(xiàn)。
當(dāng)然,Spark、YARN等較為通用性技術(shù)的出現(xiàn)也為技術(shù)層次上的高度專業(yè)化趨勢(shì)提供了一種補(bǔ)充的解決方案。
同時(shí),在傳統(tǒng)數(shù)據(jù)計(jì)算/管理環(huán)境中,不同數(shù)據(jù)產(chǎn)品的界限是比較清楚的,所依賴的技術(shù)也是單一的,要么關(guān)系模型,要么層次或網(wǎng)狀模型。
但是,大數(shù)據(jù)時(shí)代的到來(lái)導(dǎo)致不同計(jì)算/管理技術(shù)的高度融合,出現(xiàn)一些支持多種數(shù)據(jù)計(jì)算/管理技術(shù)集成產(chǎn)品,甚至顯現(xiàn)出了軟硬件一體化或嵌入式應(yīng)用趨勢(shì)。
例如,Oracle大數(shù)據(jù)解決方案(Big Data Appliance)[103]集成了HDFS、Oracle NoSQL、Cloudera CDH、數(shù)據(jù)倉(cāng)庫(kù)、內(nèi)存計(jì)算和分析型應(yīng)用。
可見(jiàn),在數(shù)據(jù)科學(xué)研究中一體化應(yīng)用和專業(yè)化趨勢(shì)并存。
在產(chǎn)品與服務(wù)的實(shí)現(xiàn)層次上,一體化趨勢(shì)越來(lái)越顯著,一種產(chǎn)品的實(shí)現(xiàn)往往涉及多種不同技術(shù)的集成應(yīng)用;在技術(shù)本身的實(shí)現(xiàn)層面,專業(yè)化趨勢(shì)成為主流,一項(xiàng)新技術(shù)專注于解決相對(duì)單一問(wèn)題。
4.7 簡(jiǎn)單計(jì)算及實(shí)用主義占據(jù)主導(dǎo)地位
“簡(jiǎn)單”是數(shù)據(jù)科學(xué)的基本原則之一,代表著采用相對(duì)簡(jiǎn)單的技術(shù)來(lái)應(yīng)對(duì)復(fù)雜的基礎(chǔ)數(shù)據(jù)及不斷變化的應(yīng)用場(chǎng)景。
與此不同的是,傳統(tǒng)數(shù)據(jù)管理中采用的技術(shù)實(shí)現(xiàn)往往較為復(fù)雜。
例如,傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)技術(shù)采用Join運(yùn)算實(shí)現(xiàn)了多表查詢等復(fù)雜操作。
但是,這些復(fù)雜操作反而成為了關(guān)系數(shù)據(jù)庫(kù)在提升數(shù)據(jù)管理能力的一個(gè)重要瓶頸,如Join操作要求被處理數(shù)據(jù)不能分布在不同節(jié)點(diǎn)。
為此,NoSQL放棄了Join等復(fù)雜處理操作,突出了簡(jiǎn)單計(jì)算較高的效率和效果。
從復(fù)雜計(jì)算到簡(jiǎn)單計(jì)算的轉(zhuǎn)變表明人們對(duì)數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的理念從完美主義回歸至實(shí)用主義。
數(shù)據(jù)科學(xué)是一門實(shí)踐性很強(qiáng)的學(xué)科,現(xiàn)階段其研究主要關(guān)注的是實(shí)用性,即解決當(dāng)前社會(huì)亟待解決的實(shí)際問(wèn)題,而不是復(fù)雜計(jì)算的實(shí)現(xiàn)。
4.8 數(shù)據(jù)產(chǎn)品開(kāi)發(fā)及數(shù)據(jù)科學(xué)的嵌入式應(yīng)用
作為數(shù)據(jù)科學(xué)的特有研究?jī)?nèi)容,數(shù)據(jù)產(chǎn)品開(kāi)發(fā)將成為未來(lái)研究重要課題。
在數(shù)據(jù)科學(xué)中,所謂的數(shù)據(jù)產(chǎn)品(Data Products)并不限于“數(shù)據(jù)形態(tài)”的產(chǎn)品,而泛指“能夠通過(guò)數(shù)據(jù)來(lái)幫助用戶實(shí)現(xiàn)其某一個(gè)(些)目標(biāo)的產(chǎn)品”[104]。
可見(jiàn),數(shù)據(jù)產(chǎn)品是指在數(shù)據(jù)科學(xué)項(xiàng)目中形成,能夠被人、計(jì)算機(jī)以及其他軟硬件系統(tǒng)消費(fèi)、調(diào)用或使用,并滿足他們(它們)某種需求的任何產(chǎn)品,包括數(shù)據(jù)集、文檔、知識(shí)庫(kù)、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞見(jiàn)、決策及它們的各種組合。
以Google眼鏡為例,雖然其產(chǎn)品形態(tài)上看似乎是“眼鏡類產(chǎn)品”,但從其主要競(jìng)爭(zhēng)力之源看,確實(shí)屬于“數(shù)據(jù)產(chǎn)品”。
數(shù)據(jù)產(chǎn)品開(kāi)發(fā)主要關(guān)注的是如何將數(shù)據(jù)科學(xué)的理論融入傳統(tǒng)產(chǎn)品開(kāi)發(fā)實(shí)踐之中,進(jìn)而實(shí)現(xiàn)產(chǎn)品的更新?lián)Q代和用戶體驗(yàn)的提升。
未來(lái),數(shù)據(jù)產(chǎn)品開(kāi)發(fā)將嵌入至傳統(tǒng)產(chǎn)品的研發(fā)之中,二者的界限越來(lái)越模糊。
如何將數(shù)據(jù)科學(xué)家的創(chuàng)造性設(shè)計(jì)、批判性思考和好奇性提問(wèn)的職業(yè)素質(zhì)融入產(chǎn)品研發(fā)之中,從而實(shí)現(xiàn)傳統(tǒng)產(chǎn)品的增值和核心競(jìng)爭(zhēng)力的提升是未來(lái)數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的難點(diǎn)所在。
在此背景下,以數(shù)據(jù)為中心的設(shè)計(jì)思維將會(huì)是數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的主要思維模式。
同時(shí),良好的用戶體驗(yàn)將成為產(chǎn)品開(kāi)發(fā)的主要評(píng)價(jià)指標(biāo)之一。
數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的興起將推動(dòng)數(shù)據(jù)科學(xué)的嵌入式應(yīng)用。
數(shù)據(jù)科學(xué)將作為傳統(tǒng)產(chǎn)品的創(chuàng)新點(diǎn)、增值點(diǎn)和競(jìng)爭(zhēng)力之源,成為產(chǎn)品開(kāi)發(fā)的必要環(huán)節(jié),數(shù)據(jù)科學(xué)與領(lǐng)域?qū)嵆尸F(xiàn)出了高度融合的趨勢(shì)。
4.9 專家余及公眾數(shù)據(jù)科學(xué)的興起
在傳統(tǒng)數(shù)據(jù)分析中,專家,尤其是領(lǐng)域?qū)<沂侵R(shí)的主要來(lái)源之一。
例如,本體的建設(shè)需要由領(lǐng)域?qū)<彝瓿桑粚<蚁到y(tǒng)中的知識(shí)庫(kù)建立在專家的知識(shí)之上。
但是,在大數(shù)據(jù)時(shí)代,專家余(ProAm)[105]成為數(shù)據(jù)處理項(xiàng)目的主要貢獻(xiàn)者。
與專家不同的是,專家余是指其能力在專家與業(yè)務(wù)之間的準(zhǔn)專家型人群。
近年來(lái),眾包(包括眾創(chuàng)、眾籌等)成為大數(shù)據(jù)時(shí)代的重要數(shù)據(jù)處理模式,其主要參與者均為專家余,而并非是嚴(yán)格意義上的專家或業(yè)余人群。
例如,與傳統(tǒng)意義上的專家編寫的百科全書(shū)不同,Wikipedia是由來(lái)自各領(lǐng)域的專家余共同完成的知識(shí)庫(kù)。
眾包的廣泛應(yīng)用為傳統(tǒng)知識(shí)庫(kù)建設(shè)中的數(shù)據(jù)量與形式化程度之間的矛盾提供了新的解決方案。
在傳統(tǒng)知識(shí)庫(kù)建設(shè)中,要么形式化程度高,但數(shù)據(jù)量不夠,反之亦然。
眾包數(shù)據(jù)處理模式的出現(xiàn)使位于數(shù)據(jù)鏈長(zhǎng)尾的專家余成為知識(shí)的主要貢獻(xiàn)者和積極參與者。
從協(xié)同方式看,眾包中大規(guī)模協(xié)同可以分為機(jī)器協(xié)同、人機(jī)協(xié)同和人際協(xié)同三種表現(xiàn)形式。
其中,人機(jī)協(xié)同是數(shù)據(jù)科學(xué)研究的重要課題。
例如,混合智能——人與機(jī)器的互補(bǔ)型智能正成為人工智能的新課題。
再如,語(yǔ)義Web技術(shù)的出現(xiàn)為人機(jī)協(xié)同提供了一種重要的技術(shù)支撐。
公眾數(shù)據(jù)科學(xué)(Citizen Data Science)是專家余和大規(guī)模協(xié)同在數(shù)據(jù)科學(xué)領(lǐng)域的應(yīng)用的主要表現(xiàn)形式之一。
所謂的公眾數(shù)據(jù)科學(xué)屬于公眾科學(xué)(Citizen Science),是指公眾參與的數(shù)據(jù)科學(xué),與數(shù)據(jù)科學(xué)(Data Science)的區(qū)別在于參與研究者以非職業(yè)的興趣愛(ài)好者和志愿者為主。
也就是說(shuō),公眾數(shù)據(jù)科學(xué)是一種基于眾包和專家余的準(zhǔn)數(shù)據(jù)科學(xué),也是在數(shù)據(jù)科學(xué)成為一門廣為接受的正式科學(xué)之前的過(guò)渡型理論。
4.10 數(shù)據(jù)科學(xué)家與人才培養(yǎng)的探討
數(shù)據(jù)科學(xué)項(xiàng)目任務(wù)往往是富有挑戰(zhàn)性的工作,每一項(xiàng)任務(wù)都是獨(dú)一無(wú)二的,對(duì)工作人員的要求超出數(shù)據(jù)工程師的能力范疇,亟待由一類新型人才——數(shù)據(jù)科學(xué)家來(lái)承擔(dān)。
從Drew Convey的數(shù)據(jù)科學(xué)維恩圖[106]可看出,數(shù)據(jù)科學(xué)具有三個(gè)基本要素,即理論(統(tǒng)計(jì)學(xué)與數(shù)學(xué)知識(shí))、實(shí)踐(領(lǐng)域?qū)崙?zhàn))和精神(黑客精神)。
可見(jiàn),數(shù)據(jù)科學(xué)與傳統(tǒng)科學(xué)的人才需求不同,前者不僅要求傳統(tǒng)科學(xué)中的理論與實(shí)踐,而且還需要有數(shù)據(jù)科學(xué)家的“精神”素質(zhì),即原創(chuàng)性設(shè)計(jì)、批判性思考和好奇心地提問(wèn)的能力。
因此,如何培養(yǎng)“理論、實(shí)踐和精神為一體”的綜合性人才是未來(lái)研究的重要課題。
相關(guān)研究主要以下四個(gè)層面開(kāi)展:1)辦學(xué)層次,如何培養(yǎng)本科[107]、碩士[108]和博士[109]層次的數(shù)據(jù)科學(xué)人才。
目前,國(guó)內(nèi)和國(guó)外對(duì)數(shù)據(jù)科學(xué)人才培養(yǎng)層次的關(guān)注點(diǎn)不同,分別關(guān)注的是本科層次和碩士層次人才的培養(yǎng),但對(duì)博士層次的人才的討論相對(duì)少;
2)專業(yè)設(shè)置:是否需要設(shè)立數(shù)據(jù)科學(xué)專業(yè)?例如,國(guó)內(nèi)主要討論的是如何建設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)。
3)學(xué)科方向的選擇:如何將數(shù)據(jù)科學(xué)與傳統(tǒng)學(xué)科向結(jié)合,確定數(shù)據(jù)科學(xué)的學(xué)科地位;
4)課程改革[110]:如何完成傳統(tǒng)課程的改革以及數(shù)據(jù)科學(xué)新課程的創(chuàng)造性設(shè)計(jì)。
結(jié) 論
數(shù)據(jù)科學(xué)是一門極其特殊的新興學(xué)科,具有與其他學(xué)科不同的新特征,例如思維模式的轉(zhuǎn)變(從數(shù)據(jù)范式到知識(shí)范式的轉(zhuǎn)變)、對(duì)數(shù)據(jù)認(rèn)識(shí)的變化(從數(shù)據(jù)的被動(dòng)屬性到主動(dòng)屬性的轉(zhuǎn)移)、指導(dǎo)思想的變化(實(shí)用主義和現(xiàn)實(shí)主義的回歸)、以數(shù)據(jù)產(chǎn)品開(kāi)發(fā)為主要目的(數(shù)據(jù)成為傳統(tǒng)產(chǎn)品的主要?jiǎng)?chuàng)新點(diǎn))、專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)的差異性以及數(shù)據(jù)科學(xué)的三要素(不僅涉及理論和實(shí)踐,而且還包括精神素質(zhì))。
因此,數(shù)據(jù)科學(xué)的研究不能簡(jiǎn)單照搬傳統(tǒng)學(xué)科的經(jīng)驗(yàn),應(yīng)尊重其特殊使命和屬性。
為此,我們對(duì)數(shù)據(jù)科學(xué)研究者提出如下幾點(diǎn)建議:(1)正確認(rèn)識(shí)數(shù)據(jù)科學(xué)。
正確認(rèn)識(shí)數(shù)據(jù)科學(xué)的內(nèi)涵是有效學(xué)習(xí)和規(guī)范研究數(shù)據(jù)科學(xué)的前提。
目前,部分學(xué)者誤以為“數(shù)據(jù)科學(xué)統(tǒng)計(jì)學(xué)+機(jī)器學(xué)習(xí)”,過(guò)于強(qiáng)調(diào)統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí),而忽略了數(shù)據(jù)科學(xué)本身。
其實(shí),統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ),而并非其核心內(nèi)容。
數(shù)據(jù)科學(xué)具有區(qū)別與其他學(xué)科的獨(dú)特的研究使命、研究視角、思維模式、做事原則和知識(shí)體系。
如果脫離了這些獨(dú)到之處,數(shù)據(jù)科學(xué)的學(xué)習(xí)和研究將發(fā)生方向性的誤讀和本質(zhì)性的扭曲。
(2)突出數(shù)據(jù)的主動(dòng)屬性。
數(shù)據(jù)科學(xué)的一個(gè)重要貢獻(xiàn)或價(jià)值就在于改變了人們對(duì)數(shù)據(jù)的研究方向,即從被動(dòng)屬性轉(zhuǎn)向主動(dòng)屬性。
一直以來(lái),人們習(xí)慣性地把數(shù)據(jù)當(dāng)做被動(dòng)或死的東西,關(guān)注的是“你能對(duì)數(shù)據(jù)做什么?”,如模式定義,結(jié)構(gòu)化處理和預(yù)處理,都試圖將復(fù)雜數(shù)據(jù)轉(zhuǎn)換成簡(jiǎn)單數(shù)據(jù)。
但是,大數(shù)據(jù)時(shí)代更加關(guān)注的是數(shù)據(jù)的另一個(gè)屬性——主動(dòng)屬性,強(qiáng)調(diào)的是“數(shù)據(jù)能給你帶來(lái)什么?”,如數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用、以數(shù)據(jù)為中心的設(shè)計(jì)、讓數(shù)據(jù)說(shuō)話、數(shù)據(jù)洞見(jiàn)等,將復(fù)雜性認(rèn)為數(shù)據(jù)的自然屬性,開(kāi)始接受數(shù)據(jù)的復(fù)雜性。
研究方向從數(shù)據(jù)的被動(dòng)屬性到主動(dòng)屬性的轉(zhuǎn)變是學(xué)習(xí)和研究這一門新學(xué)科的基本出發(fā)點(diǎn)。
如果忽略了這一點(diǎn),容易將數(shù)據(jù)科學(xué)當(dāng)成數(shù)據(jù)工程來(lái)學(xué)習(xí)和研究。
(3)平衡數(shù)據(jù)科學(xué)的三個(gè)要素。
與其他課程,尤其是技術(shù)類課程不同的是,數(shù)據(jù)科學(xué)既包括理論和實(shí)踐,更需要精神——原創(chuàng)性設(shè)計(jì)、批判性思考和好奇性提問(wèn)的素質(zhì)。
因此,數(shù)據(jù)科學(xué)的學(xué)習(xí)中不僅要強(qiáng)調(diào)理論聯(lián)系實(shí)際,而且還不能忽略對(duì)數(shù)據(jù)科學(xué)家精神的培養(yǎng)。
積極參與數(shù)據(jù)科學(xué)相關(guān)的開(kāi)源項(xiàng)目和學(xué)術(shù)活動(dòng)類項(xiàng)目是兼顧數(shù)據(jù)科學(xué)的三個(gè)基本要素的兩個(gè)重要捷徑。
(4)側(cè)重培養(yǎng)信心和興趣,學(xué)會(huì)跟蹤數(shù)據(jù)科學(xué)的最新動(dòng)態(tài)。
一方面,數(shù)據(jù)科學(xué)建立在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)等基礎(chǔ)理論之上,學(xué)習(xí)門檻較高,因此,培育自己對(duì)數(shù)據(jù)科學(xué)的學(xué)習(xí)信心和興趣尤為重要;另一方面,數(shù)據(jù)科學(xué)仍屬于一門快速發(fā)展的新興學(xué)科,其理念、理論、方法、技術(shù)和工具在不斷變化之中,要求我們必須掌握動(dòng)態(tài)跟蹤數(shù)據(jù)科學(xué)領(lǐng)域的國(guó)際頂級(jí)會(huì)議、重要學(xué)術(shù)期刊、主要研究機(jī)構(gòu)、代表性人物和標(biāo)志性實(shí)踐的能力。
(5)重視試驗(yàn)設(shè)計(jì)及假設(shè)檢驗(yàn)。
試驗(yàn)設(shè)計(jì)是數(shù)據(jù)科學(xué)項(xiàng)目的重要活動(dòng)之一。
數(shù)據(jù)科學(xué)家應(yīng)根據(jù)數(shù)據(jù)科學(xué)項(xiàng)目的研究目的,有創(chuàng)造性地提出研究假設(shè),并設(shè)計(jì)對(duì)應(yīng)的試驗(yàn),最終通過(guò)這些試驗(yàn)達(dá)到假設(shè)檢驗(yàn)的目的。
以華盛頓大學(xué)和加州大學(xué)伯克利分校的數(shù)據(jù)科學(xué)專業(yè)人才培養(yǎng)方案為例,分別開(kāi)出了課程《應(yīng)用統(tǒng)計(jì)與試驗(yàn)設(shè)計(jì)(Applied Statistics & Experimental Design)和《試驗(yàn)與因果分析(Experiments and Causality)》,重點(diǎn)培養(yǎng)學(xué)生的試驗(yàn)設(shè)計(jì)和假設(shè)檢驗(yàn)的能力。
(6)不要忽視因果分析。
在大數(shù)據(jù)時(shí)代,很多人誤以為“因果分析不再重要了”,并把研究重點(diǎn)僅限在相關(guān)分析。
相關(guān)分析只能用于識(shí)別事物之間的關(guān)聯(lián)關(guān)系,而無(wú)法指導(dǎo)如何優(yōu)化和干預(yù)這種相關(guān)關(guān)系。
因此,當(dāng)相關(guān)關(guān)系發(fā)生變化或需要人為干預(yù)相關(guān)關(guān)系時(shí),必須進(jìn)一步研究其因果關(guān)系。
在數(shù)據(jù)科學(xué)項(xiàng)目中,數(shù)據(jù)科學(xué)家的關(guān)注重點(diǎn)是發(fā)現(xiàn)各種可能的關(guān)聯(lián)關(guān)系,而關(guān)聯(lián)關(guān)系的產(chǎn)生機(jī)制和優(yōu)化方法需要由領(lǐng)域?qū)<彝瓿伞?/p>
加州大學(xué)伯克利分校和哥倫比亞大學(xué)分別開(kāi)設(shè)《實(shí)驗(yàn)與因果分析(Experiments and Causality)》和《因果推理與數(shù)據(jù)科學(xué)(Causal Inference for Data Science)》,均反映了因果分析在數(shù)據(jù)科學(xué)中的重要地位。
(7)以數(shù)據(jù)產(chǎn)品開(kāi)發(fā)為主要抓手。
數(shù)據(jù)產(chǎn)品開(kāi)發(fā)是學(xué)習(xí)與研究數(shù)據(jù)科學(xué)的主要抓手之一。
需要注意的是,數(shù)據(jù)產(chǎn)品不限于數(shù)據(jù)形態(tài)的產(chǎn)品,任何用數(shù)據(jù)來(lái)幫助目標(biāo)用戶實(shí)現(xiàn)其某一目的的產(chǎn)品都可視為數(shù)據(jù)產(chǎn)品。
數(shù)據(jù)是未來(lái)產(chǎn)品的創(chuàng)新點(diǎn)和增值點(diǎn)。
因此,向數(shù)據(jù)產(chǎn)品的轉(zhuǎn)變是傳統(tǒng)產(chǎn)品的重要發(fā)展趨勢(shì)。
以Google眼鏡[111]為例,其創(chuàng)新源自數(shù)據(jù),而不在于其外觀和選材,以數(shù)據(jù)為中心的產(chǎn)品設(shè)計(jì)才是該產(chǎn)品與傳統(tǒng)的眼鏡類產(chǎn)品的根本區(qū)別。
可見(jiàn),數(shù)據(jù)產(chǎn)品開(kāi)發(fā)是數(shù)據(jù)科學(xué)的最為直接且最為普遍的應(yīng)用。
(8)準(zhǔn)確定位人才培養(yǎng)目的。
數(shù)據(jù)科學(xué)的學(xué)習(xí)和人才培養(yǎng)的目的是培養(yǎng)數(shù)據(jù)科學(xué)家而不是數(shù)據(jù)工程師。
二者的區(qū)別在于,數(shù)據(jù)工程師負(fù)責(zé)的是“數(shù)據(jù)本身的管理”,而數(shù)據(jù)科學(xué)家的主要職責(zé)是“基于數(shù)據(jù)的管理”,包括基于數(shù)據(jù)的分析、決策、流程定義與再造、產(chǎn)品設(shè)計(jì)和服務(wù)提供等。
因此,相對(duì)于數(shù)據(jù)工程師,數(shù)據(jù)科學(xué)家對(duì)人才的要求更高,不僅要有理論功底和實(shí)踐經(jīng)驗(yàn),而且還要求有精神素質(zhì),即創(chuàng)造性設(shè)計(jì)、批判性思考和好奇性提問(wèn)的能力。
參考文獻(xiàn)
[1] John Walker S. Big data: A revolution that will transform how we live, work, and think[J]. 2014.
[2] Boyd D, Crawford K. Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon[J]. Information, communication & society, 2012, 15(5): 662-679.
[3] Kitchin R. Big Data, new epistemologies and paradigm shifts[J]. Big Data & Society, 2014, 1(1): 2053951714528481.
[4] Jagadish H V. Big data and science: myths and reality[J]. Big Data Research, 2015, 2(2): 49-52.
[5] Provost F, Fawcett T. Data science and its relationship to big data and data-driven decision making[J]. Big Data, 2013, 1(1): 51-59.
[6] Naur P. Concise survey of computer methods[M]Studentlitteratur AB: 1974.
[7] Cleveland W S. Data science: an action plan for expanding the technical areas of the field of statistics[J]. International statistical review, 2001, 69(1): 21-26.
[8]Mattmann C A. Computing: A vision for data science[J]. Nature, 2013, 493(7433): 473-475.
[9]Dhar V. Data science and prediction[J]. Communications of the ACM, 2013, 56(12): 64-73.
[10] Patil T, Davenport T. Data scientist: the sexiest job of the 21st century[J]. Harvard Business Review, 2012.
[11] Kitchin R. Big data and human geography: Opportunities, challenges and risks[J]. Dialogues in human geography, 2013, 3(3): 262-267.
[12] Smith M. The White House names Dr. DJ Patil as the first US chief data scientist[J]. The White House Blog, 2015.
[13] Gartner J. Gartner’s 2014 hype cycle for emerging technologies maps the journey to digital business[OL]. http://www.gartner.com/newsroom/id/2819918.
[14] Gartner J. Hype Cycle for Data Science, 2016 [OL]. https://www.gartner.com/doc/3388917/hype-cycle-data-science-.(25 July 2016 )
[15] Schutt R, O'Neil C. Doing data science: Straight talk from the frontline[M]. O'Reilly Media, Inc., 2013:7.
[16] Jerry Overton.Going Pro in Data Science [M].O’Reilly Media, Inc,2016:12.
[17] 朝樂(lè)門.數(shù)據(jù)科學(xué)理論與實(shí)踐[M].北京:清華大學(xué)出版社,2017:15.
[18] Gray J, Chambers L, Bounegru L. The data journalism handbook: how journalists can use data to improve the news[M]. " O'Reilly Media, Inc.", 2012.
[19] Kalidindi S R, De Graef M. Materials data science: current status and future outlook[J]. Annual Review of Materials Research, 2015, 45: 171-193.
[20] Fang B, Zhang P. Big Data in Finance[M]//Big Data Concepts, Theories, and Applications. Springer International Publishing, 2016: 391-412.
[21] Davis K. Ethics of Big Data: Balancing risk and innovation[M]. " O'Reilly Media, Inc.", 2012.
[22] West D M. Big data for education: Data mining, data analytics, and web dashboards[J]. Governance Studies at Brookings, 2012, 4: 1-0.
[23] Labrinidis A, Jagadish H V. Challenges and opportunities with big data[J]. Proceedings of the VLDB Endowment, 2012, 5(12): 2032-2033.
[24] Kaisler S, Armour F, Espinosa J A, et al. Big data: Issues and challenges moving forward[C].System Sciences (HICSS), 2013 46th Hawaii International Conference on. IEEE, 2013: 995-1004.
[25] Chen H, Chiang R H L, Storey V C. Business intelligence and analytics: From big data to big impact[J]. MIS quarterly, 2012, 36(4).
[26] Provost F, Fawcett T. Data science and its relationship to big data and data-driven decision making[J]. Big Data, 2013, 1(1): 51-59.
[27] Cleveland W S. Data science: an action plan for expanding the technical areas of the field of statistics[J]. International statistical review, 2001, 69(1): 21-26.
[28] Mattmann C A. Computing: A vision for data science[J]. Nature, 2013, 493(7433): 473-475.
[29] Schutt R, O'Neil C. Doing data science: Straight talk from the frontline[M]. " O'Reilly Media, Inc.", 2013.
[30] Shanahan J G, Dai L. Large scale distributed data science using apache spark[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2015: 2323-2324.
[31] Holmes A. Hadoop in practice[M]. Manning Publications Co., 2012.
[32] Sharma S, Shandilya R, Patnaik S, et al. Leading NoSQL models for handling Big Data: a brief review[J]. International Journal of Business Information Systems, 2016, 22(1): 1-25.
[33] Sadalage P J, Fowler M. NoSQL distilled: a brief guide to the emerging world of polyglot persistence[M]. Pearson Education, 2012.
[34] Marx V. Biology: The big challenges of big data[J]. Nature, 2013, 498(7453): 255-260.
[35] Raghupathi W, Raghupathi V. Big data analytics in healthcare: promise and potential[J]. Health information science and systems, 2014, 2(1): 3.
[36] Kim G H, Trimi S, Chung J H. Big-data applications in the government sector[J]. Communications of the ACM, 2014, 57(3): 78-85.
[37] Daniel B. Big data and analytics in higher education: Opportunities and challenges[J]. British journal of educational technology, 2015, 46(5): 904-920.
[38] George G, Haas M R, Pentland A. Big data and management[J]. Academy of Management Journal, 2014, 57(2): 321-326.
[39] Swan M. The quantified self: Fundamental disruption in big data science and biological discovery[J]. Big Data, 2013, 1(2): 85-99.
[40] Lewis S C. Journalism in an Era of Big Data: Cases, concepts, and critiques[J]. 2015.
[41] Rahm E. Big Data Analytics[J]. it-Information Technology, 2016, 58(4): 155-156.
[42] Baumer B. A data science course for undergraduates: Thinking with data[J]. The American Statistician, 2015, 69(4): 334-342.
[43] Hardin J, Hoerl R, Horton N J, et al. Data science in statistics curricula: Preparing students to “think with data”[J]. The American Statistician, 2015, 69(4): 343-353.
[44] Cassel L N, Posner M, Dicheva D, et al. Advancing data science for students of all majors[C]//Proceedings of the 2017 ACM SIGCSE Technical Symposium on Computer Science Education. ACM, 2017: 722-722.
[45] Berman F D, Bourne P E. Let's make gender diversity in data science a priority right from the start[J]. PLoS biology, 2015, 13(7): e1002206.
[46] Lemen Chao.Data Science [M].Tsinghua University Press,2016.
[47] Cooper P. Data, information, knowledge and wisdom[J]. Anaesthesia & Intensive Care Medicine, 2014, 15(1): 44-45.
[48] Erl T, Khattak W, Buhler P. Big data fundamentals: concepts, drivers & techniques[M]. Prentice Hall Press, 2016.
[49] Wang G, Gunasekaran A, Ngai E W T, et al. Big data analytics in logistics and supply chain management: Certain investigations for research and applications[J]. International Journal of Production Economics, 2016, 176: 98-110.
[50] Cardenas A A, Manadhata P K, Rajan S P. Big data analytics for security[J]. IEEE Security & Privacy, 2013, 11(6): 74-76.
[51] Raghupathi W, Raghupathi V. Big data analytics in healthcare: promise and potential[J]. Health information science and systems, 2014, 2(1): 3.
[52] Jeffery T. Leek, Roger D. Peng.What is the question? Mistaking the type of question being considered is the most common error in data analysis[J].Science,2015,374(6228):1314-1315.
[53] Swan M. The quantified self: Fundamental disruption in big data science and biological discovery[J]. Big Data, 2013, 1(2): 85-99.
[54] Ruckenstein M, Pantzar M. Beyond the quantified self: Thematic exploration of a dataistic paradigm[J]. new media & society, 2017, 19(3): 401-418.
[55] Khatri V, Brown C V. Designing data governance[J]. Communications of the ACM, 2010, 53(1): 148-152.
[56] Khatri V, Brown C V. Designing data governance[J]. Communications of the ACM, 2010, 53(1): 148-152.
[57] Thomas G. The DGI data governance framework[J]. The Data Governance Institute, Orlando, FL (USA), 2006.
[58] Lee S U, Zhu L, Jeffery R. Design Choices for Data Governance in Platform Ecosystems: A Contingency Model[J]. arXiv preprint arXiv:1706.07560, 2017.
[59] CMMI Institute.Data Management Maturity (DMM)? Model[OL].http://cmmiinstitute.com/ data-management-maturity
[60] Liu J, Li J, Li W, et al. Rethinking big data: A review on the data quality and usage issues[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 115: 134-142.
[61] 李建中, 王宏志, 高宏. 大數(shù)據(jù)可用性的研究進(jìn)展[J]. 軟件學(xué)報(bào), 2016, 27(7): 1605-1625.
[62] Rahm E, Do H H. Data cleaning: Problems and current approaches[J]. IEEE Data Eng. Bull., 2000, 23(4): 3-13.
[63] Wickham H. Tidy data[J]. Journal of Statistical Software, 2014, 59(10): 1-23.
[64] Lafuente G. The big data security challenge[J]. Network security, 2015, 2015(1): 12-14.
[65] Perera C, Ranjan R, Wang L, et al. Big data privacy in the internet of things era[J]. IT Professional, 2015, 17(3): 32-39.
[66] Patil D, Noren A. Building Data Science Teams: The Skills, Tools and Perspectives Behind Great Data Science Groups[M]. O'Reilly, 2011.
[67] Banerjee S. Citizen Data Science for Social Good: Case Studies and Vignettes from Recent Projects. doi: 10.13140/RG. 2.1. 1846.6002[J]. URL https://www. researchgate. net/publication/283119007_Citizen_Data_Science_for_Social_Goo d_Case_Studies_and_Vignettes_from_Recent_Projects, 2015.
[68] Parasie S, Dagiral E. Data-driven journalism and the public good:“Computer-assisted-reporters” and “programmer-journalists” in Chicago[J]. New media & society, 2013, 15(6): 853-871.
[69] Du D, Li A, Zhang L. Survey on the applications of big data in Chinese real estate enterprise[J]. Procedia Computer Science, 2014, 30: 24-33.
[70] Middleton S E, Shadbolt N R, De Roure D C. Ontological user profiling in recommender systems[J]. ACM Transactions on Information Systems (TOIS), 2004, 22(1): 54-88.
[71] Marshall P, Todd B, Rhodes M. Ultimate Guide to Google AdWords[M]. Entrepreneur Press, 2014.
[72] Gurrin C, Smeaton A F, Doherty A R. Lifelogging: Personal big data[J]. Foundations and Trends? in Information Retrieval, 2014, 8(1): 1-125.
[73] Raghupathi W, Raghupathi V. Big data analytics in healthcare: promise and potential[J]. Health information science and systems, 2014, 2(1): 3.
[74] Marx V. Biology: The big challenges of big data[J]. Nature, 2013, 498(7453): 255-260.
[75] Bello-Orgaz G, Jung J J, Camacho D. Social big data: Recent achievements and new challenges[J]. Information Fusion, 2016, 28: 45-59.
[76] Mohanty S, Jagadeesh M, Srivatsa H. Big data imperatives: Enterprise ‘Big Data’warehouse,‘BI’implementations and analytics[M]. Apress, 2013.
[77] Bertot J C, Gorham U, Jaeger P T, et al. Big data, open government and e-government: Issues, policies and recommendations[J]. Information Polity, 2014, 19(1, 2): 5-16.
[78] Aggarwal A. Opportunities and Challenges of Big Data in Public Sector[J]. Managing Big Data Integration in the Public Sector, 2015: 289.
[79] Matt Turck.Big Data Landscape 2016 v18 FINAL[OL].(2016-4-28).http://mattturck.com/big-data-landscape-2016-v18-final/
[80] Kaisler S, Armour F, Espinosa J A, et al. Big data: Issues and challenges moving forward[C]//System Sciences (HICSS), 2013 46th Hawaii International Conference on. IEEE, 2013: 995-1004
[81] Al-Jarrah, Omar Y., et al. "Efficient machine learning for big data: A review." Big Data Research 2.3 (2015): 87-93.
[82] Batra, Surinder. "Big data analytics and its reflections on DIKW hierarchy." Review of Management 4.1/2 (2014): 5.
[83] Donhost M J, Anfara Jr V A. Data-driven decision making[J]. Middle School Journal, 2010, 42(2): 56-63.
[84] Chen C L P, Zhang C Y. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data[J]. Information Sciences, 2014, 275: 314-347.
[85] Voulgaris Z, Magoulas G D. Extensions of the k nearest neighbour methods for classification problems[C]//Proc. of the 26th IASTED International Conference on Artificial Intelligence and Applications (AIA), Innsbruck, Austria, February 11. 2008, 13: 23-28.
[86] Datawocky.More data usually beats better algorithms[OL].(2008-3-24).http://anand.typepad.com/datawocky/2008/03/more-data-usual.html
[87] Kleppmann, Martin. Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. " O'Reilly Media, Inc.", 2017.
[88] Eric Brewer.Parallelism in the Cloud[OL].(2013-6-24)
.https://www.usenix.org/sites/default/files/conference/protected-files/brewer_hotpar13_slides.pdf
[89] McAfee A, Brynjolfsson E, Davenport T H. Big data: the management revolution[J]. Harvard business review, 2012, 90(10): 60-68.
[90] Fan, Jianqing, Fang Han, and Han Liu. "Challenges of big data analysis." National science review 1.2 (2014): 293-314.
[91] Edgar, Robert C. "MUSCLE: a multiple sequence alignment method with reduced time and space complexity." BMC bioinformatics 5.1 (2004): 113.
[92] Ginsberg J, Mohebbi M H, Patel R S, et al. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012-1014.
[93] Lazer D, Kennedy R, King G, et al. The Parable of Google Flu: Traps in Big Data Analysis[J]. Science, 2014, 343(6176): 1203-1205.
[94] Tansley, Stewart, and Kristin M. Tolle. The fourth paradigm: data-intensive scientific discovery. Ed. Tony Hey. Vol. 1. Redmond, WA: Microsoft research, 2009.
[95] Provost F, Fawcett T. Data science and its relationship to big data and data-driven decision making[J]. Big Data, 2013, 1(1): 51-59.
[96] Dhar V, Chou D. A comparison of nonlinear models for financial prediction[J]. IEEE Transactions on Neural networks, 2001, 12(4): 907-921.
[97] F?llesdal, Dagfinn. "Hermeneutics and the hypothetico‐deductive method." Dialectica 33.3‐4 (1979): 319-336.
[98] Blumer A, Ehrenfeucht A, Haussler D, et al. Occam's razor[J]. Information processing letters, 1987, 24(6): 377-380.
[99] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[100] Liu Z H, Hammerschmidt B, McMahon D. JSON data management: supporting schema-less development in RDBMS[C]//Proceedings of the 2014 ACM SIGMOD international conference on Management of data. ACM, 2014: 1247-1258.
[101] Brewer E. CAP twelve years later: How the" rules" have changed[J]. Computer, 2012, 45(2): 23-29.
[102] Zaharia M, Chowdhury M, Franklin M J, et al. Spark: Cluster computing with working sets[J]. HotCloud, 2010, 10(10-10): 95.
[103] Plunkett, Tom, et al. Oracle Big Data Handbook. McGraw-Hill Osborne Media, 2013.
[104] Patil D J. Data Jujitsu: the art of turning data into product[M]. " O'Reilly Media, Inc.", 2012.
[105] Leadbeater C, Miller P. The Pro-Am revolution: How enthusiasts are changing our society and economy[M]. Demos, 2004.
[106] Conway D. Data Science in the US Intelligence Community[J]. IQT Quarterly, 2011, 2(4): 24-27.
[107] Anderson P, McGuffee J, Uminsky D. Data science as an undergraduate degree[C]//Proceedings of the 45th ACM technical symposium on Computer science education. ACM, 2014: 705-706.
[108] Marshall L, Eloff J H P. Towards an Interdisciplinary Master’s Degree Programme in Big Data and Data Science: A South African Perspective[C]//Annual Conference of the Southern African Computer Lecturers' Association. Springer International Publishing, 2016: 131-139.
[109] West J D, Portenoy J. 10 The Data Gold Rush in Higher Education[J]. Big Data Is Not a Monolith, 2016: 129.
[110] Anderson P, Bowring J, McCauley R, et al. An undergraduate degree in data science: curriculum and a decade of implementation experience[C]//Proceedings of the 45th ACM technical symposium on Computer science education. ACM, 2014: 145-150.
[111] Muensterer O J, Lacher M, Zoeller C, et al. Google Glass in pediatric surgery: an exploratory study [J]. International journal of surgery, 2014, 12(4): 281-289.
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(91646202;71103020);國(guó)家社會(huì)科學(xué)基金(15BTQ054;12&ZD220)
作者簡(jiǎn)介:朝樂(lè)門(1979-),男,中國(guó)人民大學(xué)副教授,博士生導(dǎo)師,研究方向:數(shù)據(jù)科學(xué)與大數(shù)據(jù)分析;邢春曉(1967-),男,清華大學(xué)教授,博士生導(dǎo)師,研究方向:云計(jì)算與大數(shù)據(jù)分析;張勇(1973-),男,清華大學(xué)副教授,博士生導(dǎo)師,研究方向:數(shù)據(jù)管理與大數(shù)據(jù)分析。
以上就是關(guān)于【數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢(shì)】的解答,如需了解學(xué)校/賽事/課程動(dòng)態(tài),可至翰林教育官網(wǎng)獲取更多信息。
往期文章閱讀推薦:
芝加哥大學(xué)2027Fall文書(shū)題目出爐!“靈魂拷問(wèn)”已上線,你敢接嗎?
重磅!2027 CUG英國(guó)大學(xué)排名出爐!劍橋四連冠,IC重回前五...

? 2026. All Rights Reserved. 滬ICP備2023009024號(hào)-1