Home » 熱門資訊 » 申請(qǐng)求職 » 實(shí)習(xí)求職 » Details

數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢(shì)

Category: 實(shí)習(xí)求職, 申請(qǐng)求職, 研究生申請(qǐng), 美本申請(qǐng), 英本申請(qǐng) Date: 2018年2月26日上午10:10

數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢(shì)

作者：朝樂(lè)門（中國(guó)人民大學(xué)）、邢春曉（清華大學(xué)）、張勇（清華大學(xué)）

來(lái)源：《計(jì)算機(jī)科學(xué)》，2018，45(1):1-13.

摘要

大數(shù)據(jù)時(shí)代的到來(lái)催生了一門新的學(xué)科——數(shù)據(jù)科學(xué)。

首先，探討了數(shù)據(jù)科學(xué)的內(nèi)涵、發(fā)展簡(jiǎn)史、學(xué)科地位及知識(shí)體系等基本問(wèn)題，并提出了專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)之間的區(qū)別與聯(lián)系；其次，分析現(xiàn)階段數(shù)據(jù)科學(xué)的研究特點(diǎn)，并分別提出了專業(yè)數(shù)據(jù)科學(xué)、專業(yè)中的數(shù)據(jù)科學(xué)及大數(shù)據(jù)生態(tài)系統(tǒng)中的相對(duì)熱門話題；接著，探討了數(shù)據(jù)科學(xué)研究中的10個(gè)爭(zhēng)議及挑戰(zhàn)：思維模式的轉(zhuǎn)變（知識(shí)范式還是數(shù)據(jù)范式）、對(duì)數(shù)據(jù)的認(rèn)識(shí)（主動(dòng)屬性還是被動(dòng)屬性)、對(duì)智能的認(rèn)識(shí)（更好的算法還是更多的數(shù)據(jù)）、主要瓶頸（數(shù)據(jù)密集型還是計(jì)算密集型）、數(shù)據(jù)準(zhǔn)備（數(shù)據(jù)預(yù)處理還是數(shù)據(jù)加工）、服務(wù)質(zhì)量（精準(zhǔn)度還是用戶體驗(yàn)）、數(shù)據(jù)分析（解釋性分析還是預(yù)測(cè)性分析）、算法評(píng)價(jià)（復(fù)雜度還是擴(kuò)展性）、研究范式（第三范式還是第四范式）、人才培養(yǎng)（數(shù)據(jù)工程師還是數(shù)據(jù)科學(xué)家）。

再次，提出了數(shù)據(jù)科學(xué)研究的10個(gè)發(fā)展趨勢(shì)：預(yù)測(cè)模型及相關(guān)分析的重視、模型集成及元分析的興起、數(shù)據(jù)在先，模式在后或無(wú)模式的出現(xiàn)、數(shù)據(jù)一致性及現(xiàn)實(shí)主義的回歸、多副本技術(shù)及靠近數(shù)據(jù)原則的廣泛應(yīng)用、多樣化技術(shù)及一體化應(yīng)用并存、簡(jiǎn)單計(jì)算及實(shí)用主義占據(jù)主導(dǎo)地位、數(shù)據(jù)產(chǎn)品開(kāi)發(fā)及數(shù)據(jù)科學(xué)的嵌入式應(yīng)用、專家余及公眾數(shù)據(jù)科學(xué)的興起、數(shù)據(jù)科學(xué)家與人才培養(yǎng)的探討。

最后，結(jié)合本文工作，為數(shù)據(jù)科學(xué)研究者給出了幾點(diǎn)建議和注意事項(xiàng)。

大數(shù)據(jù)正在改變著人們的工作、生活與思維模式[1]，進(jìn)而對(duì)文化、技術(shù)和學(xué)術(shù)研究產(chǎn)生了深遠(yuǎn)影響[2]。

一方面，大數(shù)據(jù)時(shí)代給各學(xué)科領(lǐng)域帶來(lái)了新的機(jī)遇——認(rèn)識(shí)論和研究范式的轉(zhuǎn)變[3]，出現(xiàn)了一種區(qū)別于傳統(tǒng)科學(xué)研究中沿用至今的“知識(shí)范式”的新研究范式——“數(shù)據(jù)范式”。

“數(shù)據(jù)范式”的廣為應(yīng)用成為現(xiàn)代科學(xué)研究的一個(gè)重要轉(zhuǎn)變。

另一方面，大數(shù)據(jù)帶來(lái)的挑戰(zhàn)在于數(shù)據(jù)的獲得、存儲(chǔ)、計(jì)算不再是瓶頸或難題，各學(xué)科領(lǐng)域中的傳統(tǒng)知識(shí)與新興數(shù)據(jù)之間的矛盾日益突出，傳統(tǒng)知識(shí)無(wú)法解釋和有效利用新興的大數(shù)據(jù)，進(jìn)而促使傳統(tǒng)理論與方法的革命性變化。

目前，大數(shù)據(jù)已受到各學(xué)科領(lǐng)域的高度關(guān)注，成為包括計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)在內(nèi)的多個(gè)學(xué)科領(lǐng)域的新研究方向，表現(xiàn)出不同專業(yè)領(lǐng)域中的數(shù)據(jù)研究相互高度融合的趨勢(shì)，進(jìn)而即將獨(dú)立出一門新興學(xué)科——數(shù)據(jù)科學(xué)。

同時(shí)，大數(shù)據(jù)研究中仍存在一些誤區(qū)或曲解，如片面追求數(shù)據(jù)規(guī)模、過(guò)于強(qiáng)調(diào)計(jì)算架構(gòu)和算法、過(guò)度依賴分析工具、忽視數(shù)據(jù)重用、混淆數(shù)據(jù)科學(xué)與大數(shù)據(jù)的概念以及全盤否定大數(shù)據(jù)等[4]。

因此，現(xiàn)代社會(huì)需要一門新學(xué)科來(lái)系統(tǒng)研究大數(shù)據(jù)時(shí)代的新現(xiàn)象、理念、理論、方法、技術(shù)、工具和實(shí)踐，即“數(shù)據(jù)科學(xué)”。

本文第1節(jié)探討數(shù)據(jù)科學(xué)的內(nèi)涵、發(fā)展簡(jiǎn)史、學(xué)科地位和知識(shí)體系等四個(gè)基本問(wèn)題，并提出了數(shù)據(jù)科學(xué)的兩個(gè)基本類型——專業(yè)數(shù)據(jù)科學(xué)和專業(yè)中的數(shù)據(jù)科學(xué)。

第2節(jié)提出現(xiàn)階段數(shù)據(jù)科學(xué)研究的特點(diǎn)——本質(zhì)問(wèn)題的系統(tǒng)研究較少，反而周邊問(wèn)題的討論較多，并分別分析了專業(yè)數(shù)據(jù)科學(xué)、專業(yè)中數(shù)據(jù)科學(xué)以及大數(shù)據(jù)生態(tài)系統(tǒng)中的相對(duì)熱門話題。

第3節(jié)探討數(shù)據(jù)科學(xué)研究中的10個(gè)爭(zhēng)議——思維模式的轉(zhuǎn)變（知識(shí)范式還是數(shù)據(jù)范式）、對(duì)數(shù)據(jù)的認(rèn)識(shí)視角（主動(dòng)屬性還是被動(dòng)屬性)、對(duì)智能的認(rèn)識(shí)側(cè)重點(diǎn)（更好的算法還是更多的數(shù)據(jù)）、主要瓶頸（數(shù)據(jù)密集型還是計(jì)算密集型）、數(shù)據(jù)準(zhǔn)備（數(shù)據(jù)預(yù)處理還是數(shù)據(jù)加工）、服務(wù)質(zhì)量（精準(zhǔn)度還是用戶體驗(yàn)）、數(shù)據(jù)分析（解釋性分析還是預(yù)測(cè)性分析）、算法評(píng)價(jià)（復(fù)雜度還是擴(kuò)展性）、研究范式（第三范式還是第四范式）和人才培養(yǎng)（數(shù)據(jù)工程師還是數(shù)據(jù)科學(xué)家），并分別提出了研究挑戰(zhàn)。

第4節(jié)分析了數(shù)據(jù)科學(xué)研究的10個(gè)發(fā)展趨勢(shì)——預(yù)測(cè)模型及相關(guān)分析的重視、模型集成及元分析的興起、數(shù)據(jù)在先，模式在后或無(wú)模式的出現(xiàn)、數(shù)據(jù)一致性及現(xiàn)實(shí)主義的回歸、多副本技術(shù)及靠近數(shù)據(jù)原則的應(yīng)用、多樣化技術(shù)及一體化應(yīng)用并存、簡(jiǎn)單計(jì)算及實(shí)用主義占據(jù)主導(dǎo)地位、數(shù)據(jù)產(chǎn)品開(kāi)發(fā)及數(shù)據(jù)科學(xué)的嵌入式應(yīng)用、專家余及公眾數(shù)據(jù)科學(xué)的興起以及數(shù)據(jù)科學(xué)家與人才培養(yǎng)的探討。

最后總結(jié)全文,并對(duì)數(shù)據(jù)科學(xué)研究者提出了幾點(diǎn)建議。

數(shù)據(jù)科學(xué)：大數(shù)據(jù)背后的科學(xué)“數(shù)據(jù)科學(xué)”與“大數(shù)據(jù)”是兩個(gè)既有區(qū)別又有聯(lián)系的術(shù)語(yǔ)，可以將數(shù)據(jù)科學(xué)理解為大數(shù)據(jù)時(shí)代一門新科學(xué)[5]，即以揭示數(shù)據(jù)時(shí)代，尤其是大數(shù)據(jù)時(shí)代新的挑戰(zhàn)、機(jī)會(huì)、思維和模式為研究目的，由大數(shù)據(jù)時(shí)代新出現(xiàn)的理論、方法、模型、技術(shù)、平臺(tái)、工具、應(yīng)用和最佳實(shí)踐組成的一整套知識(shí)體系。

1.1 數(shù)據(jù)科學(xué)的內(nèi)涵及興起

1974年，著名計(jì)算機(jī)科學(xué)家、圖靈獎(jiǎng)獲得者Peter Naur在其著作《計(jì)算機(jī)方法的簡(jiǎn)明調(diào)研（Concise Survey of Computer Methods）》的前言中首次明確提出了數(shù)據(jù)科學(xué)（Data Science）的概念，“數(shù)據(jù)科學(xué)是一門基于數(shù)據(jù)處理的科學(xué)”，并提到了數(shù)據(jù)科學(xué)與數(shù)據(jù)學(xué)（Datalogy）的區(qū)別——前者是解決數(shù)據(jù)（問(wèn)題）的科學(xué)（the science of dealing with data），而后者側(cè)重于數(shù)據(jù)處理及其在教育領(lǐng)域中的應(yīng)用（the science of data and of data processes and its place in education）[6]。

Peter Naur首次明確提出數(shù)據(jù)科學(xué)的概念之后，數(shù)據(jù)科學(xué)研究研究經(jīng)歷了一段漫長(zhǎng)的沉默期。

直到2001年，當(dāng)時(shí)在貝爾實(shí)驗(yàn)室工作的William S. Cleveland在學(xué)術(shù)期刊International Statistical Review上發(fā)表題為《數(shù)據(jù)科學(xué)——拓展統(tǒng)計(jì)學(xué)技術(shù)領(lǐng)域的行動(dòng)計(jì)劃（Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics》的論文，主張數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個(gè)重要研究方向[7]，數(shù)據(jù)科學(xué)再度受到統(tǒng)計(jì)學(xué)領(lǐng)域的關(guān)注。

之后，2013年，Mattmann C A[8]和 Dhar V[9]在《自然（Nature）》和《美國(guó)計(jì)算機(jī)學(xué)會(huì)通訊（Communications of the ACM）》上分別發(fā)表題為《計(jì)算——數(shù)據(jù)科學(xué)的愿景（Computing: A vision for data science）》和《數(shù)據(jù)科學(xué)與預(yù)測(cè)（Data science and prediction）》論文，從計(jì)算機(jī)科學(xué)與技術(shù)視角討論數(shù)據(jù)科學(xué)的內(nèi)涵，使數(shù)據(jù)科學(xué)納入計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的研究范疇。

然而，數(shù)據(jù)科學(xué)被更多人關(guān)注是因?yàn)楹髞?lái)發(fā)生了三個(gè)標(biāo)志性事件：一是Patil DJ和 Davenport T H于2012年在哈佛商業(yè)評(píng)論上發(fā)表題為《數(shù)據(jù)科學(xué)家——21世紀(jì)最性感的職業(yè)（Data scientist: the sexiest job of the 21st century）》[10];二是2012年大數(shù)據(jù)思維首次應(yīng)用于美國(guó)總統(tǒng)大選，成就奧巴馬，擊敗羅姆尼，成功連任[11]；三是美國(guó)白宮于2015年首次設(shè)立數(shù)據(jù)科學(xué)家的崗位，并聘請(qǐng)Patil DJ作為白宮第一任首席數(shù)據(jù)科學(xué)家[12]。

Gartner的調(diào)研及其新技術(shù)成長(zhǎng)曲線（Gartner's 2014 Hype Cycle for Emerging Technologies）[13]表示，數(shù)據(jù)科學(xué)的發(fā)展于2014年7月已經(jīng)接近創(chuàng)新與膨脹期的末端，將在2~5年之內(nèi)開(kāi)始應(yīng)用于生產(chǎn)高地期（plateau of Productivity）。

同時(shí)，Gartner的另一項(xiàng)研究揭示了數(shù)據(jù)科學(xué)本身的成長(zhǎng)曲線(Hype Cycle for Data Science)[14]，如圖1所示。

從圖1可以看出，數(shù)據(jù)科學(xué)的各組成部分的成熟度不同：R的成熟度最高，已廣泛應(yīng)用于生產(chǎn)活動(dòng)；其次是模擬與仿真、集成學(xué)習(xí)、視頻與圖像分析、文本分析等，正在趨于成熟，即將投入實(shí)際應(yīng)用；基于Hadoop的數(shù)據(jù)發(fā)現(xiàn)可能要消失；語(yǔ)音分析、模型管理、自然語(yǔ)言問(wèn)答等已經(jīng)渡過(guò)了炒作期，正在走向?qū)嶋H應(yīng)用；公眾數(shù)據(jù)科學(xué)、模型工廠、算法市場(chǎng)（經(jīng)濟(jì)）、規(guī)范分析等正處于高速發(fā)展之中。

圖1 數(shù)據(jù)科學(xué)的成長(zhǎng)曲線（2016）

1.2 數(shù)據(jù)科學(xué)的學(xué)科地位

2010年，Drew Conway 提出了第一張揭示數(shù)據(jù)科學(xué)的學(xué)科地位的維恩圖——《數(shù)據(jù)科學(xué)維恩圖（The Data Science Venn Diagram）》（圖2），首次明確探討了數(shù)據(jù)科學(xué)的學(xué)科定位問(wèn)題[15]。

在他看來(lái)，數(shù)據(jù)科學(xué)處于統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和領(lǐng)域知識(shí)的交叉之處。

后來(lái)，其他學(xué)者在此基礎(chǔ)上提出了諸多修正或改進(jìn)版本，如圖3是Jerry Overton于2016年給出的數(shù)據(jù)科學(xué)維恩圖[16]。

但是，后續(xù)版本對(duì)數(shù)據(jù)科學(xué)的貢獻(xiàn)和影響遠(yuǎn)不及Drew Convey首次提出的數(shù)據(jù)科學(xué)維恩圖。

圖2 Drew Conway的數(shù)據(jù)科學(xué)韋恩圖（2010）圖3 Jerry Overton的數(shù)據(jù)科學(xué)韋恩圖（2016）

從Drew Conway的《數(shù)據(jù)科學(xué)維恩圖》的中心部分可看出，數(shù)據(jù)科學(xué)位于統(tǒng)計(jì)學(xué)、機(jī)器學(xué)和某一領(lǐng)域知識(shí)的交叉之處，具備較為顯著的交叉型學(xué)科的特點(diǎn)，即數(shù)據(jù)科學(xué)是一門以統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和領(lǐng)域知識(shí)為理論基礎(chǔ)的新興學(xué)科。

同時(shí)，從該圖的外圍可看出，數(shù)據(jù)科學(xué)家需要具備數(shù)學(xué)與統(tǒng)計(jì)學(xué)知識(shí)、領(lǐng)域?qū)崙?zhàn)和黑客精神，說(shuō)明數(shù)據(jù)科學(xué)不僅需要理論知識(shí)和實(shí)踐經(jīng)驗(yàn)，而且還涉及黑客精神，即數(shù)據(jù)科學(xué)具有三個(gè)基本要素：理論（數(shù)學(xué)與統(tǒng)計(jì)學(xué)）、實(shí)踐（領(lǐng)域?qū)崉?wù)）和精神（黑客精神）。

1.3 數(shù)據(jù)科學(xué)的知識(shí)體系

從知識(shí)體系看，數(shù)據(jù)科學(xué)主要以統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化以及（某一）領(lǐng)域知識(shí)為理論基礎(chǔ)，其主要研究?jī)?nèi)容包括數(shù)據(jù)科學(xué)基礎(chǔ)理論、數(shù)據(jù)加工、數(shù)據(jù)計(jì)算、數(shù)據(jù)管理、數(shù)據(jù)分析和數(shù)據(jù)產(chǎn)品開(kāi)發(fā)，如圖4所示[17]。

圖4 數(shù)據(jù)科學(xué)的知識(shí)體系

（1）基礎(chǔ)理論：主要包括數(shù)據(jù)科學(xué)中的新理念、理論、方法、技術(shù)及工具以及數(shù)據(jù)科學(xué)的研究目的、理論基礎(chǔ)、研究?jī)?nèi)容、基本流程、主要原則、典型應(yīng)用、人才培養(yǎng)、項(xiàng)目管理等。

需要特別提醒的是，“基礎(chǔ)理論”與“理論基礎(chǔ)”是兩個(gè)不同的概念。

數(shù)據(jù)科學(xué)的“基礎(chǔ)理論”在數(shù)據(jù)科學(xué)的研究邊界之內(nèi)，而其“理論基礎(chǔ)”在數(shù)據(jù)科學(xué)的研究邊界之外，是數(shù)據(jù)科學(xué)的理論依據(jù)和來(lái)源。

（2）數(shù)據(jù)加工（Data Wrangling 或Data Munging）：數(shù)據(jù)科學(xué)中關(guān)注的新問(wèn)題之一。

為了提升數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)計(jì)算的復(fù)雜度、減少數(shù)據(jù)計(jì)算量以及提升數(shù)據(jù)處理的精準(zhǔn)度，數(shù)據(jù)科學(xué)項(xiàng)目需要對(duì)原始數(shù)據(jù)進(jìn)行一定的加工處理工作——數(shù)據(jù)審計(jì)、數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)脫敏、數(shù)據(jù)歸約和數(shù)據(jù)標(biāo)注等。

值得一提的是，與傳統(tǒng)數(shù)據(jù)處理不同的是，數(shù)據(jù)科學(xué)中的數(shù)據(jù)加工更加強(qiáng)調(diào)的是數(shù)據(jù)處理中的增值過(guò)程，即如何將數(shù)據(jù)科學(xué)家的創(chuàng)造性設(shè)計(jì)、批判性思考和好奇性提問(wèn)融入數(shù)據(jù)的加工活動(dòng)之中。

（3）數(shù)據(jù)計(jì)算：在數(shù)據(jù)科學(xué)中，計(jì)算模式發(fā)生了根本性的變化——從集中式計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過(guò)渡至云計(jì)算。

比較有代表性的是Google三大云計(jì)算技術(shù)（GFS、BigTable和MapReduce）、Hadoop MapReduce、Spark和YARN。

計(jì)算模式的變化意味著數(shù)據(jù)科學(xué)中所關(guān)注的數(shù)據(jù)計(jì)算的主要瓶頸、主要矛盾和思維模式發(fā)生了根本性變化。

（4）數(shù)據(jù)管理：在完成“數(shù)據(jù)加工”和“數(shù)據(jù)計(jì)算”之后，還需要對(duì)數(shù)據(jù)進(jìn)行管理與維護(hù)，以便進(jìn)行（再次進(jìn)行）“數(shù)據(jù)分析”以及數(shù)據(jù)的再利用和長(zhǎng)久存儲(chǔ)。

在數(shù)據(jù)科學(xué)中，數(shù)據(jù)管理方法與技術(shù)也發(fā)生了重要變革——不僅包括傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)，而且還出現(xiàn)了一些新興數(shù)據(jù)管理技術(shù)，如NoSQL、NewSQL技術(shù)和關(guān)系云等。

（5）數(shù)據(jù)分析：數(shù)據(jù)科學(xué)中采用的數(shù)據(jù)分析方法具有較為明顯的專業(yè)性，通常以開(kāi)源工具為主，與傳統(tǒng)數(shù)據(jù)分析有著較為顯著的差異。

目前，R語(yǔ)言和Python語(yǔ)言已成為數(shù)據(jù)科學(xué)家較為普遍應(yīng)用的數(shù)據(jù)分析工具。

（6）數(shù)據(jù)產(chǎn)品開(kāi)發(fā)：“數(shù)據(jù)產(chǎn)品”在數(shù)據(jù)科學(xué)中具有特殊的含義——基于數(shù)據(jù)開(kāi)發(fā)的產(chǎn)品的統(tǒng)稱。

數(shù)據(jù)產(chǎn)品開(kāi)發(fā)是數(shù)據(jù)科學(xué)的主要研究使命之一，也是數(shù)據(jù)科學(xué)區(qū)別于其他科學(xué)的重要區(qū)別。

與傳統(tǒng)產(chǎn)品開(kāi)發(fā)不同的是，數(shù)據(jù)產(chǎn)品開(kāi)發(fā)具有以數(shù)據(jù)為中心、多樣性、層次性和增值性等特征。

數(shù)據(jù)產(chǎn)品開(kāi)發(fā)能力也是數(shù)據(jù)科學(xué)家的主要競(jìng)爭(zhēng)力之源。

因此，數(shù)據(jù)科學(xué)的學(xué)習(xí)目的之一是提升自己的數(shù)據(jù)產(chǎn)品開(kāi)發(fā)能力。

1.4 專業(yè)數(shù)據(jù)科學(xué)及專業(yè)中的數(shù)據(jù)科學(xué)

數(shù)據(jù)科學(xué)是一門與領(lǐng)域知識(shí)和行業(yè)實(shí)踐高度交融的學(xué)科。

從目前的研究現(xiàn)狀看，數(shù)據(jù)科學(xué)可以分為兩類：專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)。

其中，“專業(yè)數(shù)據(jù)科學(xué)”是以獨(dú)立學(xué)科的形式存在，與其他傳統(tǒng)學(xué)科（如計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、新聞學(xué)、社會(huì)學(xué)等）并列的一門新興科學(xué)；“專業(yè)中的數(shù)據(jù)科學(xué)”是指依存于某一專業(yè)領(lǐng)域中的大數(shù)據(jù)研究，其特點(diǎn)是與所屬專業(yè)的耦合度較高，難以直接移植到另一個(gè)專業(yè)領(lǐng)域，如數(shù)據(jù)新聞（Data Journalism）[18]、材料數(shù)據(jù)科學(xué)(Materials Data Science)[19]、大數(shù)據(jù)金融(Big Data Finance)[20]、大數(shù)據(jù)社會(huì)、大數(shù)據(jù)倫理（Big Data Ethics）[21]和大數(shù)據(jù)教育（Big Data Education）[22]等。

專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)的聯(lián)系如下：專業(yè)數(shù)據(jù)科學(xué)聚集了不同專業(yè)中的數(shù)據(jù)科學(xué)中的共性理念、理論、方法、術(shù)語(yǔ)與工具；相對(duì)于專業(yè)中的數(shù)據(jù)科學(xué)，專業(yè)數(shù)據(jù)科學(xué)更具有共性和可移植性，并為不同專業(yè)中的數(shù)據(jù)科學(xué)研究奠定了理論基礎(chǔ)；專業(yè)中的數(shù)據(jù)科學(xué)代表的是不同專業(yè)中對(duì)數(shù)據(jù)科學(xué)的差異性認(rèn)識(shí)和區(qū)別化應(yīng)用。

數(shù)據(jù)科學(xué)的研究熱點(diǎn)目前，數(shù)據(jù)科學(xué)的研究特點(diǎn)是對(duì)本質(zhì)問(wèn)題的系統(tǒng)研究少，然而對(duì)周邊問(wèn)題的討論較多，可從以下四個(gè)方面進(jìn)行分類分析。

2.1 周邊問(wèn)題仍為研究熱點(diǎn)

從文獻(xiàn)分布看，數(shù)據(jù)科學(xué)的研究主題可以分為兩類：核心問(wèn)題和周邊問(wèn)題。

前者代表的是數(shù)據(jù)科學(xué)的基礎(chǔ)理論——數(shù)據(jù)科學(xué)特有的理念、理論、方法、技術(shù)、工具、應(yīng)用及代表性實(shí)踐；后者代表的是數(shù)據(jù)科學(xué)的底層理論（理論基礎(chǔ)，如統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等）、上層應(yīng)用（應(yīng)用理論，如數(shù)據(jù)新聞、大數(shù)據(jù)金融、大數(shù)據(jù)社會(huì)、大數(shù)據(jù)生態(tài)系統(tǒng)等）以及相關(guān)研究（如云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)計(jì)算等）。

文獻(xiàn)數(shù)量和研究深度表明，現(xiàn)階段的數(shù)據(jù)科學(xué)研究熱點(diǎn)仍聚焦在周邊問(wèn)題的討論之上，而對(duì)數(shù)據(jù)科學(xué)的核心問(wèn)題的研究遠(yuǎn)遠(yuǎn)不夠。

數(shù)據(jù)科學(xué)的周邊問(wèn)題的研究主要集中在：

（1）大數(shù)據(jù)挑戰(zhàn)及數(shù)據(jù)科學(xué)的必要性。

在大數(shù)據(jù)時(shí)代，挑戰(zhàn)和機(jī)會(huì)并存[23]：挑戰(zhàn)不僅來(lái)自于數(shù)據(jù)量（Volume），而且還涉及其多個(gè)V特征，如種類多（Variety）、速度要求高（Velocity）和價(jià)值密度低（Value）[24][25]。

因此,社會(huì)與科技的發(fā)展亟待一門新的學(xué)科——數(shù)據(jù)科學(xué)，并對(duì)大數(shù)據(jù)時(shí)代的新問(wèn)題和新思路進(jìn)行系統(tǒng)研究[26]。

（2）數(shù)據(jù)科學(xué)對(duì)統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的繼承與創(chuàng)新。

一方面數(shù)據(jù)科學(xué)作為新的研究方向，進(jìn)一步拓展了統(tǒng)計(jì)學(xué)[27]和計(jì)算機(jī)科學(xué)與技術(shù)[28]的研究范疇；另一方面，數(shù)據(jù)科學(xué)不僅繼承了統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)等基礎(chǔ)理論，而且對(duì)其進(jìn)行了創(chuàng)新與發(fā)展，逐漸成為一門獨(dú)立學(xué)科[29]。

（3）新技術(shù)在數(shù)據(jù)科學(xué)中的重要地位。

云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)計(jì)算等新技術(shù)的興起拓展了人的數(shù)據(jù)獲取、存儲(chǔ)和計(jì)算能力，促使大數(shù)據(jù)時(shí)代的到來(lái)，成為數(shù)據(jù)學(xué)科誕生的必要條件。

同時(shí)，數(shù)據(jù)科學(xué)中需要重點(diǎn)引入Spark[30]、Hadoop[31]、NoSQL[32]等新興技術(shù)，從而更好地面對(duì)大數(shù)據(jù)挑戰(zhàn)。

新技術(shù)的應(yīng)用意味著數(shù)據(jù)科學(xué)對(duì)數(shù)據(jù)及其管理的認(rèn)識(shí)發(fā)生了根本性變化——不僅開(kāi)始接受了數(shù)據(jù)的復(fù)雜性，而且數(shù)據(jù)管理的理念從傳統(tǒng)的完美主義者轉(zhuǎn)向現(xiàn)實(shí)主義，“數(shù)據(jù)在先，模式在后或無(wú)模式”的數(shù)據(jù)管理范式、BASE原則以及CAP理論[33]等新理念已成為數(shù)據(jù)科學(xué)的基本共識(shí)。

（4）數(shù)據(jù)科學(xué)對(duì)特定領(lǐng)域的影響。

大數(shù)據(jù)及其背后的數(shù)據(jù)科學(xué)在特定領(lǐng)域的應(yīng)用是近幾年的熱門話題，尤其在生命科學(xué)[34]、醫(yī)療保健[35]、政府治理[36]、教學(xué)教育[37]和業(yè)務(wù)管理[38]等領(lǐng)域的廣泛應(yīng)用，出現(xiàn)了量化自我[39]、數(shù)據(jù)新聞[40]、大數(shù)據(jù)分析學(xué)[41]等新的研究課題。

（5）數(shù)據(jù)科學(xué)領(lǐng)域的人才培養(yǎng)。

與傳統(tǒng)科學(xué)領(lǐng)域不同的是，數(shù)據(jù)科學(xué)領(lǐng)域人才培養(yǎng)目的是培養(yǎng)學(xué)生的“以數(shù)據(jù)為中心的思考能力”[42]。

目前，相關(guān)研究主要涉及四個(gè)主題：數(shù)據(jù)科學(xué)課程的建設(shè)、相關(guān)課程的教學(xué)改革[43]、跨學(xué)科型人才培養(yǎng)[44]以及女性數(shù)據(jù)科學(xué)家的培養(yǎng)[45]。

從總體上看，數(shù)據(jù)科學(xué)的人才培養(yǎng)目的并不是數(shù)據(jù)工程師，而是數(shù)據(jù)科學(xué)家，尤其培養(yǎng)具有3C精神的數(shù)據(jù)科學(xué)家——原創(chuàng)性（Creative）設(shè)計(jì)、批判性(Critical)思考和好奇性（Curious）提問(wèn)[46]。

2.2 專業(yè)數(shù)據(jù)科學(xué)研究中相對(duì)熱門話題

從研究視角看，數(shù)據(jù)科學(xué)的研究可以分為兩類：專業(yè)數(shù)據(jù)科學(xué)和專業(yè)中的數(shù)據(jù)科學(xué)。

前者代表的是將數(shù)據(jù)科學(xué)當(dāng)作一門獨(dú)立于傳統(tǒng)科學(xué)的新興學(xué)科來(lái)研究，強(qiáng)調(diào)的是其學(xué)科基礎(chǔ)性：后者代表的是將數(shù)據(jù)科學(xué)當(dāng)作傳統(tǒng)學(xué)科的新研究方向和思維模式來(lái)研究，強(qiáng)調(diào)的是數(shù)據(jù)科學(xué)的學(xué)科交叉性。

從目前的研究現(xiàn)狀看，專業(yè)數(shù)據(jù)科學(xué)研究的熱熱門話題有：

（1） DIKW模型。

DIKW模型刻畫的是人類對(duì)數(shù)據(jù)的認(rèn)識(shí)程度的轉(zhuǎn)變過(guò)程[47]。

通常認(rèn)為，數(shù)據(jù)科學(xué)的研究任務(wù)是將數(shù)據(jù)轉(zhuǎn)換成信息（Information）、知識(shí)（Knowledge）或（和）智慧(Wisdom)， [48]。

從數(shù)據(jù)到智慧的轉(zhuǎn)變過(guò)程是一種從不可預(yù)知到可預(yù)知的增值過(guò)程，即數(shù)據(jù)通過(guò)還原其真實(shí)發(fā)生的背景（Context）成為信息，信息賦予其內(nèi)在含義（Meaning）之后成為知識(shí)，而知識(shí)通過(guò)理解轉(zhuǎn)變成智慧。

（2）數(shù)據(jù)分析學(xué)（Data Analytics）。

大數(shù)據(jù)分析研究正在成為一門相對(duì)成熟的研究方向——數(shù)據(jù)分析學(xué)。

需要注意的是，數(shù)據(jù)分析（Data Analysis）與數(shù)據(jù)分析學(xué)是兩個(gè)不同的概念：前者強(qiáng)調(diào)的是數(shù)據(jù)分析活動(dòng)本身，而后者更加強(qiáng)調(diào)的是數(shù)據(jù)分析中的方法、技術(shù)和工具。

目前，大數(shù)據(jù)分析研究中的熱門話題有兩個(gè)：一是大數(shù)據(jù)分析學(xué)，尤其是大數(shù)據(jù)分析算法和工具的開(kāi)發(fā)；另一個(gè)面向特定領(lǐng)域的大數(shù)據(jù)分析，如面向物流與供應(yīng)鏈管理[49]、網(wǎng)絡(luò)安全[50]以及醫(yī)療健康[51]的大數(shù)據(jù)分析學(xué)。

論文[52]給出了數(shù)據(jù)分析的主要類型及常見(jiàn)錯(cuò)誤。

（3）數(shù)據(jù)化（Datafication）。

數(shù)據(jù)化是將客觀世界以及業(yè)務(wù)活動(dòng)以數(shù)據(jù)的形式計(jì)量和記錄，形成大數(shù)據(jù)，以便進(jìn)行后續(xù)的開(kāi)發(fā)利用。

除了物聯(lián)網(wǎng)和傳感器等公認(rèn)的研究課題，量化自我（Quantified Self）[53][54]也在成為數(shù)據(jù)化的熱門話題。

數(shù)據(jù)化是大數(shù)據(jù)時(shí)代初級(jí)階段的主要關(guān)注的問(wèn)題，隨著大數(shù)據(jù)的積淀，人們的研究焦點(diǎn)將從業(yè)務(wù)的數(shù)據(jù)化轉(zhuǎn)向數(shù)據(jù)的業(yè)務(wù)化，即研究重點(diǎn)將放在“基于數(shù)據(jù)定義和優(yōu)化業(yè)務(wù)”之上。

（4）數(shù)據(jù)治理（Data Governance）。

數(shù)據(jù)治理是指數(shù)據(jù)管理的管理。

目前，相關(guān)研究主要集中在頂層設(shè)計(jì)[55]、實(shí)現(xiàn)方法[56]、參考框架[57]以及如何保證數(shù)據(jù)管理的可持續(xù)性[58]。

此外，數(shù)據(jù)治理作為數(shù)據(jù)能力成熟度評(píng)估模型（Data Maturity Model）的關(guān)鍵過(guò)程域，重點(diǎn)關(guān)注的是如何通過(guò)數(shù)據(jù)治理提升組織數(shù)據(jù)管理能力的問(wèn)題。

DMM中定義的關(guān)鍵過(guò)程域“數(shù)據(jù)治理”包括3個(gè)關(guān)鍵過(guò)程：治理管理（Governance Management）、業(yè)務(wù)術(shù)語(yǔ)表（Business Glossary）和元數(shù)據(jù)管理（Metadata Management）[59]。

（5）數(shù)據(jù)質(zhì)量。

大數(shù)據(jù)的質(zhì)量與可用性之間內(nèi)在聯(lián)系的討論已成為現(xiàn)階段數(shù)據(jù)科學(xué)的熱點(diǎn)問(wèn)題之一，主要研究議題集中在大數(shù)據(jù)中的質(zhì)量問(wèn)題會(huì)不會(huì)導(dǎo)致數(shù)據(jù)科學(xué)項(xiàng)目的根本性錯(cuò)誤[60]以及大數(shù)據(jù)時(shí)代背景下的數(shù)據(jù)可用性的挑戰(zhàn)及新研究問(wèn)題[61]。

但是，傳統(tǒng)數(shù)據(jù)管理和數(shù)據(jù)科學(xué)對(duì)數(shù)據(jù)質(zhì)量的關(guān)注點(diǎn)不同。

傳統(tǒng)數(shù)據(jù)管理主要從數(shù)據(jù)內(nèi)容視角關(guān)注質(zhì)量問(wèn)題，強(qiáng)調(diào)的是數(shù)據(jù)是否為干凈數(shù)據(jù)(Clean Data)/臟數(shù)據(jù)(Dirty Data) [62]；數(shù)據(jù)科學(xué)主要從數(shù)據(jù)形態(tài)視角關(guān)注質(zhì)量問(wèn)題，重視的是數(shù)據(jù)是否為整齊數(shù)據(jù)（Tidy Data）/混亂數(shù)據(jù)（Messy Data）。

所謂的整齊數(shù)據(jù)是指數(shù)據(jù)的形態(tài)可以直接支持算法和數(shù)據(jù)處理的要求。

例如，著名的數(shù)據(jù)科學(xué)家Hadley Wickham 提出了整齊數(shù)據(jù)和數(shù)據(jù)整齊化處理（Data Tidying）的概念，并主張整齊數(shù)據(jù)應(yīng)遵循三個(gè)基本原則: 每個(gè)觀察占且僅占一行、每個(gè)變量占且僅占一列以及每一類觀察單元構(gòu)成一個(gè)關(guān)系表[63]。

除了上述問(wèn)題之外，大數(shù)據(jù)的安全[64]、大數(shù)據(jù)環(huán)境下的個(gè)人隱私保護(hù)[65]、數(shù)據(jù)科學(xué)的項(xiàng)目管理及團(tuán)隊(duì)建設(shè)[66]、公眾數(shù)據(jù)科學(xué)（Citizen Data Science）[67]等是目前在專業(yè)數(shù)據(jù)科學(xué)研究中討論較多的問(wèn)題。

2.3 專業(yè)中的數(shù)據(jù)科學(xué)研究的相對(duì)熱門話題

相對(duì)于專業(yè)數(shù)據(jù)科學(xué)，專業(yè)中的數(shù)據(jù)科學(xué)研究具有差異性和隱蔽性。

差異性主要表現(xiàn)在各學(xué)科領(lǐng)域?qū)?shù)據(jù)科學(xué)的關(guān)注點(diǎn)和視角不同；隱蔽性是指專業(yè)中的數(shù)據(jù)科學(xué)研究往往間接地吸收和借鑒數(shù)據(jù)科學(xué)或類似于數(shù)據(jù)科學(xué)的思想，而并不明確采用或直接運(yùn)用數(shù)據(jù)科學(xué)的規(guī)范術(shù)語(yǔ)。

從目前的研究看，以下幾個(gè)專業(yè)中的數(shù)據(jù)科學(xué)研究尤為活躍：

（1）數(shù)據(jù)新聞(Data Journalism):新聞學(xué)領(lǐng)域的新研究方向之一，主要研究的是如何將大數(shù)據(jù)和數(shù)據(jù)科學(xué)的理念引入新聞?lì)I(lǐng)域，實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)型新聞（Data-driven Journalism）[68]。

（2）工業(yè)大數(shù)據(jù):主要研究如何將大數(shù)據(jù)應(yīng)用于工業(yè)制造領(lǐng)域，進(jìn)而實(shí)現(xiàn)工業(yè)制造的創(chuàng)新。

比較有代表性的是德國(guó)工業(yè)4.0（Industrie 4.0）、美國(guó)工業(yè)互聯(lián)網(wǎng)(Industrial internet)和中國(guó)制造2025（Made in China）。

（3）消費(fèi)大數(shù)據(jù)：與工業(yè)大數(shù)據(jù)不同的是，消費(fèi)大數(shù)據(jù)更加關(guān)注的是產(chǎn)品生命周期的末端，即如何將已生產(chǎn)出的產(chǎn)品推銷給更多的用戶，主要包括精準(zhǔn)營(yíng)銷[69]、用戶畫像（User Profiling）[70]以及廣告推送[71]。

（4）健康大數(shù)據(jù):主要關(guān)注大數(shù)據(jù)在健康與醫(yī)療領(lǐng)域的廣泛應(yīng)用，包括生命日志(Life Logging)[72]、醫(yī)療診斷、藥物開(kāi)發(fā)、衛(wèi)生保健[73]等具體領(lǐng)域的應(yīng)用。

（5）生物大數(shù)據(jù)：將大數(shù)據(jù)的理念、理論、方法、技術(shù)和工具應(yīng)用于生物學(xué)領(lǐng)域，從而生物學(xué)從知識(shí)范轉(zhuǎn)向數(shù)據(jù)范式[74]。

（6）社會(huì)大數(shù)據(jù):綜合運(yùn)用大數(shù)據(jù)和數(shù)據(jù)科學(xué)的理論，探討如何在大數(shù)據(jù)時(shí)代進(jìn)行輿情分析、社會(huì)網(wǎng)絡(luò)分析以及熱點(diǎn)發(fā)現(xiàn)[75]。

（7）機(jī)構(gòu)大數(shù)據(jù)：如何將大數(shù)據(jù)和數(shù)據(jù)科學(xué)的思想引入企業(yè)[76]、政府 [77]以及公益部門[78]的日常業(yè)務(wù)、戰(zhàn)略規(guī)劃與可持續(xù)改進(jìn)。

（8）智慧類應(yīng)用：如何將大數(shù)據(jù)應(yīng)用于智慧城市、智慧醫(yī)療、智慧養(yǎng)老、智慧交通、智慧教育等領(lǐng)域，發(fā)揮數(shù)據(jù)的驅(qū)動(dòng)作用，進(jìn)而實(shí)現(xiàn)更高的智慧。

（9）敏捷類應(yīng)用：如何將大數(shù)據(jù)思維用于軟件開(kāi)發(fā)、項(xiàng)目管理以及組織管理之中，進(jìn)而實(shí)現(xiàn)敏捷軟件開(kāi)發(fā)、敏捷項(xiàng)目管理和敏捷組織，提升其應(yīng)變能力和可持續(xù)發(fā)展能力。

2.4 大數(shù)據(jù)生態(tài)系統(tǒng)研究中相對(duì)熱門話題

數(shù)據(jù)科學(xué)生態(tài)系統(tǒng)（Big Data Ecosystem）是指包括基礎(chǔ)設(shè)施、支撐技術(shù)、工具與平臺(tái)、項(xiàng)目管理以及其他外部影響因素在內(nèi)的各種組成要素構(gòu)成的完整系統(tǒng)。

例如，大數(shù)據(jù)全景圖（Big Data Landscape）[79]較為全面地展示了大數(shù)據(jù)生態(tài)系統(tǒng)中的主要機(jī)構(gòu)及產(chǎn)品。

現(xiàn)有相關(guān)研究主要從組成要素及其相互關(guān)系兩個(gè)方面進(jìn)行。

就目前而言，相關(guān)研究中的熱門話題集中在：

（1）基礎(chǔ)設(shè)施:主要關(guān)注云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)計(jì)算、社交媒體在內(nèi)的基礎(chǔ)設(shè)施對(duì)數(shù)據(jù)科學(xué)的影響以及數(shù)據(jù)科學(xué)中如何充分利用上述基礎(chǔ)設(shè)施。

（2）支撐技術(shù)：建立在基礎(chǔ)設(shè)施上的關(guān)鍵技術(shù)，現(xiàn)有研究主要討論機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、批處理、流計(jì)算、圖計(jì)算、交互計(jì)算、NoSQL、NewSQL和關(guān)系云等支撐技術(shù)在數(shù)據(jù)科學(xué)的應(yīng)用；

（3）工具與平臺(tái)：支撐技術(shù)的具體實(shí)現(xiàn)，目前的主要研究熱點(diǎn)集中在R、Python、Hadoop、Spark、MongoDB、HBase、Memcached、MongoDB、CouchDB和Redis等工具與平臺(tái)在數(shù)據(jù)科學(xué)中的應(yīng)用；

（4）項(xiàng)目管理：涉及數(shù)據(jù)科學(xué)項(xiàng)目的范圍、時(shí)間、成本、質(zhì)量、風(fēng)險(xiǎn)、人力資源、溝通、采購(gòu)及系統(tǒng)管理等9個(gè)方面的管理；

（5）環(huán)境因素：大數(shù)據(jù)時(shí)代對(duì)法律、政策、制度、文化、道德、倫理產(chǎn)生的影響與新需求。

其中，大數(shù)據(jù)權(quán)屬立法研究主要討論大數(shù)據(jù)權(quán)屬立法的必要性、可行性以及對(duì)策建議。

從大數(shù)據(jù)的重要性的認(rèn)識(shí)看，大數(shù)據(jù)不再是一種資源，更是一種資產(chǎn)。

大數(shù)據(jù)權(quán)屬的立法已經(jīng)成為大數(shù)據(jù)時(shí)代信息資源開(kāi)發(fā)利用的必要條件。

數(shù)據(jù)科學(xué)研究的爭(zhēng)議與挑戰(zhàn)在不同的學(xué)科領(lǐng)域，大數(shù)據(jù)時(shí)代的科學(xué)研究所面臨問(wèn)題、挑戰(zhàn)和關(guān)注點(diǎn)不同。

從計(jì)算機(jī)科學(xué)視角看，新的數(shù)據(jù)處理需求已經(jīng)超出了現(xiàn)有的存儲(chǔ)與計(jì)算能力[80]；從統(tǒng)計(jì)學(xué)視角看，大數(shù)據(jù)挑戰(zhàn)在于樣本的規(guī)模接近總體時(shí)，如何直接在總體上進(jìn)行統(tǒng)計(jì)分析[1]；從機(jī)器學(xué)習(xí)角度看，訓(xùn)練樣本集接近測(cè)試樣本集時(shí)，如何用簡(jiǎn)單模型及模型集成方法實(shí)現(xiàn)較高的智能水平[81]；

從數(shù)據(jù)分析角度看，如何從海量數(shù)據(jù)中快速洞察有價(jià)值的數(shù)據(jù)，并通過(guò)試驗(yàn)設(shè)計(jì)和模擬仿真，實(shí)現(xiàn)數(shù)據(jù)到智慧的轉(zhuǎn)變[82]。

但是，從數(shù)據(jù)科學(xué)視角看，其研究中的常見(jiàn)爭(zhēng)議及背后的研究挑戰(zhàn)可以歸納為10個(gè)方面：

3.1 思維模式——知識(shí)范式還是數(shù)據(jù)范式

在傳統(tǒng)科學(xué)研究中，由于數(shù)據(jù)的獲得、存儲(chǔ)和計(jì)算能力所限，人們往往采取的是知識(shí)范式（“數(shù)據(jù)→知識(shí)→問(wèn)題”的范式），從數(shù)據(jù)，尤其是樣本數(shù)據(jù)中提煉出知識(shí)之后，用知識(shí)去解決現(xiàn)實(shí)問(wèn)題。

大數(shù)據(jù)時(shí)代的到來(lái)及數(shù)據(jù)科學(xué)出現(xiàn)為人們提供了另一種研究思路，即數(shù)據(jù)范式（“數(shù)據(jù)→問(wèn)題”范式），在尚未從數(shù)據(jù)中提煉出知識(shí)的前提下，用數(shù)據(jù)直接解決問(wèn)題。

數(shù)據(jù)范式強(qiáng)調(diào)的是在尚未將數(shù)據(jù)轉(zhuǎn)換為知識(shí)的前提下，直接用數(shù)據(jù)去解決現(xiàn)實(shí)世界中的問(wèn)題。

以機(jī)器翻譯為例，傳統(tǒng)機(jī)器翻譯方法是基于自然語(yǔ)言理解，準(zhǔn)確說(shuō)是基于語(yǔ)言學(xué)和統(tǒng)計(jì)學(xué)的知識(shí)進(jìn)行，屬于知識(shí)范式的范疇。

但是，這種傳統(tǒng)機(jī)器翻譯效果一直并不理想，且尚無(wú)突破性進(jìn)展。

然而，近幾年興起的機(jī)器翻譯方法改變了傳統(tǒng)機(jī)器翻譯的思維模式，采取的是“數(shù)據(jù)范式”——直接從歷史跨語(yǔ)言語(yǔ)料庫(kù)中快速洞見(jiàn)所需結(jié)果。

上世紀(jì)五十年以來(lái)的IBM 機(jī)器翻譯的緩慢發(fā)展以及2000以后的Google機(jī)器翻譯的迅速興起也反映了這種思維模式的變革。

與傳統(tǒng)認(rèn)識(shí)中的“知識(shí)就是力量”類似，在大數(shù)據(jù)時(shí)代，數(shù)據(jù)也成為一種重要力量。

如何組織、挖掘和利用數(shù)據(jù)成為現(xiàn)代組織的核心競(jìng)爭(zhēng)力。

目前，思維模式變革的主要挑戰(zhàn)在于如何完成以數(shù)據(jù)為中心的設(shè)計(jì)、數(shù)據(jù)驅(qū)動(dòng)型決策[83]和數(shù)據(jù)密集型應(yīng)用[84]。

3.2 數(shù)據(jù)的認(rèn)識(shí)——主動(dòng)屬性還是被動(dòng)屬性

在傳統(tǒng)科學(xué)研究中，數(shù)據(jù)一直被當(dāng)作是被動(dòng)的東西，人們主要從被動(dòng)屬性方面去對(duì)待數(shù)據(jù)。

以關(guān)系數(shù)據(jù)庫(kù)為例，人們先定義關(guān)系模式，然后將數(shù)據(jù)按照關(guān)系模式的要求進(jìn)行強(qiáng)制轉(zhuǎn)換后放入數(shù)據(jù)庫(kù)中，完成數(shù)據(jù)挖掘和分析任務(wù)。

在大數(shù)據(jù)思維模式的背后，一個(gè)根本性的變革在于人們開(kāi)始意識(shí)到數(shù)據(jù)的主動(dòng)屬性——不再簡(jiǎn)單認(rèn)為數(shù)據(jù)是一種死的、被動(dòng)的東西，而更加重視數(shù)據(jù)的積極作者用，提出了數(shù)據(jù)在先、模式在后或無(wú)模式、讓數(shù)據(jù)說(shuō)話、數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用、數(shù)據(jù)業(yè)務(wù)化、數(shù)據(jù)洞察和以數(shù)據(jù)為中心的思維模式等新術(shù)語(yǔ)。

因此，如何正確認(rèn)識(shí)數(shù)據(jù)及如何充分發(fā)揮數(shù)據(jù)的主動(dòng)屬性成為數(shù)據(jù)科學(xué)的重要研究任務(wù)。

目前，相關(guān)研究的主要挑戰(zhàn)在于如何實(shí)現(xiàn)數(shù)據(jù)洞察、以數(shù)據(jù)為中心的設(shè)計(jì)、敏捷軟件開(kāi)發(fā)、數(shù)據(jù)驅(qū)動(dòng)型決策以及智慧類應(yīng)用研發(fā)。

3.3 智能的認(rèn)識(shí)——更好的算法還是更多的數(shù)據(jù)

在傳統(tǒng)學(xué)術(shù)研究中，智能主要來(lái)自于算法，尤其是復(fù)雜的算法。

算法的復(fù)雜度隨著智能水平得到提升。

例如，KNN算法是機(jī)器學(xué)習(xí)中常用的分類算法，其算法思想非常簡(jiǎn)單。

人們根據(jù)不同應(yīng)用場(chǎng)景提出多種改進(jìn)或演化方案，雖然智能水平有所提高，但隨之而來(lái)的問(wèn)題是算法復(fù)雜度的提升[85]。

但是，數(shù)據(jù)范式表明，數(shù)據(jù)也可以直接用于解決問(wèn)題，引發(fā)了一場(chǎng)關(guān)于“更多數(shù)據(jù)還是更好模型（More data or Better Model debate）”的討論[86]，經(jīng)過(guò)這場(chǎng)大討論，人們得出了相對(duì)一致的結(jié)論——“更多數(shù)據(jù)+簡(jiǎn)單算法最好的模型（more data+ simple Algorithem the best model）”。

因此，如何設(shè)計(jì)出簡(jiǎn)單高效的算法以及算法的集成應(yīng)用成為數(shù)據(jù)科學(xué)的重要挑戰(zhàn)。

目前，關(guān)于智能的實(shí)現(xiàn)方式的挑戰(zhàn)在于算法設(shè)計(jì)、算法集成、維度災(zāi)難和深度學(xué)習(xí)。

3.4 研發(fā)瓶頸——數(shù)據(jù)密集型還是計(jì)算密集型

傳統(tǒng)的軟件開(kāi)發(fā)與算法設(shè)計(jì)的重點(diǎn)是解決計(jì)算密集型的問(wèn)題，計(jì)算是研究難點(diǎn)和瓶頸。

但是，隨著大規(guī)模分布式計(jì)算，尤其是云計(jì)算的普及，計(jì)算不再是人們需要解決的首要瓶頸。

因此，軟件開(kāi)發(fā)與算法設(shè)計(jì)的主要矛盾從計(jì)算轉(zhuǎn)向數(shù)據(jù)，出現(xiàn)了數(shù)據(jù)密集型應(yīng)用。

在數(shù)據(jù)密集型應(yīng)用中，數(shù)據(jù)是主要關(guān)注點(diǎn)與瓶頸[87]。

數(shù)據(jù)密集型問(wèn)題的研究將進(jìn)一步推動(dòng)以數(shù)據(jù)為中心的研究范式。

目前，數(shù)據(jù)密集型應(yīng)用的主要挑戰(zhàn)在于副本數(shù)據(jù)技術(shù)、物化視圖、計(jì)算的本地化、數(shù)據(jù)模型的多樣化和數(shù)據(jù)一致性保障。

3.5 數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)預(yù)處理還是數(shù)據(jù)加工

在傳統(tǒng)數(shù)據(jù)研究中，數(shù)據(jù)準(zhǔn)備主要強(qiáng)調(diào)的是將復(fù)雜數(shù)據(jù)轉(zhuǎn)換為簡(jiǎn)單數(shù)據(jù)，對(duì)臟數(shù)據(jù)進(jìn)行清洗處理后得到干凈數(shù)據(jù)，從而防止“垃圾進(jìn)垃圾出”現(xiàn)象的出現(xiàn)，主要涉及重復(fù)數(shù)據(jù)的過(guò)濾、錯(cuò)誤數(shù)據(jù)的識(shí)別以及缺失數(shù)據(jù)的處理。

可見(jiàn)，數(shù)據(jù)預(yù)處理主要關(guān)注的是數(shù)據(jù)的質(zhì)量維度的問(wèn)題。

但是，由于從小數(shù)據(jù)到大數(shù)據(jù)之間存在質(zhì)量涌現(xiàn)現(xiàn)象——個(gè)別小數(shù)據(jù)的質(zhì)量問(wèn)題（如缺失數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)或重復(fù)數(shù)據(jù)）不影響整個(gè)大數(shù)據(jù)的可用性，大數(shù)據(jù)處理中關(guān)注的并非為傳統(tǒng)意義上的數(shù)據(jù)預(yù)處理，而其關(guān)注點(diǎn)轉(zhuǎn)向另一個(gè)重要課題——數(shù)據(jù)加工。

在數(shù)據(jù)科學(xué)中，數(shù)據(jù)加工是指數(shù)據(jù)的創(chuàng)造性增值過(guò)程，包括兩種表現(xiàn)形式：數(shù)據(jù)打磨（data wrangling）或數(shù)據(jù)改寫（data munging）。

與數(shù)據(jù)預(yù)處理不同的是，數(shù)據(jù)加工更加強(qiáng)調(diào)的是如何將數(shù)據(jù)科學(xué)家的3C精神融入數(shù)據(jù)處理工作之中，從而達(dá)到數(shù)據(jù)增值的目的。

因此，數(shù)據(jù)加工并不僅限于技術(shù)工作的范疇，而且還涉及到藝術(shù)層面的創(chuàng)造，如需要采用數(shù)據(jù)柔術(shù)（Data Jujitsu）和整齊化處理（Data Tidying）的方法進(jìn)行數(shù)據(jù)加工處理。

數(shù)據(jù)加工概念的提出意味著人們對(duì)數(shù)據(jù)復(fù)雜性的認(rèn)識(shí)發(fā)生了重要的變革，即開(kāi)始接受數(shù)據(jù)的復(fù)雜性特征，認(rèn)為復(fù)雜性是數(shù)據(jù)本身的固有特征。

與此同時(shí)，數(shù)據(jù)準(zhǔn)備的關(guān)注點(diǎn)轉(zhuǎn)向另一個(gè)重要問(wèn)題，即如何發(fā)揮人的增值作用。

目前，數(shù)據(jù)加工的研究主要挑戰(zhàn)集中在：

· 數(shù)據(jù)打磨或數(shù)據(jù)改寫理念的提出：如何在數(shù)據(jù)科學(xué)項(xiàng)目中充分發(fā)揮數(shù)據(jù)科學(xué)家的作用，進(jìn)而實(shí)現(xiàn)數(shù)據(jù)處理活動(dòng)的增值效果；

· 數(shù)據(jù)打磨或數(shù)據(jù)改寫技術(shù)的實(shí)現(xiàn)：基于Python、R以及大數(shù)據(jù)技術(shù)實(shí)現(xiàn)數(shù)據(jù)加工的理念與方法；

·數(shù)據(jù)柔術(shù)：如何有藝術(shù)性地將數(shù)據(jù)轉(zhuǎn)換為產(chǎn)品；

·整齊化處理：將數(shù)據(jù)轉(zhuǎn)換為大數(shù)據(jù)算法和大數(shù)據(jù)技術(shù)能夠直接處理的形態(tài)。

3.6 服務(wù)質(zhì)量——精準(zhǔn)度還是用戶體驗(yàn)

查全率和查準(zhǔn)率是傳統(tǒng)數(shù)據(jù)研究中評(píng)價(jià)服務(wù)質(zhì)量的兩個(gè)核心指標(biāo)。

但是，當(dāng)總體為未知、數(shù)據(jù)量迅速增長(zhǎng)、數(shù)據(jù)種類不斷變化和數(shù)據(jù)處理速度要求高時(shí)，查全率和查準(zhǔn)率的追求成為不可能。

因此，在大數(shù)據(jù)環(huán)境下，更加重視的是用戶體驗(yàn)，而不是查全率和查準(zhǔn)率。

在用戶體驗(yàn)的評(píng)價(jià)中，響應(yīng)速度是最為重要指標(biāo)之一。

Aberdeen Group的調(diào)查發(fā)現(xiàn)“頁(yè)面的顯示速度每延遲1秒，網(wǎng)站訪問(wèn)量就會(huì)降低11%，從而導(dǎo)致?tīng)I(yíng)業(yè)額減少7%，顧客滿意度下降16%”Google發(fā)現(xiàn)“響應(yīng)時(shí)間每延遲0.5秒，查詢數(shù)將會(huì)減少20%”；Amazon發(fā)現(xiàn)“響應(yīng)時(shí)間延遲0.1秒，營(yíng)業(yè)額下降1%[88]。

目前，用戶體驗(yàn)研究的主要挑戰(zhàn)在于如何確保較快的響應(yīng)速度、設(shè)計(jì)人機(jī)交互、實(shí)現(xiàn)服務(wù)虛擬化以及提供按需服務(wù)。

3.7 數(shù)據(jù)分析——解釋性分析還是預(yù)測(cè)性分析

理論完美主義者認(rèn)為只有掌握了因果關(guān)系才能正確認(rèn)識(shí)和有效利用客觀現(xiàn)象。

傳統(tǒng)數(shù)據(jù)分析往往是理論完美主義的指導(dǎo)下完成，試圖通過(guò)對(duì)歷史數(shù)據(jù)進(jìn)行深度分析之后，達(dá)到深刻理解自我或解釋客觀現(xiàn)象的目的，側(cè)重的是因果分析，即以解釋型分析為主。

在大數(shù)據(jù)環(huán)境下，數(shù)據(jù)分析的重點(diǎn)從因果分析轉(zhuǎn)向相關(guān)分析，更加重視的是事物之間的相關(guān)關(guān)系[89]。

然而，在這種變革的背后是數(shù)據(jù)分析指導(dǎo)思想的根本性變化——從理論完美主義轉(zhuǎn)向現(xiàn)實(shí)實(shí)用主義，側(cè)重于數(shù)據(jù)分析的實(shí)用性，更加重視對(duì)未來(lái)的預(yù)測(cè)，即預(yù)測(cè)型分析。

相對(duì)于解釋性分析，預(yù)測(cè)性分析具有更強(qiáng)的時(shí)效性，可以迅速洞見(jiàn)事物之間的內(nèi)在聯(lián)系以及其商業(yè)價(jià)值。

因此，數(shù)據(jù)科學(xué)的一個(gè)重要特點(diǎn)是預(yù)測(cè)性分析和解釋性分析的分離。

預(yù)測(cè)性分析主要由數(shù)據(jù)科學(xué)家完成，一般不需要領(lǐng)域知識(shí)；解釋性分析則發(fā)生在預(yù)測(cè)性分析之后，數(shù)據(jù)科學(xué)家將預(yù)測(cè)性分析中的洞察結(jié)果轉(zhuǎn)交給領(lǐng)域?qū)＜遥深I(lǐng)域?qū)＜邑?fù)責(zé)完成解釋性分析。

可見(jiàn)，數(shù)據(jù)科學(xué)家一般不做解釋性分析，或者說(shuō)，解釋性分析往往超出數(shù)據(jù)科學(xué)家的能力范疇，需要由具體領(lǐng)域的專家完成。

預(yù)測(cè)性分析和解釋性分析的分離也是數(shù)據(jù)科學(xué)家和領(lǐng)域?qū)＜抑g協(xié)同工作的主要實(shí)現(xiàn)方式。

大數(shù)據(jù)分析的主要挑戰(zhàn)源自于數(shù)據(jù)的復(fù)雜性、噪聲數(shù)據(jù)的分析、數(shù)據(jù)的依賴度[90]。

提出面向大數(shù)據(jù)分析的新方法、技術(shù)與工具，尤其是大數(shù)據(jù)分析方法的動(dòng)態(tài)演化、實(shí)時(shí)計(jì)算和彈性計(jì)算成為相關(guān)研究中亟待解決的問(wèn)題。

3.8 算法評(píng)價(jià)——復(fù)雜度還是可擴(kuò)展性

復(fù)雜度，尤其是時(shí)間復(fù)雜度和空間復(fù)雜度，是傳統(tǒng)算法的兩個(gè)重要評(píng)價(jià)指標(biāo) [91]，分別代表的是算法的運(yùn)行所需的時(shí)間成本和內(nèi)存成本。

但是，在大數(shù)據(jù)環(huán)境下，算法設(shè)計(jì)的一個(gè)重要特點(diǎn)是上層需求和底層數(shù)據(jù)處于動(dòng)態(tài)變化之中，因此，算法應(yīng)支持按需服務(wù)和數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用。

例如，谷歌于2008年推出預(yù)測(cè)流感疫情工具——谷歌流感趨勢(shì)（Google Flu Trends，GFT），及時(shí)準(zhǔn)確預(yù)測(cè)了當(dāng)時(shí)H1N1在全美范圍的傳播[92]，但是，2013年1月的估計(jì)比實(shí)際數(shù)據(jù)高兩倍，主要原因之一是缺乏算法動(dòng)態(tài)性（Algorithm Dynamics）和用戶使用行為習(xí)慣的變化[93]。

在大數(shù)據(jù)時(shí)代，算法的可擴(kuò)展性主要代表的是算法的可伸縮能力。

目前，相關(guān)研究的主要挑戰(zhàn)在于低維度算法在高維數(shù)據(jù)中的應(yīng)用、維度災(zāi)難、數(shù)據(jù)規(guī)約以及數(shù)據(jù)密集型應(yīng)用。

3.9 研究范式——第三范式還是第四范式

圖靈獎(jiǎng)獲得者Jim Gray 曾提出，人類科學(xué)研究活動(dòng)已經(jīng)歷過(guò)三種不同范式的演變過(guò)程（原始社會(huì)的“實(shí)驗(yàn)科學(xué)范式”、以模型和歸納為特征的“理論科學(xué)范式”和以模擬仿真為特征的“計(jì)算科學(xué)范式”），目前正在從“計(jì)算科學(xué)范式”轉(zhuǎn)向“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式（Data-intensive Scientific Discovery）”。

第四范式，即“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式”的主要特點(diǎn)是科學(xué)研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識(shí)，無(wú)須直接面對(duì)所研究的物理對(duì)象。

例如，在大數(shù)據(jù)時(shí)代，天文學(xué)家的研究方式發(fā)生了新的變化——其主要研究任務(wù)變?yōu)閺暮Ａ繑?shù)據(jù)庫(kù)中發(fā)現(xiàn)所需的物體或現(xiàn)象的照片，而不再需要親自進(jìn)行太空拍照[94]。

第四范式的提出反映了人們對(duì)世界的固有認(rèn)識(shí)發(fā)生了根本性的變化——從二元認(rèn)識(shí)（精神世界/物理世界）轉(zhuǎn)向三元認(rèn)識(shí)（精神世界/數(shù)據(jù)世界/物理世界）,即在原有的“精神世界”和“物理世界”之間出現(xiàn)了一個(gè)新的世界——數(shù)據(jù)世界。

因此，科學(xué)研究者往往直接面對(duì)的是數(shù)據(jù)世界，通過(guò)對(duì)數(shù)據(jù)世界的研究達(dá)到認(rèn)識(shí)和改造物理世界的目的。

對(duì)于科學(xué)研究者而言，數(shù)據(jù)世界中已積累的“歷史數(shù)據(jù)”往往足以完成一項(xiàng)科研任務(wù)，數(shù)據(jù)科學(xué)家不需要親自到物理世界采用問(wèn)卷和訪談的方法收集數(shù)據(jù)——“調(diào)研數(shù)據(jù)”。

同時(shí)，與“調(diào)研數(shù)據(jù)”相比，“歷史數(shù)據(jù)”更具有客觀性和可信度。

目前，相關(guān)研究主要挑戰(zhàn)在于第三范式與第四范式的區(qū)別、第四范式的內(nèi)涵、理論深入研究以及領(lǐng)域應(yīng)用。

3.10 人才培養(yǎng)——數(shù)據(jù)工程師還是數(shù)據(jù)科學(xué)家

傳統(tǒng)科學(xué)領(lǐng)域中，數(shù)據(jù)相關(guān)的人才培養(yǎng)的目標(biāo)定位于數(shù)據(jù)工程師——從事數(shù)據(jù)的組織、管理、備份、恢復(fù)工作的人才。

但是，在大數(shù)據(jù)時(shí)代，數(shù)據(jù)工程師無(wú)法勝任數(shù)據(jù)科學(xué)的研究任務(wù)，需要的是一類全新的人才——數(shù)據(jù)科學(xué)家。

二者的主要區(qū)別在于：數(shù)據(jù)工程師負(fù)責(zé)的是數(shù)據(jù)的管理，而數(shù)據(jù)科學(xué)家擅長(zhǎng)的是基于數(shù)據(jù)的管理，如基于數(shù)據(jù)的決策、產(chǎn)品開(kāi)發(fā)、業(yè)務(wù)定義等。

目前，關(guān)于數(shù)據(jù)科學(xué)家的研究及人才培養(yǎng)的挑戰(zhàn)在于正確分析崗位職責(zé)與用人需求、數(shù)據(jù)科學(xué)家的素質(zhì)與能力要求、數(shù)據(jù)科學(xué)項(xiàng)目管理以及數(shù)據(jù)科學(xué)家的職業(yè)規(guī)劃。

數(shù)據(jù)科學(xué)研究的發(fā)展趨勢(shì)在梳理研究熱點(diǎn)、爭(zhēng)議及挑戰(zhàn)的基礎(chǔ)上，我們需要進(jìn)一步分析數(shù)據(jù)科學(xué)研究的發(fā)展趨勢(shì)。

從整體上講，數(shù)據(jù)科學(xué)研究的主要發(fā)展趨勢(shì)可以總結(jié)為：· “思維模式的多樣化和研究范式的變遷”是根本趨勢(shì)。

其中，思維模式的多樣化主要體現(xiàn)在數(shù)據(jù)范式的興起以及其與傳統(tǒng)的知識(shí)范式并存；研究范式的變遷是指科學(xué)研究范式從“計(jì)算科學(xué)范式”轉(zhuǎn)向“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式”，進(jìn)而改變?nèi)藗儗?duì)世界的二元認(rèn)識(shí)，相關(guān)研究重點(diǎn)將轉(zhuǎn)變?yōu)橥ㄟ^(guò)數(shù)據(jù)世界的研究認(rèn)識(shí)和改造物理世界。

思維模式的多樣化和研究范式的變遷對(duì)數(shù)據(jù)科學(xué)研究產(chǎn)生深遠(yuǎn)影響，將改變?nèi)藗儗?duì)數(shù)據(jù)的認(rèn)識(shí)視角、開(kāi)發(fā)動(dòng)因和利用方式。

· “專業(yè)中的數(shù)據(jù)科學(xué)”是研究熱點(diǎn)。

大數(shù)據(jù)時(shí)代，各專業(yè)領(lǐng)域面臨的主要挑戰(zhàn)在于如何解決新興數(shù)據(jù)與傳統(tǒng)知識(shí)之間的矛盾，即數(shù)據(jù)已經(jīng)變了，但知識(shí)沒(méi)有更新，各學(xué)科中的傳統(tǒng)知識(shí)無(wú)法解決大數(shù)據(jù)帶來(lái)的新問(wèn)題。

因此，大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)即將成為各學(xué)科領(lǐng)域研究的新方向，也就是說(shuō)，專業(yè)中的數(shù)據(jù)科學(xué)成為相關(guān)研究的熱點(diǎn)問(wèn)題。

· “專業(yè)數(shù)據(jù)科學(xué)”是研究難點(diǎn)。

“專業(yè)中的數(shù)據(jù)科學(xué)”從不同專業(yè)視角解讀數(shù)據(jù)科學(xué)，存在研究興趣點(diǎn)和研究發(fā)現(xiàn)（如理論、方法、技術(shù)、工具和典型實(shí)踐等）的差異性，甚至可能出現(xiàn)相互重疊與沖突的現(xiàn)象。

在這種背景下，如何將分散不同學(xué)科領(lǐng)域中的共性問(wèn)題及通用結(jié)論提煉成一門新的學(xué)科——“專業(yè)數(shù)據(jù)科學(xué)”，進(jìn)而為各個(gè)學(xué)科領(lǐng)域的研究提供新的理論基礎(chǔ)是未來(lái)研究的難點(diǎn)所在。

· “數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”是終極問(wèn)題。

數(shù)據(jù)學(xué)科是一門實(shí)踐性極強(qiáng)的學(xué)科，其研究和應(yīng)用均不能脫離具體領(lǐng)域。

數(shù)據(jù)科學(xué)的研究和應(yīng)用將會(huì)超出技術(shù)范疇，還涉及到發(fā)展戰(zhàn)略、基礎(chǔ)設(shè)施、人力資源、政策、法律與文化環(huán)境等諸多因素。

因此，數(shù)據(jù)科學(xué)需要解決的終極問(wèn)題是將大數(shù)據(jù)放在一個(gè)完整的生態(tài)系統(tǒng)之中去認(rèn)識(shí)與利用，從生態(tài)系統(tǒng)層次統(tǒng)籌和規(guī)劃，避免片面認(rèn)識(shí)數(shù)據(jù)問(wèn)題，進(jìn)而推動(dòng)數(shù)據(jù)、能源和物質(zhì)之間的相互轉(zhuǎn)化。

4.1 預(yù)測(cè)模型及相關(guān)分析的重視

數(shù)據(jù)科學(xué)的研究責(zé)任在于預(yù)測(cè)模型而不在于解釋模型。

以預(yù)測(cè)模型為中心的數(shù)據(jù)科學(xué)更偏向于實(shí)用主義，更加關(guān)注的是“對(duì)未來(lái)的預(yù)測(cè)能力”，而不是“對(duì)過(guò)去的解釋水平”[95]。

因此，數(shù)據(jù)科學(xué)的研究更加重視的是“現(xiàn)在能為未來(lái)做什么？”，而不是“過(guò)去對(duì)現(xiàn)在的影響是什么？”

數(shù)據(jù)科學(xué)中重視預(yù)測(cè)模型而不是解釋模型的另一個(gè)現(xiàn)實(shí)基礎(chǔ)在于“人們往往先發(fā)現(xiàn)規(guī)律，后發(fā)現(xiàn)原因”[96]。

從方法論層次看，以發(fā)現(xiàn)預(yù)測(cè)模型為目的的研究往往提倡的是假設(shè)演繹（Hypothetico-Deductive）研究范式[97]，先提出研究假設(shè)，然后采用試驗(yàn)設(shè)計(jì)和演繹分析方法論證研究假設(shè)成立與否。

然而，一個(gè)好的研究假設(shè)的提出需要研究者，尤其是數(shù)據(jù)科學(xué)家的特有素質(zhì)——?jiǎng)?chuàng)造力、批判性思考和好奇心。

與解釋模型不同的是，預(yù)測(cè)模型更加重視的是模型的簡(jiǎn)單性，而不是復(fù)雜性，主要原因有兩個(gè)，一是預(yù)測(cè)模型對(duì)計(jì)算時(shí)間的要求較高，甚至需要進(jìn)行實(shí)時(shí)分析，然而簡(jiǎn)單模型的計(jì)算效率往往高于復(fù)雜模型；二是經(jīng)驗(yàn)證明，正如奧卡姆剃刀定律（Occam's razor）[98]所言，在其他條件相同的情況下，就預(yù)測(cè)而言，簡(jiǎn)單模型比復(fù)雜模型更可靠。

預(yù)測(cè)模型往往建立在相關(guān)關(guān)系，而不是因果關(guān)系。

通常，相關(guān)關(guān)系可以幫助我們預(yù)測(cè)未來(lái)，而因果關(guān)系有助于進(jìn)一步理解和控制未來(lái)。

從表面上看，預(yù)測(cè)模型依賴的是相關(guān)關(guān)系的分析，但在本質(zhì)上屬于一種數(shù)據(jù)驅(qū)動(dòng)型的“數(shù)據(jù)范式”，與基于知識(shí)范式的解釋模型有著本質(zhì)性的區(qū)別。

4.2 模型集成及元分析的興起

傳統(tǒng)數(shù)據(jù)分析的通用做法是用一個(gè)數(shù)據(jù)模型即可解決一項(xiàng)數(shù)據(jù)處理任務(wù)。

在這種以單一模型為基礎(chǔ)的數(shù)據(jù)分析中，為了提升數(shù)據(jù)處理的信度和效度，需要對(duì)模型進(jìn)行優(yōu)化和調(diào)整，導(dǎo)致數(shù)據(jù)模型復(fù)雜度的增長(zhǎng)。

也就是說(shuō)，傳統(tǒng)數(shù)據(jù)分析中的數(shù)據(jù)模型有兩個(gè)基本特征：?jiǎn)我恍院蛷?fù)雜性。

但是，在大數(shù)據(jù)背景下，人們很難找到一個(gè)能夠處理動(dòng)態(tài)且異構(gòu)數(shù)據(jù)的單一模型，因此，開(kāi)始尋求多個(gè)模型的集成應(yīng)用。

與傳統(tǒng)數(shù)據(jù)分析不同的是，大數(shù)據(jù)分析中所涉及的模型往往是極其簡(jiǎn)單，即大數(shù)據(jù)分析中的數(shù)據(jù)模型也有兩個(gè)基本特征：多樣性和簡(jiǎn)單性。

可見(jiàn)，模型集成成為數(shù)據(jù)科學(xué)研究的一個(gè)新問(wèn)題。

通常，大數(shù)據(jù)分析采用多個(gè)較為簡(jiǎn)單的數(shù)據(jù)模型，將數(shù)據(jù)分析任務(wù)分解成分散在多個(gè)層次，多個(gè)活動(dòng)的小任務(wù)，并通過(guò)簡(jiǎn)單模型及其集成方法達(dá)到最終數(shù)據(jù)處理目的。

例如，在深度學(xué)習(xí)之中，由多處理層組成的計(jì)算模型可通過(guò)多層抽象來(lái)學(xué)習(xí)數(shù)據(jù)表征[99]。

模型集成的背后是元分析的興起。

傳統(tǒng)統(tǒng)計(jì)學(xué)重視的基于零次或一次數(shù)據(jù)的基本分析，包括描述性統(tǒng)計(jì)、參數(shù)估計(jì)和假設(shè)檢驗(yàn)。

在大數(shù)據(jù)環(huán)境下，二次數(shù)據(jù)和三次數(shù)據(jù)的分析顯得更為重要，數(shù)據(jù)分析工作往往在眾多小模型的分析結(jié)果的基礎(chǔ)上進(jìn)行二次分析，即元分析。

4.3 數(shù)據(jù)在先，模式在后或無(wú)模式的出現(xiàn)

傳統(tǒng)數(shù)據(jù)管理，尤其是關(guān)系型數(shù)據(jù)庫(kù)中采用的是“模式在先、數(shù)據(jù)在后（Schema First，Data Later）”的建設(shè)模式[100]，即先定義模式，然后嚴(yán)格按照模式要求存儲(chǔ)和管理數(shù)據(jù)；當(dāng)需要調(diào)整模式時(shí)，不僅需要重定義數(shù)據(jù)結(jié)構(gòu)，而且還需要修改上層應(yīng)用程序。

然而，在大數(shù)據(jù)環(huán)境下，無(wú)法沿用“模式在先、數(shù)據(jù)在后（Schema First，Data Later）”的建設(shè)模式，主要原因有兩個(gè)：一是數(shù)據(jù)模式可能為不斷變化或根本不存在；二是按照預(yù)定模式進(jìn)行數(shù)據(jù)的存儲(chǔ)和處理時(shí)容易導(dǎo)致信息丟失。

因此，“數(shù)據(jù)在先，模式在后或無(wú)模式（Data First， Schema Later or Never）”成為數(shù)據(jù)產(chǎn)品設(shè)計(jì)的主要趨勢(shì)。

以NoSQL為例，采用非常簡(jiǎn)單的鍵值數(shù)據(jù)模型，通過(guò)模式在后（Schema Later）或無(wú)模式（Schemaless）的方式確保數(shù)據(jù)管理系統(tǒng)的敏捷性。

當(dāng)然，模式在后或無(wú)模式也會(huì)帶來(lái)新問(wèn)題，如限制數(shù)據(jù)管理系統(tǒng)的處理能力及加大應(yīng)用系統(tǒng)的開(kāi)發(fā)難度。

在“數(shù)據(jù)在先，模式在后或無(wú)模式”的興起背后是信息系統(tǒng)建設(shè)模式的歷史性變革——從先行支付（Pay-before-you-go）轉(zhuǎn)向現(xiàn)收現(xiàn)付（Pay-as-you-go）的建設(shè)模式。

信息系統(tǒng)建設(shè)中的先行支付模式的特點(diǎn)是根據(jù)特定時(shí)間點(diǎn)的需求定義信息系統(tǒng)，信息系統(tǒng)一旦開(kāi)發(fā)完畢，在一定時(shí)間內(nèi)相對(duì)穩(wěn)定。

先行支付模式的缺點(diǎn)在于無(wú)法適應(yīng)底層數(shù)據(jù)的復(fù)雜性和上層應(yīng)用的動(dòng)態(tài)變化。

4.4 數(shù)據(jù)一致性及現(xiàn)實(shí)主義的回歸

在傳統(tǒng)數(shù)據(jù)管理中，對(duì)數(shù)據(jù)一致性的要求是接近于完美主義——強(qiáng)一致性，即任何時(shí)候從任何地方讀出的任何數(shù)據(jù)均為正確數(shù)據(jù)。

為了保證數(shù)據(jù)的一致性，在關(guān)系數(shù)據(jù)庫(kù)中引入了事務(wù)、兩端封鎖協(xié)議和兩端提交協(xié)議等方法或機(jī)制。

強(qiáng)一致性的優(yōu)點(diǎn)在于不僅可以保證數(shù)據(jù)質(zhì)量，而且可以降低后續(xù)計(jì)算的成本。

但是，強(qiáng)一致性不符合大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理要求——高擴(kuò)展性、高性能、高容錯(cuò)性、高伸縮性和高經(jīng)濟(jì)性。

因此，NoSQL等新興數(shù)據(jù)管理技術(shù)從根本上改變了人們對(duì)數(shù)據(jù)一致性的傳統(tǒng)認(rèn)識(shí)，主要表現(xiàn)在提出CAP理論和BASE原則等新興數(shù)據(jù)管理理念，引入弱一致性、最終一致性等概念，并提供了不同的解決方案，如更新一致性、讀寫一致性和會(huì)話一致性等。

可見(jiàn)，在數(shù)據(jù)科學(xué)研究中，數(shù)據(jù)的一致性出現(xiàn)了多樣化趨勢(shì)，即根據(jù)不同應(yīng)用場(chǎng)景，有針對(duì)性地選擇具體的一致性及其實(shí)現(xiàn)方法。

在數(shù)據(jù)一致性的多樣化認(rèn)識(shí)的轉(zhuǎn)變反映了們對(duì)數(shù)據(jù)數(shù)據(jù)管理目標(biāo)的根本轉(zhuǎn)折——從完美主義回歸至現(xiàn)實(shí)主義。

以CAP理論[101]為例，人們對(duì)分布式系統(tǒng)的設(shè)計(jì)目的發(fā)生了改變，不再追求強(qiáng)一致性（Consistency）、可用性（Availability）和分區(qū)容錯(cuò)性（Partition Tolerance）三個(gè)指標(biāo)的同時(shí)最優(yōu)，反而意識(shí)到了三者中的任何兩個(gè)特征的保證（或爭(zhēng)取）可能導(dǎo)致另一個(gè)特征的損失（或放棄）。

例如，Cassadra和Dynamo 為了爭(zhēng)取可用性和分區(qū)容錯(cuò)性而放棄了一致性。

4.5 多副本技術(shù)及靠近數(shù)據(jù)原則的應(yīng)用

傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)更加看重的是數(shù)據(jù)冗余的負(fù)面影響——冗余數(shù)據(jù)導(dǎo)致的數(shù)據(jù)一致性保障成本較高。

與此不同的是，數(shù)據(jù)科學(xué)中更加重視的是冗余數(shù)據(jù)的積極作用，即冗余數(shù)據(jù)在負(fù)載均衡、災(zāi)難恢復(fù)和完整性檢驗(yàn)中的積極作用。

同時(shí)，還通過(guò)引入多副本技術(shù)和物化視圖的方法豐富冗余數(shù)據(jù)的存在形式，縮短用戶請(qǐng)求的響應(yīng)時(shí)間，確保了良好用戶體驗(yàn)。

以Google搜索為例，采用緩存和照相（images）技術(shù)，重復(fù)利用搜索結(jié)果。

同時(shí)，在計(jì)算和應(yīng)用系統(tǒng)的部署上，改變傳統(tǒng)的“數(shù)據(jù)靠近計(jì)算的原則”，反而開(kāi)始采取了“計(jì)算靠近數(shù)據(jù)的原則”。

例如，在Spark系統(tǒng)提供了操作getPreferredLocations(），支持RDD的本地化計(jì)算[102]；在MapReduce中，盡量將Map任務(wù)調(diào)度至存放副本數(shù)據(jù)數(shù)據(jù)的機(jī)器上。

可見(jiàn)，多副本技術(shù)和靠近數(shù)據(jù)原則均表明傳統(tǒng)的“以計(jì)算為中心”的產(chǎn)品部署模式正向“以數(shù)據(jù)為中心”的產(chǎn)品部署模式的轉(zhuǎn)變。

4.6 多樣化技術(shù)及一體化應(yīng)用并存

傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)類產(chǎn)品雖多，但標(biāo)準(zhǔn)化程度較高，如均采用關(guān)系模型和SQL語(yǔ)言。

但是，新興的NoSQL數(shù)據(jù)庫(kù)代表的不是一種特定技術(shù)，而是包括基于不同數(shù)據(jù)模型和查詢接口的多種數(shù)據(jù)管理技術(shù)，如Key-Value、Key-Document和Key-Column和圖存儲(chǔ)模型等。

可見(jiàn)，在技術(shù)實(shí)現(xiàn)層次上，新興技術(shù)表現(xiàn)出了多樣化發(fā)展及高度專業(yè)化的趨勢(shì)，即一項(xiàng)新技術(shù)專注于一個(gè)問(wèn)題、一項(xiàng)功能或一種應(yīng)用場(chǎng)景。

例如，MapReduce、Tez、Storm、Druid等技術(shù)的定位相對(duì)單一，分別專注于分布式批處理、Map/Reduce過(guò)程的拆分與組合、實(shí)時(shí)處理和面向OLAP的列存儲(chǔ)等較為單一功能的實(shí)現(xiàn)。

當(dāng)然，Spark、YARN等較為通用性技術(shù)的出現(xiàn)也為技術(shù)層次上的高度專業(yè)化趨勢(shì)提供了一種補(bǔ)充的解決方案。

同時(shí)，在傳統(tǒng)數(shù)據(jù)計(jì)算/管理環(huán)境中，不同數(shù)據(jù)產(chǎn)品的界限是比較清楚的，所依賴的技術(shù)也是單一的，要么關(guān)系模型，要么層次或網(wǎng)狀模型。

但是，大數(shù)據(jù)時(shí)代的到來(lái)導(dǎo)致不同計(jì)算/管理技術(shù)的高度融合，出現(xiàn)一些支持多種數(shù)據(jù)計(jì)算/管理技術(shù)集成產(chǎn)品，甚至顯現(xiàn)出了軟硬件一體化或嵌入式應(yīng)用趨勢(shì)。

例如，Oracle大數(shù)據(jù)解決方案（Big Data Appliance）[103]集成了HDFS、Oracle NoSQL、Cloudera CDH、數(shù)據(jù)倉(cāng)庫(kù)、內(nèi)存計(jì)算和分析型應(yīng)用。

可見(jiàn)，在數(shù)據(jù)科學(xué)研究中一體化應(yīng)用和專業(yè)化趨勢(shì)并存。

在產(chǎn)品與服務(wù)的實(shí)現(xiàn)層次上，一體化趨勢(shì)越來(lái)越顯著，一種產(chǎn)品的實(shí)現(xiàn)往往涉及多種不同技術(shù)的集成應(yīng)用；在技術(shù)本身的實(shí)現(xiàn)層面，專業(yè)化趨勢(shì)成為主流，一項(xiàng)新技術(shù)專注于解決相對(duì)單一問(wèn)題。

4.7 簡(jiǎn)單計(jì)算及實(shí)用主義占據(jù)主導(dǎo)地位

“簡(jiǎn)單”是數(shù)據(jù)科學(xué)的基本原則之一，代表著采用相對(duì)簡(jiǎn)單的技術(shù)來(lái)應(yīng)對(duì)復(fù)雜的基礎(chǔ)數(shù)據(jù)及不斷變化的應(yīng)用場(chǎng)景。

與此不同的是，傳統(tǒng)數(shù)據(jù)管理中采用的技術(shù)實(shí)現(xiàn)往往較為復(fù)雜。

例如，傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)技術(shù)采用Join運(yùn)算實(shí)現(xiàn)了多表查詢等復(fù)雜操作。

但是，這些復(fù)雜操作反而成為了關(guān)系數(shù)據(jù)庫(kù)在提升數(shù)據(jù)管理能力的一個(gè)重要瓶頸，如Join操作要求被處理數(shù)據(jù)不能分布在不同節(jié)點(diǎn)。

為此，NoSQL放棄了Join等復(fù)雜處理操作，突出了簡(jiǎn)單計(jì)算較高的效率和效果。

從復(fù)雜計(jì)算到簡(jiǎn)單計(jì)算的轉(zhuǎn)變表明人們對(duì)數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的理念從完美主義回歸至實(shí)用主義。

數(shù)據(jù)科學(xué)是一門實(shí)踐性很強(qiáng)的學(xué)科，現(xiàn)階段其研究主要關(guān)注的是實(shí)用性，即解決當(dāng)前社會(huì)亟待解決的實(shí)際問(wèn)題，而不是復(fù)雜計(jì)算的實(shí)現(xiàn)。

4.8 數(shù)據(jù)產(chǎn)品開(kāi)發(fā)及數(shù)據(jù)科學(xué)的嵌入式應(yīng)用

作為數(shù)據(jù)科學(xué)的特有研究?jī)?nèi)容，數(shù)據(jù)產(chǎn)品開(kāi)發(fā)將成為未來(lái)研究重要課題。

在數(shù)據(jù)科學(xué)中，所謂的數(shù)據(jù)產(chǎn)品（Data Products）并不限于“數(shù)據(jù)形態(tài)”的產(chǎn)品，而泛指“能夠通過(guò)數(shù)據(jù)來(lái)幫助用戶實(shí)現(xiàn)其某一個(gè)（些）目標(biāo)的產(chǎn)品”[104]。

可見(jiàn)，數(shù)據(jù)產(chǎn)品是指在數(shù)據(jù)科學(xué)項(xiàng)目中形成，能夠被人、計(jì)算機(jī)以及其他軟硬件系統(tǒng)消費(fèi)、調(diào)用或使用，并滿足他們（它們）某種需求的任何產(chǎn)品，包括數(shù)據(jù)集、文檔、知識(shí)庫(kù)、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞見(jiàn)、決策及它們的各種組合。

以Google眼鏡為例，雖然其產(chǎn)品形態(tài)上看似乎是“眼鏡類產(chǎn)品”，但從其主要競(jìng)爭(zhēng)力之源看，確實(shí)屬于“數(shù)據(jù)產(chǎn)品”。

數(shù)據(jù)產(chǎn)品開(kāi)發(fā)主要關(guān)注的是如何將數(shù)據(jù)科學(xué)的理論融入傳統(tǒng)產(chǎn)品開(kāi)發(fā)實(shí)踐之中，進(jìn)而實(shí)現(xiàn)產(chǎn)品的更新?lián)Q代和用戶體驗(yàn)的提升。

未來(lái)，數(shù)據(jù)產(chǎn)品開(kāi)發(fā)將嵌入至傳統(tǒng)產(chǎn)品的研發(fā)之中，二者的界限越來(lái)越模糊。

如何將數(shù)據(jù)科學(xué)家的創(chuàng)造性設(shè)計(jì)、批判性思考和好奇性提問(wèn)的職業(yè)素質(zhì)融入產(chǎn)品研發(fā)之中，從而實(shí)現(xiàn)傳統(tǒng)產(chǎn)品的增值和核心競(jìng)爭(zhēng)力的提升是未來(lái)數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的難點(diǎn)所在。

在此背景下，以數(shù)據(jù)為中心的設(shè)計(jì)思維將會(huì)是數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的主要思維模式。

同時(shí)，良好的用戶體驗(yàn)將成為產(chǎn)品開(kāi)發(fā)的主要評(píng)價(jià)指標(biāo)之一。

數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的興起將推動(dòng)數(shù)據(jù)科學(xué)的嵌入式應(yīng)用。

數(shù)據(jù)科學(xué)將作為傳統(tǒng)產(chǎn)品的創(chuàng)新點(diǎn)、增值點(diǎn)和競(jìng)爭(zhēng)力之源，成為產(chǎn)品開(kāi)發(fā)的必要環(huán)節(jié)，數(shù)據(jù)科學(xué)與領(lǐng)域?qū)嵆尸F(xiàn)出了高度融合的趨勢(shì)。

4.9 專家余及公眾數(shù)據(jù)科學(xué)的興起

在傳統(tǒng)數(shù)據(jù)分析中,專家，尤其是領(lǐng)域?qū)＜沂侵R(shí)的主要來(lái)源之一。

例如，本體的建設(shè)需要由領(lǐng)域?qū)＜彝瓿桑粚＜蚁到y(tǒng)中的知識(shí)庫(kù)建立在專家的知識(shí)之上。

但是，在大數(shù)據(jù)時(shí)代，專家余（ProAm）[105]成為數(shù)據(jù)處理項(xiàng)目的主要貢獻(xiàn)者。

與專家不同的是，專家余是指其能力在專家與業(yè)務(wù)之間的準(zhǔn)專家型人群。

近年來(lái)，眾包（包括眾創(chuàng)、眾籌等）成為大數(shù)據(jù)時(shí)代的重要數(shù)據(jù)處理模式，其主要參與者均為專家余，而并非是嚴(yán)格意義上的專家或業(yè)余人群。

例如，與傳統(tǒng)意義上的專家編寫的百科全書(shū)不同，Wikipedia是由來(lái)自各領(lǐng)域的專家余共同完成的知識(shí)庫(kù)。

眾包的廣泛應(yīng)用為傳統(tǒng)知識(shí)庫(kù)建設(shè)中的數(shù)據(jù)量與形式化程度之間的矛盾提供了新的解決方案。

在傳統(tǒng)知識(shí)庫(kù)建設(shè)中，要么形式化程度高，但數(shù)據(jù)量不夠，反之亦然。

眾包數(shù)據(jù)處理模式的出現(xiàn)使位于數(shù)據(jù)鏈長(zhǎng)尾的專家余成為知識(shí)的主要貢獻(xiàn)者和積極參與者。

從協(xié)同方式看，眾包中大規(guī)模協(xié)同可以分為機(jī)器協(xié)同、人機(jī)協(xié)同和人際協(xié)同三種表現(xiàn)形式。

其中，人機(jī)協(xié)同是數(shù)據(jù)科學(xué)研究的重要課題。

例如，混合智能——人與機(jī)器的互補(bǔ)型智能正成為人工智能的新課題。

再如，語(yǔ)義Web技術(shù)的出現(xiàn)為人機(jī)協(xié)同提供了一種重要的技術(shù)支撐。

公眾數(shù)據(jù)科學(xué)（Citizen Data Science）是專家余和大規(guī)模協(xié)同在數(shù)據(jù)科學(xué)領(lǐng)域的應(yīng)用的主要表現(xiàn)形式之一。

所謂的公眾數(shù)據(jù)科學(xué)屬于公眾科學(xué)（Citizen Science），是指公眾參與的數(shù)據(jù)科學(xué)，與數(shù)據(jù)科學(xué)（Data Science）的區(qū)別在于參與研究者以非職業(yè)的興趣愛(ài)好者和志愿者為主。

也就是說(shuō)，公眾數(shù)據(jù)科學(xué)是一種基于眾包和專家余的準(zhǔn)數(shù)據(jù)科學(xué)，也是在數(shù)據(jù)科學(xué)成為一門廣為接受的正式科學(xué)之前的過(guò)渡型理論。

4.10 數(shù)據(jù)科學(xué)家與人才培養(yǎng)的探討

數(shù)據(jù)科學(xué)項(xiàng)目任務(wù)往往是富有挑戰(zhàn)性的工作，每一項(xiàng)任務(wù)都是獨(dú)一無(wú)二的，對(duì)工作人員的要求超出數(shù)據(jù)工程師的能力范疇，亟待由一類新型人才——數(shù)據(jù)科學(xué)家來(lái)承擔(dān)。

從Drew Convey的數(shù)據(jù)科學(xué)維恩圖[106]可看出，數(shù)據(jù)科學(xué)具有三個(gè)基本要素，即理論（統(tǒng)計(jì)學(xué)與數(shù)學(xué)知識(shí)）、實(shí)踐（領(lǐng)域?qū)崙?zhàn)）和精神（黑客精神）。

可見(jiàn)，數(shù)據(jù)科學(xué)與傳統(tǒng)科學(xué)的人才需求不同，前者不僅要求傳統(tǒng)科學(xué)中的理論與實(shí)踐，而且還需要有數(shù)據(jù)科學(xué)家的“精神”素質(zhì)，即原創(chuàng)性設(shè)計(jì)、批判性思考和好奇心地提問(wèn)的能力。

因此，如何培養(yǎng)“理論、實(shí)踐和精神為一體”的綜合性人才是未來(lái)研究的重要課題。

相關(guān)研究主要以下四個(gè)層面開(kāi)展：1）辦學(xué)層次，如何培養(yǎng)本科[107]、碩士[108]和博士[109]層次的數(shù)據(jù)科學(xué)人才。

目前，國(guó)內(nèi)和國(guó)外對(duì)數(shù)據(jù)科學(xué)人才培養(yǎng)層次的關(guān)注點(diǎn)不同，分別關(guān)注的是本科層次和碩士層次人才的培養(yǎng)，但對(duì)博士層次的人才的討論相對(duì)少；

2）專業(yè)設(shè)置：是否需要設(shè)立數(shù)據(jù)科學(xué)專業(yè)？例如，國(guó)內(nèi)主要討論的是如何建設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)。

3）學(xué)科方向的選擇：如何將數(shù)據(jù)科學(xué)與傳統(tǒng)學(xué)科向結(jié)合，確定數(shù)據(jù)科學(xué)的學(xué)科地位；

4）課程改革[110]：如何完成傳統(tǒng)課程的改革以及數(shù)據(jù)科學(xué)新課程的創(chuàng)造性設(shè)計(jì)。

結(jié) 論

數(shù)據(jù)科學(xué)是一門極其特殊的新興學(xué)科，具有與其他學(xué)科不同的新特征，例如思維模式的轉(zhuǎn)變（從數(shù)據(jù)范式到知識(shí)范式的轉(zhuǎn)變）、對(duì)數(shù)據(jù)認(rèn)識(shí)的變化（從數(shù)據(jù)的被動(dòng)屬性到主動(dòng)屬性的轉(zhuǎn)移）、指導(dǎo)思想的變化（實(shí)用主義和現(xiàn)實(shí)主義的回歸）、以數(shù)據(jù)產(chǎn)品開(kāi)發(fā)為主要目的（數(shù)據(jù)成為傳統(tǒng)產(chǎn)品的主要?jiǎng)?chuàng)新點(diǎn)）、專業(yè)數(shù)據(jù)科學(xué)與專業(yè)中的數(shù)據(jù)科學(xué)的差異性以及數(shù)據(jù)科學(xué)的三要素（不僅涉及理論和實(shí)踐，而且還包括精神素質(zhì)）。

因此，數(shù)據(jù)科學(xué)的研究不能簡(jiǎn)單照搬傳統(tǒng)學(xué)科的經(jīng)驗(yàn)，應(yīng)尊重其特殊使命和屬性。

為此，我們對(duì)數(shù)據(jù)科學(xué)研究者提出如下幾點(diǎn)建議：（1）正確認(rèn)識(shí)數(shù)據(jù)科學(xué)。

正確認(rèn)識(shí)數(shù)據(jù)科學(xué)的內(nèi)涵是有效學(xué)習(xí)和規(guī)范研究數(shù)據(jù)科學(xué)的前提。

目前，部分學(xué)者誤以為“數(shù)據(jù)科學(xué)統(tǒng)計(jì)學(xué)+機(jī)器學(xué)習(xí)”，過(guò)于強(qiáng)調(diào)統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)，而忽略了數(shù)據(jù)科學(xué)本身。

其實(shí)，統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)，而并非其核心內(nèi)容。

數(shù)據(jù)科學(xué)具有區(qū)別與其他學(xué)科的獨(dú)特的研究使命、研究視角、思維模式、做事原則和知識(shí)體系。

如果脫離了這些獨(dú)到之處，數(shù)據(jù)科學(xué)的學(xué)習(xí)和研究將發(fā)生方向性的誤讀和本質(zhì)性的扭曲。

（2）突出數(shù)據(jù)的主動(dòng)屬性。

數(shù)據(jù)科學(xué)的一個(gè)重要貢獻(xiàn)或價(jià)值就在于改變了人們對(duì)數(shù)據(jù)的研究方向，即從被動(dòng)屬性轉(zhuǎn)向主動(dòng)屬性。

一直以來(lái)，人們習(xí)慣性地把數(shù)據(jù)當(dāng)做被動(dòng)或死的東西，關(guān)注的是“你能對(duì)數(shù)據(jù)做什么？”，如模式定義，結(jié)構(gòu)化處理和預(yù)處理，都試圖將復(fù)雜數(shù)據(jù)轉(zhuǎn)換成簡(jiǎn)單數(shù)據(jù)。

但是，大數(shù)據(jù)時(shí)代更加關(guān)注的是數(shù)據(jù)的另一個(gè)屬性——主動(dòng)屬性，強(qiáng)調(diào)的是“數(shù)據(jù)能給你帶來(lái)什么？”，如數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用、以數(shù)據(jù)為中心的設(shè)計(jì)、讓數(shù)據(jù)說(shuō)話、數(shù)據(jù)洞見(jiàn)等，將復(fù)雜性認(rèn)為數(shù)據(jù)的自然屬性，開(kāi)始接受數(shù)據(jù)的復(fù)雜性。

研究方向從數(shù)據(jù)的被動(dòng)屬性到主動(dòng)屬性的轉(zhuǎn)變是學(xué)習(xí)和研究這一門新學(xué)科的基本出發(fā)點(diǎn)。

如果忽略了這一點(diǎn)，容易將數(shù)據(jù)科學(xué)當(dāng)成數(shù)據(jù)工程來(lái)學(xué)習(xí)和研究。

（3）平衡數(shù)據(jù)科學(xué)的三個(gè)要素。

與其他課程，尤其是技術(shù)類課程不同的是，數(shù)據(jù)科學(xué)既包括理論和實(shí)踐，更需要精神——原創(chuàng)性設(shè)計(jì)、批判性思考和好奇性提問(wèn)的素質(zhì)。

因此，數(shù)據(jù)科學(xué)的學(xué)習(xí)中不僅要強(qiáng)調(diào)理論聯(lián)系實(shí)際，而且還不能忽略對(duì)數(shù)據(jù)科學(xué)家精神的培養(yǎng)。

積極參與數(shù)據(jù)科學(xué)相關(guān)的開(kāi)源項(xiàng)目和學(xué)術(shù)活動(dòng)類項(xiàng)目是兼顧數(shù)據(jù)科學(xué)的三個(gè)基本要素的兩個(gè)重要捷徑。

（4）側(cè)重培養(yǎng)信心和興趣，學(xué)會(huì)跟蹤數(shù)據(jù)科學(xué)的最新動(dòng)態(tài)。

一方面，數(shù)據(jù)科學(xué)建立在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)等基礎(chǔ)理論之上，學(xué)習(xí)門檻較高，因此，培育自己對(duì)數(shù)據(jù)科學(xué)的學(xué)習(xí)信心和興趣尤為重要；另一方面，數(shù)據(jù)科學(xué)仍屬于一門快速發(fā)展的新興學(xué)科，其理念、理論、方法、技術(shù)和工具在不斷變化之中，要求我們必須掌握動(dòng)態(tài)跟蹤數(shù)據(jù)科學(xué)領(lǐng)域的國(guó)際頂級(jí)會(huì)議、重要學(xué)術(shù)期刊、主要研究機(jī)構(gòu)、代表性人物和標(biāo)志性實(shí)踐的能力。

（5）重視試驗(yàn)設(shè)計(jì)及假設(shè)檢驗(yàn)。

試驗(yàn)設(shè)計(jì)是數(shù)據(jù)科學(xué)項(xiàng)目的重要活動(dòng)之一。

數(shù)據(jù)科學(xué)家應(yīng)根據(jù)數(shù)據(jù)科學(xué)項(xiàng)目的研究目的，有創(chuàng)造性地提出研究假設(shè)，并設(shè)計(jì)對(duì)應(yīng)的試驗(yàn)，最終通過(guò)這些試驗(yàn)達(dá)到假設(shè)檢驗(yàn)的目的。

以華盛頓大學(xué)和加州大學(xué)伯克利分校的數(shù)據(jù)科學(xué)專業(yè)人才培養(yǎng)方案為例，分別開(kāi)出了課程《應(yīng)用統(tǒng)計(jì)與試驗(yàn)設(shè)計(jì)（Applied Statistics & Experimental Design）和《試驗(yàn)與因果分析（Experiments and Causality）》，重點(diǎn)培養(yǎng)學(xué)生的試驗(yàn)設(shè)計(jì)和假設(shè)檢驗(yàn)的能力。

（6）不要忽視因果分析。

在大數(shù)據(jù)時(shí)代，很多人誤以為“因果分析不再重要了”，并把研究重點(diǎn)僅限在相關(guān)分析。

相關(guān)分析只能用于識(shí)別事物之間的關(guān)聯(lián)關(guān)系，而無(wú)法指導(dǎo)如何優(yōu)化和干預(yù)這種相關(guān)關(guān)系。

因此，當(dāng)相關(guān)關(guān)系發(fā)生變化或需要人為干預(yù)相關(guān)關(guān)系時(shí)，必須進(jìn)一步研究其因果關(guān)系。

在數(shù)據(jù)科學(xué)項(xiàng)目中，數(shù)據(jù)科學(xué)家的關(guān)注重點(diǎn)是發(fā)現(xiàn)各種可能的關(guān)聯(lián)關(guān)系，而關(guān)聯(lián)關(guān)系的產(chǎn)生機(jī)制和優(yōu)化方法需要由領(lǐng)域?qū)＜彝瓿伞?/p>

加州大學(xué)伯克利分校和哥倫比亞大學(xué)分別開(kāi)設(shè)《實(shí)驗(yàn)與因果分析(Experiments and Causality）》和《因果推理與數(shù)據(jù)科學(xué)（Causal Inference for Data Science)》，均反映了因果分析在數(shù)據(jù)科學(xué)中的重要地位。

（7）以數(shù)據(jù)產(chǎn)品開(kāi)發(fā)為主要抓手。

數(shù)據(jù)產(chǎn)品開(kāi)發(fā)是學(xué)習(xí)與研究數(shù)據(jù)科學(xué)的主要抓手之一。

需要注意的是，數(shù)據(jù)產(chǎn)品不限于數(shù)據(jù)形態(tài)的產(chǎn)品，任何用數(shù)據(jù)來(lái)幫助目標(biāo)用戶實(shí)現(xiàn)其某一目的的產(chǎn)品都可視為數(shù)據(jù)產(chǎn)品。

數(shù)據(jù)是未來(lái)產(chǎn)品的創(chuàng)新點(diǎn)和增值點(diǎn)。

因此，向數(shù)據(jù)產(chǎn)品的轉(zhuǎn)變是傳統(tǒng)產(chǎn)品的重要發(fā)展趨勢(shì)。

以Google眼鏡[111]為例，其創(chuàng)新源自數(shù)據(jù)，而不在于其外觀和選材，以數(shù)據(jù)為中心的產(chǎn)品設(shè)計(jì)才是該產(chǎn)品與傳統(tǒng)的眼鏡類產(chǎn)品的根本區(qū)別。

可見(jiàn)，數(shù)據(jù)產(chǎn)品開(kāi)發(fā)是數(shù)據(jù)科學(xué)的最為直接且最為普遍的應(yīng)用。

（8）準(zhǔn)確定位人才培養(yǎng)目的。

數(shù)據(jù)科學(xué)的學(xué)習(xí)和人才培養(yǎng)的目的是培養(yǎng)數(shù)據(jù)科學(xué)家而不是數(shù)據(jù)工程師。

二者的區(qū)別在于，數(shù)據(jù)工程師負(fù)責(zé)的是“數(shù)據(jù)本身的管理”，而數(shù)據(jù)科學(xué)家的主要職責(zé)是“基于數(shù)據(jù)的管理”，包括基于數(shù)據(jù)的分析、決策、流程定義與再造、產(chǎn)品設(shè)計(jì)和服務(wù)提供等。

因此，相對(duì)于數(shù)據(jù)工程師，數(shù)據(jù)科學(xué)家對(duì)人才的要求更高，不僅要有理論功底和實(shí)踐經(jīng)驗(yàn)，而且還要求有精神素質(zhì)，即創(chuàng)造性設(shè)計(jì)、批判性思考和好奇性提問(wèn)的能力。

參考文獻(xiàn)

[1] John Walker S. Big data: A revolution that will transform how we live, work, and think[J]. 2014.

[2] Boyd D, Crawford K. Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon[J]. Information, communication & society, 2012, 15(5): 662-679.

[3] Kitchin R. Big Data, new epistemologies and paradigm shifts[J]. Big Data & Society, 2014, 1(1): 2053951714528481.

[4] Jagadish H V. Big data and science: myths and reality[J]. Big Data Research, 2015, 2(2): 49-52.

[5] Provost F, Fawcett T. Data science and its relationship to big data and data-driven decision making[J]. Big Data, 2013, 1(1): 51-59.

[6] Naur P. Concise survey of computer methods[M]Studentlitteratur AB: 1974.

[7] Cleveland W S. Data science: an action plan for expanding the technical areas of the field of statistics[J]. International statistical review, 2001, 69(1): 21-26.

[8]Mattmann C A. Computing: A vision for data science[J]. Nature, 2013, 493(7433): 473-475.

[9]Dhar V. Data science and prediction[J]. Communications of the ACM, 2013, 56(12): 64-73.

[10] Patil T, Davenport T. Data scientist: the sexiest job of the 21st century[J]. Harvard Business Review, 2012.

[11] Kitchin R. Big data and human geography: Opportunities, challenges and risks[J]. Dialogues in human geography, 2013, 3(3): 262-267.

[12] Smith M. The White House names Dr. DJ Patil as the first US chief data scientist[J]. The White House Blog, 2015.

[13] Gartner J. Gartner’s 2014 hype cycle for emerging technologies maps the journey to digital business[OL]. http://www.gartner.com/newsroom/id/2819918.

[14] Gartner J. Hype Cycle for Data Science, 2016 [OL]. https://www.gartner.com/doc/3388917/hype-cycle-data-science-.(25 July 2016 )

[15] Schutt R, O'Neil C. Doing data science: Straight talk from the frontline[M]. O'Reilly Media, Inc., 2013:7.

[16] Jerry Overton.Going Pro in Data Science [M].O’Reilly Media, Inc,2016:12.

[17] 朝樂(lè)門.數(shù)據(jù)科學(xué)理論與實(shí)踐[M].北京:清華大學(xué)出版社,2017:15.

[18] Gray J, Chambers L, Bounegru L. The data journalism handbook: how journalists can use data to improve the news[M]. " O'Reilly Media, Inc.", 2012.

[19] Kalidindi S R, De Graef M. Materials data science: current status and future outlook[J]. Annual Review of Materials Research, 2015, 45: 171-193.

[20] Fang B, Zhang P. Big Data in Finance[M]//Big Data Concepts, Theories, and Applications. Springer International Publishing, 2016: 391-412.

[21] Davis K. Ethics of Big Data: Balancing risk and innovation[M]. " O'Reilly Media, Inc.", 2012.

[22] West D M. Big data for education: Data mining, data analytics, and web dashboards[J]. Governance Studies at Brookings, 2012, 4: 1-0.

[23] Labrinidis A, Jagadish H V. Challenges and opportunities with big data[J]. Proceedings of the VLDB Endowment, 2012, 5(12): 2032-2033.

[24] Kaisler S, Armour F, Espinosa J A, et al. Big data: Issues and challenges moving forward[C].System Sciences (HICSS), 2013 46th Hawaii International Conference on. IEEE, 2013: 995-1004.

[25] Chen H, Chiang R H L, Storey V C. Business intelligence and analytics: From big data to big impact[J]. MIS quarterly, 2012, 36(4).

[26] Provost F, Fawcett T. Data science and its relationship to big data and data-driven decision making[J]. Big Data, 2013, 1(1): 51-59.

[27] Cleveland W S. Data science: an action plan for expanding the technical areas of the field of statistics[J]. International statistical review, 2001, 69(1): 21-26.

[28] Mattmann C A. Computing: A vision for data science[J]. Nature, 2013, 493(7433): 473-475.

[29] Schutt R, O'Neil C. Doing data science: Straight talk from the frontline[M]. " O'Reilly Media, Inc.", 2013.

[30] Shanahan J G, Dai L. Large scale distributed data science using apache spark[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2015: 2323-2324.

[31] Holmes A. Hadoop in practice[M]. Manning Publications Co., 2012.

[32] Sharma S, Shandilya R, Patnaik S, et al. Leading NoSQL models for handling Big Data: a brief review[J]. International Journal of Business Information Systems, 2016, 22(1): 1-25.

[33] Sadalage P J, Fowler M. NoSQL distilled: a brief guide to the emerging world of polyglot persistence[M]. Pearson Education, 2012.

[34] Marx V. Biology: The big challenges of big data[J]. Nature, 2013, 498(7453): 255-260.

[35] Raghupathi W, Raghupathi V. Big data analytics in healthcare: promise and potential[J]. Health information science and systems, 2014, 2(1): 3.

[36] Kim G H, Trimi S, Chung J H. Big-data applications in the government sector[J]. Communications of the ACM, 2014, 57(3): 78-85.

[37] Daniel B. Big data and analytics in higher education: Opportunities and challenges[J]. British journal of educational technology, 2015, 46(5): 904-920.

[38] George G, Haas M R, Pentland A. Big data and management[J]. Academy of Management Journal, 2014, 57(2): 321-326.

[39] Swan M. The quantified self: Fundamental disruption in big data science and biological discovery[J]. Big Data, 2013, 1(2): 85-99.

[40] Lewis S C. Journalism in an Era of Big Data: Cases, concepts, and critiques[J]. 2015.

[41] Rahm E. Big Data Analytics[J]. it-Information Technology, 2016, 58(4): 155-156.

[42] Baumer B. A data science course for undergraduates: Thinking with data[J]. The American Statistician, 2015, 69(4): 334-342.

[43] Hardin J, Hoerl R, Horton N J, et al. Data science in statistics curricula: Preparing students to “think with data”[J]. The American Statistician, 2015, 69(4): 343-353.

[44] Cassel L N, Posner M, Dicheva D, et al. Advancing data science for students of all majors[C]//Proceedings of the 2017 ACM SIGCSE Technical Symposium on Computer Science Education. ACM, 2017: 722-722.

[45] Berman F D, Bourne P E. Let's make gender diversity in data science a priority right from the start[J]. PLoS biology, 2015, 13(7): e1002206.

[46] Lemen Chao.Data Science [M].Tsinghua University Press,2016.

[47] Cooper P. Data, information, knowledge and wisdom[J]. Anaesthesia & Intensive Care Medicine, 2014, 15(1): 44-45.

[48] Erl T, Khattak W, Buhler P. Big data fundamentals: concepts, drivers & techniques[M]. Prentice Hall Press, 2016.

[49] Wang G, Gunasekaran A, Ngai E W T, et al. Big data analytics in logistics and supply chain management: Certain investigations for research and applications[J]. International Journal of Production Economics, 2016, 176: 98-110.

[50] Cardenas A A, Manadhata P K, Rajan S P. Big data analytics for security[J]. IEEE Security & Privacy, 2013, 11(6): 74-76.

[51] Raghupathi W, Raghupathi V. Big data analytics in healthcare: promise and potential[J]. Health information science and systems, 2014, 2(1): 3.

[52] Jeffery T. Leek, Roger D. Peng.What is the question? Mistaking the type of question being considered is the most common error in data analysis[J].Science,2015,374(6228):1314-1315.

[53] Swan M. The quantified self: Fundamental disruption in big data science and biological discovery[J]. Big Data, 2013, 1(2): 85-99.

[54] Ruckenstein M, Pantzar M. Beyond the quantified self: Thematic exploration of a dataistic paradigm[J]. new media & society, 2017, 19(3): 401-418.

[55] Khatri V, Brown C V. Designing data governance[J]. Communications of the ACM, 2010, 53(1): 148-152.

[56] Khatri V, Brown C V. Designing data governance[J]. Communications of the ACM, 2010, 53(1): 148-152.

[57] Thomas G. The DGI data governance framework[J]. The Data Governance Institute, Orlando, FL (USA), 2006.

[58] Lee S U, Zhu L, Jeffery R. Design Choices for Data Governance in Platform Ecosystems: A Contingency Model[J]. arXiv preprint arXiv:1706.07560, 2017.

[59] CMMI Institute.Data Management Maturity (DMM)? Model[OL].http://cmmiinstitute.com/ data-management-maturity

[60] Liu J, Li J, Li W, et al. Rethinking big data: A review on the data quality and usage issues[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 115: 134-142.

[61] 李建中, 王宏志, 高宏. 大數(shù)據(jù)可用性的研究進(jìn)展[J]. 軟件學(xué)報(bào), 2016, 27(7): 1605-1625.

[62] Rahm E, Do H H. Data cleaning: Problems and current approaches[J]. IEEE Data Eng. Bull., 2000, 23(4): 3-13.

[63] Wickham H. Tidy data[J]. Journal of Statistical Software, 2014, 59(10): 1-23.

[64] Lafuente G. The big data security challenge[J]. Network security, 2015, 2015(1): 12-14.

[65] Perera C, Ranjan R, Wang L, et al. Big data privacy in the internet of things era[J]. IT Professional, 2015, 17(3): 32-39.

[66] Patil D, Noren A. Building Data Science Teams: The Skills, Tools and Perspectives Behind Great Data Science Groups[M]. O'Reilly, 2011.

[67] Banerjee S. Citizen Data Science for Social Good: Case Studies and Vignettes from Recent Projects. doi: 10.13140/RG. 2.1. 1846.6002[J]. URL https://www. researchgate. net/publication/283119007_Citizen_Data_Science_for_Social_Goo d_Case_Studies_and_Vignettes_from_Recent_Projects, 2015.

[68] Parasie S, Dagiral E. Data-driven journalism and the public good:“Computer-assisted-reporters” and “programmer-journalists” in Chicago[J]. New media & society, 2013, 15(6): 853-871.

[69] Du D, Li A, Zhang L. Survey on the applications of big data in Chinese real estate enterprise[J]. Procedia Computer Science, 2014, 30: 24-33.

[70] Middleton S E, Shadbolt N R, De Roure D C. Ontological user profiling in recommender systems[J]. ACM Transactions on Information Systems (TOIS), 2004, 22(1): 54-88.

[71] Marshall P, Todd B, Rhodes M. Ultimate Guide to Google AdWords[M]. Entrepreneur Press, 2014.

[72] Gurrin C, Smeaton A F, Doherty A R. Lifelogging: Personal big data[J]. Foundations and Trends? in Information Retrieval, 2014, 8(1): 1-125.

[73] Raghupathi W, Raghupathi V. Big data analytics in healthcare: promise and potential[J]. Health information science and systems, 2014, 2(1): 3.

[74] Marx V. Biology: The big challenges of big data[J]. Nature, 2013, 498(7453): 255-260.

[75] Bello-Orgaz G, Jung J J, Camacho D. Social big data: Recent achievements and new challenges[J]. Information Fusion, 2016, 28: 45-59.

[76] Mohanty S, Jagadeesh M, Srivatsa H. Big data imperatives: Enterprise ‘Big Data’warehouse,‘BI’implementations and analytics[M]. Apress, 2013.

[77] Bertot J C, Gorham U, Jaeger P T, et al. Big data, open government and e-government: Issues, policies and recommendations[J]. Information Polity, 2014, 19(1, 2): 5-16.

[78] Aggarwal A. Opportunities and Challenges of Big Data in Public Sector[J]. Managing Big Data Integration in the Public Sector, 2015: 289.

[79] Matt Turck.Big Data Landscape 2016 v18 FINAL[OL].(2016-4-28).http://mattturck.com/big-data-landscape-2016-v18-final/

[80] Kaisler S, Armour F, Espinosa J A, et al. Big data: Issues and challenges moving forward[C]//System Sciences (HICSS), 2013 46th Hawaii International Conference on. IEEE, 2013: 995-1004

[81] Al-Jarrah, Omar Y., et al. "Efficient machine learning for big data: A review." Big Data Research 2.3 (2015): 87-93.

[82] Batra, Surinder. "Big data analytics and its reflections on DIKW hierarchy." Review of Management 4.1/2 (2014): 5.

[83] Donhost M J, Anfara Jr V A. Data-driven decision making[J]. Middle School Journal, 2010, 42(2): 56-63.

[84] Chen C L P, Zhang C Y. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data[J]. Information Sciences, 2014, 275: 314-347.

[85] Voulgaris Z, Magoulas G D. Extensions of the k nearest neighbour methods for classification problems[C]//Proc. of the 26th IASTED International Conference on Artificial Intelligence and Applications (AIA), Innsbruck, Austria, February 11. 2008, 13: 23-28.

[86] Datawocky.More data usually beats better algorithms[OL].(2008-3-24).http://anand.typepad.com/datawocky/2008/03/more-data-usual.html

[87] Kleppmann, Martin. Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. " O'Reilly Media, Inc.", 2017.

[88] Eric Brewer.Parallelism in the Cloud[OL].(2013-6-24)

.https://www.usenix.org/sites/default/files/conference/protected-files/brewer_hotpar13_slides.pdf

[89] McAfee A, Brynjolfsson E, Davenport T H. Big data: the management revolution[J]. Harvard business review, 2012, 90(10): 60-68.

[90] Fan, Jianqing, Fang Han, and Han Liu. "Challenges of big data analysis." National science review 1.2 (2014): 293-314.

[91] Edgar, Robert C. "MUSCLE: a multiple sequence alignment method with reduced time and space complexity." BMC bioinformatics 5.1 (2004): 113.

[92] Ginsberg J, Mohebbi M H, Patel R S, et al. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012-1014.

[93] Lazer D, Kennedy R, King G, et al. The Parable of Google Flu: Traps in Big Data Analysis[J]. Science, 2014, 343(6176): 1203-1205.

[94] Tansley, Stewart, and Kristin M. Tolle. The fourth paradigm: data-intensive scientific discovery. Ed. Tony Hey. Vol. 1. Redmond, WA: Microsoft research, 2009.

[95] Provost F, Fawcett T. Data science and its relationship to big data and data-driven decision making[J]. Big Data, 2013, 1(1): 51-59.

[96] Dhar V, Chou D. A comparison of nonlinear models for financial prediction[J]. IEEE Transactions on Neural networks, 2001, 12(4): 907-921.

[97] F?llesdal, Dagfinn. "Hermeneutics and the hypothetico‐deductive method." Dialectica 33.3‐4 (1979): 319-336.

[98] Blumer A, Ehrenfeucht A, Haussler D, et al. Occam's razor[J]. Information processing letters, 1987, 24(6): 377-380.

[99] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

[100] Liu Z H, Hammerschmidt B, McMahon D. JSON data management: supporting schema-less development in RDBMS[C]//Proceedings of the 2014 ACM SIGMOD international conference on Management of data. ACM, 2014: 1247-1258.

[101] Brewer E. CAP twelve years later: How the" rules" have changed[J]. Computer, 2012, 45(2): 23-29.

[102] Zaharia M, Chowdhury M, Franklin M J, et al. Spark: Cluster computing with working sets[J]. HotCloud, 2010, 10(10-10): 95.

[103] Plunkett, Tom, et al. Oracle Big Data Handbook. McGraw-Hill Osborne Media, 2013.

[104] Patil D J. Data Jujitsu: the art of turning data into product[M]. " O'Reilly Media, Inc.", 2012.

[105] Leadbeater C, Miller P. The Pro-Am revolution: How enthusiasts are changing our society and economy[M]. Demos, 2004.

[106] Conway D. Data Science in the US Intelligence Community[J]. IQT Quarterly, 2011, 2(4): 24-27.

[107] Anderson P, McGuffee J, Uminsky D. Data science as an undergraduate degree[C]//Proceedings of the 45th ACM technical symposium on Computer science education. ACM, 2014: 705-706.

[108] Marshall L, Eloff J H P. Towards an Interdisciplinary Master’s Degree Programme in Big Data and Data Science: A South African Perspective[C]//Annual Conference of the Southern African Computer Lecturers' Association. Springer International Publishing, 2016: 131-139.

[109] West J D, Portenoy J. 10 The Data Gold Rush in Higher Education[J]. Big Data Is Not a Monolith, 2016: 129.

[110] Anderson P, Bowring J, McCauley R, et al. An undergraduate degree in data science: curriculum and a decade of implementation experience[C]//Proceedings of the 45th ACM technical symposium on Computer science education. ACM, 2014: 145-150.

[111] Muensterer O J, Lacher M, Zoeller C, et al. Google Glass in pediatric surgery: an exploratory study [J]. International journal of surgery, 2014, 12(4): 281-289.

基金項(xiàng)目：國(guó)家自然科學(xué)基金項(xiàng)目(91646202;71103020);國(guó)家社會(huì)科學(xué)基金(15BTQ054;12&ZD220）

作者簡(jiǎn)介：朝樂(lè)門（1979-），男，中國(guó)人民大學(xué)副教授，博士生導(dǎo)師，研究方向：數(shù)據(jù)科學(xué)與大數(shù)據(jù)分析；邢春曉（1967-），男，清華大學(xué)教授，博士生導(dǎo)師，研究方向：云計(jì)算與大數(shù)據(jù)分析；張勇（1973-），男，清華大學(xué)副教授，博士生導(dǎo)師，研究方向：數(shù)據(jù)管理與大數(shù)據(jù)分析。

以上就是關(guān)于【數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢(shì)】的解答，如需了解學(xué)校/賽事/課程動(dòng)態(tài)，可至翰林教育官網(wǎng)獲取更多信息。

重磅！2027 CUG英國(guó)大學(xué)排名出爐！劍橋四連冠，IC重回前五...