本次課題結合機器學習和自然語言處理兩門學科,在幫助學生加深對數學線性代數和機器學習重要算法應用了解的同時,還可以讓學生利用所學知識對機器學習中向量機算法構建數學模型對詞語情感進行分析探究。最后對比其他主流算法,幫助學生進行結果預測和對結果預測的原因分析。
自然語言處理(Natural Language Processing)是計算機科學領域與人工智能領域中的一個重要研究方向。以實現人與計算機之間通過自然語言進行有效通信為研究目的,通過統計學的方法,利用計算機處理大規模自然語言數據。自然語言處理是一門融合計算語言學、計算機科學、數學于一體的科學,其研究有廣泛的應用,包括語音識別、自然語言理解、自然語言生成、機器翻譯、對話系統等。
情感分析通常使用自然語言處理技術,識別客戶評論的語義情感,語句表達的情緒正負面,或者通過分析語音及文字判斷其表達的情感等來完成廣義上的主觀分析。經過初步的學習了解機器學習之后,學生可以獨立利用開源數據庫對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,如從電影評論中分析用戶對電影的評價。
AI+X數據驅動型科研
使用人工智能(AI)算法,收集、處理、分析具體學科(X)的海量數據,并基于此進行預測,從而獲得科學發現的研究方法。與傳統的、基于實驗或邏輯推理的研究方式相比,AI+X數據驅動型科研可以借助AI算法強大的運算能力,高效地進行大數據分析,具有投入產出比高、適用范圍廣的優點。
AI+X數據驅動型科研已被廣泛地應用于各個領域,利用AI算法研究基因數據,從而進行早期的癌癥篩查便是其中一例。基因組與癌癥病患的數據千千萬萬,使用傳統的科研方式對其進行分析,工程量大、過程繁瑣,在客觀上難以實現。
但借助AI算法這一便捷的工具,生命科學家便能夠以海量的患者的遺傳信息為基礎,建立數據庫,與過往的研究成果進行對照,快速、準確地在兩者中發現規律、建立聯系,從而使癌癥診斷的“標準化”成為可能。
本課題適合: 9-12 年級學生,有較強的邏輯思維和抽象思維能力:
英文: 1、具備基本的學術英語閱讀能力; 2、接觸過英文寫作,能初步撰寫英文文章;
數學: 1、概率統計基礎知識; 2、線性回歸; 3、微積分基礎; 4、線性代數;
計算機: 1、Python NLTK; 2、Python編程基礎; 3、Numpy庫基礎; 4、Scikit-learn;
? 2025. All Rights Reserved. 滬ICP備2023009024號-1