自然語言是構建人類文明和智慧的基石,具有高度抽象和上下文豐富的特點。如何讓計算機理解、加工乃至創作自然語言,是實現人機自然交互這一終極愿景的關鍵,也是人工智能領域的下一個增長點。
唐詩的大數據分析及自動創作
Analysis and Automatic Composition of Tang Poetry
自然語言是構建人類文明和智慧的基石,具有高度抽象和上下文豐富的特點。如何讓計算機理解、加工乃至創作自然語言,是實現人機自然交互這一終極愿景的關鍵,也是人工智能領域的下一個增長點。過去,自然語言處理主要關注理解文本,例如輔助學者分析著作《紅樓夢》的作者身份。如今,自然語言處理已經開始在文學創作中嶄露頭角,例如微軟小冰聊天機器人通過快速學習近現代幾百位中國現代詩人的作品,于今年5月份出版了原創現代詩集《陽光失了玻璃窗》,這是人類歷史上第一部100%由人工智能創造的詩集。人工智能技術與人類文藝創作的關系將產生深刻變革。
本課題旨在探索自然語言處理技術在古典詩詞創作中的潛力,通過對《全唐詩》中的海量詩篇內容進行大數據分析,運用計算機和數學模型探究唐詩和代表性詩人的創作風格和規律,并應用機器學習方法自動鑒別特定風格和流派的詩篇,最終構建生成唐詩風格和特定詩人風格的智能程序,甚至還可根據用戶給定的開頭續寫詩句。
課程模塊一:預備課程?
在教學過程正式開始前,有方學者會根據學生的具體情況提供數學、統計、英語學術論文寫作等預備課程。
課程模塊二:科研輔導?
來自美國頂尖人工智能的機器學習科研團隊將在有方學者團隊的配合下,進行8-12周的科研輔導:
微積分、線性代數和概率統計入門;
學習 Python編程語言和相關的庫numpy, pandas, scikit-learn, matplotlib;
學習探索性數據分析(Explorative data analysis),并通過統計方法和可視化對金融數據進行分析
學習回歸分析(regression),對金融數據進行社交媒體效應的評估
學習幾種重要的自然語言處理和機器學習算法,提出初步的金融數據輿情情感分析;
課題驗收需要學生完成英文學術論文的寫作,并向科研團隊進行答辯。
指導速度可能因實際教學情況而異
課程模塊三:論文寫作&發表?
在科研輔導結束后
項目導師將輔導學生完成論文寫作
協助學生完成論文在英文學術期刊上正式發表。
整個科研教學流程中,每一位學員都將有學術督導協助保障研究階段性作業和論文的進度,確保取得研究成果。
本課題適合: 9-12 年級學生,有較強的邏輯思維和抽象思維能力
本項目適合適合申請STEM專業方向:計算機、數學等相關專業的學生。
專業領域的零基礎學生,我們會提供相關的學術知識培訓。
英文:
能夠查找和閱讀英文資料,如網上的編程教程、課件等
數學:
概率統計基礎知識
線性回歸、邏輯回歸
線性代數基礎(行列式、矩陣運算等)
多元函數、微分、函數極值
計算機:
最好有一定的計算機基礎。如果沒有,以下軟件選擇一種或多種,在課題開始后的1-2周進行強化學習并能進行初步的應用。
Python編程基礎
Numpy庫基礎
scikit-learn庫基礎
寫作:
熟悉ShareLaTeX在線論文排版工具
? 2025. All Rights Reserved. 滬ICP備2023009024號-1