日前,美國馬里蘭大學(University of Maryland、UMD)的研究人員已經發現如何通過人機協作可靠地挑戰計算機語言,反映了人類語言的復雜性。他們開發了包含1200多個問題的數據集,雖然問題很簡單,但仍困擾著當今最強大的計算機應答系統。學習掌握這些問題的系統將比目前存在的任何系統對語言有更好的理解。
人工智能的終極目標之一是讓機器真正理解人類的語言,并從復雜、細微的字句中詮釋語意。當2011年IBM的Watson電腦擊敗著名的《危險邊緣》(電視智力學術活動節目)冠軍肯·詹寧斯(Ken Jennings)時,似乎就已達到了這一目標。但是,任何嘗試過與虛擬助手Siri進行對話的人都知道,要真正理解人類語言,計算機還有很長的路要走。因此為了更好地理解人類語言,計算機系統必須訓練挑戰這些問題,并完整地反映人類語言的復雜性。
馬里蘭大學的研究人員已經發現如何通過人機協作可靠地創建這些問題,并開發了一個包含1200多個問題的數據集,雖然問題易于回答,但仍難倒了當今最好的計算機應答系統。學習掌握這些問題的系統將比目前存在的任何系統能對語言有更好的理解。這項研究已發表在2019年出版的《計算語言學協會學報》上。
該論文的資深作者、UMD計算機科學副教授Jordan Boyd-Graber說:“大多數的計算機問答系統并沒有解釋為什么它們會這樣回答問題,但我們的工作幫助我們了解計算機實際理解的內容。此外,我們還開發了一個數據集,用于測試計算機,這些數據集將揭示計算機語言系統是否真的在閱讀并能執行與人類相同的處理。”
目前大多數改進計算機問答程序的工作都是由工作人員或計算機來生成問題。這些方法存在的固有問題是,當人們寫問題時,并不知道問題的哪些特定元素會混淆計算機。而計算機編寫問題時,要么編寫公式化的、填空式的問題,一旦出錯,就會產生毫無意義的結果。
為了開發人類與計算機共同工作創建問題的新方法,Jordan Boyd-Graber及其團隊創建了一個計算機界面,當開發人員輸入一個問題時,該界面能顯示計算機在“思考”什么,然后開發人員再編輯問題來利用計算機的弱點。
在新界面中,當人類輸入問題時,計算機的猜測會按順序顯示在屏幕上,并突出顯示導致計算機做出猜測的單詞。
例如,如果輸入“哪位作曲家的海頓主題變奏曲是受到卡爾·費迪南德·波爾的啟發?”,而系統正確地回答了“約翰內斯·勃拉姆斯”,那么界面會突出顯示“費迪南德·波爾”這個詞,表明是這個短語引導它找到了答案。利用這些信息,人們可以再次編輯問題,讓計算機在不改變問題含義的情況下更難回答正確。在這個例子中,把“卡爾·費迪南德·波爾”換成了對他工作的描述“維也納音樂協會的檔案管理員”,計算機就無法正確回答。顯然,專業的人類智力游戲玩家仍然可以輕松正確地回答重新編輯后的問題。
通過合作,人類和計算機可靠地開發了1213個計算機難題,研究人員在一場比賽中對經驗豐富的人類選手進行了測試,其中包括從大學初級校隊到《危險邊緣》的冠軍,即使是最弱的團隊也擊敗了最強的計算機系統。
“近三四年來,人們已逐漸意識到計算機問答系統非常脆弱,且易被愚弄,但這是我們所知的第一篇真正使用機器來幫助人類打破模型的論文。”該論文的共同作者UMD計算機科學研究生石峰(音譯)說。
研究人員表示,這些問題不僅可以作為計算機專家更好地理解自然語言處理失敗的新數據集,還可以作為開發改進的機器學習算法的訓練數據集。這些問題揭示了持續困擾計算機的六種不同語言現象。
這六種現象分為兩類。第一類是語言現象:釋義(例如說“leap from a precipice”而不是“jump from a cliff”,但釋義均為“從懸崖跳下來”);分散注意力的語言或語意的背景(例如在與政治無關的線索中引用政治人物)。第二類是推理技巧:需要邏輯和計算的線索,對問題中的元素進行三角剖分,或將多個步驟組合在一起形成結論。
Jordan Boyd-Graber 表示,“人類能進行更多地概括,并看到更深層次的聯系。雖然人類沒有計算機的無限內存,但仍然有優勢能夠通過局部看到整體。把計算機遇到的問題分類,有助于理解我們需要解決的問題,這樣才能真正讓計算機開始通過局部看到整體,并以人類的方式回答問題。”
Jordan Boyd-Graber補充道,要實現這一目標還有很長的路要走,這篇論文列出了未來幾年的研究議程,這樣能讓電腦更好地回答問題。他目前就職于馬里蘭大學高級計算機研究所(UMIACS)以及UMD的信息研究學院和語言科學中心,這項研究提供的新工具,將幫助計算機科學家實現這一目標。

? 2025. All Rights Reserved. 滬ICP備2023009024號-1