江蘇捷勝錨機有限公司
(原泰興市捷勝船舶設備有限公司)
地址:江蘇省泰興市江平南路76號
全球服務熱線:13905266196
手機:13905266196 13905264589
電話:0523-87838058
傳真:0523-87838058
網(wǎng)址:m.xzbfpdd.com.cn
E-mail:js139589@163.com jm139589@163.com
哈工大訊飛聯(lián)合實驗室:摘得AI中文語法錯誤自動診斷大賽桂冠
人氣:10486 發(fā)布時間:2018-07-29
以前寫作文,老師改語病,如今,AI就能揪出問題。在語病糾錯的武林江湖里,中文又比英文難得多。最近,一場通過AI檢測中文語病的“中文語法錯誤自動診斷大賽”上,哈工大訊飛聯(lián)合實驗室摘得桂冠。
第五屆中文語法錯誤自動診斷大賽(Chinese Grammatical Error Diagnosis,簡稱 CGED)剛在澳大利亞墨爾本舉辦。本屆CGED評測的參賽者可謂高手如云,團隊包括中國社科院、阿里巴巴、北京大學、哈工大訊飛聯(lián)合實驗室(下文簡稱HFL)等,最終由HFL競得冠軍。而上一屆的冠軍是阿里巴巴團隊。
寫完一篇作文,語文老師批改時從里面選出多余的詞、缺少的詞、使用不當?shù)谋硎?、以及語序不通的表述,然后一一改正過來。這樣的場景,現(xiàn)在已經(jīng)成為一場世界性的比賽——第五屆中文語法錯誤自動診斷大賽。今年第五屆的評測大會于上周四(2018年7月19日)在澳大利亞墨爾本舉行,這場比賽最終由哈工大訊飛聯(lián)合實驗室摘得桂冠。
比賽方式是,主辦方挑選了一些外國人寫作的中文句子片段,讓參賽者通過人工智能算法技術對其中的語法語義錯誤進行識別并進行系統(tǒng)性能評估。
比賽從四個維度對參賽者的能力進行評估:語病識別(即:識別句子是否有錯誤)、語病分類(識別具體的錯誤類型)、語病定位(識別錯誤的位置和類型)、語病修正(對于缺詞和錯詞,提供修正的建議)。一共有13個團隊參加了這項比賽。
在這四項成績中,哈工大訊飛聯(lián)合實驗室獲得了后三項的第一名、以及第一項的第二名,總體排名第一,首次參賽便摘得冠軍。
值得一提的是,去年的比賽只有三項成績,第四項“語病修正”是今年才增加的比賽分項。和去年相比,除了“指出問題”,還提供“解決答案”,其難度更上一級。在“語病修正”的任務中,在“第一候選”或“前三候選”項,HFL分別獲得0.1723分和0.2527分,以絕對領先的成績排第一名。也就是說,在13個參賽團隊中,HFL做語法改錯題成績最棒。
為什么可以在“語病修正”任務中斬獲佳績?
科大訊飛研究院北京分院副院長、哈工大訊飛聯(lián)合實驗室主任助理付瑞吉分析,因為參賽系統(tǒng)采取了端到端的神經(jīng)網(wǎng)絡模型與詞匯點互信息相結合,將語病位置空出,根據(jù)上下文以及語病信息對于該位置正確的詞匯進行推測。擁有極強探索精神的你,可以直接英語論文深究其中原理.糾錯語法AI冠軍如何誕生?
通過神經(jīng)網(wǎng)絡序列標注模型生成
怎么區(qū)分“靜靜的頓河”與“靜靜地等待”這兩個短句中,“的”和“地”有何區(qū)別?哈工大訊飛聯(lián)合實驗室出品的AI神器就能做得到!靠的是對神經(jīng)網(wǎng)絡序列標注模型BiLSTM-CRF進行改進。
付瑞吉分析,這次HFL的AI可以獲得冠軍,有賴于對神經(jīng)網(wǎng)絡序列標注模型BiLSTM-CRF進行改進,包括底層的整個模型、單模型內部的融合、模型外的融合三大板塊。具體而言——
第一,將詞向量、統(tǒng)計、先驗的語法知識相融合,如漢語語言習慣用法等統(tǒng)計特征,比如“靜靜的頓河”和“靜靜地等待”中結構助詞“的”和“地”的使用會根據(jù)上下文的詞性而決定;
第二,采用模型內部融合的技術,將多個BiLSTM單模型的輸出加權融合,再經(jīng)過CRF計算最終結果;
第三,采用了模型選取、模型排序等外部融合方法,發(fā)揮了不同模型的優(yōu)勢。
總體來說,這三項“黑科技”讓哈工大訊飛聯(lián)合實驗室出品的AI可以獲得更好的語感,從而摘冠。