為促進中文自然語言技術的發展,由中國人工智能學會主辦,科大訊飛股份有限公司組織, 認知智能國家重點實驗室(科大訊飛)、哈爾濱工業大學社會計算與信息檢索研究中心承辦了“第三屆中國‘AI+’創新創業大賽——自然語言處理技術創新大賽——中文文本糾錯比賽”。本次大賽為從事中文自然語言處理研究的研究人員、產業界從業人員以及AI技術愛好者搭建了一個良好的交流平臺。日前,本次大賽結果出爐,我校NLP團隊和阿里巴巴達摩院聯合組隊獲得第三屆中國“AI+”創新創業大賽中文文本糾錯比賽第一名。
文本校對任務主要是針對文本中出現的錯誤進行檢測和糾正,屬于綜合性的自然語言處理研究子方向,能夠比較全面地體現自然語言處理技術的水平。過往文本校對相關評測使用的都是外國語言學習者撰寫的文本,對于政務公文、新聞出版等行業來說,一款針對以中文為母語的用戶所使用的校對系統將會有更大幫助。因此,本屆大賽主要選擇互聯網上中文母語寫作者撰寫的網絡文本作為校對評測數據,從拼寫錯誤、語法錯誤、語病錯誤等多個方面考察機器的認知智能能力。
在本屆大賽中,由李正華老師指導的章岳、李嘉誠兩位碩士研究生組成蘇州大學NLP團隊,和阿里巴巴達摩院緊密合作,探索了一系列最先進的文本糾錯技術,并將其使用在了此次文本糾錯評測任務中。復賽階段,我校學子與來自國內一流高校和企業的16支隊伍進行了激烈較量,包括清華大學、南京大學、北京理工大學、新浪、螞蟻金服等,最終在所有三個指標上均奪得第一名(檢錯、糾錯、總分),展現了現階段中文母語文本糾錯的最高水平。