台達團隊日前在百度公司、中國中文信息學會、中國計算機學會聯手舉辦的「2018機器閱讀理解技術競賽」中,與全球153個團隊共同競爭,最後以總排名第5的成果獲得三等獎佳績。
頒獎典禮上,隊長曾俋穎除了獲邀領獎外,也代表三等獎的團隊,上台向現場數百位產業界、學術界專家演講,解說在競賽中採用的自然語言處理相關技術及閱讀理解模型。
台達團隊成員(左至右)DRC曾俋穎、邵志杰、賴郁婷和DMS林柏誠、蕭瑞辰
台達曾俋穎(YiYing Tseng)向台下數百位產學專業人士說明競賽所採用的數據與模型
由台達研究院(DRC)Intelligence in Text團隊,以及知識管理部(DMS)所組成的台達團隊,平日研究範疇即包含自然語言處理與機器閱讀理解。在本次的機器閱讀理解競賽中,所用數據集來自於百度搜索」與「百度知道」的真實用戶提問,資料多達27萬筆,是當前最大的中文資料集。
經過這次競賽,團隊不僅取得了珍貴的真實資料集,也磨練出資料處理與模型最佳化的經驗。「透過參賽所取得的外部資源和經驗,與DRC自主開發的中文數據集結合後,可強化台達的閱讀理解技術,特別是特定領域中專業知識的搜尋」成員邵志杰說。
團隊的下一步,將專注於打造一套擁有豐富知識、又可理解真人提問的機器閱讀理解模型。再搭配上文字生成技術,能讓使用者可以透過人性化且直覺的問答視窗,快速從資料庫取得答案,更可進一步強化台達智能與知識管理的能量。