台达团队日前在百度公司、中国中文信息学会、中国计算器学会连手举办的”2018机器阅读理解技术竞赛”中,与全球153个团队共同竞争,最后以总排名第5的成果获得三等奖佳绩。
颁奖典礼上,队长曾俋颖除了获邀领奖外,也代表三等奖的团队,上台向现场数百位产业界、学术界专家演讲,解说在竞赛中采用的自然语言处理相关技术及阅读理解模型。
台达团队成员(左至右)DRC曾俋颖、邵志杰、赖郁婷和DMS林柏诚、萧瑞辰
台达曾俋颖(YiYing Tseng)向台下数百位产学专业人士说明竞赛所采用的数据与模型
由台达研究院(DRC)Intelligence in Text团队,以及知识管理部(DMS)所组成的台达团队,平日研究范畴即包含自然语言处理与机器阅读理解。在本次的机器阅读理解竞赛中,所用数据集来自于”百度搜索”与”百度知道”的真实用户提问,数据多达27万笔,是当前最大的中文数据集。
经过这次竞赛,团队不仅取得了珍贵的真实数据集,也磨练出数据处理与模型优化的经验。”透过参赛所取得的外部资源和经验,与DRC自主开发的中文数据集结合后,可强化台达的阅读理解技术,特别是特定领域中专业知识的搜寻”成员邵志杰说。
团队的下一步,将专注于打造一套拥有丰富知识、又可理解真人提问的机器阅读理解模型。再搭配上文字生成技术,能让使用者可以透过人性化且直觉的问答窗口,快速从数据库取得答案,更可进一步强化台达智能与知识管理的能量。