品牌知名度调研问卷>>

科大讯飞拿下SemEval三项冠军,多语种语言理解再上新台阶

本文章由注册用户 沉静时光 上传提供 评论 发布 纠错/删除 版权声明 0
摘要:第十六届国际语义评测大赛落下帷幕,科大讯飞在三项主要赛道中拿下冠军,标志着科大讯飞在多语种语言理解领域持续进阶。未来,科大讯飞将不断开展人工智能源头技术创新,助力中国人工智能在全球赢得话语权,实现更多人工智能创新应用真正解决社会刚需,蓬勃向上,生生不息。

2022年4月,第十六届国际语义评测(The 16th International Workshop on Semantic Evaluation, SemEval 2022)大赛落下帷幕,科大讯飞在三项主要赛道中拿下冠军,标志着科大讯飞在多语种语言理解领域持续进阶。

SemEval 2022评测由国际计算语言学协会(Association for Computational Linguistics, ACL)旗下SIGLEX主办,参赛者覆盖国内、外一流高校及知名企业,包括达特茅斯学院、谢菲尔德大学、华为、阿里达摩院等,代表着最前沿国际技术和水平。

经过角逐,科大讯飞分别在“多语种新闻相似度评测任务”(Task 8)、“多语种惯用语识别任务” 子赛道(Task 2: Subtask A one-shot)、“多语种复杂命名实体识别任务”(Task 11)三个子赛道中拿下冠军。

新闻相似度评价:目光如炬

本次SemEval 2022评测聚焦的Task 8是多语种新闻相似度评价任务。科大讯飞与哈尔滨工业大学联合组建的“哈工大讯飞联合实验室”(Joint Laboratory of HIT and iFLYTEK Research,简称HFL)以显著优势摘得冠军。

简单来说,参赛队伍需要在每组新闻中判断是否描述了同一个事件,并以1-4分为两篇新闻的相似度打分,其中包含了多达10种语言,分别为阿拉伯语、德语、英语、西班牙语、法语、意大利语、波兰语、俄语、土耳其语和中文。但新闻相似度究竟是什么?让我们用一则示例为大家解读。

图中列举了两篇相似度极高的新闻稿件,参赛队伍必须将文中相似的主要元素剥离出来并逐一分析,比如地理信息、叙事技巧、实体、语气、时间及风格,最终得出两篇文章的相似度与差异化。

与普通的文章相比,该项比赛更强调跨语言理解能力,除了写作风格和叙述方式外,还需要把握文章中描述的具体事件。通俗来说,该项技术可以甄别外网的一些新闻报道是否存在偏差与曲解,从而有效预防虚假信息、不良信息的传播。

科大讯飞在这样的赛道上拔得头筹,充分展示了在跨语言理解能力上的强硬实力。

惯用语检测:熟能生巧

哈工大讯飞联合实验室拿下的第二项任务冠军,便是Task2 Subtask A的惯用语检测。通俗来说,无论你是哪国人,在日常表达中都有一类短语的固定用法,并且该固定用法通常与短语的字面语义不同,我们会将这些短语称为“惯用语”。想要理解包含惯用语的句子,首先需要判断句子中的多字短语是否为惯用语,比如“说曹操,曹操到。”句中的曹操是否真实存在。

该任务的形式便是给定一个目标语句,包括其上下文和多字短语,继而判断该语句中的多字短语用法究竟是惯用语还是字面意思。该任务为多语言任务,包含英语、葡萄牙语、加利西亚语三种语言。其中加利西亚语没有在训练集中出现过,因此科大讯飞代表队需要在不同语言之间进行迁移学习。

还是不懂?别担心,让我们来看一则示例。

如例所示,Literal表示字面意思,第一句话可翻译为:当你从网中抓一条大鱼时,最好撑住它的腰。Idiomatic表示惯用语,所以第二句话中再次出现了大鱼一词,但却不是简单的字面意思,而是“大人物”。

所以该任务要求参赛队伍区分不同句子中同一个词的不同语义,这需要强大的分析及跨语言理解能力。有了该项技术,在日常写作和翻译工作中,即可有效鉴别惯用语的表达用意,极大提高内容准确率。

科大讯飞不负众望,再摘桂冠。

复杂命名实体识别:披荆斩棘

这第三冠有多难?光听名字就觉得复杂:多语种复杂命名实体识别任务(MutiCoNER)。科大讯飞联合中国科学技术大学语音及语言信息处理国家工程研究中心迎难而上,在该项任务中一举拿下三个子赛道冠军。

我们先拆解一下MuticoNER这个词,Muti是multilingual多语言)的简称,Co即是complex复杂),而NER则是Named Entity Recognition,又称作“命名实体识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

该任务是一个多语言赛道数据集,包含11项单独语言命名实体评测任务,以及2项多语言统一建模的评测任务。该榜单数据来源于Wikidata(维基数据),数据量庞大且极具应用价值。参赛团队需要在单个语言以及多个语言混合的文本数据中,精准预测不同语言实体的类别标签。该任务采用国际通用的槽位F1评价指标, 我们在多语言混合、中文、孟加拉语赛道上,分别以92.9%、81.6%、84.2%的F1成绩登顶。

这项任务究竟有多难?举个例子:NER是指从用户文本中按照业务需求识别出实体的类别,之前任务基本上一句话中仅会出现一到两个实体,本次任务需要抽出多实体增加实体抽取难度,同时需要具备多语种能力,例如【皇马)[organization]除了首轮负于[克星拉科]organization)以外,现在已是四连胜。Rafael van der Vaart)[PER]、Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表现出色。】既要识别出多个相关实体,同时是各语种夹杂的文本。

此前针对中文和英文需要单独进行模型建模,此次有关赛道的挑战是仅使用一个模型来可以完成不同语种任务,能够快速识别复杂、专有词汇,提高准确率。

拒绝纸上谈兵,技术应用要落地

当前,人类已进入“人、机、物”智能互联时代,智能语音是这个时代最为关键的入口之一,有助于实现语言大互通,建设人类命运共同体。科大讯飞始终保持初心、坚持源头核心技术创新,在语音、语义等国际赛事中为国争光。

在2021年11月举办的国际低资源多种语音识别竞赛OpenASR中,科大讯飞参加了所有15个语种受限赛道和7个语种非受限赛道,并全部取得了第一名,而在SemEval2022多语种NLP领域中取得佳绩也标志着科大讯飞在多语言理解与跨语言迁移能力再上新台阶,从多语种语音到多语种语言都有着顶尖技术实力。

而在2022年的北京冬奥会和冬残奥会上,科大讯飞作为“官方自动语音转换与翻译独家供应商”,为所有观众展现了一场“无障碍沟通”的体育盛会。

基于强大的多语种语音语言技术,我们可以做到语种足够全、翻译足够准、反应足够快,支持包括冬奥体育在内的16大行业领域翻译,在冬奥应用场景下,中文与英/俄/法/西/日等重点语种的翻译准确率超过90%,平均每句语音翻译响应时间不超过1.5秒,一方面帮助各国观众、游客快速掌握赛事信息,另一方面我们特别希望帮助听障人士运用科技的手段听得见奥运文字,看得见奥运声音。

值得一提的是,科大讯飞AI虚拟人“爱加(i )”也成为了冬奥会的一名“虚拟志愿者”。在北京冬奥小屋中,爱加可以用多种语言与各国运动员进行面对面的交流,助力冬奥的无障碍沟通。科大讯飞运用语音识别、语音合成、口唇驱动、面部驱动、肢体动作驱动等多项核心技术,打造出虚拟形象自动化内容生产方案,让虚拟人不仅会说普通话,同时支持31种语言及方言,是不折不扣的“语言通”,不仅能进行面对面的冬奥赛事、赛程实时互动交流,还能陪你玩一把冬奥知识游戏大PK,周边交通、文化、旅游等咨询问答也不在话下。

除此之外,在教育、医疗、司法等场景中的各类行业人工智能应用中,多语种语音交互系统都将发挥重要作用。经过多年的技术积累,除了中英以外,当前科大讯飞已经具备其他69种语言的语音识别能力,其中已经有35个语种准确率已经超过90%,并已在新加坡、俄罗斯、印度、日本等国家部署了海外站点,将持续为海内外开发者提供语音识别、语音合成、机器翻译、图文识别等语音语言服务。

如何更好地研发包括中文在内的多语种语音及语言技术的AI能力并实现大规模应用落地,如何更好地用人工智能技术服务社会、建设美好世界,是我们不断奋斗努力的方向。

未来,科大讯飞将不断开展人工智能源头技术创新,助力中国人工智能在全球赢得话语权,实现更多人工智能创新应用真正解决社会刚需,蓬勃向上,生生不息。

网站提醒和声明
本网站为注册用户提供信息存储空间服务。除Maigoo网官方发布内容外,用户自主上传的文章、文字、图片等均不代表本站立场,本站亦不主动修改编辑,不对其真实性、合法性、准确性负责。如涉侵权、违法虚假等问题,权利人可通过平台投诉并提交相关证明,平台将依法履行通知和删除义务。 申请删除>> 纠错>> 投诉侵权>> 平台自有内容(文字、图片、界面、榜单、商标、LOGO 等)知识产权归本站所有,未经书面许可,禁止复制、转载、商用。
提交说明: 快速提交发布>> 提交资讯帮助>> 注册登录>>
最新评论
相关推荐
什么是车牌识别技术 车牌识别技术工作流程与原理解析
车牌号码识别系统是基于车牌识别技术而衍生的一个完整系统。首先将运动中的汽车牌照从复杂背景中提取出来,通过车牌提取、图像预处理、特征提取、车牌字符识别等技术,识别车辆牌号,输出车牌号码。目前的技术水平为字母和数字的识别率可达到96%,汉字的识别率可达到95%。下面,具体来了解下相关知识吧!
【民用无人机】新一代"飞行革命" 玩无人机航拍也要考驾驶证!
无人机是一种由无线电遥控设备或自身程序控制装置操纵的无人驾驶飞行器,无人机最早开发是在一战后,而二战后则有了较普遍的军事应用。无人机最初扮演的是侦察角色,随着技术进步,无人机在军事上有了更多的应用,如今,无人机在民用领域的作用也越来越多,有着广阔的发展前景,不仅能上天还能下海!究竟无人机都能做些什么?无人机航拍怎么玩?无人机也要考驾照吗?无人机哪家好?下面,就来了解下无人机的相关知识。
【人工智能知识百科】什么是人工智能?人工智能技术与应用
什么是人工智能?人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能技术应用领域有哪些?人工智能对生活有哪些影响?知名人工智能企业有哪些?下面,就了解下人工智能的有关知识。
常见生物识别技术有哪些 解密“无密码时代”的科技
科技不断在发展,人脸、指纹、掌纹、声纹等生物特征识别技术已经渗透到生活的方方面面:指纹支付、刷脸解锁、掌纹开门······作为目前最为方便与安全的识别技术,生物识别技术在方便人们生活的便捷性和保障人们信息、财产安全发挥着重要的作用,在很多应用方面已经取代了密码。那么这些生物识别技术原理是什么?有什么优缺点呢?下面一起来看看常见生物特征识别的概念、原理、优缺点和应用。
人工智能电影有哪些 盘点值得一看的人工智能电影
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。那么关于人工智能的电影都有哪些呢?下面就一起来看看吧。