科大讯飞荣获多语言理解评测XTREME冠军

本文章由注册用户 沉静时光 上传提供 评论 发布 纠错/删除 版权声明 0
摘要:世界多语言理解评测XTREME中,哈工大讯飞联合实验室(HFL)团队以总平均分84.1位列榜首,刷新世界记录,在四个赛道中获得三项最好成绩。科大讯飞发布面向少数民族语言的多语言预训练模型CINO,并将相关预训练模型和任务数据开源。希望未来能够进一步促进业内少数民族语言相关的技术研究,推动少数民族语言相关技术的应用落地。

2021年11月,在世界权威多语言理解评测XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中,哈工大讯飞联合实验室(HFL)团队以总平均分84.1位列榜首,刷新世界记录,在四个赛道中获得三项最好成绩。

这也标志着科大讯飞多语言理解与跨语言迁移能力再上新台阶。

这个难度有多高?先来看一段话:

The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen Fällen ist die Wärmequelle ein Atomreaktor, Erdwärme, Solarenergie oder Abwärme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.

上述这段话包含了英语、德语、西班牙语,而这只是机器多语言理解评测的冰山一角,它要面临的是多达40种语言的高难度理解。翻译成中文就是:

让水沸腾以提供蒸汽所需热量有多种来源,最常见的是在封闭空间(别称有燃烧室、火箱)中供应适量空气来燃烧可燃材料。在某些情况下,热源是核反应堆、地热能、太阳能或来自内燃机或工业过程的废气。如果是模型或玩具蒸汽发动机,还可以将电加热元件作为热源。

最新突破:在40种语言下完成自然语言理解

XTREME评测由谷歌公司举办,旨在全面考察模型的多语言理解与跨语言迁移能力。该评测覆盖了中文、英语、韩语、日语、阿拉伯语、越南语等40种语言,包含了句对分类、序列标注、阅读理解、句子检索赛道,共四大类九个任务。吸引了国内外众多知名高校和研究机构参加。

XTREME评测包含4大类9个任务,分别为:

句对分类:XNLI、PAWS-X(自然语言推断)

序列标注:UDPOS(词性标注)、PANX(命名实体识别)

阅读理解:XQuAD、MLQA、TyDiQA(片段抽取型阅读理解)

句子检索:BUCC、Tatoeba(跨语言文本检索)

与以往单语言自然语言理解评测任务不同的是,XTREME中的每一个任务都覆盖了多种语言,评测的是模型在多种语言上的理解能力平均指标,因此对系统模型的多语言理解与跨语言迁移能力要求大大提高。

其难度可想而知,榜单上的模型也代表了多语言模型的顶尖水平,因此获得了众多机构和高校的广泛关注。

机器是怎么做到多语言理解的?

本次哈工大讯飞联合实验室提交的CoFe模型以总成绩84.1分位居XTREME评测榜首,有三大法宝:

1、加入了自主研发的跨语言对比学习技术,鼓励模型学习不同语言中的语义相似性。

2、利用知识蒸馏技术进行自监督学习和知识迁移,进一步提升了模型在各个语言上效果的稳定性。

3、创新性地融入了细粒度的语言学特征,帮助模型克服训练不足的困难,解决低资源语言学习不充分的问题,同时使之适应不同语言的形态学特点。

也就是说,通过本土语言学习,机器可以在少量其他语言语料的情况下,通过“类比”学会这门语言,减少了收集语料、语音标注等大量工作。

这就是多语言理解与跨语言迁移能力!

发布少数民族语言预训练模型CINO

“要让中文语音技术由中国人做到最好。”

成立以来,科大讯飞初心未改,持续关注并积极推动中文相关信息处理技术的研究与发展。少数民族语言处理是中文信息处理中不可缺少的一环,也是中文信息处理多样性的一种体现。这项技术的进步将极大改善我国少数民族语言学习问题。

目前由于国内少数民族语言语料稀缺、获取难度大等原因,相关技术研究相对匮乏,而主流的多语言模型也无法很好地处理国内少数民族语言文字。为了促进中国少数民族语言信息处理的研究与发展。2021年11月,科大讯飞发布了首个面向少数民族语言的多语言预训练模型CINO(Chinese mINOrity pre-trained language model),弥补相关资源的空白,并将相关预训练模型和任务数据开源。希望未来能够进一步促进业内少数民族语言相关的技术研究,推动少数民族语言相关技术的应用落地。未来支持各少数民族语言的多语言搜索引擎等文字应用工具或将成为可能。

网站提醒和声明
本站为注册用户提供信息存储空间服务,非“MAIGOO编辑”、“MAIGOO榜单研究员”、“MAIGOO文章编辑员”上传提供的文章/文字均是注册用户自主发布上传,不代表本站观点,版权归原作者所有,如有侵权、虚假信息、错误信息或任何问题,请及时联系我们,我们将在第一时间删除或更正。 申请删除>> 纠错>> 投诉侵权>> 网页上相关信息的知识产权归网站方所有(包括但不限于文字、图片、图表、著作权、商标权、为用户提供的商业信息等),非经许可不得抄袭或使用。
提交说明: 快速提交发布>> 提交资讯帮助>> 注册登录>>
最新评论
相关推荐
婴儿的哭声代表什么意思?教你翻译婴儿的语言
刚出生的小宝宝是不会讲话的,这时候我们应该如何才能明白宝宝想要表达什么呢?一般来说,宝宝的哭声是最能让我们明白的语言了,俗话说爱哭的孩子有奶吃就是这个道理。不过并不是所有的哭声都代表宝宝饿了,还可能是不舒服、太热了、求关注、生病了等。下面就和小编一起来看下如何翻译宝宝的“语言”吧。
翻译费时还费力?有了这些翻译工具效率何止提高一倍!
翻译是将一种相对陌生的表达方式,转换成相对熟悉的表达方式的过程。虽然说人工智能翻译已经让翻译变得不那么难了,但时如果需要十分精准的翻译还是需要人工进行。人工翻译的时候难免会遇到不少问题,这时候就需要一些专业的翻译工具来帮忙。比如Transmate、Logoport、网翻译助手等。接下来跟着小编一起看看详细知识。
翻译机 翻译
273 21
出国在外不懂外语?下面的几款软件让你轻松交流不卡带!
随着人们生活水平的不断提高,越来越多的人开始出国旅游、购物。不过很多人并不会外语,这可如何是好?如果手头没有翻译机的话,那么翻译软件也能够帮你的大忙!例如我们最常见的金山词霸,使用它你就可以轻松把自己想要表达的内容轻松转换成当地人听得懂的语言,这样是不是方便多了?那么还有那些好用的翻译软件呢?下面就和小编一起了解一下吧。
红外同声传译设备组成部分 红外同声传译设备传输原理
同传设备是实现高级别国际会议同步翻译不可缺少的系统设备,通过该设备可以保证演讲者在演讲的同时,内容被同声翻译成指定的目标语言,通过另外的声道传送给与会代表。其中最流行的就是红外同声传译设备,信号通过红外传输,效果稳定,且保密性强。接下来一起看看详细知识。
扫描翻译笔的分类有哪些 扫描翻译笔的发展前景如何
扫描翻译笔,即是通过扫描技术,将印刷字体扫描到笔里通过里面的OCR进行识别,在通过里面的内置翻译软件,实现翻译功能。市面上大多都分为:脱机扫描笔和联机扫描笔。二者的主要区别是,脱机扫描笔不需要链接电脑就可直接使用。扫描翻译笔的发展可能最终导致电子词典的消失,毕竟扫描笔使用更方便,并且输入效率高得多。下面一起来看看详细介绍。
翻译机 翻译
933 27