SuperGLUE正式上线:NLP模型们,来迎接挑战吧!

facebook ai research、google deepmind、华盛顿大学和纽约大学合作,共同推出了superglue,这是一系列用来衡量现代高性能语言理解ai表现的基准测试任务,superglue针对的是已经达到挑战上限的会话式ai深度学习模型,为其提供更难的挑战,其比glue基准任务更负责,旨在构建能处理更加复杂和掌握更细微差别的语言模型。
目前nlp主要着眼在多任务学习和语言模型预训练,从而孕育出各种模型,如bert、transformer、elmo、mt-dnn、gpt-2等。为了评估这些模型的精准度,glue基准应运而生。
superglue正式上线:nlp模型们,来迎接挑战吧!
glue全称是通用语言理解评估(general language understanding evaluation),基于已有的9种英文语言理解任务,涵盖多种数据集大小、文本类型和难度。终极目标是推动研究,开发通用和强大的自然语言理解系统。
但随着nlp模型狂飙似的发展速度,仅推出一年时间的glue基准,已经显得有些力不从心。于是,facebook ai研究院、谷歌deepmind、华盛顿大学以及纽约大学4家公司和高校开始携手打造进化版新基准:superglue!
近日,进化后的基准也正式宣布上线,可供大家使用了!
地址:
https://gluebenchmark.com
因为bert在glue上是当前最成功的方法,所以superglue也使用bert-large-cased variant.11作为模型性能基准。
什么是superglue?
如果你搜索superglue,出现在首页的一定的各种胶水。这也是科技公司在给产品起名时特别喜欢玩儿的一个梗:利用命名的首字母缩写成为一个十分普通、十分常见的英文单词,这个单词经常和实际的科技产品毫不相关。
实际上,我们今天要介绍的superglue,全称是超(级)通用语言理解评估(super general-purpose language understanding evaluation)。
据superglue团队介绍,为了获得更强悍的任务集,他们向各个nlp社区发出了征集令,并最终获得一个包含约30种不同nlp任务的列表。随后按照如下标准筛选:
任务本质:即测试系统理解英语的能力
任务难度:即超出当前最先进模型的能力
可评估性:具备自动评断机制,同时还需要能够准确对应人类的判断或表现
公开数据:拥有可公开的数据
任务格式:提升输入值的复杂程度,允许出现复杂句子、段落和文章等
任务许可:所用数据必须获得研究和重新分发的许可
最终获得一个包含7个任务的集合。然后,以这7个任务为基础构建公开排行榜。
此外,superglue还包含基于已有数据的抽取、单个数值的表现指标,以及一套分析工具包jiant。 下载地址: https://jiant.info/
相比glue有哪些变化?效果如何?
进化后的新基准,难度有了大幅提升,应对起当前这些发育迅猛的nlp模型更加得心应手,从而可以鼓励构建能够掌握更复杂,或具有更细微差别的语言的模型。
相比上一代glue,首先研究人员向原有的11项任务开刀,直接砍掉其中的9项,并对剩下的2项任务进行了升级,这两项任务分别是识别文本蕴涵(rte)和winograd模式挑战赛(wsc)。
之后,5项新的评估基准也被添加进来,用于测试模型在回答问题、指代消解和常识推理方面的能力。这5项新任务分别是:cb,copa,gap,multirc和wic。
初始的superglue基准版本包含了人类水平估计结果,扩展了glue中的句子和句子的分类,还包含了共指消解、句子完成和问答。
superglue任务集合比较多样化,为了帮助研究者能够开发出统一的新方法,superglue团队还贴心的为研究人员提供了一套基于pytorch和allennlp、用来操作nlp的预训练、多任务学习和迁移学习的模块化建模工具包。
此外,因为考虑到公平性、信息的丰富性,管理superglue排行榜的规则也有很多地方和glue有所区别,以期能充分体现数据和任务创建者的贡献。
研究人员用主流nlp模型对新基准进行了测试,效果如下图:
任务示例:
值得一提的是,即使是当前最先进的bert模型,量化后的综合分数,比人类低了约16.8%。这样的表现,恐怕只能勉强算过得去而已。

人工智能认识存在有哪一些误区
车规芯片的AEC-Q100测试标准
蓝宝石光纤与石英光纤中横向位置对于FBG反射率的影响
功率MOSFET及其发展浅说
基于Verilog的分数分频电路设计
SuperGLUE正式上线:NLP模型们,来迎接挑战吧!
基于RTX51实时操作系统的用户专用键盘软件设计
Linux关于Makefile的用法介绍
京东数科推出AI虚拟数字人 可应用于招募、客服等多场景
第79届中国电子展指引产业发展方向
叉车防撞系统解决方案应用场景解析
名词解释:无线电频率,无线电台(站),无线电干扰,无线电管制
电源测试软件|电源模块的检测NSAT-8000
李彦宏现身贵州数博会称:无人车将在7月量产
Mouser Electronics荣获Murata Americas总裁奖
如何解决传感器的零点漂移问题
基于TMS34020的图形显示处理模块的设计
万众瞩目的OPPO R11开售在即,价格2999起,明天十点不见不散
Razer炼狱蝰蛇标准版评测 各方面特性都很均衡
LED显示屏的分类有哪些