自动文本摘要是机器学习算法正在努力的方向之一,微软近期发布的相关论文也表明了这一趋势。对于那些每天要阅读大量文字信息的工作者们来说,这是一个值得庆贺的好消息。有调查显示,这类工作者每天仅在阅读信息上就要花费大约2.6小时。
相应的,google brain和伦敦帝国理工学院的一个团队构建了一个系统——pegasus(pre-training with extracted gap-sentences for abstractive summarization sequence-to-sequence),它使用了谷歌的变形金刚架构,结合了针对文本摘要能力的预训练目标。据称,它在12种测试中均达到了达到最先进的水平,这些测试包括了科学、故事、电子邮件、专利和立法法案等。不仅如此,它在材料缺乏的文本整合测试中也表现惊人。
正如研究人员指出的那样,文本摘要的目的是总结输入的文档,生成其准确和简洁的摘要。
抽象的摘要也不是简单地从输入的文本中复制粘贴文字的片段,而是会产生新单词或总结重要信息,从而使输出的语言保持流畅。
变形金刚是google brain (谷歌的人工智能研究部门)的研究人员在介绍的一种神经结构。
它提取特征以及学习做出预测的方式和所有的深度神经网络一样:神经元被安排在相互连接的层中,这些层传递着输入数据的信号,调整每个连接的权重。
但变形金刚架构又有其独特之处:每个输出元素和每个输入元素都有连接,并动态计算它们之间的权重。
在测试中,研究小组选择了表现最佳的pegasus模型,该模型包含了5.68亿个参数。它有两个训练材料。一个是从3.5亿个网页中提取出来的文本,有750gb。还有一个训练材料则覆盖了15亿篇新闻类型的文章,总计3.8tb。研究人员说,在后者的情况下,他们用白名单域来植入网络爬虫工具,覆盖了质量参差不齐的内容。
根据研究员的说法,pegasus生成的摘要语言非常优秀,流畅性和连贯性都达到了高水准。此外,在文本匮乏的环境中,即使只有100篇示例文章,它生成的摘要质量与在20,000到200,000篇文章的完整数据集上训练过的模型相当。
土壤墒情监测系统存在具有哪些意义,它有哪些作用
看门狗定时器承担各种角色
荣耀Magic16日发布!2K屏+前后双摄!已开启盲约
MOSFET的失效机理:什么是SOA(Safety Operation Area)失效
电子工程师传经授道:AVR单片机经典使用经验
谷歌的人工智能实现了最先进的文本摘要性能
派克汉尼汾喷枪节气模块的技术性革新在保持原有性能的基础上实现了节能
COMWIN工程监测振弦数据采集 4通道振弦传感器信号转换器VTI104_DIN 型
Imagination Meta处理器为顶级音频应用提供Dolby MS11多码流技术解决方案
苹果总部航拍 街上行人车辆寥寥道路空旷
电动汽车转型放缓 韩国电池制造商在美裁员并减产
魅族将发布手机隐私风险自测应用 面向所有安卓手机
国内将推出无人机送货服务 能够降低 80% 的运营成本
意法半导体开发出一款USB-IF认证的100W PPS USB受电设备评估板
TCL华星投资JOLED,双方将在喷墨印刷OLED领域开展深度合作
管廊人员定位解决方案,人员安全保护伞
电气设备如何进行验电
新能源车发展史回顾,智能汽车该如何走才是一条正确的道路?
魅族Pro7什么时候上市?最新消息:没有双曲面没有骁龙处理器,你还会买吗?
赛昉科技发布StarFive StarStudio IDE 支持Linux和Baremetal开发