来自:hyperai超神经
微软的研究团队近日在 arxiv.org 发布了论文:《domain-specific language model pretraining for biomedicalnatural language processing生物医学特定领域的语言模型预训练》,介绍并开源了一个能够用于生物医学领域 nlp 基准,并命名为 blurb。
biomedicallanguageunderstanding andreasoningbenchmark 的首字母缩写,即为 blurb 的命名规则,翻译为生物医学语言理解和推理基准。
医学 nlp 基准,blurb 身负重任
blurb 包括 13 个公开可用的数据集,涉及 6 个不同的任务。
为了避免偏重多可用数据集的任务,如命名实体识别(ner),blurb 的报告和排名,将所有任务的宏观平均数作为主要得分。
图为 blurb 中使用的数据集、以及
团队列出的训练、开发和测试中的实例数量
blurb 排行榜是不分模型的。任何能够使用相同的训练和开发数据产生测试预测的系统都可以参与。
团队表示 blurb 的主要目标是:降低生物医学nlp的准入门槛,帮助加快该领域的进展,能对社会和人类产生积极影响。
生物医学 nlp :必须使用域内文本
研究已经表明生物医学 nlp 可以在医学领域提高数据集的准确性。但是在跨学科的数据集中,准确性又会大大降低。而由于不同医学领域之间(domain)跨度较大,所以对于 nlp 的预训练会花费非常多的时间。
微软研究人员为了提升 nlp 的训练速度,通过对预训练和特定任务的微调,对生物医学 nlp 应用的影响进行了建模比较,从而评估最适合的预训练方法。
团队对域内文本与混合域外文本进行的对照
首先,团队创建了一个名为「生物医学语言理解与推理基准」(blurb)的基准,该基准侧重于 pubmed 提供的出版物,涵盖了相似问题解答和文本提取之类的任务。
实验证明,这种对比的方法能够将 nlp 训练的速度提升数倍。
同时,为了鼓励对生物医学 nlp 的研究,研究人员创建了以 blurb 基准为基准的排行榜,还开源了预训练模型。以求快速生物医学 nlp 能够早日投入使用。
原文标题:医学ai又一突破,微软开源生物医学nlp基准:blurb
文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。
什么是阻燃端子线?
英特尔四大层面,提升DeepRec训练和推理能力
在传输过程的信号要如何描述?
利用电池传感器降低汽车电子装置引发故障的风险
中图仪器-陕西省计量科学研究院精密测量联合实验室揭牌成立
微软团队发布生物医学领域NLP基准
边缘计算与核心系统集成协同工作的五大关键挑战
输电线路分布式故障定位监测装置:保障电力安全的重要利器
互联网变革冲击下,中小网站生存指南
第三代半导体在新基建中广泛应用
【实操】刚买的示波器就被我拆了!感觉很爽
STM32单片机如何利用SPI接口外扩SRAM芯片
详解转差分电路提升系统动态范围
微软希望对限制人工智能包容性的数据沙漠有所作为
什么是股权质押?哪些LED上市公司在用?
腾博推出定制型网真解决方案,可灵活应用于各种工作环境
中科米微:瞄准光学MEMS赛道,跑出核心竞争力
特斯拉秘密研发动力电池,松下的联姻又将何去何从?
计算电磁学与仿真软件
中国联通5G AIoT智能模组 “运营商历史第一标” 由美格智能独家中标