信息抽取(ie)旨在从非结构化文本中抽取出结构化信息,该结果可以直接影响很多下游子任务,比如问答和知识图谱构建。因此,探索chatgpt的信息抽取能力在一定程度上能反映出chatgpt生成回复时对任务指令理解的性能。
论文:is information extraction solved by chatgpt? an analysis of performance, evaluation criteria, robustness and errors
地址:https://arxiv.org/pdf/2305.14450.pdf
代码:https://github.com/ridonghan/evaluation-of-chatgpt-on-information-extraction
本文将从性能、评估标准、鲁棒性和错误类型四个角度对chatgpt在信息抽取任务上的能力进行评估。
实验 实验设置 任务和数据集
本文的实验采用4类常见的信息抽取任务,包括命名实体识别(ner),关系抽取(re),事件抽取(ee)和基于方面的情感分析(absa),它们一共包含14类子任务。
对于ner任务,采用的数据集包括conll03、fewnerd、ace04、ace05-ent和genia。
对于re任务,采用的数据集包括cconll04、nyt-multi、tacred和semeval 2010。
对于ee任务,采用的数据集包括cace05-evt、ace05+、casie和commodity news ee。
对于absa任务,采用的数据集包括d17、d19、d20a和d20b,均从semeval challenges获取。
实验结果 1、性能
从上图结果可以明显看出:
(1)chatgpt和sota方法之间存在显著的性能差距;
(2)任务的难度越大,性能差距越大;
(3)任务场景越复杂,性能差距越大;
(4)在一些简单的情况下,chatgpt可以达到或超过sota方法的性能;
(5)使用few-shot icl提示通常有显著提升(约3.0~13.0的f1值),但仍明显落后于sota结果;
(6)与few-shot icl提示相比,few-shot cot提示的使用不能保证进一步的增益,有时它比few-shot icr提示的性能更差。
2、对性能gap的思考
通过人工检查chatgpt的回复,发现chatgpt倾向于识别比标注的跨度更长的sapn,以更接近人类的偏好。因此,之前的硬匹配(hard-matching)策略可能不适合如chatgpt的llm,所以本文提出了一种软匹配(soft-matching)策略,算法流程如下。
该算法表明,只要生成和span和标记的span存在包含关系且达到相似度的阈值,则认为结果正确。通过软匹配策略,对重新评估chatgpt的ie性能,得到的结果如下。
从上图可以看出,软匹配策略带来一致且显著的性能增益(f1值高达14.53),简单子任务的提升更明显。同时,虽然软匹配策略带来性能提升,但仍然没有达到sota水平。
3、鲁棒性分析
(1)无效输出
在大多数情况下,chatgpt很少输出无效回复。然而在re-triplet子任务中,无效回复占比高达25.3%。一个原因可能这个子任务更加与众不同。
(2)无关上下文
由于chatgpt对不同的提示非常敏感,本文研究了无关上下文对chatgpt在所有ie子任务上性能的影响。主要通过在输入文本前后随机插入一段无关文本来修改zero-shot提示的“输入文本”部分,无关文本不包含要提取的目标信息span,结果如图所示。
可以看出,当随机添加无关上下文时,大多数子任务的性能都会显著下降(最高可达48.0%)。absa-alsc和re-rc子任务的性能下降较小,这是因为它们基于给定的方面项或实体对进行分类,受到无关上下文的影响较小。因此,chatgpt对无关上下文非常敏感,这会显著降低ie任务的性能。
(3)目标类型的频率
真实世界的数据通常为长尾分布,导致模型在尾部类型上的表现比在头部类型上差得多。本文研究了“目标类型的频率”对chatgpt在所有ie子任务中的性能的影响,结果如图所示。
可以看出,尾部类型的性能明显不如头部类型,仅高达头部类型的75.9%。在一些子任务上,比如re-rc和re-triplet,尾部类型的性能甚至低于头部类型性能的15%,所以chatgpt也面临长尾问题的困扰。
(4)其他
本文探讨了chatgpt是否可以区分re-rc子任务中两个实体的主客观顺序。由于大多数关系类型都是非对称的,因此两个实体的顺序非常关键。对于非对称关系类型的每个实例,交换实体的顺序并检测预测结果的变化,结果如图所示。
可以看到,交换顺序后大多数预测结果(超过70%)与交换前保持不变。因此对于re-rc子任务,chatgpt对实体的顺序不敏感,而且无法准确理解实体的主客体关系。
4、错误类型分析
从图中可以看出,“unannotated spans”、“incorrect types”和“missing spans”是三种主要的错误类型,占70%以上。特别是,几乎三分之一的错误是“unannotated spans”的错误,这也引发了对标注数据质量的担忧。
总结 本文从性能、评估标准、鲁棒性和错误类型四个角度评估了chatgpt的信息抽取能力,结论如下:
性能 本文评估了chatgpt在zero-shot、few-shot和chain-of-thought场景下的17个数据集和14个ie子任务上的性能,发现chatgpt和sota结果之间存在巨大的性能差距。
评估标准 本文重新审视了性能差距,发现硬匹配策略不适合评估chatgpt,因为chatgpt会产生human-like的回复,并提出软匹配策略,以更准确地评估chatgpt的性能。
鲁棒性 本文从四个角度分析了chatgpt对14个子任务的鲁棒性,包括无效输出、无关上下文、目标类型的频率和错误类型并得出以下结论:1)chatgpt很少输出无效响应;2)无关上下文和长尾目标类型极大地影响了chatgpt的性能;3)chatgpt不能很好地理解re任务中的主客体关系。
错误类型 通过人工检查,本文分析了chatgpt的错误,总结出7种类型,包括missing spans、unmentioned spans、unannotated spans、incorrect span offsets、undefined types、incorrect types和other。发现“unannotated spans”是最主要的错误类型。这引发了大家对之前标注数据质量的担心,同时也表明利用chatgpt标记数据的可能性。
应用程序控制的Fingerbot可使家居设备变得智能化
图像采集系统的Camera Link标准接口设计
戴尔8K显示器挑战人眼极限的清晰度 世界第一台!
程序员的内心独白
无源雷达对隐身飞行器探测系统的应用的分析
探索ChatGPT的信息抽取能力
小米11轻装上阵,为米粉带来突破性旗舰体验
8个Arduino机器人构建项目的介绍
GooglePixel2XL评测 到底好不好用
6mm储能连接器的特性
高压开关机械特性测试仪的连线说明
变压器差动保护接线图详解
如何计算电源芯片输入电压范围?电源芯片输入电压测试规范是什么?
VPLC系列机器视觉运动控制一体机快速入门
高通险被博通收购_高通不确定未来?
Boost变换器中SiC与IGBT模块热损耗对比研究
自动激光雪深监测站
苹果Siri监听用户的对话并录音
iPhone8价格可能创历史最高! 支持国产还是为苹果买单?
移远通信推出高性能九合一5G组合天线