高成本的人工标签使得弱监督学习备受关注。seed-driven 是弱监督学习中的一种常见模型。该模型要求用户提供少量的seed words,根据seed words对未标记的训练数据生成伪标签,增加训练样本。
但是由于一词多义现象的存在,同一个seed word会出现在不同的类别中,从而增加生成正确伪标签的难度;同时,单词w在语料库中的所有位置都使用一个的词向量,也会降低分类模型的准确性。
而本篇论文主要贡献有:
开发一种无监督的方法,可以根据词向量和seed words,解决语料库中单词的一词多义问题。
设计一种排序机制,消除seed words中一些无效的单词;并将有效的单词扩充进seed words中。
模型整体结构为:
第一步:使用聚类算法解决语料库中单词的一词多义问题
对于每一个单词 w, 假设w出现在语料库的n个不同位置, 分别为 ,使用k-means算法将分成k类,这里k可理解为单词w的k个不同解释。
用下列公式计算k的值:
其中代表第i个聚类中心的向量。的计算方法如下:
这里s表示一个seed word,且表示s在语料库第i次出现,对应的词向量为。
sim() 表示余弦函数,median( )表示取中位数。
则对于任意,有
综上,一词多义问题解决算法如下:
使用上面算法,我们就可以将原始语料库转变为基于语境下的语料库:
第二步:对未标记的训练数据生成伪标签令表示文档d的伪标签;表示类别为的seed word 集合;表示单词w出现在文档d的词频
第三步:使用基于语境下的语料库进行文档分类
本篇论文使用hierarchical attention networks (han) 进行文本分类。
第四步:设计排序函数,更新seed words我们设计出一个打分函数,用于表示单词w仅高频的出现在类别为的文档。分值越高,表示单词w对类别越重要。我们可以选择分值最高的前几个单词作为新的seed word。也可以剔除一些不重要的seed word。
其中:
表示类别为的文档的数量。表示类别为且含有单词w的文档的数量。表示在类别为的文档中,单词w的词频。
n为语料库d的文档总数目表示语料库d中含有单词w的文档的数量。
结果
我们的完整模型称为 conwea,
而 conwea-nocon是 conwea确实缺少第一步的变体。
conwea-noexpan是 conwea确实缺少第四步的变体。
conwea-wsd是将 conwea第一步的方法换成lesk算法。
原文标题:【acl2020】基于语境的文本分类弱监督学习
文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。
浅谈在汽车变速器换档执行中音圈电机的应用
生产质量管理体系的概念、分类、要求等详解
重庆铁塔助力运营商在重庆市利用5G基站建成了首座交通指示灯杆
IP百科知识之VXLAN
清华大学提出了针对深度学习加速的FPGA虚拟化方案
深度学习:基于语境的文本分类弱监督学习
华为忍痛关闭爱尔兰RF IC设计中心
华为即将向美国公司出售5G技术了吗
杜邦Liveo与意法半导体将合作开发一种新的智能可穿戴设备概念
ASML向中国出口集成电路光刻机持开放态度
为了隐私,谷歌将淘汰对Chrome的第三方Cookie支持消息
诺基亚8、iPhone8、三星Note8最新消息汇总:王牌旗舰之争!来感受一下8的诱惑
连续7年入选!Kaadas凯迪仕再获「2023房建供应链综合实力TOP500首选供应商」称号!
家庭配电箱中的开关如何配置
LVDS器件工作原理浅析
针对某频率的天线和功率电路的新型无线功率传输技术
极智嘉全球智慧物流峰会盛大开幕,“CARE”发展战略备受瞩目
iOS10.3最新消息:iOS10.3.3Beta5推送更新功能汇总,苹果神速全是套路!iOS10.3.1验证通道已关闭
要做老大!阿里巴巴市值即将超越亚马逊,老对手京东怎么办
【今晚开播】社区说 | 深入探索 Android 技术的演进与创新