NLP的经典任务——句法(Syntactic)分析

句法(syntactic)分析是nlp的经典任务
syntactic tasks: word level
word level的句法分析任务有:形态分析、分词、序列标注
形态分析:morphological analysis,指将一个词的词根(stem)和词缀(prefix & suffix)提取出来的任务
分词:word segmentation or tokenization,不同的语言分词方法不一样。对于中文、日文等语言,语句由字符的序列组成,因此词的形态化比较简单,分词一般指将文本中的字的序列分割成词的序列。此外,中文分词的歧义性较强。而对于英文,没有所谓的“分词”,对应的任务叫做tokenization,指将文本序列切成由token组成的序列,如wendy's -> wendy + 's。tokenization可以概括为按照特定需求,把文本切分成一个字符串序列(其元素一般称为token,或者叫词语)。
根据不同的需求,tokenization有不同的分割粒度:
字粒度:i have a apple -> i / h / a / v / e / a / a / p / p / l / e
词粒度:i have a apple -> i / have / a / apple
subword粒度:i have a new gpu. -> ['i', 'have', 'a', 'new', 'gp', '##u', '.']
词性标注:part-of-speech(pos),将词在句子中扮演的角色进行标注,如动词、名词等。因为一词多义的存在,这个过程也存在歧义性。具体的tag可以参考:universal pos tags,更细粒度的tag(spacy)
syntactic tasks: sentence level任务很多,其中dependency parsing 和 constituent parsing 比较常见。
成分句法分析:constituent parsing,找到一句话中的层次短语结构
依存句法分析:dependency parsing,这种句法结构通过词之间的两两关系组成一句话的结构。这些关系包含:主语、宾语、修饰语等等,每个词修饰一句话中的另一个唯一的词(除了root节点,如下图中的bought)。
ccg parsing,组合范畴句法分析,形式为一种高度词汇化的句法
ccg supertagging:在组合句法分析中,给每个词打标签
syntactic chunking:把一个句子,切成比较大的短语块


多功能食品安全快速筛检系统@2021新款推荐
阿里云正式发布“千企亿智”计划 打造智能设备出海全链路
三星S8国内三大潜在对手:华为P10、 小米6、一加5
中兴通讯发布新数字化运营平台VMAX Apple发布全新电脑和显示产品
徕芬吹风机怎么样?徕芬吹风机拆解 搭载峰岹FU6812/61系列芯片 给秀发做“SPA”
NLP的经典任务——句法(Syntactic)分析
NTC热电阻温度传感器,5种电阻选型注意事项
分屏操作的iphone难道是iphone8的黑科技
LPC2124开发板I2C总线接口的应用
关于GPS放射源旋转角度解释及源抽样测试的程序分享
一个数字转速表的电路图
光纤光缆产品及解决方案提供商长飞光纤发布2022第一季度报告
恋爱三个月是道坎儿,可穿戴也躺枪了
关于DRAM的性能分析和发展
指纹读取器的电力规格/支持的操作系统
授权超过500项,人工智能的发展将进入中国时间
如何制作电子纺织品
中国制造商小米推出了针对性价比市场的新型耳机
教育网成国内规模最大IPv6主干网
红米note4x评测:红米4X明日开卖,售价699!红米note4X 999何去何从?