自然语言处理是一项利用计算机和软件获取人类语言(书面或口语)含义的技术。
什么是自然语言处理?
自然语言处理(nlp)使用 ai 处理和分析文本或语音数据,以便理解和解释内容、对内容进行分类和/或从内容中获得见解。
nlp 中包含自然语言生成(nlg),它会使用计算机创建人类语言文本。此外,自然语言理解(nlu)会录入文本,理解上下文和意图,然后生成智能回复。
垃圾邮件过滤程序、拼写检查程序、语法检查程序、自动更正、语言翻译、情感分析、语义搜索等都属于 nlp 。基于 transformer 架构的新深度学习(dl)方法的出现,为 nlp 技术的性能和功能带来了革命性的变化。现在,先进的 nlp 模型已成为现代搜索引擎、语音助手和聊天机器人的核心。这些应用程序在自动处理日常订单、路由查询和回答常见问题时也变得日益纯熟。
为什么选择 nlp?
nlp 的应用已相当广泛,并有望以几何级数增长。据一项研究调查估计,在全球市场中,与自然语言处理相关的产品和服务将在 2025 年增长到 430 亿美元;而 2017 年时,这一数字为 30 亿美元。这一惊人的 14 倍增长也证明了自然语言处理解决方案的广泛应用。
进一步推动这一增长的是,一个组织内仅有 15% 的数据存储在企业数据库中这一事实。这些数据包括文本、电子邮件、会议笔记、电话转录等。自然语言处理有望释放隐藏在所有这些数据中的业务价值,使其像存储数据一样对业务决策者发挥作用。
nlp 的工作原理是什么?
机器学习(ml)是推动当今大多数自然语言处理解决方案的引擎,并将推动它们进一步发展。这些系统使用 nlp 算法来理解词语的使用方式。它们从书籍、短语和惯用语中提取所有信息后,通过 nlp 识别词语和短语之间的模式和关系,来“学习”理解人类语言。
通常,在 nlp 应用中,会使用词嵌入等技术将输入文本转换为词向量(一个词的数学表征)。借助此技术,在将句子中的每个词输入到深度学习模型(例如 rnn 、lstm 或 transformer)前将其翻译成一组数字,以便理解上下文。神经网络在进行自我训练时,这些数字会随着时间的推移而发生变化,为每个词编码语义和上下文信息等独特属性。这些 dl 模型为特定语言任务(例如下一词语预测和文本摘要)提供适当的输出,这些任务用于生成输出序列。
但是,词嵌入等文本编码机制可能会为捕获细微差别带来挑战。例如,bass fish 和 bass player 具有相同的表征。在对长段落进行编码时,它们还可能在结尾丢失掉文章开头获取的上下文。bert(bidirectional encoder representations from transformers)是深度双向的,能够比其他文本编码机制更好地理解和保留上下文。训练语言模型时,遭遇的一个关键挑战是缺少标记数据。bert 在无监督任务上接受训练,通常使用书籍语料库、英语维基百科等的非结构化数据集。
gpu:加速 nlp
让计算机理解人类语言及所有细微差别,并做出适当的反应,这是 ai 研究人员长期以来的追求。但是,在采用加速计算的现代 ai 技术出现之前,构建具有真正自然语言处理(nlp)功能的系统是无法实现的。
一个由数百个核心组成的 gpu,可以并行处理数千个线程。gpu 已成为训练深度学习模型和执行推理的首选平台,因为它们的性能比纯 cpu 平台高 10 倍。
自然语言处理中近年来不断取得的进步和突破是驱动 nlp 增长的一个因素,其中重要的是部署 gpu 来处理日渐庞大且高度复杂的语言模型。
像 bert 这样基于 nlp transformer 的深度学习模型不需要按顺序处理连续数据,与 rnn 相比,可以在 gpu 上实现更多的并行化,并减少训练时间。bert 使用无监督式学习方法的能力、使用预训练模型进行迁移学习的能力,以及使用 gpu 进行加速的能力,均使其在行业中得到广泛应用。
对支持 gpu 的模型经过快速训练和优化后,语音辅助应用程序中的响应时间从数十秒缩短到几毫秒。这使得此类计算机辅助交互尽可能地接近“自然”。
nlp 用例
| 初创公司
自然语言处理应用在过去十年呈爆炸式增长,因为由 gpu 驱动的递归神经网络的改进提供了性能更好的人工智能。这使得初创公司得以提供语音服务、语言教师和聊天机器人等服务。
| 医疗健康
医疗健康面临的困难之一是难以获得。打医生办公室电话并一直等待的情况十分常见,与索赔代表联系可能同样困难。通过实施 nlp 来训练聊天机器人是医疗健康行业的一项新兴技术,可以解决医疗专业人员的短缺问题,并开创与患者的沟通渠道。
nlp 的另一个重要的医疗健康应用程序是生物医学文本挖掘(通常称为 bionlp)。鉴于生物文献数量众多,以及生物医学出版速度不断提高,自然语言处理是一个关键的工具,可以在已发表的研究中提取信息,推动生物医学领域的知识进步。这非常有助于药物研发和疾病诊断。
| 金融服务
nlp 是为金融服务公司构建更好的聊天机器人和 ai 助理的关键组成部分。在众多用于基于 nlp 的应用程序的语言模型中,bert 已成为机器学习领域 nlp 的领军者及语言模型。借助 ai ,nvidia 近期打破了 bert 训练速度的记录,有助于释放未来几年内在线提供的数十亿预期对话式 ai 服务的潜力,使其达到人类水平的理解能力。例如,银行可以使用 nlp 来评估信用记录很少或没有信用记录的客户信誉。
| 零售
除了医疗健康外,聊天机器人技术还常用于零售应用程序,能够准确分析客户查询,并生成回复或建议。这可简化客户流程,并提高商店运营效率。nlp 还用于文本挖掘客户反馈和情感分析。
加速 ai 和 nlp 的 nvidia gpu
借助 nvidia gpu 和 cuda-x ai 库,可快速训练和优化大量的先进语言模型,从而在几毫秒或几千分之一秒内运行推理。这是一项重大进步,可以结束快速 ai 模型与大型复杂 ai 模型之间的权衡。
nvidia 的 ai 平台率先将 bert 的训练时间控制在一小时之内,并在 2 毫秒多一点的时间内完成 ai 推理。在与复杂语言模型协作时,nvidia gpu 的并行处理能力和 tensor core 架构可实现更高的吞吐量和可扩展性,从而为 bert 的训练和推理提供优异的性能。借助这种突破性的性能水平,开发者能够为大型应用程序应用先进的语言理解技术,供全球数亿消费者使用。
早期采用 nvidia 性能提升技术的公司包括 microsoft 以及全球一些最具创新性的初创公司。这些组织借助 nvidia 平台为客户开发高度直观、响应即时且基于语言的服务。
原文标题:nvidia 大讲堂 | 什么是自然语言处理?
文章出处:【微信公众号:nvidia英伟达】欢迎添加关注!文章转载请注明出处。
c语言二维数组如何初始化为0
新品 | 采用iMOTION™ IPM IMI111T-026H高效风机控制参考板
高通积极在4G芯片逐渐与华为建立合作
了解MEMS硅芯片的常见规格
量子通信安全的原理
NLP的工作原理是什么 有哪些用例
电池的历史
智能家居的行业分析
电动车真的环保吗?
物联网让温室大棚变得“智慧”
iphone8什么时候上市?iphone8最新消息:iphone8彻底曝光!Touch ID内置全面屏!
MS5607与MS5611气压传感器怎么选择
为汽车提供电源蓄电池突然爆炸 上盖被炸飞
或许 你的AI技能正在“贬值”
北京君微处理器芯片新产品正进行功能验证和量产投片工作
一文看懂焊接电弧的静特性
2019年L2级自动驾驶技术将在新车上广泛渗透
JBLGO2音乐金砖二代音箱评测 任何场景下都可以轻松享受音乐
一起来掌握五项有关高低温交变试验箱处理方法
替代GSV2201替代AG9411芯片|Typec转HDMI拓展坞| ASL代理商CS5366原理图