前言
这两天,chatgpt模型真可谓称得上是狂拽酷炫d炸天的存在了。一度登上了知乎热搜,这对科技类话题是非常难的存在。不光是做人工智能、机器学习的人关注,而是大量的各行各业从业人员都来关注这个模型,真可谓空前盛世。
我赶紧把 openai 以往的 gpt-n 系列论文又翻出来,重新学习一下,认真领会大规模预训练语言模型(large language model)的强大之处。
可能很多深度学习相关从业人员的感受和我一样,大家之前对 llm 的感受依然是,预训练+finetune,处理下游任务,依然需要大量的标注数据和人工干预,怎么突然间,chatgpt 就智能到如此地步?
接下来,我简要梳理一下 openai 的 gpt 大模型的发展历程。
一、还得从 bert 说起
2018年,自然语言处理 nlp 领域也步入了 llm 时代,谷歌出品的 bert 模型横空出世,碾压了以往的所有模型,直接在各种nlp的建模任务中取得了最佳的成绩。
bert做了什么,主要用以下例子做解释。
请各位做一个完形填空:___________和阿里、腾讯一起并成为中国互联网 bat 三巨头。
请问上述空格应该填什么?有的人回答“百度”,有的人可能觉得,“字节”也没错。但总不再可能是别的字了。
不论填什么,这里都表明,空格处填什么字,是受到上下文决定和影响的。
bert 所作的事就是从大规模的上亿的文本预料中,随机地扣掉一部分字,形成上面例子的完形填空题型,不断地学习空格处到底该填写什么。所谓语言模型,就是从大量的数据中学习复杂的上下文联系。
二、gpt 初代
与此同时,openai 早于 bert 出品了一个初代 gpt 模型。
他们大致思想是一样的。都基于 transformer 这种编码器,获取了文本内部的相互联系。
transformer结构
编解码的概念广泛应用于各个领域,在 nlp 领域,人们使用语言一般包括三个步骤:
接受听到或读到的语言 -> 大脑理解 -> 输出要说的语言。
语言是一个显式存在的东西,但大脑是如何将语言进行理解、转化和存储的,则是一个目前仍未探明的东西。
因此,大脑理解语言这个过程,就是大脑将语言编码成一种可理解、可存储形式的过程,这个过程就叫做语言的编码。
相应的,把大脑中想要表达的内容,使用语言表达出来,就叫做语言的解码。
在语言模型中,编码器和解码器都是由一个个的 transformer 组件拼接在一起形成的。
transformer编码器组成的 encoder-decoder模型
这里不展开讲 transformer 里的内部结构,仅仅讲一下 bert 和 gpt 的区别。
两者最主要的区别在于,bert 仅仅使用了 encoder 也就是编码器部分进行模型训练,gpt 仅仅使用了 decoder 部分。两者各自走上了各自的道路,根据我粗浅的理解,gpt 的decoder 模型更加适应于文本生成领域。
gpt 初代其实个人认为(当然普遍也都这么认为)略逊色于 bert,再加上宣传地不够好,影响力也就小于 bert。
我相信很多的 nlp 从业者对 llm 的理解也大都停留在此。即,本质上讲,llm 是一个非常复杂的编码器,将文本表示成一个向量表示,这个向量表示有助于解决 nlp 的任务。
三、gpt-2
自从 bert 炸街后,跟风效仿的改进模型也就越来越多了,比如 albert、roberta、ernie,bart、xlnet、t5 等等五花八门。
最初的时候,仅仅是一个完形填空任务就可以让语言模型有了极大进步,那么,给 llm 模型出其它的语言题型,应该也会对模型训练有极大的帮助。
想要出语言题型不是很简单么,什么句子打乱顺序再排序、选择题、判断题、改错题、把预测单字改成预测实体词汇等等,纷纷都可以制定数据集添加在模型的预训练里。很多模型也都是这么干的。
既然出题也可以,把各种nlp任务的数据集添加到预训练阶段当然也可以。
这个过程也和人脑很像,人脑是非常稳定和泛化的,既可以读诗歌,也可以学数学,还可以学外语,看新闻,听音乐等等,简而言之,就是一脑多用。
我们一般的 nlp 任务,文本分类模型就只能分类,分词模型就只能分词,机器翻译也就只能完成翻译这一件事,非常不灵活。
gpt-2 主要就是在 gpt 的基础上,又添加了多个任务,扩增了数据集和模型参数,又训练了一番。
gpt-2学习效果图
既然多个任务都在同一个模型上进行学习,还存在一个问题,这一个模型能承载的并不仅仅是任务本身,“汪小菲的妈是张兰”,这条文字包含的信息量是通用的,它既可以用于翻译,也可以用于分类,判断错误等等。也就是说,信息是脱离具体 nlp 任务存在的,举一反三,能够利用这条信息,在每一个 nlp 任务上都表现好,这个是 元学习(meta-learning),实际上就是语言模型的一脑多用。
四、gpt-3
大模型中的大模型
首先, gpt-3 的模型所采用的数据量之大,高达上万亿,模型参数量也十分巨大,学习之复杂,计算之繁复不说了,看图吧。
gpt-3 里的大模型计算量是 bert-base 的上千倍。统统这些都是在燃烧的金钱,真就是 all you need is money。如此巨大的模型造就了 gpt-3 在许多十分困难的 nlp 任务,诸如撰写人类难以判别的文章,甚至编写sql查询语句,react或者javascript代码上优异的表现。
首先 gpt-n 系列模型都是采用 decoder 进行训练的,也就是更加适合文本生成的形式。也就是,输入一句话,输出也是一句话。也就是对话模式。
对话
我们是如何学会中文的?通过从0岁开始,听,说,也就是对话。
我们是如何学外语的?看教材,听广播,背单词。唯独缺少了对话!正是因为缺少了对话这个高效的语言学习方式,所以我们的英语水平才如此难以提高。
对于语言模型,同理。
对话是涵盖一切nlp 任务的终极任务。从此 nlp不再需要模型建模这个过程。比如,传统 nlp 里还有序列标注这个任务,需要用到 crf 这种解码过程。在对话的世界里,这些统统都是冗余的。
其实 crf 这项技术还是蛮经典的,在深度学习这块,crf这也才过去没几年。sigh……
in-context learning
以往的预训练都是两段式的,即,首先用大规模的数据集对模型进行预训练,然后再利用下游任务的标注数据集进行 finetune,时至今日这也是绝大多数 nlp 模型任务的基本工作流程。
gpt-3 就开始颠覆这种认知了。它提出了一种 in-context 学习方式。这个词没法翻译成中文,下面举一个例子进行解释。
用户输入到 gpt-3:你觉得 jionlp 是个好用的工具吗?
gpt-3输出1:我觉得很好啊。
gpt-3输出2:jionlp是什么东西?
gpt-3输出3:你饿不饿,我给你做碗面吃……
gpt-3输出4:do you think jionlp is a good tool?
按理来讲,针对机器翻译任务,我们当然希望模型输出最后一句,针对对话任务,我们希望模型输出前两句中的任何一句。显然做碗面这个输出句子显得前言不搭后语。
这时就有了 in-context 学习,也就是,我们对模型进行引导,教会它应当输出什么内容。如果我们希望它输出翻译内容,那么,应该给模型如下输入:
用户输入到 gpt-3:请把以下中文翻译成中文:你觉得 jionlp 是个好用的工具吗?
如果想让模型回答问题:
用户输入到 gpt-3:模型模型你说说,你觉得 jionlp 是个好用的工具吗?
ok,这样模型就可以根据用户提示的情境,进行针对性的回答了。
这里,只是告知了模型如何做,最好能够给模型做个示范:
用户输入到 gpt-3:请把以下中文翻译成中文:苹果 => apple; 你觉得 jionlp 是个好用的工具吗?=>
其中 苹果翻译成 apple,是一个示范样例,用于让模型感知该输出什么。只给提示叫做 zero-shot,给一个范例叫做 one-shot,给多个范例叫做 few-shot。
范例给几个就行了,不能再给多了!一个是,咱们没那么多标注数据,另一个是,给多了不就又成了 finetune 模式了么?
在 gpt-3 的预训练阶段,也是按照这样多个任务同时学习的。比如“做数学加法,改错,翻译”同时进行。这其实就类似前段时间比较火的 prompt。
这种引导学习的方式,在超大模型上展示了惊人的效果:只需要给出一个或者几个示范样例,模型就能照猫画虎地给出正确答案。注意啊,是超大模型才可以,一般几亿参数的大模型是不行的。(我们这里没有小模型,只有大模型、超大模型、巨大模型)
这个表格彷佛在嘲讽我:哎,你没钱,你就看不着这种优质的效果,你气不气?
五、chatgpt
chargpt 模型上基本上和之前都没有太大变化,主要变化的是训练策略变了。
强化学习
几年前,alpha go 击败了柯洁,几乎可以说明,强化学习如果在适合的条件下,完全可以打败人类,逼近完美的极限。
强化学习非常像生物进化,模型在给定的环境中,不断地根据环境的惩罚和奖励(reward),拟合到一个最适应环境的状态。
nlp + 强化学习
强化学习之所以能比较容易地应用在围棋以及其它各种棋牌游戏里,原因就是因为对莫 alpha go 而言,环境就是围棋,围棋棋盘就是它的整个世界。
而几年前就有提问,nlp + 强化学习,可以做吗?怎么做呢?
底下回答一片唱衰,原因就是因为,nlp 所依赖的环境,是整个现实世界,整个世界的复杂度,远远不是一个19乘19的棋盘可以比拟的。无法设计反馈惩罚和奖励函数,即 reward 函数。除非人们一点点地人工反馈。
哎,open-ai 的 chatgpt 就把这事给干了。
不是需要人工标反馈和奖励吗?那就撒钱,找40个外包,标起来!
这种带人工操作的 reward,被称之为 rlhf(reinforcement learning from human feedback)。
具体操作过程就是下图的样子,采用强化学习的方式来对模型进行训练。已经抛弃了传统的 lm 方式。
这里重点是第二部中,如何构建一个 reward 函数,具体就是让那40名外包人员不断地从模型的输出结果中筛选,哪些是好的,哪些是低质量的,这样就可以训练得到一个 reward 模型。
通过reward 模型来评价模型的输出结果好坏。
讲真,这个 reward 模型,《黑客帝国》的母体 matrix 既视感有木有??!!
只要把预训练模型接一根管子在 reward 模型上,预训练模型就会开始像感知真实世界那样,感知reward。
由此,我们就可以得到这个把全世界都震碎的高音!(误,模型)
chatgpt 功能一览
能回答知乎上的问题
你别想耍它
能回答困难的问题
能理解乱序文本
会做高数
知道自己是程序,不会做你女票
还能处理程序 bug
六、影响
nlp 领域的影响
个人认为,nlp 领域的一些里程碑性的技术重要性排序如下:
chatgpt > word2vec > bert (纯个人看法)
chatgpt 的关注度已经很大程度让人们感觉到,什么天猫精灵、小爱同学等等人工智障的时代似乎过去了。只要模型足够大,数据足够丰富,reward 模型经过了更多的人迭代和优化,完全可以创造一个无限逼近真实世界的超级 openai 大脑。
当然,chat gpt 依然是存在回答不好的情况的,比如会重复一些词句,无法分清楚事实等等。
而且,chatgpt 目前看,它是没有在推理阶段连接外部信息的。
模型知道自己的回答边界,知道自己只是一个没有情感的回答工具。那么,试想 openai 把外部信息也导入到 chatgpt 里。
另一些影响
我看到 chatgpt 居然可以写代码,还能帮我改代码,debug,作为程序员,我不禁深深陷入了沉思。
据说,debug 程序员网站 stackoverflow,已经下场封杀 chatgpt 了。
当然,完全不仅仅是程序界。据说 gpt-4 正在做图文理解,那么,对于教师、医生、咨询师、等等等等,各行各业,是不是都是一个巨大的冲击?所谓专业领域的知识门槛,也将被模型一步踏平。到时候,可能人类真的要靠边站了,除了某些高精尖的行业精英。
有人讲 google 将被替代,我认为也就还好吧,依照google那财大气粗的样子,没准 google 此时此刻,nlp+强化学习也已经在路上了。
代小权无罪释放_未来欲进人工智能行业
5G推动数字化转型,平台赋能传统制造到智能制造
气体设备数据采集并上传到云平台进行监控和报警
HPLC通信技术初识
无人机辅以5G技术时,如何加强监控管理问题需解决
基于Transformer编码器的chatGPT模型设计
从端到云 云AI芯片的戏份越来越重
网络交换机技术是一项怎样的技术
日本三大电子巨头缘何冷漠?
延长高压电磁阀使用寿命的方法
天能控股张天任:动力电池产业将更好地实现可持续发展
360N5S评测:360N5S和红米Note4X高配版对比评测,外观、配置、性能、价格谁将主宰千元市场?
中国移动:安全可靠的5G解决方案是电网智能化升级的关键
自来水恒压供水系统如何实现远程监控?
基于STM32MP1的智能取票机应用界面方案
工业智能网关BL110应用之64:如何实现智能楼宇控制BACnet 接入金鸽MQTT云平台
最大限度地减少Ćuk调节器的排放
怎么制动电机?BLDC到底有哪些快速制动方法呢?具体怎么操作呢?
3GPP为 5G 定位扩展到更多应用场景和领域构建了基础条件
华为麒麟990 5G荣获“最佳5G芯片奖”