基于Transformer编码器的chatGPT模型设计

前言
这两天，chatgpt模型真可谓称得上是狂拽酷炫d炸天的存在了。一度登上了知乎热搜，这对科技类话题是非常难的存在。不光是做人工智能、机器学习的人关注，而是大量的各行各业从业人员都来关注这个模型，真可谓空前盛世。
我赶紧把 openai 以往的 gpt-n 系列论文又翻出来，重新学习一下，认真领会大规模预训练语言模型（large language model）的强大之处。
可能很多深度学习相关从业人员的感受和我一样，大家之前对 llm 的感受依然是，预训练+finetune，处理下游任务，依然需要大量的标注数据和人工干预，怎么突然间，chatgpt 就智能到如此地步？
接下来，我简要梳理一下 openai 的 gpt 大模型的发展历程。
一、还得从 bert 说起
2018年，自然语言处理 nlp 领域也步入了 llm 时代，谷歌出品的 bert 模型横空出世，碾压了以往的所有模型，直接在各种nlp的建模任务中取得了最佳的成绩。
bert做了什么，主要用以下例子做解释。
请各位做一个完形填空：___________和阿里、腾讯一起并成为中国互联网 bat 三巨头。
请问上述空格应该填什么？有的人回答“百度”，有的人可能觉得，“字节”也没错。但总不再可能是别的字了。
不论填什么，这里都表明，空格处填什么字，是受到上下文决定和影响的。
bert 所作的事就是从大规模的上亿的文本预料中，随机地扣掉一部分字，形成上面例子的完形填空题型，不断地学习空格处到底该填写什么。所谓语言模型，就是从大量的数据中学习复杂的上下文联系。
二、gpt 初代
与此同时，openai 早于 bert 出品了一个初代 gpt 模型。
他们大致思想是一样的。都基于 transformer 这种编码器，获取了文本内部的相互联系。
transformer结构
编解码的概念广泛应用于各个领域，在 nlp 领域，人们使用语言一般包括三个步骤：
接受听到或读到的语言 -> 大脑理解 -> 输出要说的语言。
语言是一个显式存在的东西，但大脑是如何将语言进行理解、转化和存储的，则是一个目前仍未探明的东西。
因此，大脑理解语言这个过程，就是大脑将语言编码成一种可理解、可存储形式的过程，这个过程就叫做语言的编码。
相应的，把大脑中想要表达的内容，使用语言表达出来，就叫做语言的解码。
在语言模型中，编码器和解码器都是由一个个的 transformer 组件拼接在一起形成的。
transformer编码器组成的 encoder-decoder模型
这里不展开讲 transformer 里的内部结构，仅仅讲一下 bert 和 gpt 的区别。
两者最主要的区别在于，bert 仅仅使用了 encoder 也就是编码器部分进行模型训练，gpt 仅仅使用了 decoder 部分。两者各自走上了各自的道路，根据我粗浅的理解，gpt 的decoder 模型更加适应于文本生成领域。
gpt 初代其实个人认为（当然普遍也都这么认为）略逊色于 bert，再加上宣传地不够好，影响力也就小于 bert。
我相信很多的 nlp 从业者对 llm 的理解也大都停留在此。即，本质上讲，llm 是一个非常复杂的编码器，将文本表示成一个向量表示，这个向量表示有助于解决 nlp 的任务。
三、gpt-2
自从 bert 炸街后，跟风效仿的改进模型也就越来越多了，比如 albert、roberta、ernie，bart、xlnet、t5 等等五花八门。
最初的时候，仅仅是一个完形填空任务就可以让语言模型有了极大进步，那么，给 llm 模型出其它的语言题型，应该也会对模型训练有极大的帮助。
想要出语言题型不是很简单么，什么句子打乱顺序再排序、选择题、判断题、改错题、把预测单字改成预测实体词汇等等，纷纷都可以制定数据集添加在模型的预训练里。很多模型也都是这么干的。
既然出题也可以，把各种nlp任务的数据集添加到预训练阶段当然也可以。
这个过程也和人脑很像，人脑是非常稳定和泛化的，既可以读诗歌，也可以学数学，还可以学外语，看新闻，听音乐等等，简而言之，就是一脑多用。
我们一般的 nlp 任务，文本分类模型就只能分类，分词模型就只能分词，机器翻译也就只能完成翻译这一件事，非常不灵活。
gpt-2 主要就是在 gpt 的基础上，又添加了多个任务，扩增了数据集和模型参数，又训练了一番。
gpt-2学习效果图
既然多个任务都在同一个模型上进行学习，还存在一个问题，这一个模型能承载的并不仅仅是任务本身，“汪小菲的妈是张兰”，这条文字包含的信息量是通用的，它既可以用于翻译，也可以用于分类，判断错误等等。也就是说，信息是脱离具体 nlp 任务存在的，举一反三，能够利用这条信息，在每一个 nlp 任务上都表现好，这个是元学习（meta-learning），实际上就是语言模型的一脑多用。
四、gpt-3
大模型中的大模型
首先， gpt-3 的模型所采用的数据量之大，高达上万亿，模型参数量也十分巨大，学习之复杂，计算之繁复不说了，看图吧。
gpt-3 里的大模型计算量是 bert-base 的上千倍。统统这些都是在燃烧的金钱，真就是 all you need is money。如此巨大的模型造就了 gpt-3 在许多十分困难的 nlp 任务，诸如撰写人类难以判别的文章，甚至编写sql查询语句，react或者javascript代码上优异的表现。
首先 gpt-n 系列模型都是采用 decoder 进行训练的，也就是更加适合文本生成的形式。也就是，输入一句话，输出也是一句话。也就是对话模式。
对话
我们是如何学会中文的？通过从0岁开始，听，说，也就是对话。
我们是如何学外语的？看教材，听广播，背单词。唯独缺少了对话！正是因为缺少了对话这个高效的语言学习方式，所以我们的英语水平才如此难以提高。
对于语言模型，同理。
对话是涵盖一切nlp 任务的终极任务。从此 nlp不再需要模型建模这个过程。比如，传统 nlp 里还有序列标注这个任务，需要用到 crf 这种解码过程。在对话的世界里，这些统统都是冗余的。
其实 crf 这项技术还是蛮经典的，在深度学习这块，crf这也才过去没几年。sigh……
in-context learning
以往的预训练都是两段式的，即，首先用大规模的数据集对模型进行预训练，然后再利用下游任务的标注数据集进行 finetune，时至今日这也是绝大多数 nlp 模型任务的基本工作流程。
gpt-3 就开始颠覆这种认知了。它提出了一种 in-context 学习方式。这个词没法翻译成中文，下面举一个例子进行解释。
用户输入到 gpt-3：你觉得 jionlp 是个好用的工具吗？
gpt-3输出1：我觉得很好啊。
gpt-3输出2：jionlp是什么东西？
gpt-3输出3：你饿不饿，我给你做碗面吃……
gpt-3输出4：do you think jionlp is a good tool?
按理来讲，针对机器翻译任务，我们当然希望模型输出最后一句，针对对话任务，我们希望模型输出前两句中的任何一句。显然做碗面这个输出句子显得前言不搭后语。
这时就有了 in-context 学习，也就是，我们对模型进行引导，教会它应当输出什么内容。如果我们希望它输出翻译内容，那么，应该给模型如下输入：
用户输入到 gpt-3：请把以下中文翻译成中文：你觉得 jionlp 是个好用的工具吗？
如果想让模型回答问题：
用户输入到 gpt-3：模型模型你说说，你觉得 jionlp 是个好用的工具吗？
ok，这样模型就可以根据用户提示的情境，进行针对性的回答了。
这里，只是告知了模型如何做，最好能够给模型做个示范：
用户输入到 gpt-3：请把以下中文翻译成中文：苹果 => apple; 你觉得 jionlp 是个好用的工具吗？=>
其中苹果翻译成 apple，是一个示范样例，用于让模型感知该输出什么。只给提示叫做 zero-shot，给一个范例叫做 one-shot，给多个范例叫做 few-shot。
范例给几个就行了，不能再给多了！一个是，咱们没那么多标注数据，另一个是，给多了不就又成了 finetune 模式了么？
在 gpt-3 的预训练阶段，也是按照这样多个任务同时学习的。比如“做数学加法，改错，翻译”同时进行。这其实就类似前段时间比较火的 prompt。
这种引导学习的方式，在超大模型上展示了惊人的效果：只需要给出一个或者几个示范样例，模型就能照猫画虎地给出正确答案。注意啊，是超大模型才可以，一般几亿参数的大模型是不行的。（我们这里没有小模型，只有大模型、超大模型、巨大模型）
这个表格彷佛在嘲讽我：哎，你没钱，你就看不着这种优质的效果，你气不气？
五、chatgpt
chargpt 模型上基本上和之前都没有太大变化，主要变化的是训练策略变了。
强化学习
几年前，alpha go 击败了柯洁，几乎可以说明，强化学习如果在适合的条件下，完全可以打败人类，逼近完美的极限。
强化学习非常像生物进化，模型在给定的环境中，不断地根据环境的惩罚和奖励（reward），拟合到一个最适应环境的状态。
nlp + 强化学习
强化学习之所以能比较容易地应用在围棋以及其它各种棋牌游戏里，原因就是因为对莫 alpha go 而言，环境就是围棋，围棋棋盘就是它的整个世界。
而几年前就有提问，nlp + 强化学习，可以做吗？怎么做呢？
底下回答一片唱衰，原因就是因为，nlp 所依赖的环境，是整个现实世界，整个世界的复杂度，远远不是一个19乘19的棋盘可以比拟的。无法设计反馈惩罚和奖励函数，即 reward 函数。除非人们一点点地人工反馈。
哎，open-ai 的 chatgpt 就把这事给干了。
不是需要人工标反馈和奖励吗？那就撒钱，找40个外包，标起来！
这种带人工操作的 reward，被称之为 rlhf（reinforcement learning from human feedback）。
具体操作过程就是下图的样子，采用强化学习的方式来对模型进行训练。已经抛弃了传统的 lm 方式。
这里重点是第二部中，如何构建一个 reward 函数，具体就是让那40名外包人员不断地从模型的输出结果中筛选，哪些是好的，哪些是低质量的，这样就可以训练得到一个 reward 模型。
通过reward 模型来评价模型的输出结果好坏。
讲真，这个 reward 模型，《黑客帝国》的母体 matrix 既视感有木有？？！！
只要把预训练模型接一根管子在 reward 模型上，预训练模型就会开始像感知真实世界那样，感知reward。
由此，我们就可以得到这个把全世界都震碎的高音！（误，模型）
chatgpt 功能一览
能回答知乎上的问题
你别想耍它
能回答困难的问题
能理解乱序文本
会做高数
知道自己是程序，不会做你女票
还能处理程序 bug
六、影响
nlp 领域的影响
个人认为，nlp 领域的一些里程碑性的技术重要性排序如下：
chatgpt > word2vec > bert （纯个人看法）
chatgpt 的关注度已经很大程度让人们感觉到，什么天猫精灵、小爱同学等等人工智障的时代似乎过去了。只要模型足够大，数据足够丰富，reward 模型经过了更多的人迭代和优化，完全可以创造一个无限逼近真实世界的超级 openai 大脑。
当然，chat gpt 依然是存在回答不好的情况的，比如会重复一些词句，无法分清楚事实等等。
而且，chatgpt 目前看，它是没有在推理阶段连接外部信息的。
模型知道自己的回答边界，知道自己只是一个没有情感的回答工具。那么，试想 openai 把外部信息也导入到 chatgpt 里。
另一些影响
我看到 chatgpt 居然可以写代码，还能帮我改代码，debug，作为程序员，我不禁深深陷入了沉思。
据说，debug 程序员网站 stackoverflow，已经下场封杀 chatgpt 了。
当然，完全不仅仅是程序界。据说 gpt-4 正在做图文理解，那么，对于教师、医生、咨询师、等等等等，各行各业，是不是都是一个巨大的冲击？所谓专业领域的知识门槛，也将被模型一步踏平。到时候，可能人类真的要靠边站了，除了某些高精尖的行业精英。
有人讲 google 将被替代，我认为也就还好吧，依照google那财大气粗的样子，没准 google 此时此刻，nlp+强化学习也已经在路上了。

代小权无罪释放_未来欲进人工智能行业
5G推动数字化转型，平台赋能传统制造到智能制造
气体设备数据采集并上传到云平台进行监控和报警
HPLC通信技术初识
无人机辅以5G技术时，如何加强监控管理问题需解决
基于Transformer编码器的chatGPT模型设计
从端到云云AI芯片的戏份越来越重
网络交换机技术是一项怎样的技术
日本三大电子巨头缘何冷漠？
延长高压电磁阀使用寿命的方法
天能控股张天任:动力电池产业将更好地实现可持续发展
360N5S评测：360N5S和红米Note4X高配版对比评测，外观、配置、性能、价格谁将主宰千元市场？
中国移动：安全可靠的5G解决方案是电网智能化升级的关键
自来水恒压供水系统如何实现远程监控？
基于STM32MP1的智能取票机应用界面方案
工业智能网关BL110应用之64：如何实现智能楼宇控制BACnet 接入金鸽MQTT云平台
最大限度地减少Ćuk调节器的排放
怎么制动电机？BLDC到底有哪些快速制动方法呢？具体怎么操作呢？
3GPP为 5G 定位扩展到更多应用场景和领域构建了基础条件
华为麒麟990 5G荣获“最佳5G芯片奖”