NLP / LLMs中的Temperature是什么?

temperature 在模型中的作用temperature 是一个超参数,可用于控制生成语言模型中生成文本的随机性和创造性。它用于调整模型的softmax输出层中预测词的概率。温度参数定义为在应用 softmax 函数之前用于调整 logits 的比例因子的倒数。
当temperature 设置为较低的值时,预测词的概率会变尖锐,这意味着选择最有可能的词的概率更高。这会产生更保守和可预测的文本,因为模型不太可能生成意想不到或不寻常的词。另一方面,当temperature 设置为较高值时,预测词的概率被拉平,这意味着所有词被选择的可能性更大。这会产生更有创意和多样化的文本,因为模型更有可能生成不寻常或意想不到的词。
温度参数通常设置为 0.1 到 1.0 之间的值,具体取决于生成文本中所需的随机性和创造性水平。温度值为 1.0 对应于标准 softmax 函数,其中预测词的概率未按比例缩放。
一般来说,temperature 越低,gpt-3越有可能选择出现概率较高的单词。当我们想要gpt-3解释概念时,它特别有用,因为答案只有一个。如果想要产生想法或完成一个故事,temperature 设置的更大会给我们带来更多的多样性。
比如说以下提示:
prompt: “the quick brown fox”
temperature = 0.1:
“the quick brown fox jumped over the lazy dog. the quick brown fox jumped over the lazy dog. the quick brown fox jumped over the lazy dog.”
temperature = 0.5:
“the quick brown fox jumped over the lazy dog. the lazy cat was not impressed. the quick brown fox ran away.”
temperature = 1.0:
“the quick brown fox jumped over the lazy dog. suddenly, a flock of birds flew overhead, causing the fox to stop in its tracks. it looked up at the sky, wondering where they were going.”
可以看到,temperature 对生成文本的质量和创造性有重大影响。低值生成更可预测和重复的文本,而高值生成更多样化和创造性的文本。
temperature 的数学原理解释神经网络的输出是词汇表中每个单词(实际上是标记)的概率分布,告诉它这些单词中任何一个可能跟随输入文本的可能性。
该概率分布由softmax函数计算:
如果将temperature 参数(t)添加到softmax函数,则公式如下:
更深入的解释temperature 参数:
如果当t趋于无穷时会发生什么。每个x_i / t都会趋于0,从而得到一个均匀分布。也就是说概率分布变得更 “平”, 这会导致结果更随机。
当t很小(比如0.1)时会发生什么。每个x_i / t之间的差异变得更加明显(例如5比1变成50比10),这样概率分布变得“更尖”,也就是说结果会更确定。
总结temperature 参数是语言生成模型中一个重要的超参数,可用于控制生成文本的随机性和创造性。通过调整该参数,可以生成更保守或更有创意的文本,虽然temperature 参数是生成高质量文本的强大工具,但需要注意的是,它并不能提高生成语言模型的性能。因为生成文本的质量高度依赖于训练数据的质量、模型的架构以及其他超参数,如学习率和批处理大小。在设计和训练生成语言模型时,必须考虑所有这些因素。
另外就是temperature 参数可能并不总是提高生成文本的质量,特别是在训练数据有限或有噪声的情况下。在这种情况下,其他技术,如数据增强、正则化或迁移学习可能更有效地提高模型的性能。
最后temperature 可以控制语言生成模型的行为。通过适当的调整,可以得到我们期望的结果。比如说生成更确定的答案可以降低该值,而生成更发散和创造性的答案可以提高该值,所以尝试一下不同的值,看看这些更改对不的提示有什么影响,这会帮助我们更好的获得想要的结果。

华为畅享9Plus评测 一款不折不扣的秀外慧中的年轻实力派
浅谈三菱PLC智能模块在线监视功能
韩台面板结束折旧利润增加:内地面板业雪上加霜
移远通信推出全新Wi-Fi HaLow模组,助力解决更广泛的室内外物联网应用需求
无线蓝牙耳机排行,无线蓝牙耳机音质排行
NLP / LLMs中的Temperature是什么?
工业级芯片 | TMI8920/8940D集成化优势,替代分立器
连拓精密科技致力于让产品的气密性检测更精准
OrCam--一款让盲人“看得见”的视觉辅助
关于电子行业未来发展的分析和介绍
苹果已经和Adobe达成了协议,2019年为iPad发布完整版Photoshop
OTN和PTN联合组网模式技术分析及注意事项
海南智能电网2019-2021年建设方案出炉
PIN针3D视觉检测技术:精确、快速、智能的品质守护者
一加或在下周一120Hz显示屏 OnePlus 8系列有望搭载
iPhone XR二代渲染图曝光机身背部的双摄像头采用了类似浴霸的设计
神经网络为何无法实现人类的推理并产生意识?
P.LEO产FIW系列纳入全球首个Class F绝缘系统
利用 NVIDIA Jetson 将 AI 学习延展至边缘
专为IoT设计的RISC-V核心能否胜过ARM Cortex-M?