2023年发布的25个开源大型语言模型总结

大型语言模型(llm)是一种人工智能(ai)，在大量文本和代码数据集上进行训练。它们可以用于各种任务，包括生成文本、翻译语言和编写不同类型的创意内容。
今年开始，人们对开源llm越来越感兴趣。这些模型是在开源许可下发布的，这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以尝试llm，并为它们开发新的应用程序。使用开源llm有很多好处。首先它们通常比专业的llm更价便宜。并且它们更加透明，这意味着研究人员可以研究它们是如何工作的以及它们是如何做出决定的。最主要的是它们更加灵活，可以针对不同的任务进行定制。
本文总结了当前可用的开源llm的全部（几乎全部）列表，以及有关其许可选项和源代码存储库的信息，希望对你有所帮助。
▎sail 7b
基于llama的搜索增强
参数：7b
许可类型：gpl-3.0
发布日期：2023年5月
论文：sail — search augmented instruction learning
▎guanaco
采用高效微调方法qlora发布的llm模型
参数：65b
许可类型：mit
发布日期：2023年5月
论文：qlora — efficient finetuning of quantized llms
▎rmkv
与transformer的llm性能相当的rnn模型
参数：100m–14b
许可类型：apache 2.0
发布日期：2023年5月
论文：scaling rnn to 1.5b and reach transformer lm performance
▎mpt-7b
mosaicml的基础系列模型
参数：7b
许可类型：apache 2.0
发布日期：2023年5月
论文：mpt-7b — a new standard for open-source, commercially usable llms
▎openllama
在redpajama数据集上训练的meta ai的llama 7b的另一个开源复制。
参数：3,7b
许可类型：apache 2.0
发布日期：2023年5月
论文：meet openllama — an open-source reproduction of meta ai’s llama large language model
▎redpajama-incite
基于redpajama数据集上训练的指令调整和聊天pythia模型。
参数：3b, 7b
许可类型：apache 2.0
发布日期：2023年5月
论文：redpajama-incite family of models including base, instruction-tuned & chat models
▎h2ogpt
h2o的微调框架和文档问答功能的聊天机器人ui
参数：12b,30b
许可类型：apache 2.0
发布日期：2023年5月
论文：building the world’s best open-source large language model：h2o.ai’s journey
▎fastchat-t5
通过微调flan-t5-xl对从sharegpt收集的用户共享对话进行训练的聊天机器人
参数：3b
许可类型：apache 2.0
发布日期：2023年4月
论文：fastchat-t5 — our compact and commercial-friendly chatbot!
▎gpt4all
用于训练和部署强大的定制llm的完整工具系统
参数：7–13b
许可类型：mit
发布日期：2023年4月
论文：gpt4all：an ecosystem of open-source on-edge large language models.
▎minigpt-4
基于blip-2和vicuna llm的visual llm模型
参数：13b
许可类型：bsd-3-clause
发布日期：2023年4月
论文：minigpt-4 — enhancing vision-language understanding withadvanced large language models
▎stablelm
stablelm的llm模型系列
参数：7b
许可类型：cc by-nc-sa-4.0
发布日期：2023年4月
论文：stability ai launches the first of its stablelm suite of language models
▎bloomz
通过多任务微调实现跨语言泛化
参数：176b
许可类型：apache 2.0
发布日期：2023年4月
论文：cross-lingual generalization through multitask finetuning
▎dolly
pythia 12b llm在databricks ml平台上训练的模型
参数：12b
许可类型：apache 2.0
发布日期：2023年4月
论文：free dolly — introducing the world’s first truly open instruction-tuned llm
▎baize chatbot
基于llama的开源聊天模型
参数：30b
许可类型：gpl-3.0 license
发布日期：2023年4月
论文：baize — an open-source chat model with parameter-efficient tuning on self-chat data
▎colossalchat
由colossalai开源发布的一个完整的rlhf流程训练的模型
参数：n/a
许可类型：apache 2.0
发布日期：2023年4月
论文：colossalchat — an open-source solution for cloning chatgpt with a complete rlhf pipeline
▎lit llama
来自lightning ai的llama的开源实现
参数：13b
许可类型：apache 2.0
发布日期：2023年4月
论文：why we’re building lit-llama
▎cerebras-gpt
开放的，计算效率高的，大型语言模型
参数：111m-13b
许可类型：apache 2.0
发布日期：2023年3月
论文：cerebras-gpt — open compute-optimal language modelstrained on the cerebras wafer-scale cluster
▎open flamingo
deepmind的flamingo模型的开源实现
参数：9b
许可类型：mit license
发布日期：2023年3月
论文：openflamingo — an open-source framework for training vision-language models with in-context learning
▎chat glm
使用开放式双语(中英文)双向密集预训练模型
参数：6b-130b
许可类型：apache 2.0
发布日期：2023年3月
论文：glm-130b：an open bilingual pre-trained model
▎dlite
通过微调alpaca数据集上最小的gpt-2模型
参数：124m
许可类型：apache 2.0
发布日期：2023年3月
论文：introducing dlite, a lightweight chatgpt-like model based on dolly
▎alpaca 7b
描述：斯坦福大学发布的指令遵循llama模型
参数：7b
许可类型：apache 2.0
发布日期：2023年3月
论文：alpaca — a strong, replicable instruction-following model
▎flan ul2
在预训练的ul2检查点上训练flan 20b模型。
参数：20b
许可类型：mit license
发布日期：2023年3月
论文：a new open source flan 20b with ul2
▎flan-t5
t5在各种数据集上的指令微调，提高预训练语言模型的可用性
参数：60m–11b
许可类型：apache 2.0
发布日期：2023年2月
论文：scaling instruction-finetuned language models
总结
最后再补充2个刚刚发布的模型，一个是llama-2，这个我们文章也在前几天介绍了微调和使用的方法。另外一个就是昨天刚看到的新闻，stabilityai发布的 freewilly2，它是在 llama2 70b 上微调的结果，目前在open_llm_leaderboard上排第一。开源大型语言模型正在迅速发展，开源社区发布了许多模型。这些模型为开发人员、研究人员和爱好者提供了一个非常大机会，可以在没有专有系统的情况下试验尖端的语言技术。随着越来越多的组织和个人为这些模型的发展做出贡献，我们可以期待看到更强大、更容易使用和更创新的语言模型，它们将塑造自然语言处理的未来。
作者：manikanth

华为荣耀9和魅族pro6plus谁更好？华为荣耀9和魅族pro6plus对比,pro6plus不支持全网通是硬伤
5G将促进VR/AR技术在娱乐行业的应用
共集电极放大电路分析
废旧电路板线路板浑身是宝，你知道吗？
宝砾微MOS管 PL0807N10 DFN5*6 100V/74.4A N沟道MOSFET
2023年发布的25个开源大型语言模型总结
如何实现景区的WiFi网络全面覆盖
RFID：金融支付、智慧零售、交通管理是主要的应用方向
鼎盛合|以CSE7761为例谈国产电量计芯片发展
STM32定时器溢出的工作原理是什么？
电梯曳引机的原理与测试方案
成也中移动_败也中移动！国民技术与中国移动的合作分析
2023 SEMI中国会员日，格创东智：促进产业链发展坚持长期主义和全球化
智能快件箱等无人配送模式将是邮政快递末端服务的发展趋势
电容在直流电路中起什么作用
凌智电子：小凌派视频教程正式上线，持续更新中...
小米MIX Alpha采用了环绕屏设计拥有无限的想象空间
企业数字化转型的六个“法门”
AD9361+ ZYNQ软件无线电平台搭建实例
传智能手机将全体涨价平均达到2338元