首个中文医学知识LLM:真正的赛华佗—华驼(HuaTuo)

先划重点:中文医学知识,不是「中医」。
自从 meta(原 facebook)的 llama 大语言模型发布以来,相信大家看到了许多以“驼类动物”命名的 llm。比如斯坦福用了 alpaca,伯克利用了 vicuna,joseph cheung 等开发者团队用了 guanaco。
据说南美洲的无峰驼类动物一共就是上图列出的 4 种 —— 已经被各家的大模型命名使用。
不得不承认这些以“驼类动物”命名的 llm 都很厉害,但如果,我是说如果,我拿出下面这个 llm,阁下又当如何应对?
没错,正是「华驼」。
见名知意,华驼肯定跟医学有关——这是一个基于中文医学知识的llama 微调模型。
说到这,这个 llm 的命名很难不让人拍案叫绝,将神医华佗与基于“羊驼”的大语言模型巧妙地结合在一起。
此项目开源了经过中文医学指令精调 / 指令微调 (instruct-tuning) 的 llama-7b 模型。
通过医学知识图谱和 gpt 3.5 api 构建了中文医学指令数据集,并在此基础上对 llama 进行了指令微调,提高了 llama 在医疗领域的问答效果。
据介绍,医学知识库围绕疾病、药物、检查指标等构建,字段包括并发症,高危因素,组织学检查,临床症状,药物治疗,辅助治疗等。知识库示例如下:
{“中心词”: “偏头痛”, “相关疾病”: [“妊娠合并偏头痛”, “恶寒发热”], “相关症状”: [“皮肤变硬”, “头部及眼后部疼痛并能听到连续不断的隆隆声”, “晨起头痛加重”], “所属科室”: [“中西医结合科”, “内科”], “发病部位”: [“头部”]}
然后利用 gpt3.5 接口围绕医学知识库构建问答数据,并设置了多种 prompt 形式来充分利用知识。指令微调的训练集数据示例如下:
“问题:一位年轻男性长期使用可卡因,突然出现胸痛、呕吐、出汗等症状,经检查发现心电图反映心肌急性损伤,请问可能患的是什么疾病?治疗方式是什么?” 回答: 可能患的是心肌梗塞,需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗,并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物,以防止病情加重。“
该项目提供模型的训练数据集共计八千余条,需要注意的是,虽然训练集的构建融入了知识,但是仍存在错误和不完善的地方。
基于相同的数据,项目团队还训练了医疗版本的 chatglm 模型:chatglm-6b-med。
这些模型在医疗领域的问答效果得到了显著提升,下面是不同模型的效果对比:
由此可见,指令微调在医疗领域具有很大的应用潜力。
同时,该项目还尝试将医学文献的【结论】融入多轮对话,在此基础上对 llama 进行指令微调,以进一步提高模型的实用性。
目前,项目团队只开放针对”肝癌“单个疾病训练的模型参数。未来计划发布融入文献结论的医学对话数据集,并且会针对“肝胆胰”相关 16 种疾病训练模型。这将有助于广泛应用于更多疾病的诊断和治疗建议。
下面是训练样本的示例:
华驼项目团队称下一个发布的新模型会被命名为扁鹊 (pienchueh)。


搜狗的个性化语音识别将颠覆人机交互模式
盘点那些智能手机上已退场的功能
紫光芯领跑高精尖产业创新征程,紫光云加速产业全面升级
Telegram正在使用比特币来绕过俄罗斯政府的封锁
12306网站用户信息泄露 涉及410万名旅客信息
首个中文医学知识LLM:真正的赛华佗—华驼(HuaTuo)
在windows CE系统中sDRAM硬件连接方案的介绍
BigDecimal实际开发的三坑是什么
三星拿到美方的许可令,获准继续向华为出货OLED显示面板
利用Learn Git Branching轻松学习Git
铜锡薄膜问世,可显著减缓电池的退化,抑制电极粉末化
微星MEGZ390ACE战神板主板评测 到底怎么样
蒋尚义将赴武汉弘芯任CEO
热敏打印头的原理是什么
vivo发布NEX 3 5G旗舰智能手机 无边框+64万像素
Mobvoi推出新品智能手表,搭载高通骁龙新品和血氧监测功能
零度重回无人机市场 打造复合翼无人机
中伟视界&矿山安全生产:煤矿智慧矿山ai平台建设方案,ai平台由哪几部分组成
基于sopc嵌入式文字识别系统设计
山寨与专业的区别