【微调培训】VisualGLM & XrayGLM：从「模型结构」到「微调实...

admin · 发表于 2023-6-25 17:31:28

继 GPT-4 发布之后，多模态正成为大模型研究和应用的主流趋势之一。
为了促进这一领域的迅速发展，近期智谱AI 和清华大学 KEG 实验室开源了基于 ChatGLM-6B 的多模态对话模型 VisualGLM-6B。开源之后，一方面大家迅速部署了该模型，并发出许多有趣的demo：

清华开源图文对话大模型！表情包解读有一手，奇怪的benchmark增加了（[color=var(--weui-LINK)]来源：量子位）另一方面，则有不少高校和开发者基于 VisualGLM 微调出具有使用价值的项目，其中尤为突出的包括由澳门理工大学团队开发的 XrayGLM —— 一个能读X光片的大模型：

为了让开发者更加容易地理解 VisualGLM，并能够在自己机器上部署和微调 VisualGLM，以开发出适用于自己领域的多模态大模型，我们邀请了 VisualGLM 的作者以及 XrayGLM 的作者来给我们从头讲解相关内容，并做详细的代码实践。
作为能够理解图像的中文开源对话模型，VisualGLM 目前仍处于 v1 版本，仍然有相当多的局限性。这一方面，要求我们加快研发速度；另一方面，也离不开开发者社区共同建设。我们邀请大家一起观看本次「微调培训」，并希望能微调出更多有趣且有用的多模态大模型。

培训时间：2023/5/30 19:00-21:30腾讯会议：677-121-000

微调培训主题

课程 1 - VisualGLM：理论、部署、微调

讲师：丁铭项目简介：

VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于ChatGLM-6B，具有 62 亿参数；图像部分通过训练BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。

VisualGLM-6B 依靠来自于CogView数据集的30M高质量中文图文对，与300M经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间；之后的微调阶段，模型在长视觉问答数据上训练，以生成符合人类偏好的答案。

VisualGLM-6B 由SwissArmyTransformer(简称sat) 库训练，这是一个支持Transformer灵活修改、训练的工具库，支持Lora、P-tuning等参数高效微调方法。本项目提供了符合用户习惯的huggingface接口，也提供了基于sat的接口。

结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4量化级别下最低只需8.7G显存）。

项目地址：

https://github.com/THUDM/VisualGLM-6B

课程 2 - XrayGLM：原理、数据、微调

讲师：王荣胜项目简介：

最近，通用领域的大语言模型 (LLM)，例如 ChatGPT，在遵循指令和产生类似人类响应方面取得了显著的成功，这种成功间接促进了多模态大模型的研究和发展，如通用领域的多模态大模型MiniGPT-4、mPLUG-Owl、Multimodal-GPT和LLaVA 然而，此类多模态大模型却很少出现在医学领域的研究中，阻碍了相关研究发展。visual-med-alpaca虽然在医学多模态大模型方面做出了一些很有成效的工作，然而其数据为英文诊断报告，不利于促进中文领域医学多模态大模型的研究发展。为此，我们开发了XrayGLM以解决上述问题。XrayGLM在医学影像诊断和多轮交互对话上显示出了非凡的潜力。

项目链接：

https://github.com/WangRongsheng/XrayGLM

引用原文：https://mp.weixin.qq.com/s/xdQZR0XIpqcwiOYRjmDSvA