首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Coobiw
掘友等级
北京大学 计算机应用技术 学硕在读
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
MiniGPT4Qwen-14B:极少量可训练参数的双语多模态大模型DeepSpeed流水线并行的踩填坑历程
MiniGPT4Qwen14B对语言模型进行了Scale Up,采用Qwen-14B-Chat模型作为底座,以获得更好的对话体验。值得一提的是,为了能在3090上训练14B~15B的不量化的模型
多模态大模型实战-DeepSpeed x MiniGPT4Qwen系列4:给Lavis带上DeepSpeed翅膀
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials,再介绍一下我踩的一些坑,然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中
多模态大模型实战-DeepSpeed x MiniGPT4Qwen系列4:给Lavis带上DeepSpeed翅膀
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials,再介绍一下我踩的一些坑,然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中
多模态大模型实战-MiniGPT4Qwen系列3:大模型训练基础技术之混合精度训练与梯度检查点踩坑
介绍大模型训练中最常用的两个技术:混合精度训练和梯度检查点,给出示例代码并以EVA ViT-G(0.99B参数)作为例子进行性能测试
多模态大模型实战-MiniGPT4Qwen系列2:回到世界原点-基于lavis和registry机制搭建更加灵活的Trainer
基于Lavis实现一个干净、灵活的Trainer,在任务、模型、数据集、scheduler上都具备可拓展性,同时相比huggingface Trainer,更加干净、去冗余!
多模态大模型实战-MiniGPT4Qwen:3090+2小时+通义千问=个人版双语多模态大模型
本项目使用Qwen-Chat作为LLM,用MiniGPT4的对齐方式,更加高效地训练了一个MLLM,名为 Minigpt4Qwen。仅需1张3090、18.8k数据,3M可训练参数和可训练数个小时即可
多模态大模型实战-MiniGPT4Qwen:3090+2小时+通义千问=个人版双语多模态大模型
本项目使用Qwen-Chat作为LLM,用MiniGPT4的对齐方式,更加高效地训练了一个MLLM,名为 Minigpt4Qwen。仅需1张3090、18.8k数据,3M可训练参数和可训练数个小时即可
个人成就
文章被点赞
6
文章被阅读
9,165
掘力值
223
关注了
1
关注者
3
收藏集
1
关注标签
23
加入于
2023-11-06