首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Coobiw
掘友等级
北京大学 计算机应用技术 学硕在读
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
MiniGPT4Qwen-14B:极少量可训练参数的双语多模态大模型DeepSpeed流水线并行的踩填坑历程
MiniGPT4Qwen14B对语言模型进行了Scale Up,采用Qwen-14B-Chat模型作为底座,以获得更好的对话体验。值得一提的是,为了能在3090上训练14B~15B的不量化的模型
多模态大模型实战-DeepSpeed x MiniGPT4Qwen系列4:给Lavis带上DeepSpeed翅膀
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials,再介绍一下我踩的一些坑,然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中
多模态大模型实战-DeepSpeed x MiniGPT4Qwen系列4:给Lavis带上DeepSpeed翅膀
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials,再介绍一下我踩的一些坑,然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中
多模态大模型实战-MiniGPT4Qwen系列3:大模型训练基础技术之混合精度训练与梯度检查点踩坑
介绍大模型训练中最常用的两个技术:混合精度训练和梯度检查点,给出示例代码并以EVA ViT-G(0.99B参数)作为例子进行性能测试
多模态大模型实战-MiniGPT4Qwen系列2:回到世界原点-基于lavis和registry机制搭建更加灵活的Trainer
基于Lavis实现一个干净、灵活的Trainer,在任务、模型、数据集、scheduler上都具备可拓展性,同时相比huggingface Trainer,更加干净、去冗余!
多模态大模型实战-MiniGPT4Qwen:3090+2小时+通义千问=个人版双语多模态大模型
本项目使用Qwen-Chat作为LLM,用MiniGPT4的对齐方式,更加高效地训练了一个MLLM,名为 Minigpt4Qwen。仅需1张3090、18.8k数据,3M可训练参数和可训练数个小时即可
多模态大模型实战-MiniGPT4Qwen:3090+2小时+通义千问=个人版双语多模态大模型
本项目使用Qwen-Chat作为LLM,用MiniGPT4的对齐方式,更加高效地训练了一个MLLM,名为 Minigpt4Qwen。仅需1张3090、18.8k数据,3M可训练参数和可训练数个小时即可
个人成就
文章被点赞
6
文章被阅读
10,280
掘力值
225
关注了
1
关注者
3
收藏集
1
关注标签
23
加入于
2023-11-06