Coobiw 的个人主页 - 动态

1年前

打个小广告：
个人开源项目：MPP-Qwen-Next: 通过Pipeline Parallel在3090/4090上可完成8B/14B的LLaVA-like training(sft时打开LLM）新加入videochatgpt的数据，支持图像多轮对话，视频对话，并涌现出多图对话能力。已经开源了sft后的权重欢迎关注

github链接：

github.com

如果有帮助的话可以点个star，马上300了呜呜呜

展开

优秀开源项目

1年前

打个小广告：
个人开源项目：MPP-Qwen-Next: 通过Pipeline Parallel在3090/4090上可完成8B/14B的LLaVA-like training(sft时打开LLM）新加入videochatgpt的数据，支持图像多轮对话，视频对话，并涌现出多图对话能力。已经开源了sft后的权重欢迎关注

github链接：

github.com

如果有帮助的话可以点个star，马上300了呜呜呜

展开

1年前

打个小广告：
个人开源项目：MPP-Qwen-Next: 通过Pipeline Parallel在3090/4090上可完成8B/14B的LLaVA-like training(sft时打开LLM）新加入videochatgpt的数据，支持图像多轮对话，视频对话，并涌现出多图对话能力。已经开源了sft后的权重欢迎关注

github链接：

github.com

如果有帮助的话可以点个star，马上300了呜呜呜

展开

上班摸鱼

赞过

1

1年前

个人开源项目：MPP-Qwen-Next: 加入llava的多轮对话sft数据以及videochatgpt的100k sft数据，支持图像多轮对话，视频对话，并涌现出多图对话能力。已经开源了sft后的权重欢迎关注

github链接：

github.com

展开

今日新鲜事

1年前

个人开源项目：MPP-Qwen-Next: 加入llava的多轮对话sft数据以及videochatgpt的100k sft数据，支持图像多轮对话，视频对话，并涌现出多图对话能力。已经开源了sft后的权重欢迎关注

github链接：

github.com

展开

1年前

#大模型日报# 个人开源项目：MPP-Qwen-Next: 加入llava的多轮对话sft数据以及videochatgpt的100k sft数据，支持图像多轮对话，视频对话，并涌现出多图对话能力。已经开源了sft后的权重欢迎关注

github链接：

github.com

展开

1年前

个人开源项目：MPP-Qwen-Next: 加入llava的多轮对话sft数据以及videochatgpt的100k sft数据，支持图像多轮对话，视频对话，并涌现出多图对话能力。已经开源了sft后的权重欢迎关注

github链接：

github.com

展开

大模型生态圈

1年前

更新了下之前的MiniGPT4Qwen，Scale Up了语言模型，得到MiniGPT4Qwen-14B。

MiniGPT4Qwen14B对语言模型进行了Scale Up，采用Qwen-14B-Chat模型作为底座，以获得更好的对话体验。值得一提的是，为了能在3090上训练14B～15B的模型（不进行量化操作），MiniGPT4Qwen14B选择采用DeepSpeed的流水线并行（GPipe，Pipeline Parallel）技术。

代码库：

github.com，已加入MiniGPT4Qwen-14B-Chat模型的双卡DeepSpeed流水线并行训练，后续的推理（命令行demo+ gradio WebUI demo），以及14B模型的checkpoint和train log（流水线并行14B模型的权重和日志）。如果有帮助，可以考虑star一下，马上200个了！有相关问题和建议也可以github上直接提issue，会比私戳我更快！

对应的掘金博客：

展开

技术交流圈

赞过

1

1年前

更新了下之前的MiniGPT4Qwen，Scale Up了语言模型，得到MiniGPT4Qwen-14B。

MiniGPT4Qwen14B对语言模型进行了Scale Up，采用Qwen-14B-Chat模型作为底座，以获得更好的对话体验。值得一提的是，为了能在3090上训练14B～15B的模型（不进行量化操作），MiniGPT4Qwen14B选择采用DeepSpeed的流水线并行（GPipe，Pipeline Parallel）技术。

代码库：

github.com，已加入MiniGPT4Qwen-14B-Chat模型的双卡DeepSpeed流水线并行训练，后续的推理（命令行demo+ gradio WebUI demo），以及14B模型的checkpoint和train log（流水线并行14B模型的权重和日志）。如果有帮助，可以考虑star一下，马上200个了！有相关问题和建议也可以github上直接提issue，会比私戳我更快！

对应的掘金博客：

展开

大模型生态圈

1年前

更新了下之前的MiniGPT4Qwen，Scale Up了语言模型，得到MiniGPT4Qwen-14B。

MiniGPT4Qwen14B对语言模型进行了Scale Up，采用Qwen-14B-Chat模型作为底座，以获得更好的对话体验。值得一提的是，为了能在3090上训练14B～15B的模型（不进行量化操作），MiniGPT4Qwen14B选择采用DeepSpeed的流水线并行（GPipe，Pipeline Parallel）技术。

代码库：

github.com，已加入MiniGPT4Qwen-14B-Chat模型的双卡DeepSpeed流水线并行训练，后续的推理（命令行demo+ gradio WebUI demo），以及14B模型的checkpoint和train log（流水线并行14B模型的权重和日志）。如果有帮助，可以考虑star一下，马上200个了！有相关问题和建议也可以github上直接提issue，会比私戳我更快！

对应的掘金博客：

展开

AGI交流圈

1年前

更新了下之前的MiniGPT4Qwen，Scale Up了语言模型，得到MiniGPT4Qwen-14B。

MiniGPT4Qwen14B对语言模型进行了Scale Up，采用Qwen-14B-Chat模型作为底座，以获得更好的对话体验。值得一提的是，为了能在3090上训练14B～15B的模型（不进行量化操作），MiniGPT4Qwen14B选择采用DeepSpeed的流水线并行（GPipe，Pipeline Parallel）技术。

代码库：

github.com，已加入MiniGPT4Qwen-14B-Chat模型的双卡DeepSpeed流水线并行训练，后续的推理（命令行demo+ gradio WebUI demo），以及14B模型的checkpoint和train log（流水线并行14B模型的权重和日志）。如果有帮助，可以考虑star一下，马上200个了！有相关问题和建议也可以github上直接提issue，会比私戳我更快！

对应的掘金博客：

展开

优秀开源项目

1年前

MiniGPT4Qwen-14B：极少量可训练参数的双语多模态大模型DeepSpeed流水线并行的踩填坑历程

MiniGPT4Qwen14B对语言模型进行了Scale Up，采用Qwen-14B-Chat模型作为底座，以获得更好的对话体验。值得一提的是，为了能在3090上训练14B...

2

关注了

1年前

大家好，做了个开源的多模态大模型实战项目，现在96stars了，孩子想凑个100呜呜，大家觉得有帮助麻烦点个star呀
最近用18.8k较高质量双语数据做了一个把minigpt4接到Qwen里的项目，还有一些关于大模型训练微调的技术点的总结（deepspeed之类的，有知乎对应知乎博客），现在支持了命令行demo、gradio demo和deepspeed训练推理。里面还有些关于clean后的lavis trainer以及其他的踩坑记录，想和大家一起交流下～

github链接：

github.com

展开

上班摸鱼

1年前

大家好，做了个开源的多模态大模型实战项目，现在96stars了，孩子想凑个100呜呜，大家觉得有帮助麻烦点个star呀
最近用18.8k较高质量双语数据做了一个把minigpt4接到Qwen里的项目，还有一些关于大模型训练微调的技术点的总结（deepspeed之类的，有知乎对应知乎博客），现在支持了命令行demo、gradio demo和deepspeed训练推理。里面还有些关于clean后的lavis trainer以及其他的踩坑记录，想和大家一起交流下～

github链接：

github.com

展开

AGI交流圈

1年前

大家好，做了个开源的多模态大模型实战项目，现在96stars了，孩子想凑个100呜呜，大家觉得有帮助麻烦点个star呀
最近用18.8k较高质量双语数据做了一个把minigpt4接到Qwen里的项目，还有一些关于大模型训练微调的技术点的总结（deepspeed之类的，有知乎对应知乎博客），现在支持了命令行demo、gradio demo和deepspeed训练推理。里面还有些关于clean后的lavis trainer以及其他的踩坑记录，想和大家一起交流下～

github链接：

github.com

展开

大模型生态圈

赞过

2

1

1年前

介绍一下自己的新项目～
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials，再介绍一下我踩的一些坑，然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中，给出了ZERO-0（等价于DDP）、ZERO-1、ZERO-2的配置。至于一些DeepSpeed的参数配置，我参考和总结了一些放在文章最后，按需自取～

原有的MiniGPT4Qwen：
使用Qwen-Chat作为LLM，用MiniGPT4的对齐方式，更加高效地训练了一个MLLM，名为 Minigpt4Qwen。仅需1张3090、18.8k数据，3M可训练参数和可训练数个小时即可。现已经支持DeepSpeed

现在已经开放了数据集、模型checkpoint、命令行demo、gradio的WebUI demo
项目github仓库：

github.com
项目文章链接：

展开

技术交流圈

1年前

介绍一下自己的新项目～
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials，再介绍一下我踩的一些坑，然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中，给出了ZERO-0（等价于DDP）、ZERO-1、ZERO-2的配置。至于一些DeepSpeed的参数配置，我参考和总结了一些放在文章最后，按需自取～

原有的MiniGPT4Qwen：
使用Qwen-Chat作为LLM，用MiniGPT4的对齐方式，更加高效地训练了一个MLLM，名为 Minigpt4Qwen。仅需1张3090、18.8k数据，3M可训练参数和可训练数个小时即可。现已经支持DeepSpeed

现在已经开放了数据集、模型checkpoint、命令行demo、gradio的WebUI demo
项目github仓库：

github.com
项目文章：

展开

大模型生态圈

1年前

介绍一下自己的新项目～
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials，再介绍一下我踩的一些坑，然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中，给出了ZERO-0（等价于DDP）、ZERO-1、ZERO-2的配置。至于一些DeepSpeed的参数配置，我参考和总结了一些放在文章最后，按需自取～

原有的MiniGPT4Qwen：
使用Qwen-Chat作为LLM，用MiniGPT4的对齐方式，更加高效地训练了一个MLLM，名为 Minigpt4Qwen。仅需1张3090、18.8k数据，3M可训练参数和可训练数个小时即可。现已经支持DeepSpeed

现在已经开放了数据集、模型checkpoint、命令行demo、gradio的WebUI demo
项目github仓库：

github.com
项目文章：

展开

AGI交流圈

1年前

介绍一下自己的新项目～
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials，再介绍一下我踩的一些坑，然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中，给出了ZERO-0（等价于DDP）、ZERO-1、ZERO-2的配置。至于一些DeepSpeed的参数配置，我参考和总结了一些放在文章最后，按需自取～

原有的MiniGPT4Qwen：
使用Qwen-Chat作为LLM，用MiniGPT4的对齐方式，更加高效地训练了一个MLLM，名为 Minigpt4Qwen。仅需1张3090、18.8k数据，3M可训练参数和可训练数个小时即可。现已经支持DeepSpeed

现在已经开放了数据集、模型checkpoint、命令行demo、gradio的WebUI demo
项目github仓库：

github.com
项目文章：

展开

优秀开源项目

等人赞过

9