
获得徽章 0
打个小广告:
个人开源项目:MPP-Qwen-Next: 通过Pipeline Parallel在3090/4090上可完成8B/14B的LLaVA-like training(sft时打开LLM) 新加入videochatgpt的数据,支持图像多轮对话,视频对话,并涌现出多图对话能力。已经开源了sft后的权重 欢迎关注
github链接:
github.com
如果有帮助的话可以点个star,马上300了呜呜呜
个人开源项目:MPP-Qwen-Next: 通过Pipeline Parallel在3090/4090上可完成8B/14B的LLaVA-like training(sft时打开LLM) 新加入videochatgpt的数据,支持图像多轮对话,视频对话,并涌现出多图对话能力。已经开源了sft后的权重 欢迎关注
github链接:
如果有帮助的话可以点个star,马上300了呜呜呜
展开
评论
点赞
打个小广告:
个人开源项目:MPP-Qwen-Next: 通过Pipeline Parallel在3090/4090上可完成8B/14B的LLaVA-like training(sft时打开LLM) 新加入videochatgpt的数据,支持图像多轮对话,视频对话,并涌现出多图对话能力。已经开源了sft后的权重 欢迎关注
github链接:
github.com
如果有帮助的话可以点个star,马上300了呜呜呜
个人开源项目:MPP-Qwen-Next: 通过Pipeline Parallel在3090/4090上可完成8B/14B的LLaVA-like training(sft时打开LLM) 新加入videochatgpt的数据,支持图像多轮对话,视频对话,并涌现出多图对话能力。已经开源了sft后的权重 欢迎关注
github链接:
如果有帮助的话可以点个star,马上300了呜呜呜
展开
评论
点赞
打个小广告:
个人开源项目:MPP-Qwen-Next: 通过Pipeline Parallel在3090/4090上可完成8B/14B的LLaVA-like training(sft时打开LLM) 新加入videochatgpt的数据,支持图像多轮对话,视频对话,并涌现出多图对话能力。已经开源了sft后的权重 欢迎关注
github链接:
github.com
如果有帮助的话可以点个star,马上300了呜呜呜
个人开源项目:MPP-Qwen-Next: 通过Pipeline Parallel在3090/4090上可完成8B/14B的LLaVA-like training(sft时打开LLM) 新加入videochatgpt的数据,支持图像多轮对话,视频对话,并涌现出多图对话能力。已经开源了sft后的权重 欢迎关注
github链接:
如果有帮助的话可以点个star,马上300了呜呜呜
展开
评论
1
个人开源项目:MPP-Qwen-Next: 加入llava的多轮对话sft数据以及videochatgpt的100k sft数据,支持图像多轮对话,视频对话,并涌现出多图对话能力。已经开源了sft后的权重 欢迎关注
github链接:
github.com
github链接:
展开
评论
点赞
个人开源项目:MPP-Qwen-Next: 加入llava的多轮对话sft数据以及videochatgpt的100k sft数据,支持图像多轮对话,视频对话,并涌现出多图对话能力。已经开源了sft后的权重 欢迎关注
github链接:
github.com
github链接:
展开
评论
点赞
#大模型日报# 个人开源项目:MPP-Qwen-Next: 加入llava的多轮对话sft数据以及videochatgpt的100k sft数据,支持图像多轮对话,视频对话,并涌现出多图对话能力。已经开源了sft后的权重 欢迎关注
github链接:
github.com
github链接:
展开
评论
点赞
个人开源项目:MPP-Qwen-Next: 加入llava的多轮对话sft数据以及videochatgpt的100k sft数据,支持图像多轮对话,视频对话,并涌现出多图对话能力。已经开源了sft后的权重 欢迎关注
github链接:
github.com
github链接:
展开
评论
点赞
更新了下之前的MiniGPT4Qwen,Scale Up了语言模型,得到MiniGPT4Qwen-14B。
MiniGPT4Qwen14B对语言模型进行了Scale Up,采用Qwen-14B-Chat模型作为底座,以获得更好的对话体验。值得一提的是,为了能在3090上训练14B~15B的模型(不进行量化操作),MiniGPT4Qwen14B选择采用DeepSpeed的流水线并行(GPipe,Pipeline Parallel)技术。
代码库:
github.com,已加入MiniGPT4Qwen-14B-Chat模型的双卡DeepSpeed流水线并行训练,后续的推理(命令行demo+ gradio WebUI demo),以及14B模型的checkpoint和train log(流水线并行14B模型的权重和日志)。如果有帮助,可以考虑star一下,马上200个了!有相关问题和建议也可以github上直接提issue,会比私戳我更快!
对应的掘金博客:
MiniGPT4Qwen14B对语言模型进行了Scale Up,采用Qwen-14B-Chat模型作为底座,以获得更好的对话体验。值得一提的是,为了能在3090上训练14B~15B的模型(不进行量化操作),MiniGPT4Qwen14B选择采用DeepSpeed的流水线并行(GPipe,Pipeline Parallel)技术。
代码库:
对应的掘金博客:
展开
评论
1
更新了下之前的MiniGPT4Qwen,Scale Up了语言模型,得到MiniGPT4Qwen-14B。
MiniGPT4Qwen14B对语言模型进行了Scale Up,采用Qwen-14B-Chat模型作为底座,以获得更好的对话体验。值得一提的是,为了能在3090上训练14B~15B的模型(不进行量化操作),MiniGPT4Qwen14B选择采用DeepSpeed的流水线并行(GPipe,Pipeline Parallel)技术。
代码库:
github.com,已加入MiniGPT4Qwen-14B-Chat模型的双卡DeepSpeed流水线并行训练,后续的推理(命令行demo+ gradio WebUI demo),以及14B模型的checkpoint和train log(流水线并行14B模型的权重和日志)。如果有帮助,可以考虑star一下,马上200个了!有相关问题和建议也可以github上直接提issue,会比私戳我更快!
对应的掘金博客:
MiniGPT4Qwen14B对语言模型进行了Scale Up,采用Qwen-14B-Chat模型作为底座,以获得更好的对话体验。值得一提的是,为了能在3090上训练14B~15B的模型(不进行量化操作),MiniGPT4Qwen14B选择采用DeepSpeed的流水线并行(GPipe,Pipeline Parallel)技术。
代码库:
对应的掘金博客:
展开
评论
点赞
更新了下之前的MiniGPT4Qwen,Scale Up了语言模型,得到MiniGPT4Qwen-14B。
MiniGPT4Qwen14B对语言模型进行了Scale Up,采用Qwen-14B-Chat模型作为底座,以获得更好的对话体验。值得一提的是,为了能在3090上训练14B~15B的模型(不进行量化操作),MiniGPT4Qwen14B选择采用DeepSpeed的流水线并行(GPipe,Pipeline Parallel)技术。
代码库:
github.com,已加入MiniGPT4Qwen-14B-Chat模型的双卡DeepSpeed流水线并行训练,后续的推理(命令行demo+ gradio WebUI demo),以及14B模型的checkpoint和train log(流水线并行14B模型的权重和日志)。如果有帮助,可以考虑star一下,马上200个了!有相关问题和建议也可以github上直接提issue,会比私戳我更快!
对应的掘金博客:
MiniGPT4Qwen14B对语言模型进行了Scale Up,采用Qwen-14B-Chat模型作为底座,以获得更好的对话体验。值得一提的是,为了能在3090上训练14B~15B的模型(不进行量化操作),MiniGPT4Qwen14B选择采用DeepSpeed的流水线并行(GPipe,Pipeline Parallel)技术。
代码库:
对应的掘金博客:
展开
评论
点赞
更新了下之前的MiniGPT4Qwen,Scale Up了语言模型,得到MiniGPT4Qwen-14B。
MiniGPT4Qwen14B对语言模型进行了Scale Up,采用Qwen-14B-Chat模型作为底座,以获得更好的对话体验。值得一提的是,为了能在3090上训练14B~15B的模型(不进行量化操作),MiniGPT4Qwen14B选择采用DeepSpeed的流水线并行(GPipe,Pipeline Parallel)技术。
代码库:
github.com,已加入MiniGPT4Qwen-14B-Chat模型的双卡DeepSpeed流水线并行训练,后续的推理(命令行demo+ gradio WebUI demo),以及14B模型的checkpoint和train log(流水线并行14B模型的权重和日志)。如果有帮助,可以考虑star一下,马上200个了!有相关问题和建议也可以github上直接提issue,会比私戳我更快!
对应的掘金博客:
MiniGPT4Qwen14B对语言模型进行了Scale Up,采用Qwen-14B-Chat模型作为底座,以获得更好的对话体验。值得一提的是,为了能在3090上训练14B~15B的模型(不进行量化操作),MiniGPT4Qwen14B选择采用DeepSpeed的流水线并行(GPipe,Pipeline Parallel)技术。
代码库:
对应的掘金博客:
展开
评论
点赞
大家好,做了个开源的多模态大模型实战项目,现在96stars了,孩子想凑个100呜呜,大家觉得有帮助麻烦点个star呀
最近用18.8k较高质量双语数据做了一个把minigpt4接到Qwen里的项目,还有一些关于大模型训练微调的技术点的总结(deepspeed之类的,有知乎对应知乎博客),现在支持了命令行demo、gradio demo和deepspeed训练推理。里面还有些关于clean后的lavis trainer以及其他的踩坑记录,想和大家一起交流下~
github链接:
github.com
最近用18.8k较高质量双语数据做了一个把minigpt4接到Qwen里的项目,还有一些关于大模型训练微调的技术点的总结(deepspeed之类的,有知乎对应知乎博客),现在支持了命令行demo、gradio demo和deepspeed训练推理。里面还有些关于clean后的lavis trainer以及其他的踩坑记录,想和大家一起交流下~
github链接:
展开


评论
点赞
大家好,做了个开源的多模态大模型实战项目,现在96stars了,孩子想凑个100呜呜,大家觉得有帮助麻烦点个star呀
最近用18.8k较高质量双语数据做了一个把minigpt4接到Qwen里的项目,还有一些关于大模型训练微调的技术点的总结(deepspeed之类的,有知乎对应知乎博客),现在支持了命令行demo、gradio demo和deepspeed训练推理。里面还有些关于clean后的lavis trainer以及其他的踩坑记录,想和大家一起交流下~
github链接:
github.com
最近用18.8k较高质量双语数据做了一个把minigpt4接到Qwen里的项目,还有一些关于大模型训练微调的技术点的总结(deepspeed之类的,有知乎对应知乎博客),现在支持了命令行demo、gradio demo和deepspeed训练推理。里面还有些关于clean后的lavis trainer以及其他的踩坑记录,想和大家一起交流下~
github链接:
展开


评论
点赞
大家好,做了个开源的多模态大模型实战项目,现在96stars了,孩子想凑个100呜呜,大家觉得有帮助麻烦点个star呀
最近用18.8k较高质量双语数据做了一个把minigpt4接到Qwen里的项目,还有一些关于大模型训练微调的技术点的总结(deepspeed之类的,有知乎对应知乎博客),现在支持了命令行demo、gradio demo和deepspeed训练推理。里面还有些关于clean后的lavis trainer以及其他的踩坑记录,想和大家一起交流下~
github链接:
github.com
最近用18.8k较高质量双语数据做了一个把minigpt4接到Qwen里的项目,还有一些关于大模型训练微调的技术点的总结(deepspeed之类的,有知乎对应知乎博客),现在支持了命令行demo、gradio demo和deepspeed训练推理。里面还有些关于clean后的lavis trainer以及其他的踩坑记录,想和大家一起交流下~
github链接:
展开


2
1
介绍一下自己的新项目~
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials,再介绍一下我踩的一些坑,然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中,给出了ZERO-0(等价于DDP)、ZERO-1、ZERO-2的配置。至于一些DeepSpeed的参数配置,我参考和总结了一些放在文章最后,按需自取~
原有的MiniGPT4Qwen:
使用Qwen-Chat作为LLM,用MiniGPT4的对齐方式,更加高效地训练了一个MLLM,名为 Minigpt4Qwen。仅需1张3090、18.8k数据,3M可训练参数和可训练数个小时即可。现已经支持DeepSpeed
现在已经开放了数据集、模型checkpoint、命令行demo、gradio的WebUI demo
项目github仓库:
github.com
项目文章链接:
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials,再介绍一下我踩的一些坑,然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中,给出了ZERO-0(等价于DDP)、ZERO-1、ZERO-2的配置。至于一些DeepSpeed的参数配置,我参考和总结了一些放在文章最后,按需自取~
原有的MiniGPT4Qwen:
使用Qwen-Chat作为LLM,用MiniGPT4的对齐方式,更加高效地训练了一个MLLM,名为 Minigpt4Qwen。仅需1张3090、18.8k数据,3M可训练参数和可训练数个小时即可。现已经支持DeepSpeed
现在已经开放了数据集、模型checkpoint、命令行demo、gradio的WebUI demo
项目github仓库:
项目文章链接:
展开
评论
点赞
介绍一下自己的新项目~
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials,再介绍一下我踩的一些坑,然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中,给出了ZERO-0(等价于DDP)、ZERO-1、ZERO-2的配置。至于一些DeepSpeed的参数配置,我参考和总结了一些放在文章最后,按需自取~
原有的MiniGPT4Qwen:
使用Qwen-Chat作为LLM,用MiniGPT4的对齐方式,更加高效地训练了一个MLLM,名为 Minigpt4Qwen。仅需1张3090、18.8k数据,3M可训练参数和可训练数个小时即可。现已经支持DeepSpeed
现在已经开放了数据集、模型checkpoint、命令行demo、gradio的WebUI demo
项目github仓库:
github.com
项目文章:
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials,再介绍一下我踩的一些坑,然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中,给出了ZERO-0(等价于DDP)、ZERO-1、ZERO-2的配置。至于一些DeepSpeed的参数配置,我参考和总结了一些放在文章最后,按需自取~
原有的MiniGPT4Qwen:
使用Qwen-Chat作为LLM,用MiniGPT4的对齐方式,更加高效地训练了一个MLLM,名为 Minigpt4Qwen。仅需1张3090、18.8k数据,3M可训练参数和可训练数个小时即可。现已经支持DeepSpeed
现在已经开放了数据集、模型checkpoint、命令行demo、gradio的WebUI demo
项目github仓库:
项目文章:
展开
评论
点赞
介绍一下自己的新项目~
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials,再介绍一下我踩的一些坑,然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中,给出了ZERO-0(等价于DDP)、ZERO-1、ZERO-2的配置。至于一些DeepSpeed的参数配置,我参考和总结了一些放在文章最后,按需自取~
原有的MiniGPT4Qwen:
使用Qwen-Chat作为LLM,用MiniGPT4的对齐方式,更加高效地训练了一个MLLM,名为 Minigpt4Qwen。仅需1张3090、18.8k数据,3M可训练参数和可训练数个小时即可。现已经支持DeepSpeed
现在已经开放了数据集、模型checkpoint、命令行demo、gradio的WebUI demo
项目github仓库:
github.com
项目文章:
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials,再介绍一下我踩的一些坑,然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中,给出了ZERO-0(等价于DDP)、ZERO-1、ZERO-2的配置。至于一些DeepSpeed的参数配置,我参考和总结了一些放在文章最后,按需自取~
原有的MiniGPT4Qwen:
使用Qwen-Chat作为LLM,用MiniGPT4的对齐方式,更加高效地训练了一个MLLM,名为 Minigpt4Qwen。仅需1张3090、18.8k数据,3M可训练参数和可训练数个小时即可。现已经支持DeepSpeed
现在已经开放了数据集、模型checkpoint、命令行demo、gradio的WebUI demo
项目github仓库:
项目文章:
展开
评论
点赞
介绍一下自己的新项目~
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials,再介绍一下我踩的一些坑,然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中,给出了ZERO-0(等价于DDP)、ZERO-1、ZERO-2的配置。至于一些DeepSpeed的参数配置,我参考和总结了一些放在文章最后,按需自取~
原有的MiniGPT4Qwen:
使用Qwen-Chat作为LLM,用MiniGPT4的对齐方式,更加高效地训练了一个MLLM,名为 Minigpt4Qwen。仅需1张3090、18.8k数据,3M可训练参数和可训练数个小时即可。现已经支持DeepSpeed
现在已经开放了数据集、模型checkpoint、命令行demo、gradio的WebUI demo
项目github仓库:
github.com
项目文章:
本项目将给出一个我自己参考DeepSpeed文档书写的简单tutorials,再介绍一下我踩的一些坑,然后我将DeepSpeed支持进了原本的MiniGPT4Qwen项目中,给出了ZERO-0(等价于DDP)、ZERO-1、ZERO-2的配置。至于一些DeepSpeed的参数配置,我参考和总结了一些放在文章最后,按需自取~
原有的MiniGPT4Qwen:
使用Qwen-Chat作为LLM,用MiniGPT4的对齐方式,更加高效地训练了一个MLLM,名为 Minigpt4Qwen。仅需1张3090、18.8k数据,3M可训练参数和可训练数个小时即可。现已经支持DeepSpeed
现在已经开放了数据集、模型checkpoint、命令行demo、gradio的WebUI demo
项目github仓库:
项目文章:
展开
评论
9