DeepSeekAI发布多模态大模型DeepSeek-VL:从13亿到70亿参数的多模态精确度,免费商用

775 阅读3分钟

前言

随着人工智能技术的不断发展,多模态大模型在理解复杂世界方面的能力日益增强。DeepSeekAI,一家由幻方量化支持的创新型大模型公司,最近发布了其最新的多模态大模型系列——DeepSeek-VL。该系列包含从13亿到70亿参数的模型,旨在提高机器对图像和文本的理解能力,同时支持广泛的商业应用。

DeepSeek-VL模型简介

DeepSeek-VL系列代表了在多模态AI领域的一大突破,提供了两种不同规模的模型,分别是13亿参数和70亿参数模型。这些模型利用了DeepSeekAI自研的语言模型DeepSeek-LLM和视觉编码器SigLIP-L的组合,能够处理不同分辨率的图像输入,其中70亿参数规模的模型支持1024×1024分辨率图像的输入,而13亿参数规模的模型支持384×384分辨率图像输入。二者的语言模型也有差异,前者是基于2万亿tokens数据集训练的DeepSeek-LLM-7B模型,而后者则是基于5000亿tokens数据集训练的DeepSeek-LLM-1.3B模型训练的。但是它们都是基于4000亿图像-文本对数据集训练得到的结果。

训练数据集与技术细节

DeepSeek-VL模型的训练过程包括预训练和微调两个阶段,其中预训练阶段使用了大量的图像-文本对数据集,覆盖了从常规开源数据集到DeepSeekAI私有数据集的广泛数据。在微调阶段,模型进一步优化以适应特定的多模态任务。

性能与评测结果

在多个标准评测数据集上,DeepSeek-VL系列模型展示了其卓越的多模态理解能力。特别是70亿参数的DeepSeek-VL-7B模型,在多模态理解能力评测数据集上取得了领先的成绩,证明了其在高精度多模态任务处理上的优势。

开源与商用授权

DeepSeek-VL系列模型不仅性能强大,更以其开源商用授权政策,为广大开发者和研究者提供了强有力的技术支持。这一开放策略无疑将促进AI社区的创新与合作,加速多模态技术的应用和发展。

结语

DeepSeekAI的DeepSeek-VL系列模型在多模态大模型领域树立了新的标杆,其从13亿到70亿参数的模型不仅展现了在图像和文本理解上的高精度,同时开源商用授权也为技术应用提供了广阔的空间。随着DeepSeek-VL的进一步应用和优化,期待它在AI领域带来更多的创新和突破。

模型下载

Huggingface模型下载

huggingface.co/deepseek-ai…

AI快站模型免费加速下载

aifasthub.com/models/deep…