两大视觉语言模型技术架构解析

54 阅读2分钟

上月在某中心年度开发者大会上,其云服务部门发布了两款新增的Titan基础模型,均支持文本与图像间的相互转换。

多模态嵌入模型现已通过某中心基础平台开放,用户可上传自定义图像集,并通过文本、相关图像或两者组合进行检索。该模型生成的数据表征还可作为下游机器学习任务的输入。

图像生成模型(预览版)是基于照片和标题训练的生成式AI模型,能够生成逼真图像。该模型同样支持文本或图像输入,并输出一组对应图像。

模型架构

两款模型采用不同架构但共享文本编码器组件:

  • 嵌入模型配备文本编码器和图像编码器,通过对比学习在共享多维空间中生成向量表征
  • 图像生成器使用两个文本编码器副本:一个直接向图像生成模块传递文本嵌入,另一个通过预测图像嵌入辅助生成
  • 二级图像生成模块对初始输出进行超分辨率处理,提升图像分辨率并改善图文对齐效果

数据预处理

模型性能的关键在于训练数据的精细准备:

  1. 去重处理:采用感知哈希技术有效识别重复图像,避免默认图像过度代表问题
  2. 质量筛选:通过图像质量分类器模拟人类审美判断,仅保留阈值以上的高质量图像
  3. 标题对齐:使用专用标题生成器对部分训练样本进行重新标注,增强图像内容描述准确性
  4. 安全措施:训练数据经过内容审核,生成图像包含识别合成内容的隐形数字水印

模型优化

图像生成模型在清洗后的数据集上进行预训练后,还针对高质量图像样本进行微调,显著提升图文对齐度并减少图像伪影。目前研发团队正致力于进一步提升生成图像的分辨率。