获得徽章 0
- #每日快讯# Interactive3D: 交互式 3D 生成框架
该技术通过两个阶段的级联处理,使用不同的 3D 表示方法,提供了包括添加或移除组件、变形拖拽、几何变换和语义编辑等在内的多种交互手段。此外,还引入了交互式哈希细化模块以进一步提升模型的细节和质量。
网站:interactive-3d.github.io
期货开源:github.com
展开评论1 - #每日快讯# ConsistentID: 多模态面部肖像生成技术
ConsistentID 具有 500k+ 面部图像的多样化数据集, 能够基于单一参考图像和文本提示,生成具有高度个性化和身份一致性的面部图像。
这项技术通过细粒度控制面部特征和整体面部结构,解决了以往方法在面部细节和身份保持方面的不足。
官网:ssugarwh.github.io
GitHub:github.com
展开68 - #每日快讯# SoM: 让开源 MLLM 更接近 GPT4V
SoM Prompting: 一种通过在图像上加标签来提升 AI 视觉理解的方法
通过图像上的视觉标签,SoM 提示增强了 AI 模型的多模态感知能力,即使没有输入图像标签,也能提升模型的视觉推理能力。github.com
展开66 - #每日快讯# Parts2Whole:多参考图定制人像
一种能够根据多张参考图像生成定制化的人类肖像框架
该框架通过语义感知的外观编码器保留人体部位细节,并利用共享自注意力机制实现多图像条件生成,支持从任意数量和组合的条件图像中生成人类图像。
网站:huanngzh.github.io
GItHub:github.com
展开49 - #挑战每日一条沸点# LLaVA++ : LLaMA-3 和 Phi-3 的视觉模型
上周最火的就是 LLaMA3 和 Phi3, 有开发者将其视觉模型也开源了, 性能还很强:github.com
展开67 - #每日快讯# Qwen1.5-110B:Qwen1.5 系列的首个千亿参数开源模型
阿里开源了 1100 亿参数的 Qwen1.5 系列首个千亿参数模型 Qwen1.5-110B,该模型在基础能力评估中与 Meta-Llama3-70B 相媲美,在 Chat 评估中表现出色,包括 MT-Bench 和 AlpacaEval 2.0。qwenlm.github.io
展开评论7 - InternVL:开源版 GPT4V
一个多模态模型,将视觉基础模型扩展到 60 亿参数,在 32 个视觉-语言基准测试中展现了卓越性能,涵盖图像/视频分类、检索等关键多模态任务。
GitHub:github.com
演示:internvl.opengvlab.com
展开36 - HiDiffusion:AI 图像生成革命,加速生成超清大图!
字节跳动推出的一种能够使预训练的文生图模型高效生成高分辨率图像,如 1024×1024,2048×2048,甚至是 4096×4096,效果不减的同时显著降低生成时间。
网站:hidiffusion.github.io
论文:arxiv.org
展开评论3