首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
论文阅读
iResearch666
创建于2023-09-08
订阅专栏
CV AIGC 论文分享
等 2 人订阅
共60篇文章
创建于2023-09-08
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Textual Inversion | 你的图像生成私人订制
paper https://arxiv.org/abs/2208.01618 code https://github.com/rinongal/textual_inversion Abstract 如
VIGC | 快给你的图像配上文字描述吧
paper https://arxiv.org/abs/2308.12714 code https://github.com/opendatalab/vigc Abstract 针对 vision-l
MVDiffusion | 领取你的建筑家具图纸设计师
paper https://arxiv.org/abs/2307.01097 code https://github.com/Tangshitao/MVDiffusion Abstract 全景图生成
Visual ChatGPT | 动动嘴搞定图像任务
paper https://arxiv.org/abs/2303.04671 code https://github.com/microsoft/TaskMatrix 动动嘴搞定图像任务
ControlNet | 单一图像条件控制图像生成
* 除了text-prompt文本提示作为输入,还增加了其它控制条件作为输入(文本+图像作为输入) * 在小数据集上(<50k)鲁棒性较好 * 是一个特定任务条件,且是一个end2end,
CLIP | 文图连接预训练模型
* 模型架构分为两部分,图像编码器和文本编码器,图像编码器可以是比如 resnet50,然后文本编码器可以是 transformer。 * 训练数据是网络社交媒体上搜集的图像文本对。在训练阶段
VAE | 变分自编码器总结
自动编码器(Autoencoder,AE) https://arxiv.org/abs/2003.05991 原理 先将高维的原始数据映射到一个低维特征空间,然后从低维特征学习重建原始的数据。一个AE
Uni-ControlNet | 多条件同时控制图像生成
1. 使用CLIP提取一个图像全局条件的token嵌入 2. 将全局控制信号用条件编码器hg投影到条件嵌入空间(条件编码器是由前馈层堆叠,可以将文本嵌入和图像条件嵌入对其到嵌入空间) 3. re
TryOnDiffusion | 谷歌最强虚拟试衣App
* key challenge: 合成照片写实级的保留衣服细节,同时形变到相应的人体姿态和形态上 * 本文提出了diffusion-based架构,统一了2个UNets,即为paralle-U
T2I-Adapter | 适配器控制图像生成
* 灵活性:不同控制条件(空间颜色控制和复杂结构控制)训练不同的适配器 * 可组合:将多个适配器组合实现多个条件同时控制 * 泛化性:T2I是冻结的,只需要对适配器进行微调 * 轻量化
Stable Diffusion | 原理详解
这篇文章将介绍比较火的文生图模型**Stable Diffusion(简称SD)** ,Stable Diffusion不仅是一个完全开源的模型(代码,数据,模型全部开源),而且是它的参数量只有1B左
用LoRA微调diffusion模型
根据特定角色(如卡通或视频游戏角色)训练的模型。角色 LoRA 能够准确再现角色的外观和感觉,以及与之相关的任何关键特征。这是最常见的 LoRA 类型,因为在没有这种训练数据的情况下生成角色往往很棘手
OC-SORT | 基于SORT多目标跟踪
* Kalman fileter (KF) 假设目标是线性运动(刚体),但是在遮挡和长时间的线性运动下非常不准确。由于会信任这种线性运动的prior,在遮挡的时候会累计误差,从而出现运动方向的方差
Triton Inference Server and Client | Triton部署
Deploy/Server 常见的模型部署方式有以下几种 服务器端部署:模型推理服务部署在服务器上,从而进行高性能完成推理任务; 边缘设备端部署:模型部署在手机或者其他端侧设备,利用端侧算力完成推
model-compression-and-acceleration | 模型压缩与加速
Background 减少模型存储和计算成本 期望模型不仅能部署在服务端GPU,也能部署在移动端 神经网络中卷积层、全连接层权重参数具有冗余的特点 卷积层占据了大约 90-95% 的计算时间和参数规模
LoRA | 大模型降维训练
paper https://arxiv.org/abs/2106.09685 code https://github.com/microsoft/LoRA Abstract NLP范式是在通用数据上训
LaDI-VTON | 基于Diffusion的2D虚拟试衣
基于Stable Diffusion架构,为了增强文图生成模型虚拟试衣的能力,修改了网络结构使得输入为衣服和模特的姿态,同时为了保留衣服细节,提出了前向textual inversion,最后使用ma
distributed-training | 分布式训练框架总结
1. 要把模型和数据放在进程对应的那张卡上 2. 要使用Sampler来分发训练数据,并且shuffle不设置在Dataloder中而是Sampler中,每个epoch还需要调用Sampler的`se
Diffusion | 扩散模型综述
扩散模型,全称为扩散概率模型(Diffusion Probabilistic Model)。最简单的一类扩散模型,是去噪扩散概率模型(Denoising Diffusion Probabilistic
Cascade-DETR | DETR-based通用目标检测器
Transformer-based检测器在coco上占主导地位,但是在其它domain不具有竞争力——在复杂环境下泛化能力不佳 本文提出了
下一页