计算机视觉

计算机视觉

计算机视觉

记录关于计算机视觉方面的Paper，模型实现等

暂无订阅共8篇文章创建于2024-03-28

点云入门之点云基础知识

点云（Point cloud）：点云是空间点的集合，用来描述物体的表面形状。点云已经在机器感知，增强现实，形状设计，虚拟现实和面部识别等领域取得巨大成绩，让我们一起看看点云的基础知识吧。

1年前
3.8k
3
评论

视觉语言模型-基础篇之CLIP

CLIP是基于对比学习的视觉语言模型（VLM），由OpenAI于21年推出。其利用文本特征作为监督信号，不同模态的特征进行对比学习，进一步与下游任务进行解耦，甚至在零样本下取得SOTA水平。

1年前
1.7k
2
评论

视觉语言模型-基础篇之CLIP

视觉语言模型-入门篇之VLMs的训练与评估

视觉语言模型（Vision-Language Models, VLMs）是一种结合了计算机视觉与自然语言处理技术的模型，如Stable Diffusion等。这次，我们将学习VLMs的训练、评估等内容

1年前
1.9k
4
评论

视觉语言模型-入门篇之VLMs的训练与评估

3D医学图像重构

我们提出了一种创新方法，基于3D条件潜在扩散模型和VQGAN实现了从低分辨率DMRI数据还原高质量的NODDI数据。

1年前
221
3
评论

图像处理之降级操作

给你一张大脑图片，希望你对它进行降级（所谓降级，也就是变低其质量）。比较基础的有高斯模糊方式、锐化、下上采样等，你还知道哪些嘛？

1年前
315
2
评论

Latent Diffusion Models在手写数字集的实现

上次在MNIST数据集上试了下扩散模型，这次我们使用隐空间扩散模型试试（Latent Diffusion Model）。相比dm，它有较快训练和推理速度，更少空间等好处。让我们一起看看它的效果吧。

1年前
1.2k
2
评论

Latent Diffusion Models在手写数字集的实现

实现diffusion模型(手写数字集)

Diffusion模型是一个非常具有影响力的模型。前几天看完了李宏毅老师的视频教程和一些资料后，便在手写数字集MNIST上进行了复现，顺便记录一番。

1年前
12k
11
9

实现diffusion模型(手写数字集)

关于VQ-GAN的记录

一个结合CNN的归纳偏好和Transformer的强大表达能力的生成模型,同时也是众多优秀大模型的基础模型。

1年前
1.4k
2
评论