视觉

写的与视觉处理相关的一些文章

等 1 人订阅共8篇文章创建于2024-07-22

手撕ultralytics，换用Lightning训练yolo模型

YOLO 模型作为目标检测的一座高峰不必多说，ultralytics 能很简便地用一个函数启用模型训练。但如果有更高的自定义需求，这种一键训练的方式就不够用了。

8月前
310
点赞
评论

代码层面上解读Florence2模型，专用于视觉任务的小体积语言模型

Florence2 是微软于 2024 年 6 月推出的专用于视觉任务的小体积语言模型，适用于目标检测、对象分割、提取文字等图片模态任务。

9月前
775
点赞
评论

从DFT到离散余弦变换DCT，以及DCT的PyTorch实现

DCT 在图像视频音频压缩领域用得比 FFT 更多。由于其能量更集中的特性，适合拿来裁剪不重要的信息。本文主要通过 DFT 到 DCT 的推导加深对 DCT 的理解。

10月前
346
点赞
评论

代码层面上学习yolo12

总览对 YOLO 的具体运作原理仍然不甚理解，来读下 ultralytics 库的代码吧。调试 YOLO v12 的推理，以及训练。

10月前
284
1
评论

用 MNIST 训练 Diffusion 模型的代码

模仿 Stable Diffusion 3 实现的 diffusion 模型，使用 MNIST 数据集进行训练。

1年前
427
点赞
评论

代码层面上学习StableDiffusion3

久闻 StableDiffusion 的大名。现在到第三代了，应当和最开始的 Diffusion 有很大的差别。这次解读会是艰巨的任务。

1年前
788
点赞
评论

代码层面上学习diffusion(DDPM)模型

借助 Python 库 denoising-diffusion-pytorch，通过调试与阅读源码来探究 diffusion（DDPM）模型。

1年前
807
点赞
3

使用 Python 做出油画相片效果

介绍SurfaceBlur与双边滤波，包含一段 Python 处理示例代码。使用SurfaceBlur得到的图片，像是油画一般被划分为多个色块。

1年前
127
点赞
评论