Chirp

赞

4

|

搜索文章

在 Python 中使用 onnxruntime 量化 ONNX 模型

ONNX 官方文档写得挺零碎的，好不容易找到量化的示例代码。32bit 的权重用 QUInt8 量化理论上能缩小到原来的四分之一大小。

1月前
27
点赞
评论

BS-RoFormer，目前音频分离SOTA

从 mvsep 的 leaderboard 来看，BS-RoFormer 和 Mel-Band RoFormer 性能领先，是目前音乐分离任务的 SOTA。

1月前
157
点赞
评论

手撕ultralytics，换用Lightning训练yolo模型

YOLO 模型作为目标检测的一座高峰不必多说，ultralytics 能很简便地用一个函数启用模型训练。但如果有更高的自定义需求，这种一键训练的方式就不够用了。

2月前
126
点赞
评论

代码层面上解读Florence2模型，专用于视觉任务的小体积语言模型

Florence2 是微软于 2024 年 6 月推出的专用于视觉任务的小体积语言模型，适用于目标检测、对象分割、提取文字等图片模态任务。

3月前
274
点赞
评论

代码层面上解读ACE-Step

总览 ACE-Step 是文生音频模型。比 LLM 方法更快，目标是成为音频生成领域的 Stable Diffusion。好大的口气。

4月前
228
点赞
评论

从DFT到离散余弦变换DCT，以及DCT的PyTorch实现

DCT 在图像视频音频压缩领域用得比 FFT 更多。由于其能量更集中的特性，适合拿来裁剪不重要的信息。本文主要通过 DFT 到 DCT 的推导加深对 DCT 的理解。

4月前
132
点赞
评论

除了git clone，从HuggingFace下载整个仓库的最新快照

HuggingFace 上的模型可以视为 git 仓库进行 clone。这样子能够下载所有文件。不过有点慢，还会下载 git 元数据导致使用过多流量和磁盘空间。我想要一键只下载最新的这些文件。

4月前
138
点赞
评论

代码层面上学习yolo12

总览对 YOLO 的具体运作原理仍然不甚理解，来读下 ultralytics 库的代码吧。调试 YOLO v12 的推理，以及训练。

4月前
162
1
评论

bf16权重合并lora出现无法忽略的精度损失

最近在微调 Qwen VL 模型，使用 peft 库的 lora 进行微调。为了更高的推理效率，就把 lora 合并到了基底模型。但合并过后的模型输出效果非常差。

4月前
175
点赞
评论

transformers库，把rope编码类型设为dynamic的大坑

用 transformers 库写模型时发现个很离谱的 bug。离谱不在于 bug 本身，而是 transformers 本身已经意识到这个 bug，但因为 “速度更重要” 而搁置不改了。

5月前
159
点赞
评论

个人成就

文章被点赞 4

文章被阅读 12,771

加入于

2024-07-22