CoovallyAIHub

赞

0

|

搜索文章

今日，DeepSeek再次“拆掉重做”，开源架构炸场：OCR 2只是起点，这次要重构AI的“眼睛”和“大脑”？

就在今年十月，DeepSeek 放出其全新的 DeepSeek-OCR 模型时，业内还在消化它在文档解析上带来的震动。没想到，短短时间，他们又抛出了一篇重磅论文——DeepSeek-OCR 2。而这次

3月前
149
点赞
评论

今日，DeepSeek再次“拆掉重做”，开源架构炸场：OCR 2只是起点，这次要重构AI的“眼睛”和“大脑”？

诊断、分割、解释三位一体：医学AI如何从“工具”进化成“助手”？

在医学影像的世界里，AI模型大多还停留在“工具”阶段：它们能精准勾画病灶轮廓，却无法告诉你这意味着什么；它们能回答疾病名称，却指不出病灶的具体位置。医生面对的，仍然是碎片化的信息。一项来自澳门大学的

3月前
105
点赞
评论

诊断、分割、解释三位一体：医学AI如何从“工具”进化成“助手”？

YOLO26技术详解：原生NMS-Free架构设计与实现原理

最近，计算机视觉领域再掀波澜！YOLO 家族最新成员——YOLO26横空出世，以“彻底移除NMS”为核心变革，开启了真正的端到端目标检测新时代。虽然官方论文尚未正式发布，但来自KIIT大学的深度分析报

3月前
273
点赞
评论

YOLO26技术详解：原生NMS-Free架构设计与实现原理

YOLO26、RF-DETR、D-FINE… 2026模型混战，工程师选择困难症怎么破？

YOLO26的亮相，与其说是一次升级，不如说是一声宣言：那个拼参数、卷规模的时代，正在悄悄退场。现在轮到“小身材、大智慧、拎包入住”的模型登场了。但有趣的是，擂台另一边也热闹得很——2024到2025

3月前
214
点赞
评论

YOLO26、RF-DETR、D-FINE… 2026模型混战，工程师选择困难症怎么破？

Meta ShapeR重磅开源：多模态3D生成，从真实杂乱视频中稳健重建

近年来，3D内容生成领域发展迅猛，但许多令人惊艳的模型演示背后，都隐藏着一个不为人知的秘密：它们大多依赖于“温室数据”。所谓“温室数据”，指的是那些在理想环境下采集的样本——干净的背景、没有遮挡、完

3月前
172
点赞
评论

Meta ShapeR重磅开源：多模态3D生成，从真实杂乱视频中稳健重建

当全世界都在谈论千亿大模型，工厂里的流水线却只相信 YOLO

2026年刚刚开始还没站稳脚跟，YOLO26就悄无声息地更新了。 YOLO26就这样出现在我们眼前——结构更轻、推理更快、工程表现也更稳了。它似乎又一次拽着“实时目标检测”的衣角，把它拉回到工厂的流水

3月前
166
点赞
评论

当全世界都在谈论千亿大模型，工厂里的流水线却只相信 YOLO

一个模型搞定所有场景！哈工大&罗切斯特大学提出无监督多场景ReID新方案

监控看不清、目标换衣服、白天黑夜切换……这些现实难题，现在一个模型就能全部解决！行人重识别（ReID）技术在现代安防、智慧城市等领域扮演着关键角色。想象一下，在茫茫人海中快速锁定特定目标——这正是R

3月前
99
点赞
评论

一个模型搞定所有场景！哈工大&罗切斯特大学提出无监督多场景ReID新方案

告别“模糊”与“迟钝”！首创波动方程建模视觉，ImageNet 84.2%，推理速度飙升

在深度学习视觉建模领域，如何既实现高效的全局语义交互，又能精准保留图像中的高频细节（如边缘和纹理），一直是一个关键难题。传统的卷积神经网络（CNN）依赖局部感受野，难以建模长程依赖；而视觉Transf

3月前
90
点赞
评论

告别“模糊”与“迟钝”！首创波动方程建模视觉，ImageNet 84.2%，推理速度飙升

大道至简：腾讯优图只用纯视觉模型，4张图超越全量训练SOTA

近年来，计算机视觉领域掀起了一股“视觉-语言大模型”的浪潮。从CLIP到各种多模态模型，研究者们似乎默认：解决复杂视觉任务必须依赖语言模型的加持。但在工业质检、医疗影像分析等高度依赖视觉信息的异常检

3月前
154
点赞
评论

大道至简：腾讯优图只用纯视觉模型，4张图超越全量训练SOTA

从“单例模仿”到“多面融合”，视觉上下文学习迈向“团队协作”式提示融合

在人工智能领域，让模型具备 “看几个例子就能学会新任务” 的能力，一直是研究者追求的目标。这种在自然语言处理中已趋成熟的上下文学习（In-Context Learning），如今正被深入应用于视觉

3月前
94
点赞
评论

从“单例模仿”到“多面融合”，视觉上下文学习迈向“团队协作”式提示融合

个人成就

优秀创作者

文章被点赞 189

文章被阅读 145,890

掘力值 9,976

加入于

2025-01-02