首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
全部
人工智能
AIGC
AI编程
后端
Agent
前端
算法
LLM
OpenAI
展开
全部
人工智能
AIGC
AI编程
后端
Agent
前端
算法
LLM
OpenAI
Python
深度学习
LangChain
程序员
计算机视觉
Claude
暂无数据
推荐
最新
10亿参数刷新OCR记录:LightOnOCR-2如何以小博大?
最近,法国AI公司LightOn在文档理解领域投下了一枚重磅炸弹——他们推出的LightOnOCR-2-1B模型仅凭10亿参数,就在权威OCR评测基准OlmOCR-Bench上击败了参数量大它9倍的竞
今日,DeepSeek再次“拆掉重做”,开源架构炸场:OCR 2只是起点,这次要重构AI的“眼睛”和“大脑”?
就在今年十月,DeepSeek 放出其全新的 DeepSeek-OCR 模型时,业内还在消化它在文档解析上带来的震动。没想到,短短时间,他们又抛出了一篇重磅论文——DeepSeek-OCR 2。而这次
YOLO26技术详解:原生NMS-Free架构设计与实现原理
最近,计算机视觉领域再掀波澜!YOLO 家族最新成员——YOLO26横空出世,以“彻底移除NMS”为核心变革,开启了真正的端到端目标检测新时代。虽然官方论文尚未正式发布,但来自KIIT大学的深度分析报
诊断、分割、解释三位一体:医学AI如何从“工具”进化成“助手”?
在医学影像的世界里,AI模型大多还停留在“工具”阶段:它们能精准勾画病灶轮廓,却无法告诉你这意味着什么;它们能回答疾病名称,却指不出病灶的具体位置。医生面对的,仍然是碎片化的信息。 一项来自澳门大学的
Meta ShapeR重磅开源:多模态3D生成,从真实杂乱视频中稳健重建
近年来,3D内容生成领域发展迅猛,但许多令人惊艳的模型演示背后,都隐藏着一个不为人知的秘密:它们大多依赖于“温室数据”。 所谓“温室数据”,指的是那些在理想环境下采集的样本——干净的背景、没有遮挡、完
YOLO26、RF-DETR、D-FINE… 2026模型混战,工程师选择困难症怎么破?
YOLO26的亮相,与其说是一次升级,不如说是一声宣言:那个拼参数、卷规模的时代,正在悄悄退场。现在轮到“小身材、大智慧、拎包入住”的模型登场了。但有趣的是,擂台另一边也热闹得很——2024到2025
大道至简:腾讯优图只用纯视觉模型,4张图超越全量训练SOTA
近年来,计算机视觉领域掀起了一股“视觉-语言大模型”的浪潮。从CLIP到各种多模态模型,研究者们似乎默认:解决复杂视觉任务必须依赖语言模型的加持。 但在工业质检、医疗影像分析等高度依赖视觉信息的异常检
YOLO26正式亮相!极致速度优化,为落地而生!
就在刚刚,Ultralytics 正式发布 YOLO26,这是迄今为止最先进、最易部署的 YOLO 模型。就是那个在 YOLO Vision 2025 大会上首次亮相的新一代视觉模型。不得不说,每次
一个模型搞定所有场景!哈工大&罗切斯特大学提出无监督多场景ReID新方案
监控看不清、目标换衣服、白天黑夜切换……这些现实难题,现在一个模型就能全部解决! 行人重识别(ReID)技术在现代安防、智慧城市等领域扮演着关键角色。想象一下,在茫茫人海中快速锁定特定目标——这正是R
告别“模糊”与“迟钝”!首创波动方程建模视觉,ImageNet 84.2%,推理速度飙升
在深度学习视觉建模领域,如何既实现高效的全局语义交互,又能精准保留图像中的高频细节(如边缘和纹理),一直是一个关键难题。传统的卷积神经网络(CNN)依赖局部感受野,难以建模长程依赖;而视觉Transf
计算机视觉的 2026:从“堆算力”竞赛,到“省算力”智慧
2026 年,计算机视觉早已不是实验室里的小众技术 —— 它是自动驾驶汽车的 “眼睛”,是医疗影像诊断的 “辅助手”,是机器人交互的 “感知中枢”,更是多模态大模型理解世界的核心支柱。从手机端的实时美
Windows端RTSP/RTMP播放器实现回调RGB数据、动态水印叠加与二次推流录像技术实践
为什么我们需要“二次编码”? 在安防监控、教育直播或庭审录像等场景中,我们往往不满足于仅仅把视频“拉下来看”。我们经常面临以下高阶需求: 版权与取证:需要在原始视频流上叠加实时的“当前时间”或图片水印
从“单例模仿”到“多面融合”,视觉上下文学习迈向“团队协作”式提示融合
在人工智能领域,让模型具备 “看几个例子就能学会新任务” 的能力,一直是研究者追求的目标。这种在自然语言处理中已趋成熟的上下文学习 (In-Context Learning) ,如今正被深入应用于视觉
英伟达CES 2026炸场:没有新显卡,却掏出了让全球AI公司彻夜难眠的“算力核弹”
英伟达在CES 2026上抛出一系列重磅炸弹,直接宣告了AI算力工厂时代的到来。没有游戏显卡的更新,却有一场彻底改变AI产业格局的技术革命。 算力革命,Vera Rubin平台横空出世 “全球AI算力
视频超分辨率如何提升跨视角行人识别?让监控画面“看清”每一个人
在城市的天空与地面之间,无数摄像头正默默记录着行人的轨迹。但你是否想过,当一个模糊的身影从无人机画面中掠过,我们如何在地面监控中准确找到同一个人?这正是跨视角行人重识别技术的核心挑战。最近,一项名为S
工业视觉检测:多模态大模型的诱惑
一、一个让人心动的问题 2023年初,GPT-4V发布后不久,我们接到一个老客户的电话。 他是某家电企业的技术负责人,两年前我们帮他们上了一套基于YOLOv5的外观检测系统,跑得一直不错。 电话里他问
如何用10%的标注数据,达到可媲美全监督模型的性能?AAAI 2026论文揭秘BCSI三大创新设计
随着人工智能在医学影像分析领域的深入应用,精确的图像分割已成为计算机辅助诊断、手术规划和疗效评估的关键技术。然而,高质量医学图像的标注不仅成本高昂,还需要顶级专家的专业知识,这一“数据困境”长期制约着
仅192万参数的目标检测模型,Micro-YOLO如何做到目标检测精度与效率兼得
随着目标检测技术在自动驾驶、安防监控、智能终端等领域的广泛应用,如何在计算资源有限的嵌入式设备中高效部署检测模型,已成为工业界与学术界共同关注的核心问题。传统的检测模型如Faster R-CNN、YO
YOLO-Maste开源:首个MoE加速加速实时检测,推理提速17.8%!
在实时目标检测领域,YOLO系列凭借其一阶段框架,在精度与速度之间取得了卓越的平衡。然而,一个根本性局限长期存在:静态密集计算。 无论是面对稀疏大目标的简单天空,还是布满微小目标的拥挤路口,所有YOL
告别YOLOv8!全面拥抱YOLOv11:最贴心的YOLO“保姆级”教程
告别YOLOv8!全面拥抱YOLOv11:最贴心的YOLO“保姆级”教程 一. 前言 相信点开这篇文章的你,大概率正面临一个实际的机器视觉项目,需要快速掌握一个高效实用的目标检测工具YOLO。因此,本