首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
全部
人工智能
LLM
Agent
AIGC
AI编程
OpenAI
后端
程序员
算法
展开
全部
人工智能
LLM
Agent
AIGC
AI编程
OpenAI
后端
程序员
算法
前端
Python
深度学习
MCP
计算机视觉
面试
暂无数据
推荐
最新
突破360°跟踪极限!OmniTrack++:全景MOT新范式,HOTA指标狂飙43%
全景相机能够捕捉360°完整环境信息,在自动驾驶、机器人导航等领域有着广泛应用。然而,这种超广视野也给多目标跟踪(MOT)带来了前所未有的挑战:严重的图像畸变、分辨率不均匀、目标在画面边缘频繁切换导致
OCR战场再起风云:LightOnOCR-1B凭什么比DeepSeekOCR快1.7倍?(附演示开源地址)
就在前不久DeepSeekOCR开源发布,大家在感叹其体积和速度的时候,LightOnOCR又给我们带来全新的效果,这款全新的视觉语言模型正在重新定义机器阅读和理解商业信息的方式。 LightOnOC
当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?
多模态AI并非平等处理所有信息,其偏好暗藏玄机 近年来,视觉语言模型(VLMs)在多种任务上展现出了令人印象深刻的能力,它们能够同时理解图像和文本信息,完成复杂的推理任务。然而,当图像和文本信息相互矛
告别碎片化!Dinomaly2:一个极简框架统一所有异常检测任务
简单,是终极的复杂。——列奥纳多·达·芬奇 在工业质检、医疗诊断、安防监控等领域,异常检测一直扮演着至关重要的角色。然而,这个领域长期以来面临着一个核心痛点:方法碎片化。 想象一下,你的工厂需要检测2
估值百亿独角兽创始人硕士论文曝光!宇树科技王兴兴的“性价比”思维10年前就已注定
“人火了是连毕业论文都要被翻出来的。”这条互联网定律再次应验——宇树科技CEO王兴兴的硕士毕业论文近日被网友们掘地三尺找了出来。 令人惊讶的是,这篇近十年前的论文不仅预示了如今机器人行业的技术路线转变
搞定边缘AI部署:开源神器RamaLama,让视觉语言模型无处不在
人工智能的前沿不再只是数据中心;它在于工厂车间、零售店、公共基础设施以及我们周围的智能设备。推动这一转变的是视觉语言模型(VLM),这是一个革命性的人工智能,可以解释和推理图像和视频。潜力巨大,但任何
一致性模型:单步生成高质量图像,破解扩散模型速度瓶颈
这篇名为《一致性模型》的论文提出了一类新的生成模型,能够一步到位地生成高质量图像,解决了扩散模型的主要瓶颈——采样过程慢、需要多次迭代。它的核心贡献在于证明了:在保持扩散模型强大表达能力和训练稳定性的
视觉语言模型(VLM)深度解析:如何用它来处理文档?
视觉语言模型是一类强大的机器学习模型,能够同时处理视觉(图像)和文本信息。随着最近 Qwen 3 VL 模型的发布,我想带大家深入探讨一下,如何利用这些强大的 VLM 来处理文档。 为什么你需要使用
超越传统3D生成:OccScene实现感知与生成的跨任务共赢
无需依赖真实标注,仅凭文字提示即可生成高质量3D场景 在自动驾驶、机器人导航等领域,3D场景的感知与生成一直是研究热点。然而,传统方法通常将这两个过程分离:生成模型仅仅作为数据增强工具,为下游感知任务
全球OCR新标杆!百度0.9B小模型斩获四项SOTA,读懂复杂文档像人一样自然
开源16小时就登顶HuggingFace Trending全球第一! 前不久,小编刚刚介绍了PaddleOCR开源最强OCR生态,不靠参数靠实力,56K+ Star见证实力(附开源地址),然而就在17
2025目标检测模型全景图:从RF-DETR到YOLOv12,谁主沉浮?
目标检测技术正以前所未有的速度重塑着我们的世界。从自动驾驶汽车在城市街道上自如穿梭,到智能工厂精准监控生产线,这项技术已成为无数AI应用的核心支柱。 随着Transformer架构和注意力机制的快速发
视觉系统的秩序:从滤波、边缘检测到形态学操作
一、滤波:让画面安静下来 编辑 滤波,是计算机视觉中最早建立秩序的环节。它回答了一个根本问题:什么是信号,什么是噪声。 从均值、高斯,到中值、双边,再到自适应滤波,这些方法的目标始终一致——在不损
英伟达再出「神作」!黄仁勋华盛顿GTC宣布Vera Rubin超级芯片,联手诺基亚进军6G,市值直逼5万亿美元
昨夜,黄仁勋又“炸场”了。 在 2025 年 10 月的 GTC 大会上,从量子计算到6G通信,从超级芯片到AI工厂,黄伟达在华盛顿勾勒出美国AI世纪的宏伟蓝图。 在黄仁勋GTC主题演讲结束后,英伟达
Mamba-3震撼登场!Transformer最强挑战者再进化,已进入ICLR 2026盲审
线性时间推理、超长文本处理、硬件高效利用,这条“算法巨蟒”正在悄然蜕变。 在AI领域,Transformer架构自2017年确立统治地位以来,各类“Transformer杀手”就如雨后春笋般涌现。在众
万字详解:多目标跟踪(MOT)终极指南
如果你看过体育比赛中带球员轨迹回放,或者见过自动驾驶汽车在车流中穿梭,那你已经见识过多目标跟踪(MOT)技术了。这项技术不仅能识别视频中的物体,还能随时间持续追踪它们,为每个目标分配独立ID——比如在
ICCV 2025 最佳论文出炉:CMU 团队用「AI 积木大师」BrickGPT 摘得桂冠!
今天凌晨,在夏威夷举行的国际计算机视觉大会ICCV 2025揭晓了本届会议的最佳论文等奖项。全球计算机视觉三大顶会之一的ICCV今年共收到11239份有效投稿,最终录用2699篇论文,录用率为24%。
OmniNWM:突破自动驾驶世界模型三大瓶颈,全景多模态仿真新标杆(附代码地址)
上海交通大学等机构联合提出全能驾驶导航世界模型,在生成质量与控制精度上全面超越现有SOTA! 自动驾驶技术的发展正面临着一个关键瓶颈:如何在虚拟环境中进行高效、安全的训练与测试?传统的仿真平台虽然能够
不看异常,怎么学会识别异常?用“异常”指导异常检测!——NAGL方法解析(附代码地址)
在工业质检、医疗诊断等领域,异常检测技术一直面临着巨大挑战。传统的异常检测模型通常只使用正常样本进行训练,但当遇到全新场景时,检测效果往往大打折扣。更重要的是,在实际应用中,我们通常能够获得少量异常样
版本号突袭!官方预览:YOLO26正式宣布,10月发布,CPU推理速度提升43%
伦敦时间9月25日,YOLO Vision 2025(YV25) 混合盛会如期举行。全场观众屏息凝神,等待传闻中的Ultralytics YOLO14登场。然而,当Ultralytics创始人兼首席执
一夜之间,大模型处理长文本的难题被DeepSeek新模型彻底颠覆!
就在百度刚刚发布PaddleOCR-VL,以0.9B参数量重新定义文档解析效率之际,DeepSeek也正式开源了其颠覆性的DeepSeek-OCR模型。不过,它的野心远不止于“识别”,而是直指大模型处