首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
全部
人工智能
LLM
AIGC
Agent
AI编程
OpenAI
后端
算法
程序员
展开
全部
人工智能
LLM
AIGC
Agent
AI编程
OpenAI
后端
算法
程序员
前端
Python
深度学习
计算机视觉
MCP
面试
暂无数据
推荐
最新
搞定边缘AI部署:开源神器RamaLama,让视觉语言模型无处不在
人工智能的前沿不再只是数据中心;它在于工厂车间、零售店、公共基础设施以及我们周围的智能设备。推动这一转变的是视觉语言模型(VLM),这是一个革命性的人工智能,可以解释和推理图像和视频。潜力巨大,但任何
一致性模型:单步生成高质量图像,破解扩散模型速度瓶颈
这篇名为《一致性模型》的论文提出了一类新的生成模型,能够一步到位地生成高质量图像,解决了扩散模型的主要瓶颈——采样过程慢、需要多次迭代。它的核心贡献在于证明了:在保持扩散模型强大表达能力和训练稳定性的
超越传统3D生成:OccScene实现感知与生成的跨任务共赢
无需依赖真实标注,仅凭文字提示即可生成高质量3D场景 在自动驾驶、机器人导航等领域,3D场景的感知与生成一直是研究热点。然而,传统方法通常将这两个过程分离:生成模型仅仅作为数据增强工具,为下游感知任务
视觉系统的秩序:从滤波、边缘检测到形态学操作
一、滤波:让画面安静下来 编辑 滤波,是计算机视觉中最早建立秩序的环节。它回答了一个根本问题:什么是信号,什么是噪声。 从均值、高斯,到中值、双边,再到自适应滤波,这些方法的目标始终一致——在不损
英伟达再出「神作」!黄仁勋华盛顿GTC宣布Vera Rubin超级芯片,联手诺基亚进军6G,市值直逼5万亿美元
昨夜,黄仁勋又“炸场”了。 在 2025 年 10 月的 GTC 大会上,从量子计算到6G通信,从超级芯片到AI工厂,黄伟达在华盛顿勾勒出美国AI世纪的宏伟蓝图。 在黄仁勋GTC主题演讲结束后,英伟达
万字详解:多目标跟踪(MOT)终极指南
如果你看过体育比赛中带球员轨迹回放,或者见过自动驾驶汽车在车流中穿梭,那你已经见识过多目标跟踪(MOT)技术了。这项技术不仅能识别视频中的物体,还能随时间持续追踪它们,为每个目标分配独立ID——比如在
2025目标检测模型全景图:从RF-DETR到YOLOv12,谁主沉浮?
目标检测技术正以前所未有的速度重塑着我们的世界。从自动驾驶汽车在城市街道上自如穿梭,到智能工厂精准监控生产线,这项技术已成为无数AI应用的核心支柱。 随着Transformer架构和注意力机制的快速发
OmniNWM:突破自动驾驶世界模型三大瓶颈,全景多模态仿真新标杆(附代码地址)
上海交通大学等机构联合提出全能驾驶导航世界模型,在生成质量与控制精度上全面超越现有SOTA! 自动驾驶技术的发展正面临着一个关键瓶颈:如何在虚拟环境中进行高效、安全的训练与测试?传统的仿真平台虽然能够
华为世界模型来了!30分钟生成272㎡室内场景,虚拟人导航不迷路
3D场景生成迎来突破,大平层里虚拟人也能自由行走 近日,华为联合上海交通大学、华中科技大学推出了全新的世界模型WorldGrow,该模型能够生成高达1800㎡的超大室内场景(19x39块),且单张A1
不看异常,怎么学会识别异常?用“异常”指导异常检测!——NAGL方法解析(附代码地址)
在工业质检、医疗诊断等领域,异常检测技术一直面临着巨大挑战。传统的异常检测模型通常只使用正常样本进行训练,但当遇到全新场景时,检测效果往往大打折扣。更重要的是,在实际应用中,我们通常能够获得少量异常样
全球OCR新标杆!百度0.9B小模型斩获四项SOTA,读懂复杂文档像人一样自然
开源16小时就登顶HuggingFace Trending全球第一! 前不久,小编刚刚介绍了PaddleOCR开源最强OCR生态,不靠参数靠实力,56K+ Star见证实力(附开源地址),然而就在17
Mamba-3震撼登场!Transformer最强挑战者再进化,已进入ICLR 2026盲审
线性时间推理、超长文本处理、硬件高效利用,这条“算法巨蟒”正在悄然蜕变。 在AI领域,Transformer架构自2017年确立统治地位以来,各类“Transformer杀手”就如雨后春笋般涌现。在众
ICCV 2025 最佳论文出炉:CMU 团队用「AI 积木大师」BrickGPT 摘得桂冠!
今天凌晨,在夏威夷举行的国际计算机视觉大会ICCV 2025揭晓了本届会议的最佳论文等奖项。全球计算机视觉三大顶会之一的ICCV今年共收到11239份有效投稿,最终录用2699篇论文,录用率为24%。
首个自监督微调Stable Diffusion框架!更清晰、更泛化的单目深度估计(附代码地址)
无需精确标注,照样能get细致入微的深度图 你是否曾经想过,如果AI能像人类一样,仅通过观看视频就理解场景的远近关系,那该有多酷? 最近,一项名为 Jasmine 的研究给出了令人惊喜的答案——它首次
一夜之间,大模型处理长文本的难题被DeepSeek新模型彻底颠覆!
就在百度刚刚发布PaddleOCR-VL,以0.9B参数量重新定义文档解析效率之际,DeepSeek也正式开源了其颠覆性的DeepSeek-OCR模型。不过,它的野心远不止于“识别”,而是直指大模型处
计算机视觉遇见手绘图表,如何教会机器理解流程图?
本文讲解了将原始的手绘图表(比如白板照片、流程图、线框图)转换成结构化的、机器可读的 JSON。这事儿听起来简单,实践起来却复杂得惊人。本文将通过我的技术实践历程,介绍实际遇到的困难以及真正有效的解决
突破性开源模型DepthLM问世:视觉语言模型首次实现精准三维空间理解
无需改变架构,仅通过创新训练策略,就让视觉语言模型具备了与专业视觉模型相媲美的三维感知能力 在多模态人工智能蓬勃发展的今天,一项突破性研究正悄然改写我们对视觉语言模型的认知边界。Meta公司高级研究员
IDEA研究院发布Rex-Omni:3B参数MLLM重塑目标检测,零样本性能超越DINO
把目标检测变成“下一个点预测”,用2200万数据+强化学习解决行业难题 目标检测技术正在迎来一场范式革命!传统方法如YOLO、DETR依赖复杂的坐标回归,而IDEA(粤港澳大湾区数字经济研究院)研究院
版本号突袭!官方预览:YOLO26正式宣布,10月发布,CPU推理速度提升43%
伦敦时间9月25日,YOLO Vision 2025(YV25) 混合盛会如期举行。全场观众屏息凝神,等待传闻中的Ultralytics YOLO14登场。然而,当Ultralytics创始人兼首席执
如何在 2025 年构建强大的实时视频检测?
还记得你第一次看到无人驾驶汽车在街头“自己开”的震撼吗? 或者监控画面里,AI 自动圈出一个可疑人物? 又或者无人机在空中灵巧地避开障碍? 这些都离不开同一个核心技术——实时视频目标检测(Real-t