首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
全部
人工智能
LLM
Agent
AIGC
AI编程
OpenAI
后端
程序员
前端
展开
全部
人工智能
LLM
Agent
AIGC
AI编程
OpenAI
后端
程序员
前端
算法
Python
深度学习
MCP
计算机视觉
JavaScript
暂无数据
推荐
最新
量化技术:如何让你的 3D 模型和 AI 模型瘦身又飞快
本文深入解析量化技术在 3D 渲染和机器学习中的应用,讲解均匀与非均匀量化原理,介绍 Draco 与 MeshOpt 网格压缩库,并扩展到 PyTorch、TensorFlow 等模型量化实践。
从 token 到向量:微信 CALM 模型颠覆大语言模型范式
微信AI联合清华发布了CALM,从预测token转变为预测下一个向量。通过将持续多个token压缩为语义向量,使得生成的步骤变为原来的1/k,再性能相当的前提下,训练的计算量降低了44%,推理减少34
突破360°跟踪极限!OmniTrack++:全景MOT新范式,HOTA指标狂飙43%
全景相机能够捕捉360°完整环境信息,在自动驾驶、机器人导航等领域有着广泛应用。然而,这种超广视野也给多目标跟踪(MOT)带来了前所未有的挑战:严重的图像畸变、分辨率不均匀、目标在画面边缘频繁切换导致
OCR战场再起风云:LightOnOCR-1B凭什么比DeepSeekOCR快1.7倍?(附演示开源地址)
就在前不久DeepSeekOCR开源发布,大家在感叹其体积和速度的时候,LightOnOCR又给我们带来全新的效果,这款全新的视觉语言模型正在重新定义机器阅读和理解商业信息的方式。 LightOnOC
告别碎片化!Dinomaly2:一个极简框架统一所有异常检测任务
简单,是终极的复杂。——列奥纳多·达·芬奇 在工业质检、医疗诊断、安防监控等领域,异常检测一直扮演着至关重要的角色。然而,这个领域长期以来面临着一个核心痛点:方法碎片化。 想象一下,你的工厂需要检测2
当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?
多模态AI并非平等处理所有信息,其偏好暗藏玄机 近年来,视觉语言模型(VLMs)在多种任务上展现出了令人印象深刻的能力,它们能够同时理解图像和文本信息,完成复杂的推理任务。然而,当图像和文本信息相互矛
搞定边缘AI部署:开源神器RamaLama,让视觉语言模型无处不在
人工智能的前沿不再只是数据中心;它在于工厂车间、零售店、公共基础设施以及我们周围的智能设备。推动这一转变的是视觉语言模型(VLM),这是一个革命性的人工智能,可以解释和推理图像和视频。潜力巨大,但任何
估值百亿独角兽创始人硕士论文曝光!宇树科技王兴兴的“性价比”思维10年前就已注定
“人火了是连毕业论文都要被翻出来的。”这条互联网定律再次应验——宇树科技CEO王兴兴的硕士毕业论文近日被网友们掘地三尺找了出来。 令人惊讶的是,这篇近十年前的论文不仅预示了如今机器人行业的技术路线转变
一致性模型:单步生成高质量图像,破解扩散模型速度瓶颈
这篇名为《一致性模型》的论文提出了一类新的生成模型,能够一步到位地生成高质量图像,解决了扩散模型的主要瓶颈——采样过程慢、需要多次迭代。它的核心贡献在于证明了:在保持扩散模型强大表达能力和训练稳定性的
视觉语言模型(VLM)深度解析:如何用它来处理文档?
视觉语言模型是一类强大的机器学习模型,能够同时处理视觉(图像)和文本信息。随着最近 Qwen 3 VL 模型的发布,我想带大家深入探讨一下,如何利用这些强大的 VLM 来处理文档。 为什么你需要使用
AI研究-113 DeepSeek-OCR 原理与架构全解|视觉压缩长文本 SAM-base 16×下采样 CLIP-L 3B-MoE
系统拆解 DeepSeek-OCR 的“上下文光学压缩”思路:将长文本渲染为图片,以视觉 token 取代海量文本 token,显著降低长上下文成本。按数据流解析架构:SAM-base 局部注意提细节
全球OCR新标杆!百度0.9B小模型斩获四项SOTA,读懂复杂文档像人一样自然
开源16小时就登顶HuggingFace Trending全球第一! 前不久,小编刚刚介绍了PaddleOCR开源最强OCR生态,不靠参数靠实力,56K+ Star见证实力(附开源地址),然而就在17
超越传统3D生成:OccScene实现感知与生成的跨任务共赢
无需依赖真实标注,仅凭文字提示即可生成高质量3D场景 在自动驾驶、机器人导航等领域,3D场景的感知与生成一直是研究热点。然而,传统方法通常将这两个过程分离:生成模型仅仅作为数据增强工具,为下游感知任务
2025目标检测模型全景图:从RF-DETR到YOLOv12,谁主沉浮?
目标检测技术正以前所未有的速度重塑着我们的世界。从自动驾驶汽车在城市街道上自如穿梭,到智能工厂精准监控生产线,这项技术已成为无数AI应用的核心支柱。 随着Transformer架构和注意力机制的快速发
Mamba-3震撼登场!Transformer最强挑战者再进化,已进入ICLR 2026盲审
线性时间推理、超长文本处理、硬件高效利用,这条“算法巨蟒”正在悄然蜕变。 在AI领域,Transformer架构自2017年确立统治地位以来,各类“Transformer杀手”就如雨后春笋般涌现。在众
万字详解:多目标跟踪(MOT)终极指南
如果你看过体育比赛中带球员轨迹回放,或者见过自动驾驶汽车在车流中穿梭,那你已经见识过多目标跟踪(MOT)技术了。这项技术不仅能识别视频中的物体,还能随时间持续追踪它们,为每个目标分配独立ID——比如在
英伟达再出「神作」!黄仁勋华盛顿GTC宣布Vera Rubin超级芯片,联手诺基亚进军6G,市值直逼5万亿美元
昨夜,黄仁勋又“炸场”了。 在 2025 年 10 月的 GTC 大会上,从量子计算到6G通信,从超级芯片到AI工厂,黄伟达在华盛顿勾勒出美国AI世纪的宏伟蓝图。 在黄仁勋GTC主题演讲结束后,英伟达
【论文导读】ORB-SLAM3:An Accurate Open-Source Library for Visual, Visual-Inertial and
这篇论文主要做的是多传感器融合/视觉-惯性SLAM系统,提出了ORB-SLAM3,一个支持以下配置的开源SLAM系统,而不是基于深度学习的预测模型
ICCV 2025 最佳论文出炉:CMU 团队用「AI 积木大师」BrickGPT 摘得桂冠!
今天凌晨,在夏威夷举行的国际计算机视觉大会ICCV 2025揭晓了本届会议的最佳论文等奖项。全球计算机视觉三大顶会之一的ICCV今年共收到11239份有效投稿,最终录用2699篇论文,录用率为24%。
OmniNWM:突破自动驾驶世界模型三大瓶颈,全景多模态仿真新标杆(附代码地址)
上海交通大学等机构联合提出全能驾驶导航世界模型,在生成质量与控制精度上全面超越现有SOTA! 自动驾驶技术的发展正面临着一个关键瓶颈:如何在虚拟环境中进行高效、安全的训练与测试?传统的仿真平台虽然能够