首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
全部
人工智能
LLM
Agent
AIGC
AI编程
后端
OpenAI
程序员
前端
展开
全部
人工智能
LLM
Agent
AIGC
AI编程
后端
OpenAI
程序员
前端
算法
Python
深度学习
计算机视觉
JavaScript
MCP
暂无数据
推荐
最新
量化技术:如何让你的 3D 模型和 AI 模型瘦身又飞快
本文深入解析量化技术在 3D 渲染和机器学习中的应用,讲解均匀与非均匀量化原理,介绍 Draco 与 MeshOpt 网格压缩库,并扩展到 PyTorch、TensorFlow 等模型量化实践。
效率翻倍!“Deep Research”技术,如何让你从信息海洋中精准淘金?
信息海洋——为什么你的“研究”效率如此低下? 想象一下一个世纪前的淘金者。他们最大的挑战是找到那条蕴藏黄金的河流。而今天,身为知识工作者的我们,面临着一个截然不同的困境:我们并非找不到河流,而是深陷一
结构化数据迎来“ChatGPT时刻”!LimitX:一个模型统一所有表格任务
在大语言模型如ChatGPT、GPT-4重塑自然语言处理范式,多模态模型征服图像、视频之后,人工智能的下一个前沿阵地正悄然浮现——结构化数据。 我们日常接触的金融风控、医疗诊断、商业决策,背后都依赖于
1.2MB超轻量模型实现草莓苗精准分级检测与定位,准确率超96%
在现代化的草莓育苗工厂中,一排排整齐的穴盘里孕育着成千上万的草莓幼苗。然而,一个长期困扰农户的难题是:如何快速准确地识别出哪些穴孔缺苗、哪些幼苗生长不良? 传统的解决方式主要依赖人工肉眼识别,效率低下
突破跨模态识别瓶颈!火箭军工程大学提出MFENet:让AI在白天黑夜都能准确识人
想象这样一个安防场景:白天,监控摄像头(可见光模式)清晰地捕捉到一个人的影像;到了夜晚,摄像头自动切换到红外模式,画面变成了基于热辐射的黑白图像。对于人类来说,我们很容易判断这是同一个人,但对于AI系
让Qwen-VL的检测能力像YOLO一样强,VLM-FO1如何打通大模型的视觉任督二脉
在当今多模态大模型(VLMs)飞速发展的时代,一个令人尴尬的问题依然存在:为什么这些能看懂图像、生成描述的模型,却难以精确地定位图像中的物体? 答案在于一个根本性矛盾:让一个为语言生成而设计的模型,去
外科医生离手术世界模型还有多远?首次提出SurgVeo基准,揭示AI生成手术视频的惊人差距
外科医生离手术世界模型还有多远?首次提出SurgVeo基准,揭示AI生成手术视频的惊人差距 近年来,视频生成领域的基石模型展现出作为潜在“世界模型”模拟物理世界的惊人能力。谷歌的Veo等模型已经能够生
从图像导数到边缘检测:探索Sobel与Scharr算子的原理与实践
计算机视觉是一个分析图像和视频的广阔领域。虽然很多人一听到计算机视觉,首先想到的通常是机器学习模型,但实际上,还有很多其他现有算法,在某些情况下,它们表现得比人工智能还要好! 在计算机视觉中,特征检测
注意力机制不再计算相似性?清华北大新研究让ViT转向“找差异”,效果出奇制胜
一篇来自清华大学和北京大学的最新研究,它给热门的Vision Transformer(ViT)带来了一次相当漂亮的“线性提速”。 这篇被NeurIPS 2025录用的论文,标题为 《Linear Di
终结AI偏见!Sony AI发布Nature论文与FHIBE数据集,重塑公平性评估基准
近年来,人工智能(尤其是计算机视觉)技术快速发展,广泛应用于安防、金融、医疗、自动驾驶等领域。然而,数据偏见问题一直如影随形,制约着AI系统的公平性与可信度。 你是否曾想过,训练AI的图像数据是否真正
搞定边缘AI部署:开源神器RamaLama,让视觉语言模型无处不在
人工智能的前沿不再只是数据中心;它在于工厂车间、零售店、公共基础设施以及我们周围的智能设备。推动这一转变的是视觉语言模型(VLM),这是一个革命性的人工智能,可以解释和推理图像和视频。潜力巨大,但任何
OCR战场再起风云:LightOnOCR-1B凭什么比DeepSeekOCR快1.7倍?(附演示开源地址)
就在前不久DeepSeekOCR开源发布,大家在感叹其体积和速度的时候,LightOnOCR又给我们带来全新的效果,这款全新的视觉语言模型正在重新定义机器阅读和理解商业信息的方式。 LightOnOC
一致性模型:单步生成高质量图像,破解扩散模型速度瓶颈
这篇名为《一致性模型》的论文提出了一类新的生成模型,能够一步到位地生成高质量图像,解决了扩散模型的主要瓶颈——采样过程慢、需要多次迭代。它的核心贡献在于证明了:在保持扩散模型强大表达能力和训练稳定性的
估值百亿独角兽创始人硕士论文曝光!宇树科技王兴兴的“性价比”思维10年前就已注定
“人火了是连毕业论文都要被翻出来的。”这条互联网定律再次应验——宇树科技CEO王兴兴的硕士毕业论文近日被网友们掘地三尺找了出来。 令人惊讶的是,这篇近十年前的论文不仅预示了如今机器人行业的技术路线转变
突破360°跟踪极限!OmniTrack++:全景MOT新范式,HOTA指标狂飙43%
全景相机能够捕捉360°完整环境信息,在自动驾驶、机器人导航等领域有着广泛应用。然而,这种超广视野也给多目标跟踪(MOT)带来了前所未有的挑战:严重的图像畸变、分辨率不均匀、目标在画面边缘频繁切换导致
当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?
多模态AI并非平等处理所有信息,其偏好暗藏玄机 近年来,视觉语言模型(VLMs)在多种任务上展现出了令人印象深刻的能力,它们能够同时理解图像和文本信息,完成复杂的推理任务。然而,当图像和文本信息相互矛
告别碎片化!Dinomaly2:一个极简框架统一所有异常检测任务
简单,是终极的复杂。——列奥纳多·达·芬奇 在工业质检、医疗诊断、安防监控等领域,异常检测一直扮演着至关重要的角色。然而,这个领域长期以来面临着一个核心痛点:方法碎片化。 想象一下,你的工厂需要检测2
从 token 到向量:微信 CALM 模型颠覆大语言模型范式
微信AI联合清华发布了CALM,从预测token转变为预测下一个向量。通过将持续多个token压缩为语义向量,使得生成的步骤变为原来的1/k,再性能相当的前提下,训练的计算量降低了44%,推理减少34
视觉语言模型(VLM)深度解析:如何用它来处理文档?
视觉语言模型是一类强大的机器学习模型,能够同时处理视觉(图像)和文本信息。随着最近 Qwen 3 VL 模型的发布,我想带大家深入探讨一下,如何利用这些强大的 VLM 来处理文档。 为什么你需要使用
【论文导读】ORB-SLAM3:An Accurate Open-Source Library for Visual, Visual-Inertial and
这篇论文主要做的是多传感器融合/视觉-惯性SLAM系统,提出了ORB-SLAM3,一个支持以下配置的开源SLAM系统,而不是基于深度学习的预测模型