首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
全部
人工智能
LLM
AIGC
Agent
AI编程
OpenAI
后端
算法
程序员
展开
全部
人工智能
LLM
AIGC
Agent
AI编程
OpenAI
后端
算法
程序员
前端
Python
深度学习
计算机视觉
开源
MCP
暂无数据
推荐
最新
首个自监督微调Stable Diffusion框架!更清晰、更泛化的单目深度估计(附代码地址)
无需精确标注,照样能get细致入微的深度图 你是否曾经想过,如果AI能像人类一样,仅通过观看视频就理解场景的远近关系,那该有多酷? 最近,一项名为 Jasmine 的研究给出了令人惊喜的答案——它首次
计算机视觉遇见手绘图表,如何教会机器理解流程图?
本文讲解了将原始的手绘图表(比如白板照片、流程图、线框图)转换成结构化的、机器可读的 JSON。这事儿听起来简单,实践起来却复杂得惊人。本文将通过我的技术实践历程,介绍实际遇到的困难以及真正有效的解决
全球OCR新标杆!百度0.9B小模型斩获四项SOTA,读懂复杂文档像人一样自然
开源16小时就登顶HuggingFace Trending全球第一! 前不久,小编刚刚介绍了PaddleOCR开源最强OCR生态,不靠参数靠实力,56K+ Star见证实力(附开源地址),然而就在17
ICCV 2025 最佳论文出炉:CMU 团队用「AI 积木大师」BrickGPT 摘得桂冠!
今天凌晨,在夏威夷举行的国际计算机视觉大会ICCV 2025揭晓了本届会议的最佳论文等奖项。全球计算机视觉三大顶会之一的ICCV今年共收到11239份有效投稿,最终录用2699篇论文,录用率为24%。
突破性开源模型DepthLM问世:视觉语言模型首次实现精准三维空间理解
无需改变架构,仅通过创新训练策略,就让视觉语言模型具备了与专业视觉模型相媲美的三维感知能力 在多模态人工智能蓬勃发展的今天,一项突破性研究正悄然改写我们对视觉语言模型的认知边界。Meta公司高级研究员
一夜之间,大模型处理长文本的难题被DeepSeek新模型彻底颠覆!
就在百度刚刚发布PaddleOCR-VL,以0.9B参数量重新定义文档解析效率之际,DeepSeek也正式开源了其颠覆性的DeepSeek-OCR模型。不过,它的野心远不止于“识别”,而是直指大模型处
Mamba-3震撼登场!Transformer最强挑战者再进化,已进入ICLR 2026盲审
线性时间推理、超长文本处理、硬件高效利用,这条“算法巨蟒”正在悄然蜕变。 在AI领域,Transformer架构自2017年确立统治地位以来,各类“Transformer杀手”就如雨后春笋般涌现。在众
IDEA研究院发布Rex-Omni:3B参数MLLM重塑目标检测,零样本性能超越DINO
把目标检测变成“下一个点预测”,用2200万数据+强化学习解决行业难题 目标检测技术正在迎来一场范式革命!传统方法如YOLO、DETR依赖复杂的坐标回归,而IDEA(粤港澳大湾区数字经济研究院)研究院
LiveCC 首个视频解说大模型开源,比赛视频也能轻松拿捏!
你刷视频的时候是否也遇到过这些烦恼:看教学视频没有字幕,步骤总被错过;看比赛时听不懂专业术语,全程不知所云......别怕,你的救星来啦!新加坡国立大学 Show Lab 与字节跳动公司于 2025
【论文导读】ORB-SLAM3:An Accurate Open-Source Library for Visual, Visual-Inertial and
这篇论文主要做的是多传感器融合/视觉-惯性SLAM系统,提出了ORB-SLAM3,一个支持以下配置的开源SLAM系统,而不是基于深度学习的预测模型
清华Mars Lab发布SLAM-Former:用一个Transformer统一SLAM的前端与后端(附项目地址)
将前端跟踪与后端优化统一在一个模型中,实现实时、高一致性的视觉SLAM 在机器人感知领域,同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术
CLIP, DINO等多模型融合DreamSim,让电脑“看懂”图片有多像!模型融合成为热门!
导读 你是否曾疑惑,为什么电脑总觉得一张坐着的狗和一张站着的狗是完全不同的两张图?今天,我们来聊聊一个能让电脑像人类一样感知图像相似度的新模型——DreamSim。>>更多资讯可加入CV技术群获取了解
YOLO Vision 2025 还没结束!亚洲首场登陆深圳,YOLO26有望亮相
就在9月25日结束的伦敦YOLOVision 2025上,Ultralytics官宣将在10月份推出YOLO26模型。但无论是Glenn Jocher还是Ultralytics的LinkedIn,都没
AI基础设施新玩家:Tinker如何重新定义LLM微调工作流?
近日,人工智能公司Thinking Machines发布了名为Tinker的创新API服务,该服务旨在彻底改变开发人员微调开放权重语言模型的方式。对于那些苦于基础设施管理复杂性的AI研究团队来说,这无
2025 年度 AI 行业百科《State of AI 2025》来了!推理元年、算力焦虑与价值回归
每年《State of AI Report》的发布,都像是一场行业体检。 而今年,这份被誉为“AI行业的年度百科”的报告,给出了一个颇冷的诊断结论:“我们以为AI变聪明了,其实很多时候只是更会考试了。
如何在 2025 年构建强大的实时视频检测?
还记得你第一次看到无人驾驶汽车在街头“自己开”的震撼吗? 或者监控画面里,AI 自动圈出一个可疑人物? 又或者无人机在空中灵巧地避开障碍? 这些都离不开同一个核心技术——实时视频目标检测(Real-t
版本号突袭!官方预览:YOLO26正式宣布,10月发布,CPU推理速度提升43%
伦敦时间9月25日,YOLO Vision 2025(YV25) 混合盛会如期举行。全场观众屏息凝神,等待传闻中的Ultralytics YOLO14登场。然而,当Ultralytics创始人兼首席执
ICLR 2026 惊现 SAM 3,匿名提交,实现“概念分割”,CV领域再迎颠覆性突破?
最近,在AI顶会ICLR 2026的Open Review阶段,一篇匿名提交的论文 《 SAM 3: Segment Anything with Concepts 》 引发网友广泛关注。 对于AI圈的
浅见——深度学习
深度学习 好多好友,经常问我什么是深度学习? 今天为大家分享一下自己的浅见理解哈 一、 什么是深度学习? 深度学习(DL, Deep Learning),是指利用神经网络进行训练的机器学习方法。 深度
长期以来我对 LLM 的误解
深入探讨大语言模型(LLM)的工作原理,理解从传统规则编程到概率计算的范式转换,揭秘模型参数与智能的本质。