首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
全部
人工智能
AIGC
AI编程
后端
前端
Agent
算法
LLM
OpenAI
展开
全部
人工智能
AIGC
AI编程
后端
前端
Agent
算法
LLM
OpenAI
Python
深度学习
LangChain
计算机视觉
Claude
程序员
暂无数据
推荐
最新
[大模型实战 03] 拆解 Transformers:从原理图解到 HuggingFace Transformers 实战
会跑代码还不够,我们要懂原理。本文从 Transformer 的底层视角出发,图解从位置编码到注意力机制的全流程;并基于 Kaggle 平台,深入拆解 HuggingFace Transformers
为什么 2026 年,3D 工业视觉成为视觉算法分化的一年?
这几年,3D 工业视觉走得很快,也走得有点累。 参数一路狂飙:像素更高、帧率更快、功率更猛、视角更广、体积更小。单看规格表,很难不让人兴奋。但真正把设备装上产线的人,往往会在几周后露出一种复杂的表情—
YOLOE-26发布:能听懂人话的实时开放词汇分割模型来了!
在计算机视觉领域,YOLO系列一直是速度和精度的代名词。但长期以来,所有YOLO模型都存在一个根本性限制:它们只能识别训练时见过的类别。 当面对新的物体类型——比如特殊的工业零件、罕见的植物病害或是特
红外小目标检测新突破!浙大团队提出DQAligner:大位移场景下依然稳定跟踪
红外成像领域的小目标检测一直是个技术难题——目标可能只是几个像素点,还常常淹没在复杂的云层、海面背景或者传感器噪声里。 为了解决这个难题,研究者们开始利用多帧时空信息,但新的问题随之而来:当摄像机或目
【深度学习新手踩坑实录】(推荐系统实战)LightGCN搭建企业级推荐系统(附GitHub仓库+数据集链接)
其实推荐系统落地没那么难,关键是找对方法:用企业级结构管代码,用 PyG 简化图模型实现,再吃透 LightGCN 的 “偷懒哲学”。今天让你轻松写出能放简历上的 “企业级” 推荐系统!
参数仅6.31亿反超7B模型,NVIDIA用「多教师蒸馏」融合三大模型绝学
在追求模型规模的竞赛中,一个反直觉的事实正在发生:NVIDIA 的 C-RADIOv4 仅用 6.31 亿个参数就达到了 DINOv3 的 70 亿参数模型的性能。多教师蒸馏技术,正在彻底改变我们构建
GLM-4.7-Flash:高性能、高吞吐轻量化的 MoE 推理模型;Delhi Pollution AQl:超过二十万条小时环境观测样本
公共资源速递 6 个公共数据集: Sonar Signal 水下声呐信号数据集 Diabetes Mexico 墨西哥糖尿病数据集 Vehicles OpenImages 车辆图像数据集 LightO
为视觉建模注入物理灵魂:WaveFormer证明,下一站是“物理启发模型”
近年来,Transformer 席卷了计算机视觉领域,从图像分类到目标检测,表现亮眼。然而,当任务从静态图像扩展到视频理解、动态场景分析时,Transformer 的“硬扛”模式开始显露出明显局限。最
“看起来像世界”≠“真世界”!WorldLens全维度解构自动驾驶世界模型
近年来,随着生成式AI技术的突破,世界模型(World Models) 已成为自动驾驶与具身智能领域的核心研究方向。从文本直接生成驾驶视频,到可控的4D动态场景合成,当前模型已经能够产出视觉上足以“以
一步生成,像素空间,何恺明让 pMF 做到了
何恺明团队最近抛出的这篇工作,多少有点“把老问题直接掀桌子重来”的味道。他们提出的 **Pixel MeanFlow(pMF) **,在不借助潜在空间、不依赖多步采样的前提下,只用一次前向传播,就生成
$300/2天:Moltbot(原 Clawdbot) Token 消耗失控的技术根源
Clawdbot因每次调用都发送完整系统提示、工具定义和全部历史,导致token消耗失控,用户两天花费300美元。优化方案包括启用缓存、压缩网页内容、动态选择工具和成本熔断,可降低成本70-90%。
AI Agent 框架探秘:拆解 OpenHands(5)--- 交互&会话
AI Agent 框架探秘:拆解 OpenHands(5)--- 交互&会话 0x00 概述 0x01 背景 1.1 会话的意义 1.2 会话系统的常见功能 1.3 Session 常见内容 1.4
CVPR 2025 Oral | 港大提出OverLoCK:模仿人类视觉机制,让模型“先见森林,再见树木”
人类在观察复杂场景时,通常会先快速扫视整体轮廓,形成初步认知,再集中注意力到关键区域进行细节分析。这种 “纵观全局-聚焦细节” 的两阶段认知机制被称为自上而下注意力(Top-down Attentio
测试里“无所不能”,一上线就“ bug 频出”,你的CV模型到底缺了什么?
那个在象牙塔里从未失手的“学霸”,理论知识门门满分,实验操作无可挑剔。可当他第一次踏入纷繁复杂、充满意外的真实社会,却步步维艰,处处碰壁——这画面,是不是像极了如今许多计算机视觉领域那些光彩夺目的“高
告别CLIP局限!SSVP框架实现零样本异常检测,刷新7大数据集SOTA
工业视觉检测一直是智能制造领域的关键技术,而零样本异常检测(ZSAD) 更是被视为行业的“圣杯”——无需针对特定产线进行训练,即可直接投入使用的理想解决方案。然而,现有基于视觉语言模型(如CLIP)的
【深度学习新手踩坑实录】(NLP实战)Word2Vec+Bi-LSTM搭建企业级恶意评论检测系统(附GitHub+数据集链接)
想给简历加个 NLP 实战项目?本文记录了我从零搭建一个企业级规范的恶意评论检测系统的全过程。欢迎交流~
AI Agent 深度解析:原理、架构与未来应用浪潮
AI Agent(人工智能智能体)是一种能够感知环境、自主规划、调用工具并执行行动,以达成特定目标的智能系统。如果用人来类比,大语言模型(LLM)相当于“大脑”,负责思考与决策;而外部工具则如同“手脚
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
在视觉语言模型(VLMs)的发展进程中,文档 OCR 始终面临着布局解析复杂、语义逻辑对齐等核心挑战。传统模型大多采用固定的「左上到右下」栅格扫描顺序处理视觉 token,这种刚性流程与人类视觉系统遵
AI Agent 框架探秘:拆解 OpenHands(4)--- 服务
AI Agent 框架探秘:拆解 OpenHands(4)--- 服务 0x00 概述 0x01 服务 1.1 API 模式 1.2 服务器组件 1.3 服务工作流程描述 1.4 listen_soc
96%准确率!中科院提出ACLNet,攻克骨架动作识别最难问题:相似动作区分
在计算机视觉领域,基于骨架的人体动作识别一直备受关注。相比传统视频流,骨架数据不仅计算高效,还对环境光照、背景干扰有着天然的免疫力。然而,骨架模型也有自己的“心病”:由于缺乏物体信息和精细的体型特征,