首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
全部
人工智能
AIGC
AI编程
后端
Agent
前端
算法
LLM
OpenAI
展开
全部
人工智能
AIGC
AI编程
后端
Agent
前端
算法
LLM
OpenAI
Python
深度学习
LangChain
程序员
Claude
计算机视觉
暂无数据
推荐
最新
96%准确率!中科院提出ACLNet,攻克骨架动作识别最难问题:相似动作区分
在计算机视觉领域,基于骨架的人体动作识别一直备受关注。相比传统视频流,骨架数据不仅计算高效,还对环境光照、背景干扰有着天然的免疫力。然而,骨架模型也有自己的“心病”:由于缺乏物体信息和精细的体型特征,
模型太大跑不动?工业视觉轻量化,降低延迟、减少功耗、提升稳定性
车间里的景象总是带着某种永恒的韵律:传送带不知疲倦地滚动,机械臂精准地起落,金属部件泛着冷冽的光泽。就在这井然有序的乐章里,一个视觉检测工位却像是卡了壳的齿轮——那台装着最新AI模型的工控机,机箱风扇
$300/2天:Moltbot(原 Clawdbot) Token 消耗失控的技术根源
Clawdbot因每次调用都发送完整系统提示、工具定义和全部历史,导致token消耗失控,用户两天花费300美元。优化方案包括启用缓存、压缩网页内容、动态选择工具和成本熔断,可降低成本70-90%。
AI Agent 框架探秘:拆解 OpenHands(4)--- 服务
AI Agent 框架探秘:拆解 OpenHands(4)--- 服务 0x00 概述 0x01 服务 1.1 API 模式 1.2 服务器组件 1.3 服务工作流程描述 1.4 listen_soc
MedGemma 1.5:支持高维医学影像、解剖定位等多种功能;Patient Churn Prediction:面向医疗保健领域的分类数据集
公共资源速递 5 个公共数据集: CCTV Incident 跌倒检测数据集 Patient Segmentation 患者分类数据集 Hand Gestures Labbled 手势汽车游戏数据集
字节跳动开源HUVR:一个视觉模型同时搞定识别与生成,96倍压缩令牌性能不减!
统一视觉表征的“次元壁”被打破了,这项研究让AI既能看懂世界又能创造世界。 近日,字节跳动旗下研究团队发布了一项颠覆性研究,提出了名为 “用于统一视觉表征的超网络”(Hyper-networks fo
什么是图像计算?解析AI视觉背后的科学,快速入门指南
当你走过购物中心或繁忙的公共街道时,安装在入口和走道上方的摄像头记录着人们的一举一动。它们每秒都在产生视觉数据,而大多数时候我们甚至毫无察觉。 这股持续不断的数据流,为现代人工智能系统提供着养分——从
今日,DeepSeek再次“拆掉重做”,开源架构炸场:OCR 2只是起点,这次要重构AI的“眼睛”和“大脑”?
就在今年十月,DeepSeek 放出其全新的 DeepSeek-OCR 模型时,业内还在消化它在文档解析上带来的震动。没想到,短短时间,他们又抛出了一篇重磅论文——DeepSeek-OCR 2。而这次
【深度学习新手踩坑实录】车道线分割模型从“垃圾输出”到“精准识别”,我到底踩了多少坑?(附GitHub+数据集链接)
车道线分割作为自动驾驶中的关键任务,一直是计算机视觉领域的热门研究方向。本文将详细介绍基于UNet++架构的多标签车道线分割项目,重点分享新手在开发过程中常见的技术坑及其解决方案,帮助初学者快速上手
10亿参数刷新OCR记录:LightOnOCR-2如何以小博大?
最近,法国AI公司LightOn在文档理解领域投下了一枚重磅炸弹——他们推出的LightOnOCR-2-1B模型仅凭10亿参数,就在权威OCR评测基准OlmOCR-Bench上击败了参数量大它9倍的竞
诊断、分割、解释三位一体:医学AI如何从“工具”进化成“助手”?
在医学影像的世界里,AI模型大多还停留在“工具”阶段:它们能精准勾画病灶轮廓,却无法告诉你这意味着什么;它们能回答疾病名称,却指不出病灶的具体位置。医生面对的,仍然是碎片化的信息。 一项来自澳门大学的
YOLO26技术详解:原生NMS-Free架构设计与实现原理
最近,计算机视觉领域再掀波澜!YOLO 家族最新成员——YOLO26横空出世,以“彻底移除NMS”为核心变革,开启了真正的端到端目标检测新时代。虽然官方论文尚未正式发布,但来自KIIT大学的深度分析报
Meta ShapeR重磅开源:多模态3D生成,从真实杂乱视频中稳健重建
近年来,3D内容生成领域发展迅猛,但许多令人惊艳的模型演示背后,都隐藏着一个不为人知的秘密:它们大多依赖于“温室数据”。 所谓“温室数据”,指的是那些在理想环境下采集的样本——干净的背景、没有遮挡、完
YOLO26、RF-DETR、D-FINE… 2026模型混战,工程师选择困难症怎么破?
YOLO26的亮相,与其说是一次升级,不如说是一声宣言:那个拼参数、卷规模的时代,正在悄悄退场。现在轮到“小身材、大智慧、拎包入住”的模型登场了。但有趣的是,擂台另一边也热闹得很——2024到2025
AI Agent 深度解析:原理、架构与未来应用浪潮
AI Agent(人工智能智能体)是一种能够感知环境、自主规划、调用工具并执行行动,以达成特定目标的智能系统。如果用人来类比,大语言模型(LLM)相当于“大脑”,负责思考与决策;而外部工具则如同“手脚
神经网络基础——Sigmoid函数参数推导原理
前置知识 由于人工智能方向涉及较多数学知识,限于篇幅原因,作者无法将其列举完全,这里挑选几个较为重要的知识点作简要介绍。有些基础数学知识已经单独在其他文档中描述,这里不再赘述。如有疑问,欢迎评论或私信
YOLO26正式亮相!极致速度优化,为落地而生!
就在刚刚,Ultralytics 正式发布 YOLO26,这是迄今为止最先进、最易部署的 YOLO 模型。就是那个在 YOLO Vision 2025 大会上首次亮相的新一代视觉模型。不得不说,每次
使用 LoRA 对 Llama 基础模型进行指令微调 (SFT)
实验目标: 本实验演示使用 PEFT (Parameter-Efficient Fine-Tunin
【深度学习Day15】ChatGPT的亲爷爷——拆解Transformer核心原理,手撸自注意力机制 (Self-Attention)
2017年Google《Attention Is All You Need》横空出世,彻底抛弃RNN框架,以‘注意力机制’为核心打造Transformer,凭借并行计算能力和全局依赖捕捉能力,奠定基础
大道至简:腾讯优图只用纯视觉模型,4张图超越全量训练SOTA
近年来,计算机视觉领域掀起了一股“视觉-语言大模型”的浪潮。从CLIP到各种多模态模型,研究者们似乎默认:解决复杂视觉任务必须依赖语言模型的加持。 但在工业质检、医疗影像分析等高度依赖视觉信息的异常检