首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
CoovallyAIHub
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
AAAI 2026 | AnoStyler:文本驱动风格迁移实现零样本异常图像生成,轻量高效(附代码)
异常检测模型的训练离不开异常样本,但真实工业场景中异常图像极度稀缺。现有异常图像生成方法要么依赖扩散模型等重量级架构(参数量超过1B)
500M参数就能跑视觉语言模型?Moondream把VLM塞进了边缘设备
导读 视觉语言模型(VLM)通常意味着大参数、大显存、大算力——GPT-4o、Gemini、Claude的视觉能力背后是数百亿甚至更大规模的模型。
MSSP | 不停机不贴标监测旋转风机叶片:无人机+YOLOv5+DeepSORT,2MW 风机现场测试频率误差<2%
风电叶片的结构健康监测通常依赖贴在叶片表面的传感器或人工标记物,但给正在运行的大型风机贴传感器既危险又耗时,严重制约了监测的规模化应用。
把 Whisper、Moonshine、SenseVoice 统统装进手机:sherpa-onnx 离线语音部署框架,GitHub 10.9K Star
语音 AI 模型更新很快——Whisper、Moonshine、SenseVoice、FireRedASR、Paraformer,几乎每个月都有新模型发布。但对开发者来说,选好模型只是第一步
多 Agent 手术推理框架:Agent 辩论+RAG 补上手术知识,零样本超越监督基线 14.6 个百分点
导读 达芬奇手术机器人等机器人辅助手术(RAS)系统已在现代手术室中广泛应用,但术中场景理解仍然是一个未解难题——器械频繁遮挡、解剖结构快速变化、多个任务(器械识别、动作识别、下一步预测等)
AAAI 2026 | 华中科大联合清华等提出Anomagic:跨模态提示零样本异常生成+万级AnomVerse数据集(附代码)
导读 现有零样本异常图像生成方法大多仅依赖文本提示引导扩散模型,语义控制力有限,生成的异常掩码精度也不够高。 华中科技大学联合湖南大学、清华大学、中科院自动化所团队提出 Anomagic,核心思路是跨
编码智能体做 CV 任务,实际能力到哪一步了?——五项视觉任务实测解读
导读 编码智能体(Coding Agent)能自动写代码、跑脚本、调 bug、迭代优化,但如果交给它一个视觉任务——比如数一张图里有多少只鸟、从视频里跟踪计数车辆、识别车牌——它能做到什么程度? 最近
Pipecat:构建实时语音 AI Agent 的开源编排框架,500ms 级端到端延迟
导读 语音 AI 的模型越来越多——ASR 有 Deepgram、Whisper,LLM 有 GPT、Claude、Gemini,TTS 有 ElevenLabs、Azure。但要把这些模型串成一个能
Energies | 8版YOLO对8版Transformer实测光伏缺陷检测,RF-DETR-Small综合胜出
导读 大型光伏电站中,一块面板出现热斑或裂纹,肉眼难以在数千块面板中定位它。无人机搭载热红外相机的巡检方案已成为行业标配,但拍下来的热图交给哪个检测模型更合适?YOLO 系列以速度见长,Transfo
2.5GB 塞进浏览器:Mistral 开源实时语音识别,延迟不到半秒
导读 实时语音识别(ASR)正在从云端走向终端。会议转录、直播字幕、语音助手等场景对延迟的要求越来越苛刻——用户期望话音未落,文字已经出现在屏幕上。然而,现有的高精度 ASR 模型大多是离线架构,需要
下一页
个人成就
优秀创作者
文章被点赞
189
文章被阅读
145,531
掘力值
9,975
关注了
0
关注者
101
收藏集
0
关注标签
0
加入于
2025-01-02