CoovallyAIHub

赞

0

|

搜索文章

AAAI 2026 | AnoStyler：文本驱动风格迁移实现零样本异常图像生成，轻量高效（附代码）

异常检测模型的训练离不开异常样本，但真实工业场景中异常图像极度稀缺。现有异常图像生成方法要么依赖扩散模型等重量级架构（参数量超过1B）

1月前
83
点赞
评论

AAAI 2026 | AnoStyler：文本驱动风格迁移实现零样本异常图像生成，轻量高效（附代码）

500M参数就能跑视觉语言模型？Moondream把VLM塞进了边缘设备

导读视觉语言模型（VLM）通常意味着大参数、大显存、大算力——GPT-4o、Gemini、Claude的视觉能力背后是数百亿甚至更大规模的模型。

1月前
118
点赞
评论

500M参数就能跑视觉语言模型？Moondream把VLM塞进了边缘设备

MSSP | 不停机不贴标监测旋转风机叶片：无人机+YOLOv5+DeepSORT，2MW 风机现场测试频率误差<2%

风电叶片的结构健康监测通常依赖贴在叶片表面的传感器或人工标记物，但给正在运行的大型风机贴传感器既危险又耗时，严重制约了监测的规模化应用。

1月前
76
点赞
评论

MSSP | 不停机不贴标监测旋转风机叶片：无人机+YOLOv5+DeepSORT，2MW 风机现场测试频率误差<2%

把 Whisper、Moonshine、SenseVoice 统统装进手机：sherpa-onnx 离线语音部署框架，GitHub 10.9K Star

语音 AI 模型更新很快——Whisper、Moonshine、SenseVoice、FireRedASR、Paraformer，几乎每个月都有新模型发布。但对开发者来说，选好模型只是第一步

1月前
276
点赞
评论

把 Whisper、Moonshine、SenseVoice 统统装进手机：sherpa-onnx 离线语音部署框架，GitHub 10.9K Star

多 Agent 手术推理框架：Agent 辩论+RAG 补上手术知识，零样本超越监督基线 14.6 个百分点

导读达芬奇手术机器人等机器人辅助手术（RAS）系统已在现代手术室中广泛应用，但术中场景理解仍然是一个未解难题——器械频繁遮挡、解剖结构快速变化、多个任务（器械识别、动作识别、下一步预测等）

1月前
112
点赞
评论

多 Agent 手术推理框架：Agent 辩论+RAG 补上手术知识，零样本超越监督基线 14.6 个百分点

AAAI 2026 | 华中科大联合清华等提出Anomagic：跨模态提示零样本异常生成+万级AnomVerse数据集（附代码）

导读现有零样本异常图像生成方法大多仅依赖文本提示引导扩散模型，语义控制力有限，生成的异常掩码精度也不够高。华中科技大学联合湖南大学、清华大学、中科院自动化所团队提出 Anomagic，核心思路是跨

1月前
128
点赞
评论

AAAI 2026 | 华中科大联合清华等提出Anomagic：跨模态提示零样本异常生成+万级AnomVerse数据集（附代码）

编码智能体做 CV 任务，实际能力到哪一步了？——五项视觉任务实测解读

导读编码智能体（Coding Agent）能自动写代码、跑脚本、调 bug、迭代优化，但如果交给它一个视觉任务——比如数一张图里有多少只鸟、从视频里跟踪计数车辆、识别车牌——它能做到什么程度？最近

1月前
79
点赞
评论

编码智能体做 CV 任务，实际能力到哪一步了？——五项视觉任务实测解读

Pipecat：构建实时语音 AI Agent 的开源编排框架，500ms 级端到端延迟

导读语音 AI 的模型越来越多——ASR 有 Deepgram、Whisper，LLM 有 GPT、Claude、Gemini，TTS 有 ElevenLabs、Azure。但要把这些模型串成一个能

1月前
257
点赞
评论

Pipecat：构建实时语音 AI Agent 的开源编排框架，500ms 级端到端延迟

Energies | 8版YOLO对8版Transformer实测光伏缺陷检测，RF-DETR-Small综合胜出

导读大型光伏电站中，一块面板出现热斑或裂纹，肉眼难以在数千块面板中定位它。无人机搭载热红外相机的巡检方案已成为行业标配，但拍下来的热图交给哪个检测模型更合适？YOLO 系列以速度见长，Transfo

1月前
82
点赞
评论

Energies | 8版YOLO对8版Transformer实测光伏缺陷检测，RF-DETR-Small综合胜出

2.5GB 塞进浏览器：Mistral 开源实时语音识别，延迟不到半秒

导读实时语音识别（ASR）正在从云端走向终端。会议转录、直播字幕、语音助手等场景对延迟的要求越来越苛刻——用户期望话音未落，文字已经出现在屏幕上。然而，现有的高精度 ASR 模型大多是离线架构，需要

1月前
291
点赞
评论

2.5GB 塞进浏览器：Mistral 开源实时语音识别，延迟不到半秒

个人成就

优秀创作者

文章被点赞 189

文章被阅读 145,531

掘力值 9,975

加入于

2025-01-02