人工智能

人工智能

人工智能

聚焦人工智能全栈技术，从基础理论到工业落地，把 AI 知识转化为业务能力。

等 1 人订阅共52篇文章创建于2025-11-05

Qwen-Image-2.0：中文图像生成与编辑集成于一身的模型

2026年2月10日，阿里巴巴正式发布了其新一代图像生成与编辑模型——Qwen-Image-2.0。作为通义千问视觉大模型系列的最新成员，该模型在文本渲染、图像生成质量以及编辑能力方面做出了一系列务实

3月前
585
点赞
评论

Z-Image 6B：迟到但解渴的开源文生图基座，这次补上了 Turbo 版的遗憾

Z-Image 6B基座模型发布，为开源文生图赛道带来新选择。相比之前的Turbo蒸馏版，该模型在风格多样性、微调友好度和生成质量上有显著提升，支持全风格覆盖和二次开发，但推理速度有所下降。

4月前
343
点赞
评论

从机械扫描到逻辑阅读：DeepSeek-OCR 2的技术革新

DeepSeek-OCR 2实现了OCR技术从"机械扫描"到"逻辑阅读"的范式转变。其核心创新DeepEncoder V2架构引入"视觉因果流"机制，通过视觉压缩和动态重排两阶段处理，使AI能像人类一

4月前
115
点赞
评论

FLUX.2 Klein：消费级GPU也能实现的亚秒级图像生成

Black Forest Labs（黑森林实验室）正式开源了FLUX.2系列中的轻量级成员——FLUX.2 [klein]模型家族。FLUX.2 [klein]以其**亚秒级推理速度**和**消费级硬

4月前
617
点赞
评论

GLM-Image：国产芯片训练的混合架构图像生成模型解析

GLM-Image 是由智谱AI与华为联合推出的开源图像生成模型，其核心突破在于首个在国产芯片（昇腾Atlas 800T A2）上完成全流程训练的多模态生成模型。

4月前
325
点赞
评论

Qwen3-VL-Embedding & Reranker：多模态检索的“快筛+精排”双引擎

通义千问团队推出的Qwen3-VL-Embedding和Qwen3-VL-Reranker模型组成了高效的多模态检索解决方案。Embedding模型采用双塔架构实现快速召回；Reranker模型通过单

4月前
586
点赞
评论

Vibe Kanban：Rust构建的AI编程代理编排平台

在AI编程助手日益普及的今天，开发者正面临着一个前所未有的挑战：如何高效地管理多个AI编码代理，实现它们的协同工作。当Claude Code、Gemini CLI、Codex等AI工具开始承担大量代码

4月前
248
点赞
评论

重磅！TRAE 中国版 SOLO 全量免费开放，AI 驱动开发迎来全民时代

2026 年开年伊始，AI 编程领域就迎来了一枚重磅炸弹——TRAE 中国版 SOLO 模式正式宣布全量免费开放！从此前的白名单排队、权限受限，到如今更新最新版 IDE 即可直接启用，这场免费策略的转

5月前
1.0k
1
评论

开源黑科技：AutoMV让AI自动生成专业级全曲MV，成本直降99%

对于独立音乐人或中小创作团队来说，制作一支专业MV始终是道难题：需要导演、摄影、剪辑等多个岗位协同，耗时数月不说，成本动辄上万美元。而现有的AI视频生成工具，要么只能生成几秒的短片段，要么画面与音乐节

5月前
711
点赞
评论

开源黑科技：AutoMV让AI自动生成专业级全曲MV，成本直降99%

4090实战：ComfyUI运行Qwen-Image-Edit-2511模型指南（含避坑要点）

Qwen-Image-Edit-2511作为一款性能出色的图像编辑模型，在ComfyUI中部署时却受限于显存资源。本文针对4090显卡（24G显存）场景，分享量化模型的部署流程、关键避坑点

5月前
1.0k
点赞
评论

Qwen-Image-Edit-2511：AI图像编辑的新标杆

2025年12月24日，阿里Qwen团队正式推出图像编辑模型重大更新版本——Qwen-Image-Edit-2511，作为9月发布的2509版本的迭代升级之作，新版本聚焦“更强稳定性”与“更可控编辑体

5月前
1.6k
点赞
评论

Vibe Coding实战从零开发小程序：AI协作的惊喜与踩坑

本文分享了作者作为编程新手借助AI工具Trae SOLO模式开发两款小程序的完整经历。总结了AI协作编程的优缺点：能快速实现基础功能、推荐技术方案，但也存在界面调整困难、代码重复定义等问题。

5月前
302
点赞
评论

Meta SAM Audio：多模态音频分割的新纪元

Meta发布SAM Audio模型，开创多模态音频分割新时代。这一突破性技术允许用户通过文本描述、视觉点击或时间标记三种自然方式，从复杂音频中精准分离特定声音。

5月前
236
点赞
评论

实测 Kandinsky 5.0 图编辑功能：与龙猫模型效果深度对比，结果出乎意料！

本文详细介绍了如何在RTX 4090显卡（24G显存）上运行Kandinsky 5.0图像编辑模型。经测试，在图像编辑方面龙猫模型可能更具优势。

5月前
178
1
评论

个人开发者AI显卡选购指南：2025年性价比之选

在AI技术快速发展的今天，个人开发者想要参与这场技术革命，首先面临的就是硬件选择的困境。尤其是显卡——作为AI计算的核心引擎，其性能直接影响开发效率和模型训练效果。然而市场上显卡型号繁多，从入门级到旗

5月前
1.5k
点赞
评论

两周实测：Kiro与Trae cn谁是我更中意的AI IDE？

随着AI编程工具的爆发式发展，越来越多的IDE开始集成AI辅助功能，试图帮开发者提升编码效率。我最近两周专门切换到Kiro和Trae cn两款热门AI IDE进行实战测试，全程均开启Auto模式，覆盖

5月前
530
点赞
评论

尝鲜 AWS Agentic IDE：Kiro 一周使用初体验

最近在尝试各种AI编程工具，作为AWS云服务的用户，这款被官方称为"Agentic IDE"的新工具自然也要试用一下。使用一周后，我发现Kiro确实带来了一些与众不同的体验——不是上来就写代码，而是先

5月前
723
点赞
评论

GLM-TTS智谱开源的工业级语音合成系统到底强在哪？

智谱开源工业级语音合成系统GLM-TTS，实现3秒音色克隆和低成本工业级效果。该系统仅需10万小时训练数据，单机4天完成预训练，支持多音字、数学公式等精准发音，MOS评分行业领先。

5月前
302
点赞
评论

GLM-TTS智谱开源的工业级语音合成系统到底强在哪？

GLM-4.6V：从视觉理解到行动执行

智谱AI发布开源多模态大模型GLM-4.6V系列，其中GLM-4.6V-Flash（9B）轻量版免费商用并开放全量权重，实现多模态技术普惠化。

5月前
483
点赞
评论