首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
人工智能
围炉聊科技
创建于2025-11-05
订阅专栏
聚焦人工智能全栈技术,从基础理论到工业落地,把 AI 知识转化为业务能力。
等 1 人订阅
共52篇文章
创建于2025-11-05
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Qwen-Image-2.0:中文图像生成与编辑集成于一身的模型
2026年2月10日,阿里巴巴正式发布了其新一代图像生成与编辑模型——Qwen-Image-2.0。作为通义千问视觉大模型系列的最新成员,该模型在文本渲染、图像生成质量以及编辑能力方面做出了一系列务实
Z-Image 6B:迟到但解渴的开源文生图基座,这次补上了 Turbo 版的遗憾
Z-Image 6B基座模型发布,为开源文生图赛道带来新选择。相比之前的Turbo蒸馏版,该模型在风格多样性、微调友好度和生成质量上有显著提升,支持全风格覆盖和二次开发,但推理速度有所下降。
从机械扫描到逻辑阅读:DeepSeek-OCR 2的技术革新
DeepSeek-OCR 2实现了OCR技术从"机械扫描"到"逻辑阅读"的范式转变。其核心创新DeepEncoder V2架构引入"视觉因果流"机制,通过视觉压缩和动态重排两阶段处理,使AI能像人类一
FLUX.2 Klein:消费级GPU也能实现的亚秒级图像生成
Black Forest Labs(黑森林实验室)正式开源了FLUX.2系列中的轻量级成员——FLUX.2 [klein]模型家族。FLUX.2 [klein]以其**亚秒级推理速度**和**消费级硬
GLM-Image:国产芯片训练的混合架构图像生成模型解析
GLM-Image 是由智谱AI与华为联合推出的开源图像生成模型,其核心突破在于 首个在国产芯片(昇腾Atlas 800T A2)上完成全流程训练 的多模态生成模型。
Qwen3-VL-Embedding & Reranker:多模态检索的“快筛+精排”双引擎
通义千问团队推出的Qwen3-VL-Embedding和Qwen3-VL-Reranker模型组成了高效的多模态检索解决方案。Embedding模型采用双塔架构实现快速召回;Reranker模型通过单
Vibe Kanban:Rust构建的AI编程代理编排平台
在AI编程助手日益普及的今天,开发者正面临着一个前所未有的挑战:如何高效地管理多个AI编码代理,实现它们的协同工作。当Claude Code、Gemini CLI、Codex等AI工具开始承担大量代码
重磅!TRAE 中国版 SOLO 全量免费开放,AI 驱动开发迎来全民时代
2026 年开年伊始,AI 编程领域就迎来了一枚重磅炸弹——TRAE 中国版 SOLO 模式正式宣布全量免费开放!从此前的白名单排队、权限受限,到如今更新最新版 IDE 即可直接启用,这场免费策略的转
开源黑科技:AutoMV让AI自动生成专业级全曲MV,成本直降99%
对于独立音乐人或中小创作团队来说,制作一支专业MV始终是道难题:需要导演、摄影、剪辑等多个岗位协同,耗时数月不说,成本动辄上万美元。而现有的AI视频生成工具,要么只能生成几秒的短片段,要么画面与音乐节
4090实战:ComfyUI运行Qwen-Image-Edit-2511模型指南(含避坑要点)
Qwen-Image-Edit-2511作为一款性能出色的图像编辑模型,在ComfyUI中部署时却受限于显存资源。本文针对4090显卡(24G显存)场景,分享量化模型的部署流程、关键避坑点
Qwen-Image-Edit-2511:AI图像编辑的新标杆
2025年12月24日,阿里Qwen团队正式推出图像编辑模型重大更新版本——Qwen-Image-Edit-2511,作为9月发布的2509版本的迭代升级之作,新版本聚焦“更强稳定性”与“更可控编辑体
Vibe Coding实战从零开发小程序:AI协作的惊喜与踩坑
本文分享了作者作为编程新手借助AI工具Trae SOLO模式开发两款小程序的完整经历。总结了AI协作编程的优缺点:能快速实现基础功能、推荐技术方案,但也存在界面调整困难、代码重复定义等问题。
Meta SAM Audio:多模态音频分割的新纪元
Meta发布SAM Audio模型,开创多模态音频分割新时代。这一突破性技术允许用户通过文本描述、视觉点击或时间标记三种自然方式,从复杂音频中精准分离特定声音。
实测 Kandinsky 5.0 图编辑功能:与龙猫模型效果深度对比,结果出乎意料!
本文详细介绍了如何在RTX 4090显卡(24G显存)上运行Kandinsky 5.0图像编辑模型。经测试,在图像编辑方面龙猫模型可能更具优势。
个人开发者AI显卡选购指南:2025年性价比之选
在AI技术快速发展的今天,个人开发者想要参与这场技术革命,首先面临的就是硬件选择的困境。尤其是显卡——作为AI计算的核心引擎,其性能直接影响开发效率和模型训练效果。然而市场上显卡型号繁多,从入门级到旗
两周实测:Kiro与Trae cn谁是我更中意的AI IDE?
随着AI编程工具的爆发式发展,越来越多的IDE开始集成AI辅助功能,试图帮开发者提升编码效率。我最近两周专门切换到Kiro和Trae cn两款热门AI IDE进行实战测试,全程均开启Auto模式,覆盖
尝鲜 AWS Agentic IDE:Kiro 一周使用初体验
最近在尝试各种AI编程工具,作为AWS云服务的用户,这款被官方称为"Agentic IDE"的新工具自然也要试用一下。使用一周后,我发现Kiro确实带来了一些与众不同的体验——不是上来就写代码,而是先
GLM-TTS智谱开源的工业级语音合成系统到底强在哪?
智谱开源工业级语音合成系统GLM-TTS,实现3秒音色克隆和低成本工业级效果。该系统仅需10万小时训练数据,单机4天完成预训练,支持多音字、数学公式等精准发音,MOS评分行业领先。
GLM-4.6V:从视觉理解到行动执行
智谱AI发布开源多模态大模型GLM-4.6V系列,其中GLM-4.6V-Flash(9B)轻量版免费商用并开放全量权重,实现多模态技术普惠化。
下一页