三花AI

三花AI

三花AI

AI造福人类

等 16 人订阅共194篇文章创建于2024-06-17

腾讯开源 HunyuanImage-2.1：17B 参数文生图模型原生支持 2K 高清

Claude 支持文件编辑功能：支持 Office 全家桶和 PDF Claude 正式上线文件创建编辑功能！用户现在可以在 claude.ai 和桌面端直接创建并编辑 Excel、Word、Powe

9月前
290
点赞
评论

腾讯开源 HunyuanImage-2.1：17B 参数文生图模型原生支持 2K 高清

哔哩哔哩开源 IndexTTS-2.0：新一代零样本语音合成模型

Qwen3-ASR-Flash：高精度多语言语音识别模型 Qwen3-ASR-Flash[1] 是基于 Qwen3 推出的高精度多语言语音识别模型，支持 11 种语言及其多种口音，具备自动语种检测与非

9月前
443
1
评论

哔哩哔哩开源 IndexTTS-2.0：新一代零样本语音合成模型

美团 LongCat-Flash：开源 560B MoE 模型

微软 Copilot Labs 音频表达功能：AI 语音风格自定义微软在 Copilot Labs 上线了实验性功能「音频表达（Audio Expression）[1]」，用户通过输入提示词，可让

9月前
267
点赞
评论

美团 LongCat-Flash：开源 560B MoE 模型

风口真的要来了，国务院关于深入实施“人工智能+”行动的意见

国务院关于深入实施“人工智能+”行动的意见中国国务院发布了首部 “人工智能+”行动政策涵盖六大关键领域： • 人工智能 + 科学技术 • 人工智能 + 产业发展 • 人工智能 + 消费提质 •

9月前
423
1
评论

风口真的要来了，国务院关于深入实施“人工智能+”行动的意见

微信测试对话式 AI 新闻播报

谷歌 NotebookLM 视频概览新增多语言支持 NotebookLM[1] 的 Video Overviews 现已支持 80 种语言[2]（包括简体中文），大幅提升了多语言内容处理能力。同时，

9月前
292
1
评论

微信测试对话式 AI 新闻播报

阿里 20B 参数 Qwen-Image-Edit 全能图像编辑模型

阿里发布 20B 参数 Qwen-Image-Edit：全能图像编辑模型 Qwen-Image-Edit[1] 是阿里 Qwen 团队基于 20B 参数 Qwen-Image 模型开发的图像编辑版本。

10月前
361
点赞
评论

阿里 20B 参数 Qwen-Image-Edit 全能图像编辑模型

xAI AI 伴侣 Ani 和 Valentine 支持电话实时通话

阿里 AIDC-AI 发布 Ovis2.5：集成NaViT的多模态模型阿里AIDC-AI 推出了多模态模型 Ovis2.5，提供 9B 和 2B 两种参数量版本。该模型最大亮点是搭载原生视觉变换器（

10月前
379
点赞
评论

xAI AI 伴侣 Ani 和 Valentine 支持电话实时通话

Vercel v0.dev → v0.app：AI Agent 模式一键生成全栈应用

Perplexity AI 推出基于订阅制的视频生成服务 Perplexity AI[1] 在全平台推出视频生成功能。根据订阅等级不同，Pro 用户每月可创建 5 个视频，而 Max 用户则可享受每月

10月前
338
点赞
评论

Vercel v0.dev → v0.app：AI Agent 模式一键生成全栈应用

Ideogram API 重磅推出角色一致性功能，告别LoRA训练烦恼

OpenAI 发布 GPT-5：多榜单第一，性能超越 Gemini 2.5 Pro OpenAI 正式发布其下一代旗舰模型 GPT-5[1]，在 LMArena 多个类别榜单中均排名第一，超越了 Go

10月前
143
点赞
评论

Ideogram API 重磅推出角色一致性功能，告别LoRA训练烦恼

OpenAI 明日凌晨直播：GPT-5 或将正式亮相

OpenAI 明日凌晨直播：GPT-5 或将正式亮相 OpenAI 官方 X 账号[1]宣布，将于北京时间 8 月 8 日凌晨 1 点举行一场直播活动。从各种预热和爆料来看，这次总归该是 GPT-5

10月前
158
点赞
评论

OpenAI 明日凌晨直播：GPT-5 或将正式亮相

阿里 Qwen-Image：20B 参数开源文生图模型，文本渲染能力突出

阿里 Qwen-Image：20B 参数开源文生图模型，文本渲染能力突出阿里巴巴通义千问团队发布了其首个图像生成基础模型 Qwen-Image。该模型是一个拥有 20B 参数的 MMDiT 模型，基

10月前
461
1
评论

阿里 Qwen-Image：20B 参数开源文生图模型，文本渲染能力突出

快手 Kling AI推出新工作空间Kling Lab

智谱 GLM-4.5 旗舰大模型开源智谱 AI 重磅发布并开源新一代旗舰模型 GLM-4.5 系列。该系列采用创新的混合专家架构(MoE)，旨在统一推理、编码和 Agent 能力，并在多项评测中表现

10月前
233
点赞
评论

快手 Kling AI推出新工作空间Kling Lab

谷歌 Gemini 2.5 升级：对话指令驱动的智能图像分割

阿里通义发布 4800 亿参数 Qwen3-Coder 代码大模型媲美 Claude Sonnet4 Qwen3-Coder-480B-A35B-Instruct[1] 是阿里通义团队最新发布的代码

10月前
219
点赞
评论

谷歌 Gemini 2.5 升级：对话指令驱动的智能图像分割

zAI 发布 Zread AI：智能分析开源项目

zAI 发布 Zread AI：智能分析开源项目 zAI 发布 Zread AI[1] ，这是一款专为开源项目生成文档的工具，提供原生中文支持。与 deepwiki 类似，但功能更强大，还能智能分析仓

10月前
398
点赞
评论

zAI 发布 Zread AI：智能分析开源项目

OpenArt Story 一键生成完整叙事短视频

Mistral 开源 Voxtral：多语言语音转录模型，准确率超 Whisper v3 Voxtral 是 Mistral AI 最新开源的多语言语音转录模型，提供 24B 和 3B 两个参数版本。

11月前
239
点赞
评论

OpenArt Story 一键生成完整叙事短视频

NSFW Grok 数字伙伴，只能说老马是懂用户的

IndexTTS2 实现零样本语音克隆：精准控制+情感解耦 IndexTTS2[1] 是一个突破性的自回归语音合成模型，能在零样本条件下实现两大核心能力：精确的时长控制，以及音色与情感的完美解耦。该模

11月前
758
点赞
评论

NSFW Grok 数字伙伴，只能说老马是懂用户的

kimi 又好起来了！月之暗面开源 Kimi K2：320 亿参数 MoE 模型登顶 HF 榜首

Qwen Chat 正式发布 Mac 客户端阿里通义千问 Qwen Chat 正式发布 Mac 客户端版本，同时支持 ARM 和 x86_64 架构，支持 MCP，有需要的佬可以前往通义千问官网[1

11月前
582
1
评论

kimi 又好起来了！月之暗面开源 Kimi K2：320 亿参数 MoE 模型登顶 HF 榜首

不要错过学习老马团队 xAI 开源 Grok 全系列官方提示词

马斯克：Grok4 大语言模型周四直播亮相埃隆·马斯克今日宣布，将于北京时间（UTC+8）周四上午 11:00 通过 X 平台直播[1]发布 Grok4。 Grok4 的具体升级细节目前尚未公布，佬

11月前
289
点赞
评论

不要错过学习老马团队 xAI 开源 Grok 全系列官方提示词

阿里开源 OmniAvatar：音频驱动数字人模型

阿里开源 OmniAvatar：音频驱动数字人模型 OmniAvatar[1] 是阿里开源的一款基于 Wan 2.1 的音频驱动数字人模型。用户只需上传图片、音频和脚本，即可生成嘴型精准匹配、带有自然

11月前
522
3
评论

阿里开源 OmniAvatar：音频驱动数字人模型

这还是我认识的百度吗？Ernie 4.5开放23款大模型性能比肩OpenAI O1

百度开放23款大模型：Ernie 4.5性能比肩OpenAI O1 Ernie 4.5[1]重磅发布 23 款开放权重大模型，包括 VLM 和 LLM 两大系列。从官方数据显示，LLM版本超越Dee

11月前
181
点赞
评论

这还是我认识的百度吗？Ernie 4.5开放23款大模型性能比肩OpenAI O1