三花AI

三花AI

三花AI

AI造福人类

等 16 人订阅共194篇文章创建于2024-06-17

AI 虚拟试衣神器；虚拟脱衣模型

腾讯开源 LeVo 音乐生成模型直逼 Suno V4.5 LeVo 是腾讯开源的唱歌模型，其能力逼近 SunoV4.5 且大幅度领先其他开源模型，训练用了 200万首歌曲（大约11万小时），支持唱中文

11月前
1.6k
1
评论

AI 虚拟试衣神器；虚拟脱衣模型

小米发布首款 AI 智能眼镜：支持语音交互与实时识别

Black Forest Labs 开源最强图像编辑模型 FLUX.1 Kontext [dev] 黑森林团队(Black Forest Labs)[1] 昨日宣布开源 FLUX.1 Kontext

12月前
238
点赞
评论

小米发布首款 AI 智能眼镜：支持语音交互与实时识别

Jina AI 发布性能超越 OpenAI 12% 的嵌入模型

谷歌 Gemini CLI 开源命令行工具谷歌 Gemini CLI[1] 是一款对标 Claude Code 的开源命令行工具，提供免费使用额度：每分钟支持 60 次模型请求，每日上限 1000

12月前
276
点赞
评论

Jina AI 发布性能超越 OpenAI 12% 的嵌入模型

Midjourney V1视频模型每月10美元起

DeepSite V2 发布：基于 DeepSeek-R1 的智能网页重构工具 DeepSite 正式推出 V2 版本，这是一款专注于网页生成的 Vibe Coding 工具。新版本可以选择接入 De

1年前
140
点赞
评论

Midjourney V1视频模型每月10美元起

海螺 AI 发布 Hailuo 02：高品质白菜价 1080p 视频生成模型

海螺 AI 发布 Minimax Agent 测试版：开源 M1 模型性能比肩 DeepSeek R1 海螺 AI 发布的 Minimax Agent[1] 是一款类似 Manus 的产品，他们还开源

1年前
349
点赞
评论

海螺 AI 发布 Hailuo 02：高品质白菜价 1080p 视频生成模型

AI 视频超分辨率模型可升级至 4K

Midjourney V7 更新：全新风格参考功能 Midjourney V7 版本[1] 更新了新风格参考(Style References)功能。新增了--sref random功能，提供更多的变

1年前
281
点赞
评论

AI 视频超分辨率模型可升级至 4K

腾讯混元 3D 2.1 发布：首个全链路开源工业级 3D 生成大模型

腾讯混元 3D 2.1 发布：首个全链路开源工业级 3D 生成大模型腾讯混元3D 2.1[1]开源了业界首个全链路工业级3D生成大模型，本次不仅开源了模型权重、训练代码和数据处理流程，还完整公开了核

1年前
461
2
评论

腾讯混元 3D 2.1 发布：首个全链路开源工业级 3D 生成大模型

Google Cloud Platform 全球性宕机影响多家主流服务

OpenAI 为 ChatGPT Canvas 新增多格式导出功能 OpenAI[1] 终于为 ChatGPT Canvas 带来了用户期待已久的下载功能！现在你可以轻松导出创作内容：文档类支持 PD

1年前
207
点赞
评论

Google Cloud Platform 全球性宕机影响多家主流服务

Higgsfield AI 整合 Flux.1 Kontext：一站式创意工作流解决方案

Higgsfield AI 整合 Flux.1 Kontext：一站式创意工作流解决方案 Higgsfield AI通过整合Flux.1 Kontext，将照片编辑、电影级动画、视觉特效（VFX）和虚

1年前
1.2k
点赞
评论

Higgsfield AI 整合 Flux.1 Kontext：一站式创意工作流解决方案

看来小红书这次是认真在搞大模型了，开源 dots.llm1 MoE 大模型

Eleven Labs 发布 Eleven v3 语音模型：支持 70+ 语言与情感语音 Eleven Labs 官方[1] 宣布推出 Eleven v3（alpha 版本），这个语音模型支持 70

1年前
252
点赞
评论

看来小红书这次是认真在搞大模型了，开源 dots.llm1 MoE 大模型

ComfyUI 子工作流功能：一次编辑全局更新

ComfyUI 子工作流功能：一次编辑全局更新 ComfyUI 即将推出革命性的子工作流功能，让复杂的工作流管理变得前所未有的简单。通过将常用工作流封装为可重复使用的节点，实现一次编辑即可全局更新的

1年前
266
点赞
评论

ComfyUI 子工作流功能：一次编辑全局更新

Chain-of-Zoom ：64 倍超分辨率在线体验

谷歌 SignGemma 实现手语与文本实时互译谷歌最新发布 SignGemma 手语翻译模型，基于 Gemma，专用于美国手语(ASL)与英语的实时双向互译。目前只开放了申请测试[1]，预计今年晚

1年前
352
1
评论

Chain-of-Zoom ：64 倍超分辨率在线体验

OmniConsistency：GPT-4O 级的人物风格迁移模型

DeepSeek R1 完成 0528 版本迭代升级，性能比肩 o3 DeepSeek 在官方微信群发布消息称，其 R1 模型已完成小版本迭代升级（版本号 DeepSeek-R1-0528）[1]。用

1年前
323
点赞
评论

OmniConsistency：GPT-4O 级的人物风格迁移模型

免费 3D 风格头像生成器

MMaDA 多模态扩散模型实现文本推理+视觉理解+文生图 MMaDA[1] 是一款开源的多模态扩散模型，同时具有文字推理、图片理解、文字生成图片的能力。感兴趣的佬们可以通过官方的在线演示[2]体验。

1年前
267
点赞
评论

Mistral AI 发布高精度 Document AI：支持公式手写多语言解析

Mistral AI 发布高精度 Document AI：支持公式手写多语言解析 Mistral AI[1] 最新推出企业级 Document AI 解决方案，基于 OCR 技术实现高精度文档解析。

1年前
227
点赞
评论

Mistral AI 发布高精度 Document AI：支持公式手写多语言解析

Head AI：全球首个 AI 市场营销专家

Head AI：全球首个 AI 市场营销专家 Head AI[1] 是全球首位人工智能营销专家，其官网号称在过去一个月内已为超过 50,000 个品牌提供服务，覆盖电商、科技、游戏和 AI 等多个领域

1年前
517
1
评论

Head AI：全球首个 AI 市场营销专家

谷歌 I/O 2025 开发者大会内容总结

谷歌 I/O 2025 开发者大会内容总结下面是今年的谷歌I/O上发布的所有产品和更新，主要聚焦AI方向大发力： Gemini 2.5 模型更新 Gemini 2.5：Google 的最新 AI 模

1年前
612
3
评论

谷歌 I/O 2025 开发者大会内容总结

Insert Anything：开源图片无缝插入编辑框架

Insert Anything：开源图片无缝插入编辑框架 Insert Anything[1] 是一个开源的图片编辑框架，能够将参考图中的人物、物体和服装等元素无缝插入到目标场景中。效果非常不错，佬

1年前
247
1
评论

Insert Anything：开源图片无缝插入编辑框架

谷歌发布 Gemini 2.5 Pro I/O 特别版：编程双榜第一

谷歌发布 Gemini 2.5 Pro I/O 特别版：编程双榜第一谷歌正式发布 Gemini 2.5 Pro "I/O 特别版"技术预览。作为 2.5 Pro 的重大升级版本，其编程能力获得突破性

1年前
377
点赞
评论

谷歌发布 Gemini 2.5 Pro I/O 特别版：编程双榜第一