三花AI

三花AI

三花AI

AI造福人类

等 16 人订阅共194篇文章创建于2024-06-17

ChatGPT Image Generation 功能仅1小时增长一百万用户

OpenAI 即将开源具备推理能力的新模型 OpenAI 即将发布[1]一款具备推理能力的开源模型，这是自 GPT-2 之后该公司再次开源重要模型。值得注意的是，2 个月前 OpenAI CEO S

1年前
119
点赞
评论

ChatGPT Image Generation 功能仅1小时增长一百万用户

ChatGPT 推出精准图片编辑功能

ChatGPT 推出精准图片编辑功能 OpenAI 为 ChatGPT 的图像生成功能新增了局部编辑能力。现在，用户可以直接在 AI 生成的图片上使用遮罩工具进行精准编辑，支持添加新元素、移除不需要的

1年前
150
点赞
评论

ChatGPT 推出精准图片编辑功能

zenctrl_tools 万金油视觉内容创作 Agent

zenctrl_tools：万金油视觉内容创作 Agent zenctrl_tools[1] 是一个多功能图像处理 Agent，致力于自动化整个个性化视觉内容创作流程。目前项目正在积极开发中，部分模型

1年前
80
点赞
评论

zenctrl_tools 万金油视觉内容创作 Agent

Qwen 2.5-Omni-7B: 语音聊天 + 视频聊天

Qwen 2.5-Omni-7B: 语音聊天 + 视频聊天阿里通义团队发布了 Qwen 2.5-Omni-7B 模型，OpenAI 高级语音模式的开源平替。这个模型能够无缝处理文本、图像、音频和视

1年前
191
点赞
评论

Qwen 2.5-Omni-7B: 语音聊天 + 视频聊天

DeepSeek-V3 非推理模型首次登顶排行榜，开源模型里程碑时刻啊！

DeepSeek-V3 非推理模型首次登顶排行榜 DeepSeek 前天低调发布了 V3-0324 模型更新，昨天终于发布了官方公告[3]。主要更新内容包括：借鉴 DeepSeek-R1 模型大幅

1年前
398
点赞
1

DeepSeek-V3 非推理模型首次登顶排行榜，开源模型里程碑时刻啊！

Cloudflare 推出 AI Labyrinth：用 AI 生成的迷宫对抗恶意爬虫

Cloudflare 推出 AI Labyrinth：用 AI 生成的迷宫对抗恶意爬虫 Cloudflare[4] 最新推出了名为 AI Labyrinth 的反爬虫技术，专门用于应对非法 AI 爬虫

1年前
192
点赞
评论

Cloudflare 推出 AI Labyrinth：用 AI 生成的迷宫对抗恶意爬虫

阿里通义实验室 LHM 技术：快速将照片转换为动画

Roboflow 开源实时目标检测模型 RF-DETR RF-DETR[1] 是由 Roboflow 开发的实时目标检测模型，基于 Apache 2.0 开源许可。该模型提供了两个版本：RF-DETR

1年前
147
点赞
评论

阿里通义实验室 LHM 技术：快速将照片转换为动画

这 token 是金子做的，还是银子做的？

OpenAI 发布 o1-pro API：金子做的token OpenAI o1-pro[3] API 现已正式上线，输入为 150 美元/百万 token，输出更是高达 600 美元/百万 toke

1年前
82
点赞
评论

这 token 是金子做的，还是银子做的？

会跳舞的花就这么水灵灵地做出来了

阶跃星辰推出 Step-Video-TI2V：30B 参数图生视频模型 Step-Video-TI2V[1] 是由 StepFun（阶跃星辰）开发的图生视频模型，拥有 30B 参数，是目前开源社区中规

1年前
116
点赞
评论

会跳舞的花就这么水灵灵地做出来了

Stability AI 发布 Stable Virtual Camera：从 2D 图像生成 3D 视频

Stability AI 发布 Stable Virtual Camera：从 2D 图像生成 3D 视频 Stable Virtual Camera[4] 是由 Stability AI 最新发布的

1年前
191
点赞
评论

Stability AI 发布 Stable Virtual Camera：从 2D 图像生成 3D 视频

一张照片创造会动的虚拟形象开箱即用解决方案

WarpTuber：快手 LivePortrait 驱动的即时 VTubing 工具 WarpTuber 是一个基于快手 LivePortrait 的即时 VTubing 工具。它允许用户通过摄像头，

1年前
365
点赞
评论

一张照片创造会动的虚拟形象开箱即用解决方案

Thera：首个内置物理观测模型的任意尺度超分辨率技术

Thera：首个内置物理观测模型的任意尺度超分辨率技术 Thera 是第一个具有内置物理观测模型的任意尺度超分辨率技术，从基准测试来看，性能非常的好。佬们可以在官方演示[1]上玩一下，提供的几个 d

1年前
112
点赞
评论

Thera：首个内置物理观测模型的任意尺度超分辨率技术

体验超真实 AI 语音：CSM 1B 模型现已发布

体验超真实 AI 语音：CSM 1B 模型现已发布哇，之前介绍的Conversational Speech Model[1] (CSM) 1B 现已正式发布。佬可以在 Hugging Face 上下

1年前
161
点赞
评论

体验超真实 AI 语音：CSM 1B 模型现已发布

谷歌 Gemma 3 甩开同参数模型一条街

谷歌 Gemma 3: 甩开同参数模型一条街谷歌昨日发布了 Gemma 3 模型，该模型支持多达 140 种语言，拥有高达 128k 个令牌的上下文窗口，能够处理文本和图像并生成相应的文本输出。性能

1年前
150
点赞
评论

谷歌 Gemma 3 甩开同参数模型一条街

OpenAI Operator 的开源替代方案：Nanobrowser

Nanobrowser：OpenAI Operator 的开源替代方案 Nanobrowser[1] 是一款开源的 AI 网页自动化工具，官方号称是 OpenAI Operator 的开源替代品。采

1年前
248
点赞
评论

OpenAI Operator 的开源替代方案：Nanobrowser

基于 Wan2.1 的捏捏乐 LoRA 特效开源复现；扁平风格动画视频；单目视频实现相机自由运镜

Squish Effect：基于 Wan2.1 的捏捏乐 LoRA 特效开源复现 Squish Effect[1] 是基于 Wan2.1 14B I2V 480p 训练而来的 LoRA，这一 AI 特

1年前
285
点赞
评论

基于 Wan2.1 的捏捏乐 LoRA 特效开源复现；扁平风格动画视频；单目视频实现相机自由运镜

多模态 AI 数字人视频生成模型

Hedra 推出 Character-3：多模态 AI 数字人视频生成模型 Character-3 是由 Hedra 开发的一个 AI 数字人视频生成模型。它能够同时处理多种输入类型，包括图像、文本和

1年前
435
点赞
评论

多模态 AI 数字人视频生成模型

OpenAI 推出 ChatGPT for macOS 更新：IDEs 内直接编辑代码

OpenAI 推出 ChatGPT for macOS 更新：IDEs 内直接编辑代码 OpenAI 推出的 ChatGPT for macOS 现在可以直接在 IDEs 中编辑代码。这一重大更新[1

1年前
167
点赞
评论

OpenAI 推出 ChatGPT for macOS 更新：IDEs 内直接编辑代码

ComfyUI-Pruna：无损加速 Stable Diffusion 和 Flux 模型推理

ComfyUI-Pruna：无损加速 Stable Diffusion 和 Flux 模型推理 ComfyUI-Pruna[5] 提供了一个ComfyUI的自定义编译节点，能够显著加速 Stable

1年前
390
点赞
评论

ComfyUI-Pruna：无损加速 Stable Diffusion 和 Flux 模型推理

智谱开源 CogView-4：支持原生中文输入的 6B 文生图模型

智谱开源 CogView-4：支持原生中文输入的 6B 文生图模型智谱最近开源了 diffusers 版本的 CogView-4 文生图模型，该模型具有 6B 权重，支持原生中文输入，并且能够进行中

1年前
228
点赞
评论

智谱开源 CogView-4：支持原生中文输入的 6B 文生图模型