首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
三花AI
三花AI
创建于2024-06-17
订阅专栏
AI造福人类
等 15 人订阅
共194篇文章
创建于2024-06-17
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
ChatGPT Image Generation 功能仅1小时增长一百万用户
OpenAI 即将开源具备推理能力的新模型 OpenAI 即将发布[1]一款具备推理能力的开源模型,这是自 GPT-2 之后该公司再次开源重要模型。 值得注意的是,2 个月前 OpenAI CEO S
ChatGPT 推出精准图片编辑功能
ChatGPT 推出精准图片编辑功能 OpenAI 为 ChatGPT 的图像生成功能新增了局部编辑能力。现在,用户可以直接在 AI 生成的图片上使用遮罩工具进行精准编辑,支持添加新元素、移除不需要的
zenctrl_tools 万金油视觉内容创作 Agent
zenctrl_tools:万金油视觉内容创作 Agent zenctrl_tools[1] 是一个多功能图像处理 Agent,致力于自动化整个个性化视觉内容创作流程。目前项目正在积极开发中,部分模型
Qwen 2.5-Omni-7B: 语音聊天 + 视频聊天
Qwen 2.5-Omni-7B: 语音聊天 + 视频聊天 阿里通义团队发布了 Qwen 2.5-Omni-7B 模型,OpenAI 高级语音模式的开源平替。 这个模型能够无缝处理文本、图像、音频和视
DeepSeek-V3 非推理模型首次登顶排行榜,开源模型里程碑时刻啊!
DeepSeek-V3 非推理模型首次登顶排行榜 DeepSeek 前天低调发布了 V3-0324 模型更新,昨天终于发布了官方公告[3]。 主要更新内容包括: 借鉴 DeepSeek-R1 模型大幅
Cloudflare 推出 AI Labyrinth:用 AI 生成的迷宫对抗恶意爬虫
Cloudflare 推出 AI Labyrinth:用 AI 生成的迷宫对抗恶意爬虫 Cloudflare[4] 最新推出了名为 AI Labyrinth 的反爬虫技术,专门用于应对非法 AI 爬虫
阿里通义实验室 LHM 技术:快速将照片转换为动画
Roboflow 开源实时目标检测模型 RF-DETR RF-DETR[1] 是由 Roboflow 开发的实时目标检测模型,基于 Apache 2.0 开源许可。该模型提供了两个版本:RF-DETR
这 token 是金子做的,还是银子做的?
OpenAI 发布 o1-pro API:金子做的token OpenAI o1-pro[3] API 现已正式上线,输入为 150 美元/百万 token,输出更是高达 600 美元/百万 toke
会跳舞的花就这么水灵灵地做出来了
阶跃星辰推出 Step-Video-TI2V:30B 参数图生视频模型 Step-Video-TI2V[1] 是由 StepFun(阶跃星辰)开发的图生视频模型,拥有 30B 参数,是目前开源社区中规
Stability AI 发布 Stable Virtual Camera:从 2D 图像生成 3D 视频
Stability AI 发布 Stable Virtual Camera:从 2D 图像生成 3D 视频 Stable Virtual Camera[4] 是由 Stability AI 最新发布的
一张照片创造会动的虚拟形象 开箱即用解决方案
WarpTuber:快手 LivePortrait 驱动的即时 VTubing 工具 WarpTuber 是一个基于快手 LivePortrait 的即时 VTubing 工具。它允许用户通过摄像头,
Thera:首个内置物理观测模型的任意尺度超分辨率技术
Thera:首个内置物理观测模型的任意尺度超分辨率技术 Thera 是第一个具有内置物理观测模型的任意尺度超分辨率技术,从基准测试来看,性能非常的好。 佬们可以在官方演示[1]上玩一下,提供的几个 d
体验超真实 AI 语音:CSM 1B 模型现已发布
体验超真实 AI 语音:CSM 1B 模型现已发布 哇,之前介绍的Conversational Speech Model[1] (CSM) 1B 现已正式发布。佬可以在 Hugging Face 上下
谷歌 Gemma 3 甩开同参数模型一条街
谷歌 Gemma 3: 甩开同参数模型一条街 谷歌昨日发布了 Gemma 3 模型,该模型支持多达 140 种语言,拥有高达 128k 个令牌的上下文窗口,能够处理文本和图像并生成相应的文本输出。性能
OpenAI Operator 的开源替代方案:Nanobrowser
Nanobrowser:OpenAI Operator 的开源替代方案 Nanobrowser[1] 是一款开源的 AI 网页自动化工具,官方号称是 OpenAI Operator 的开源替代品。 采
基于 Wan2.1 的捏捏乐 LoRA 特效开源复现;扁平风格动画视频;单目视频实现相机自由运镜
Squish Effect:基于 Wan2.1 的捏捏乐 LoRA 特效开源复现 Squish Effect[1] 是基于 Wan2.1 14B I2V 480p 训练而来的 LoRA,这一 AI 特
多模态 AI 数字人视频生成模型
Hedra 推出 Character-3:多模态 AI 数字人视频生成模型 Character-3 是由 Hedra 开发的一个 AI 数字人视频生成模型。它能够同时处理多种输入类型,包括图像、文本和
OpenAI 推出 ChatGPT for macOS 更新:IDEs 内直接编辑代码
OpenAI 推出 ChatGPT for macOS 更新:IDEs 内直接编辑代码 OpenAI 推出的 ChatGPT for macOS 现在可以直接在 IDEs 中编辑代码。这一重大更新[1
ComfyUI-Pruna:无损加速 Stable Diffusion 和 Flux 模型推理
ComfyUI-Pruna:无损加速 Stable Diffusion 和 Flux 模型推理 ComfyUI-Pruna[5] 提供了一个ComfyUI的自定义编译节点,能够显著加速 Stable
智谱开源 CogView-4:支持原生中文输入的 6B 文生图模型
智谱开源 CogView-4:支持原生中文输入的 6B 文生图模型 智谱最近开源了 diffusers 版本的 CogView-4 文生图模型,该模型具有 6B 权重,支持原生中文输入,并且能够进行中
下一页