小视频宝发布AI语法讲解视频模板
小视频宝[2]最新推出了又一款小红书爆款语法讲解视频模板。能够自动生成语法题目,并完成语音讲解视频。
Midjourney 更新图片编辑器:支持智能对象选择
Midjourney[1] 对其图片编辑器进行了更新,新增了多图层和智能对象选择等功能。目前仅对会员开放。
对了,现在 v7模型也支持 Weird 参数了,可以让生成的图片更有创意。
阿里开源 Wan2.1-FLF2V:首尾帧生成视频的 14B 模型
Wan2.1-FLF2V[3]是阿里通义实验室最新开源的视频生成模型,这是一个支持通过首尾帧来生成视频的 14B 模型,最高支持 720p 输出。
佬们现在就可以在官方 wan.video[4] 平台切换到 Image2Video 模式直接使用!
字节开源 UI-TARS-1.5:多模态 GUI 自动化智能体
字节跳动开源的 UI-TARS-1.5[5] 是一款基于视觉语言模型的多模态 AI 智能体,专注于 GUI 自动化领域。
能够操作桌面应用、浏览器,甚至实现游戏自动化。
从官方演示来看,效果还是相当不错的。在 GUI 代理的各种基准测试任务上的表现超越了 OpenAI Operator 和 Claude 3.7。