卡通与真实结合的 LoRA,效果真不错!新 ChatGPT 语音声音泄露;动漫角色列表提示词;国产 Flux ControlNet 模型

128 阅读5分钟

Command R 系列模型发布更新

Cohere 发布了新版本的 Command R Plus 和 Command R 模型,提升了性能、扩展了多语言支持和上下文窗口,并新增了代码生成工具执行功能,主要特性如下:

  • Command R Plus:104B 参数,Command R:35B 参数
  • 性能提升:吞吐量提高 2 倍,延迟降低 2 倍
  • 使用Grouped Query Attention(GQA)
  • SFT + 偏好调优模型
  • 超大上下文窗口:128K
  • 多语言支持:覆盖 23 种语言,评估了 10 种
  • 具备代码重写、解释和代码片段生成能力
  • 支持引用工具执行结构化输出

模型现已发布到 HF 上了,CohereForAI/c4ai-command-r-plus-08-2024[1],协议是 CC-BY-NC,不可商用,更详细的的发布文章可以看:Updates to the Command R Series[2]

ai-toolkit:支持可视化训练 Flux LoRA

在之前的 探索 FLUX LoRA[3] 简单附带过 AI Toolkit 的链接,就在周末,它迎来了一个大更新,支持 WebUI 来上传图像、打标签、训练和发布 Flux LoRA,极大的降低了门槛。

如果你只想简单的试玩,这里有一个基于它的 Space:autotrain-projects/train-flux-lora-ease[4],缺点是只能训练 schnell,dev 仍然需要本地训练。

此外,fal-ai 也有一个付费的 LoRA 服务,[Train Flux LoRA (Fast)](fal.ai/models/fal-… "Train Flux LoRA (Fast "Train Flux LoRA (Fast)")"),最低 2 美元起。

StreamingSVD: 开源丝滑长视频生成

image.png StreamingSVD[5],是 StreamingT2V[6] 的一种方法,基于 SVD 的图生视频模型,能生成 200 帧、时长 8 秒的视频,生成的效果非常丝滑和稳定。虽然已经开源,但是运行时需要 60 GB 的 VRAM。

随便再吹一下 CogVideoX[7],有人成功的再 4G VRAM 下运行了,这可是视频生成模型啊...

国产 Flux ControlNet 模型

TheMistoAI/MistoLine_Flux.dev[8] 一个支持任意 lineart 或 outline sketches 的国产 ControlNet 模型,参数约为 1.4B。

如果你想在 ComfyUI 上使用的话,要注意它与 XLabs 的加载器和采样器不兼容,需要使用专门的节点。幸运的是,它兼容 fp16/fp8 和其他量化的 Flux 模型。

官方还预告了正在开发中的 Flux IPAdapter,可以期待一波

顺带说一下,InstantX 的多合一 ControlNet 模型专业版现在有在线试用了:Shakker-Labs/FLUX.1-dev-ControlNet-Union-Pro[9]

每日 AI 论文自动总结

HuggingFace's Daily Papers[10] 我们都很熟悉,这是 AK 大佬做的一个每日 AI 相关的论文大集合,三花很多快讯都来自这里,他还提供 API 访问:

// GET
https://huggingface.co/api/daily_papers

有人基于这个数据源做了 gabrielchua/daily-ai-paper[11],利用 Gemini Flash 和 GitHub actions 每天自动抓取并总结到 README,有需要的可以看一下。

难度不是很高,我在想要不要也整一个到群里,就是链接太多了不好阅读。

预览所有 Pony Diffusion 支持的角色

Pony Diffusion[12] 是一个基于 Stable Diffusion 的能够生成高质量拟人化动漫和卡通风格角色的模型,使用了约 260 万张图像进行训练,之前介绍的一个手办模型就是基于这个模型而来。

Pony Characters[13] 整理了 Pony Diffusion 支持的所有 1725 个角色,包括男、女、日漫、福瑞、美漫、游戏等角色列表和提示词,非常方便。

交互式图像上色工具

image.png Text-Guided-Image-Colorization[14] 是一个使用 SDXL 和 CLIP 的文本引导图像上手工具,你可以使用文本来控制图片对象中的具体演示。

这似乎是第一个能用文本控制着色的工具,目前没有提供在线演示,你需要 clone 到本地运行演示,期待 ComfyUI 的实现。

FastSD CPU:支持纯 CPU 运行 FLUX

FastSD CPU[15]项目能让我们在 CPU 上更快的跑 SD 模型,还支持直接在 Android、树莓派设备上运行。

最近他们更新并支持了 FLUX.1 schnell OpenVINO int 4,限制挺多的:

  • 仅支持文生图
  • 只支持 rupeshs/FLUX.1-schnell-openvino-int4[16] 模型
  • 512x512 需要 30G 内存

在 i7-12700 上使用 3Step 生成 512x512 图片用时 4 分 30 秒

新 ChatGPT 语音声音泄露

image.png ChatGPT 新语音泄露,本次演示来自大佬 Tibor[17],他非常擅长在 OpenAI 发布新内容前挖掘这些内容,包括之前的 GPT Search 也是他第一个发现的,有条件的可以关注一下他

CSGO:风格迁移技术

CSGO[18]是来自 instantX 团队的又一个风格迁移技术,它支持 3 种模式的风格迁移:

  1. 参考内容图片+风格图片,生成该风格的内容图片
  2. 参考风格图片+文本提示,生成符合提示和风格的图片
  3. 参考内容和风格图片的同时,使用文本编辑图片中的对象

目前代码以及开源,数据集还在路上

卡通与真实结合的 LoRA

一个基于 FLUX.1-dev 的 LoRA,可以生成融合现实插画,前景的人物采用插画风格,而背景则是现实风格,效果非常的赞!

Shakker-Labs/FLUX.1-dev-LoRA-blended-realistic-illustration[19]

[自取地址:](AI 资讯日报 | 最前沿的 AI 信息 | 三花 AI | 免费 AI 应用 | 1000+ AI 导航合集 | 每日精选国内外 AI 资讯 (himrr.com))