图文融合模型--AnyText(多语言视觉文字生成与编辑)

382 阅读1分钟

大家好,这里是程序员阿山哥

这次分享一下阿里开源的图文融合模型--AnyText(多语言视觉文字生成与编辑)

image.png 图一,是官方给出的电商广告例子,可以看到Prompt里的文字都出现在图里了

image.png 图二,是我尝试生成一张画,加入打卡相关标语,然后发现,文字太多,而且英文数字中文混在一起生成的效果一般

image.png 图三,用一个官方儿童画的例子来修改,文字尽量少一点,效果还不错

image.png 图四,是官方给出的文字编辑的例子,可以更换掉图中的文字

image.png 图五,是通过框选的方式,设定文字出现的位置,数字及其对应的颜色是文字生成的顺序,会根据提示词里,双引号文字出现的顺序一一对应的

image.png 图六,是一些参数的设置,可以调整生成图片的数量,提示词Prompt,图片尺寸等等

整体体验下来,觉得未来可期,目前感觉还是玩一玩而已,这个图文融合模型再发展一段时间,或许会更好,毕竟Github里写了一些ToDo,希望能实现。

AnyText可以本地部署,但没有整合包,一般人不容易部署成功。未来可能支持在stable-diffusion-webui里使用AnyText

Github 地址: github.com/tyxsspa/Any…

在线运行Demo HuggingFaceDemo: huggingface.co/spaces/mode…

ModelScopeDemo: modelscope.cn/studios/dam…


「AI破局」将于2月18日正式启动第二期,感兴趣的可以留意一下

image.png