快手开源的大模型能打么

163 阅读1分钟

Kolors是由快手Kolors团队开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿个文本-图像对的训练,Kolors在视觉质量、复杂语义准确性以及中英文字符的文本渲染方面都比开源和专有模型具有显着优势。此外,Kolors支持中英文输入,在理解和生成中文特定内容方面表现出强大的性能。有关更多详细信息,请参阅此
技术报告

Kolors已经在ModelScope上开源,可以快速的进行尝试,不需要安装SD的automatic111安装包。

画了两张图,还挺不错

image.png

安装

依赖

  • Python 3.8 or later
  • PyTorch 1.13.1 or later
  • Transformers 4.26.1 or later
  • Recommended: CUDA 11.7 or later
  1. 克隆仓库并安装依赖
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
  1. 下载模型权重
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
  1. 使用命令行推理
python3 scripts/sample.py "一张小猫在弹钢琴,钢琴上写着YAMAHA,微距,变焦,高质量,电影"

image.png 画出来的小猫还是很可爱的,但是钢琴上的字母,有点偏差,影响不大

  1. 使用网页进行推理
python3 scripts/sampleui.py

image.png

使用显卡进行推理,运算速度大概每个迭代两秒,

image.png

效果还是很惊艳的!