一键生成高质量配图,阿里qwen-image搭配腾讯codebuddy,解决了我的写作焦虑

282 阅读6分钟

你有没有遇到过这种情况:

写着写着文章,感觉需要插入图片来丰富文章内容,但是自己又没有合适的图片素材

去网上搜找不到合适的,而且还有版权风险

使用ai配图吧,还要不停地切换窗口去写提示词,生成图片,下载。

哦对了,有的app和网站生成的图片还带水印,你还得想办法去去水印,然后再复制到我们的文本编辑框里。

这样一套流程下来,效率低不说,更痛苦的就是刚刚写作的思路被打断了,突然忘了接下去怎么写了。 也就是我们所说的#### 打断了写作过程的心流状态

那么,有没有什么办法,在不打扰我们的情况下

不需要写复杂的提示词,不需要切换窗口,直接帮我们生成符合文章段落内容的配图呢?

当然有,我使用阿里最新的生图模型qwen-image的api,然后用腾讯的codebuddy,制作了一个ai配图助手的浏览器插件。 如图,这个插件长这个样子。

图片

使用方法:

基于 ModelScope 文生图 API,一键把网页上的文字生成“封面图/插图”。适合写公众号、博客、文档配图。

选中文章中的一句话或一段文字

右键菜单选择“生成封面图”或“生成插图”

弹窗可临时调整:模型/尺寸/风格

页面会出现进度浮层,完成后展示预览

结果操作:插入到编辑器

接下来就让我来带着大家一起学习,如何制作这样一个调用api来实现一键生成高质量配图的工具呢。 首先先给大家说一下我为什么选择qwen-image这个模型

第一:能力强

开源 Qwen-Image,一个20B的MMDiT模型。这是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。

图片

Qwen-Image的主要特性包括:卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。

一致性的图像编辑能力: 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。

强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。

更详细的介绍可以看一下官方的介绍:告别文字乱码!全新文生图模型Qwen-Image来咯

第二:目前可以通过魔搭社区免费调用,每一个用户每天有2000次的调用额度。

图片

如果还没有开通魔搭社区的,可以先来www.modelscope.cn注册开通

图片

好的,那么注册开通魔搭社区之后,我们怎么调用qwen-image来帮助我们生成图片呢? 别急,进入www.modelscope.cn/models/Qwen…

图片找到右边的“推理 API-Inference”,点击“查看代码示例”,图片apikey后边ms开头的,这个就是你独有的访问令牌(这里划重点,后边要考,一定要记住从哪里找apikey) 好的,万事俱备只欠东风了。开启我们的狂飙之旅

我们这次选择使用
腾讯的codebuddy(国际版)

来帮我们写代码的工作,下载地址:www.codebuddy.ai

图片 这是codebuddy的简单介绍,更多详细内容可以看他们公众号的文章:腾讯的 AI IDE 来了!国际版开启内测(🎁 评论送邀请码)

为什么我们选择使用codebuddy进行编程呢,主要是因为他目前还在内测阶段,可以免费试用内置的claude4和gpt5这些顶尖模型

本次主要使用的是claude,他的优势是代码编写能力强,工具调用能力强,以及自带联网功能(这个记下来,要考),但是太莽撞了,上来一言不合就是干。你可以把他想象成天龙八部里边的鸠摩智,能打,会小无相功,分分钟偷学新的武学招式(后边你就知道为什么是小无相功了)AI 生成图片

副手是gpt5,他的优势是代码分析能力一流,规划能力一流,但是他属于那种嘴上能bb,动手能力贼弱的类型。你可以把他想象成天龙八部里的王语嫣,史上绝学他都能看透,但是你让他上阵杀敌。em....那是不太行的。AI 生成图片

第一步:既然我们要调用api,我们首先要知道api的调用方式吧,请求格式,返回数据格式,解析方式等等等等。说到这,你是不是蒙了,你要问我学会了qwen-image的调用方式了么?我可以准确的回答你,我也不会! 那怎么办?凉拌啊。

你别忘了claude4会小无相功,我们吧api的调用方式发给他让他学习。 www.modelscope.cn/docs/model-…

这个网址是魔搭社区的api调用方式,你如果想学习的话,可以认真读一下,大概了解一下。当然,你也可以直接放claude4来学习

提示词

https://www.modelscope.cn/docs/model-service/API-Inference/intro 了解一下文生图api的具体调用方式

你看,他学的还是挺快的 图片

接下来,把www.modelscope.cn/models/Qwen… 图片把图片里提示词发给他图片看最终,图片生成成功了!图片

图片 好勒,我们已经验证了调用方式是没问题的。那么当然不能每次都使用python在命令行模式下调用呀,这多不优雅 继续让claude4帮我们进行优化: 提示词

我有一个疑问,如果是这样的调用方式,我们可以用来制作Chrome插件么?因为我看目前好像用的是python的方式来调用的

来看他的回复:

图片

可以看到他非常清晰的知道把python语言转换为更适合浏览器插件的js语言开始编写代码了 后边的路径就就让他一步一步完成这个Chrome文件的生成就可以了 

代码生成完毕之后,打开你的浏览器右上角,跟着图片操作 图标图片 管理扩展程序

图片加载图片

如果加载未成功,把报错信息发给codebuddy就行,他会自动排查错误帮你修复,并且告诉你怎么办 比如我就遇到了icon加载不成功的问题

图片

初版的ai配图助手就出来了,是这样的图片是不是感觉有点功能太简单了,还需要自己输入提示词

那么我们继续把这个项目进行升级改造

这次我们把模型切换为gpt5,输入提示词

我想把这个插件迭代一下,因为现在已经可以完整的实现通过文字生成图片了。但是我最终的目的呢,我生成图片是为了完善我的文章,所以就需要有根据选中的文章内容生成封面的需求,以及根据选中的内容生成插图的需求,你理解我的意思么

图片

然后接下来就和gpt5的生成结果确认需求,需求确认无误之后,开始写代码就可以了 最终生成的工具是这样的,具有多种功能,一键生成并且支持直接插入段落

图片图片