前言
百度的文言一心真正的做到了实事求是了嘛?
人工智能作画的技术突破线
1:《Denoising Diffusion Probabilistic Models》
研究机构 美国加州大学伯克利分校
2:《Denoising Diffusion Implicit Models》
研究机构 斯坦福大学
3:《DiffusionModels Beat GANS on lmagez Symthesis》
研究机构 Open AI
4:《More Control for Free lmage Synthesis with Semantic Diffusion Guidance 》
研究机构是美国加州大学伯克利分校和Picsart人智能研究团队
5:《CLASSIFIERFFREE DIFFUSIONGUIDANCE》
研究机构 GOOGLE RESEARCH 和Brain team
6:《High Resolution lmage Synthesis with latent Diffusion Model》
研究机构 德国慕尼黑大学,德国海德堡大学以及美国runway人工智能公司
现在全球市面的所有的ai作画能在 商用芯片 上落地的的理论依据来自以上几篇论文
上主角 百度文言一心大模型 英文名 ERNIE-VilG 2.0
简单的说 百度在LDM模型(来自第6条latent Diffusion Model)上做了一些改变
以下来自文言一心原论文 改变如下
一:有条件图片生成的时候把条件输入改变了一下,用原文解释一下:把一个理解的文本生成图片模型应该把注意力集中到用户输入的提示语中的所有关键词
关于这个我有个形象的比喻 领导煞有其事拿着别人的文章改了改错别字和逗号句号使用的不规范,然后拿出来是他的成果
二:文心大模型的训练使用
文心大模型的训练使用1.7亿个图文对 这个数据来源是德国非盈利组织LAION的数据集 和百度内部的一些中文数据集
其中原论文写明了 对有英文标志的图片百度的出来方法是直接调用百度api翻译生成中文
文言一心AI作画效果图
就是把用户输入 先转换成英文
百度在代码不改的前提下 做一套基于中文的图文生成系统 那么你至少要做出一套能够处理中文输入的机制 把中文的语义转换成图片生成的条件,
可看遍整个论文中 没看到这部分内容
所以 文心一言的语言功能和图文功能是机械堆叠的
数据对比
简单概括下这个表格 右侧的数值表示数值越低 模型生成的图像越接近真实图像
百度评测是自己第一名
除此之外 百度还搞了一次人工评测 论文原文说 相对其他所有模型来说 人工评测更喜欢文心大模型
结论
百度文心一言是不是自研 这个我无任何个人观点和结论
开源技术不是不能用 但是你用了就请你低调点 关于文言一心的核心创新技术---------
百度说的完全自研 基于中文的这种说法 和普通人心中完全自研基于中文不是一个概念
至于还有人接着追问 只能劝你多喝点鸿茅药酒