近来华为在发布会展示大模型的文生图能力,在演示时,第一次运行后按下Ctrl-C中断后,屏幕上显示了一行代码:time.sleep(6),这引发了不少朋友的好奇,他们都在讨论time.sleep(6)时发生了什么。
在我看来,厂商在做产品演示时,都有演示方案,现场并不会用真的产品实时演示,是预先准备好的演示素材。
1.神秘的sleep6
发布会说了是"快速"RAG服务,是从向量数据库里检索再文生图,实际演示用的数据库里或许没几条记录。
演示时直接从数据库抽取演示数据,加上sleep6 这个延时处理,可以保证演示的真实感,抽取的数据过快,是不符合大众对当前大模型的认知的,这里利用sleep来模拟下反应和计算时间。
但是故意用time.sleep(6)拖延时间并非有必要,因为参加的观众都知道这是在纯演示,不是真实的产品。
2.大众只关心产品能做什么
厂商的目的是让大众知道有一款产品,能完成什么样的功能,即使演示方案都是预先录制好的,也不影响大众对产品的好奇,厂商吸引大众使用产品的目的也可以实现。
在2022年底,OpenAI发布ChatGPT,引爆大模型热潮。
百度在2023年3月16日紧接着发布了文心一言大模型。在现场直播的演示中,李彦宏表示为了“节约时间”展示都是预先录制的。
去年11月8日,文心一言用户规模达到7000万。去年12月28日,文心一言用户数已超过1亿。2024年4月16日,文心一言发布了一年零一个月的时候,李彦宏宣布文心一言用户数已超过2亿。
3.谷歌的套路
2023年12月9日,谷歌发布了大语言模型Gemini的演示视频,视频看起来极其先进,显示了Gemini模型在处理各种任务时的能力。
视频中展示了一系列引人注目的场景,例如Gemini模型能够在一个塑料杯中发现藏着的纸团,甚至能够识别出一幅“点线相连”的图画中描绘的是一只螃蟹。
当时这个事儿也引发了热议。所有关心AI最新趋势的小伙伴都惊呆了。
后来再在一次采访中谷歌向媒体透露,他们之前发布的大型语言模型Gemini的演示视频实际上并非实时录制,而是通过镜头捕捉的静止图像帧和文本提示来“拼凑”而成的。换句话说,Gemini模型只能对输入的提示和静态图像做出反应,而非实时处理。
同样,视频中展示的用户与Gemini之间的语音互动实际上也是后期配音完成的。
4月12号,Github 前首席执行官 Nat Friedman 在 X(推特)上发帖,说谷歌 Gemini 流量已经到达 ChatGPT 的1/4,这还是在谷歌并没有通过庞大分销渠道(Android、Google 搜索、GSuite 等)大力推广的情况下完成的。
4.大众的选择
产品演示,不仅是大模型,各种软件厂商给客户做选型呈现的时候,一定会把产品最好的一面呈现给客户,包括传统企业给供应商提交样品,都会准备各种参数最好的。
等实际产品发布以后,客户都是用脚投票的,用着好就点赞,用着不好一定会踩。
发布会是演示还是真实产品运行,并不重要,重要的是,产品发布后好不好用,能不能解决用户问题。