近日,由人工智能实验室 OpenAI 发布的对话式大型语言模型 ChatGPT一路“狂飙”,在全球学术界和产业界卷起了新一轮 AI 龙卷风,成为了史上增速最快的消费级应用程序。
短短两个月,这个 AI 界乃至科技圈的“新晋顶流”月活便超过 1 个亿。社交媒体推特首席执行官埃隆·马斯克在使用 ChatGPT 后直呼其“好得吓人”,甚至断言“人工智能越发强大,离对人类产生威胁不远了”。作为参考,为了达到 1 个亿活跃用户的“小目标”,Twitter 用了 5 年,Facebook 用了 4.5 年,Google 用了将近 1 年,就连苹果用户装机必备的 App Store 都用了 2 年。
CSDN 创始人&董事长、极客帮创投合伙人蒋涛在《开谈》栏目中谈到,ChatGPT 的出现标志着 AI 进入了当年的 “iPhone” 时刻。据 2 月 13 日,北京市发布的《2022 年北京人工智能产业发展白皮书》中提出,支持头部企业打造对标 ChatGPT 的大模型,着力构建开源框架和通用大模型的应用生态。
与此同时,百度、阿里巴巴、科大讯飞、360、京东等国内科技巨头也纷纷官宣ChatGPT相关布局,旨在打造“中国版ChatGPT”。可以预见,这场以自然语言处理为核心的认知智能技术所带来的革命,将会深刻地改变当今世界的生产和生活方式,甚至重构产业格局,是人工智能领域推动工业乃至社会变革的重大战略机遇。
算法+数据+算力 ChatGPT三大基本盘
ChatGPT 之所以引发全球学术界和产业界的热议和关注的关键原因,在于其通过至少以下五个维度能力的显著提升:
海量高价值信息的全量在线记忆能力; 自然语言输入的任意任务和多轮对话理解能力; 复杂逻辑的思维链推理能力; 多角色多风格的长文本生成表达能力; 即时新知识学习应用与进化能力。此外,因为引入了代码作为训练语料,ChatGPT 还额外产生了自动写代码和理解代码的能力。 总地来说,想要从 0 到 1 去打造一个中国版 ChatGPT,核心要素在于数据、算法和算力。
1、海量专业数据与场景,为大模型创新夯实基础
基于人工智能技术,在 ChatGPT 给出的回答中,其准确性取决于使用的算法和训练数据。通俗来说,可以将 ChatGPT 理解为通过大规模预先训练,处理巨量语言材料,从而获得接近人与人直接对话能力的一种算法模型。根据用户的测试,在相对深度和专业的领域,受限于训练数据的专业度,ChatGPT 在一些回答上容易给出“看似有理有据”的错误回答,这种情况在细节内容上尤为突出。 对于预训练模型来说,数据的质量和数量直接影响模型的质量,因此,如何进一步引入显性知识、常识类知识来提升目前输出答案的可靠性和稳定性,尤其是在一些细节的内容上。
2、算法与算力,是入局门槛之一
ChatGPT 效果体验上获得较大提升的原因之一是算法环节的突破,因此,打造一个类 ChatGPT 大模型,除了数据以外,还需要在算法和算力两个方面努力。ChatGPT 以当前业界主流的 Transformer 模型为主结构,单次模型训练耗时 1 个月,训练成本达 1200 万美元,超大模型的训练需要大规模计算集群以及对应的模型并行算法框架的支撑。
3、打破技术壁垒,以场景需求倒逼技术打磨
从技术应用角度来说,ChatGPT 并没有显著的创新性,出圈的原因主要在于选对了技术应用的落脚点。中国版 ChatGPT 在打造过程中,除了技术打磨以外,需要更丰富、更细化的场景反哺,同时在专业领域上,保持基于场景的数据迭代和核心技术的更新,才能“解锁”更多技术的应用创新方式。 结合多年来在深度学习算法、大模型技术、行业大数据、知识图谱、多模态感知、系统工程技术方面优势积累,形成了从核心技术到合作资源到数据迭代的综合优势,也为基于大模型的创新应用研发和试点推广提供了场景保障。另外,基于其自主可控的核心技术底座,科大讯飞投身打造中国版 ChatGPT,有望能够实现类似的技术阶跃进步,在中文认知智能领域达到国际领先水平。