AIGC 与大模型专场议题出炉!通往 AIGC 道路上,开发者和企业将如何把握这个时代机会?

1,807 阅读15分钟

以 GPT、Diffusion 为代表的大模型到来,让人类对通用人工智能( AGI )重燃信心的同时,开始在不同领域中探索落地之路,其中文本生成、图像生成、代码生成、音视频\游戏等领域百花齐放。可以预见,未来生成式 AI 将进一步与生产、生活深度融合,不断突破我们的想象边界,带来新的生产力革命。

自从 ChatGPT 爆发之后,全球范围内掀起了大模型热潮。包括微软、谷歌、百度、阿里在内的一众科技巨头加速大炼“大模型”,甚至在原有产品生产中加入大模型能力,亦如谷歌推出 PaLM2 大模型、微软 Windows 全系产品注入 GPT 能力.....以期在新的范式转换和新技术浪潮中摘得先机。

在通往 AGI 道路上,大模型带来的变革才刚刚开始。从 LLM 到多模态大模型,大模型将如何演进?AIGC 还有哪些想象空间?大模型将会如何影响开发者和企业?企业又该如何借力和追赶大模型创造出实际价值?

6 月 30 日- 7 月 1 日北京·新云南皇冠假日酒店,由稀土掘金技术社区举办的 「稀土开发者大会2023」上,俞刚(QQ 影像中心算法负责人)和吴兴龙(字节跳动智能创作 CV 技术负责人)一道作为出品人,为大家带来《大模型与 AIGC 》专场。字节跳动研究科学家冯佳时、腾讯科技 QQ 影像中心高级算法研究员陈欣、虾皮多媒体技术负责人熊鹏飞、小红书智能创作 AIGC 负责人李华夏、Google Cloud 机器学习解决方案架构师刘士君、英特尔人工智能方案架构师赵亮、好未来境外业务移动端负责人孙凤伟、JinaAI 联合创始人兼 CTO 王楠、Zilliz 合伙人和产品总监郭人通、字节跳动算法工程师李俊毅,将与技术开发者们一起深入探讨和复盘,破除迷雾,直面 AIGC 最核心的问题。

飞书20230607-112536.jpg

扫码即可报名,转发海报还可以参与抽奖!

演讲嘉宾 :冯佳时 字节跳动研究科学家

现任字节跳动智能内容创作基础研究团队负责人。曾任新加坡国立大学电子与计算机工程系助理教授,机器学习与视觉实验室负责人。研究方向包括深度学习与计算机视觉。目前主要研究多模态基础模型、生成模型、3D 建模。曾获得麻省理工科技评论 35 岁以下创新者(亚洲),ACM MM 最佳学生论文奖,ICCV TASK-CV 讨论会最佳论文奖,CVPR2021 最佳论文奖提名。曾担任 CVPR、ICML、ICLR、NeurIPS 等会议的领域主席。

****演讲主题: 多模态内容生成技术的前沿与应用

AIGC 是当前人工智能技术领域的热门研究方向,其应用场景包括但不限于图像、视频和三维模型的生成。在本次演讲中,我们将重点介绍三个方面的内容:首先是 text2image 技术,即将文本描述转化为图像。我们将探讨如何使用深度学习算法将自然语言描述转化为图像,并展示该技术在素材供给、设计等领域的应用案例。其次是 text2video 技术,即将文本描述转化为视频。我们将介绍如何使用深度学习技术来生成动态场景,例如电影特效和虚拟演员。此外,我们将展示如何将该技术应用于视频自动生成。 最后,我们将探讨 3D 生成技术,即将文本描述转化为三维模型。我们将介绍使用 GAN 和其他深度学习技术来生成三维物体的方法,并展示该技术的应用案例。

演讲大纲:

  1. AIGC 背景介绍

  2. text2image 技术介绍与应用案例

  3. text2video 技术介绍与应用

  4. 3D 内容生成技术介绍

  5. 总结、讨论与展望

演讲嘉宾:陈欣 腾讯科技 QQ 影像中心高级算法研究员

中国科学院大学博士,关注于生成式人工智能,主要研究方向为虚拟人生成、人体动作生成、三维物体生成等,在 CVPR、ICCV、SIGGRAPH 等国际顶级会议期刊发表论文 20 余篇。目前主要负责超级 QQ 秀的虚拟人服饰、动画的研究、QQ 影像的前沿技术探索,并致力于 AIGC、多模态大模型等前沿技术的技术研究与落地工作。

演讲主题:AIGC 前沿技术——虚拟人动作生成技术的发展与应用

AIGC 这类生成式智能算法技术大大提升了设计师的工作效率,降低了设计门槛,也让更多的人感受到 AI 画画、AI 动画生成的乐趣。其中,AI 动画是一种基于文本生成高质量、多样化的人体动作的前沿技术,这为驱动虚拟角色甚至控制人形机器人提供了更方便和人性化的方式,将有益于游戏产业、电影制作、虚拟现实/增强现实和机器人辅助等众多应用。在本次演讲中,我们将针对虚拟人动作生成方向,介绍我们提出的两种全新动作生成算法,分享我们基于扩散模型技术和语言大模的最新研究成果。另外,演讲中介绍的算法已开源,欢迎测试与使用,最后也会与相关开发者讨论动作生成技术的挑战和未来发展方向。

演讲大纲:

  1. 虚拟动作生成算法的发展与演进
  2. 扩散模型与虚拟动作生成
  3. 语言模型与虚拟动作生成
  4. 虚拟动作的挑战与未来发展

演讲嘉宾:熊鹏飞 虾皮多媒体技术负责人

博士毕业于中科院自动化所。前腾讯专家研究员及多模态内容理解和智能创作负责人,先后负责计算机视觉、内容检索、移动端拍摄、多媒体理解、视频生产、智能创作等相关团队的算法研究与业务落地。曾在 300-W、Middlebury、YoutubeVOS、Kinects、TRECVID、NTIRE 等国际赛事多次登顶,在顶级国际会议和期刊上发表近二十篇论文,并持有三十多篇国际专利。

演讲主题:内容电商下的多模态内容理解和智能生产

内容电商逐渐成为电商场景的重要组成。随着图像、视频、文本等多模态信息的越来越普及,多模态预训练技术在内容电商的供给、生产、消费、流量等环节也体现出了越来越多的应用。作为持续投入多模态技术的团队,我们设计了一整套完整的多模态训练、跨模态理解及内容生产服务。通过内容电商的业务沉淀了一整套多模态内容理解方案。在多模态的表征、融合、对齐、预训练、生产等多个维度上均做了深入的研究和创新。本次分享我们主要介绍多模态预训练上的进展,以及在电商检索、直播理解、电商生产等场景下的应用。

演讲大纲:

  1. 多模态研究背景
  2. 多模态训练技术
  3. 业务背景介绍
  4. 多模态电商检索
  5. 跨模态内容电商
  6. 直播内容生产
  7. 电商内容生产
  8. 总结与展望

演讲嘉宾:刘士君 Google Cloud 机器学习解决方案架构师

Google Cloud AI 和机器学习专家,主要负责向出海用户介绍 Google Cloud AI 和机器学习技术的最佳实践,专注于深度神经网络算法、机器学习工程化、GPU/TPU 加速等领域。在近 10 年的云计算和人工智能从业经历中,积累了丰富的云上 AI 应用的落地、GPU 和 TPU 优化的经验。

演讲主题:解密 Google Cloud 全新 PaLM2 及创新应用

2023 年 Google I/O 大会上,Google 向全球开发者发布了 PaLM2 大语言模型,并介绍了最新的研究进展,同时发布了基于 Google Cloud 和 Workspace 的多个创新应用和服务。本讲座会进一步介绍 Google 最新的大语言模型、多模态模型,以及微调的能力,同时通过实际应用场景来介绍大语言模型的实际落地。

演讲大纲:

  1. Google 大语言模型及多模态模型
  2. 模型的训练及微调
  3. 实际应用场景

演讲嘉宾:赵亮 英特尔人工智能方案架构师

拥有 20 年多媒体和人工智能计算产品及平台研发、管理和技术支持的经验,现在 Intel 从事 Habana 人工智能加速器产品在中国的推广、技术支持及落地工作。

演讲主题:生成式 AI 狂潮下如何加速大模型语言模型计算

随着近年大规模语言模型(LLM)的蓬勃发展以及和 ChatGPT 类应用的爆发性增长,大规模语言模型的应用有一统天下之势。本次分享将通过概述近期流行的 LLM 模型的技术特点,分析此类模型对软硬件的要求和挑战,同时介绍 Habana Gaudi2 产品如何加速此类模型的训练、推理的应用。

演讲大纲:

  1. LLM 模型的发展历史
  2. 近期流行的典型 LLM 模型技术分析比较
  3. LLM 训练和推理对软硬件的要求
  4. Habana Gaudi2 产品特性及对 LLM 模型的支持情况

演讲嘉宾:孙凤伟 好未来境外业务移动端负责人

曾任职百度、滴滴,现担任好未来境外分校移动端负责人,多年 toC 移动端研发经验,近半年转向大模型应用和调研。

演讲主题:基于 GPT 的智能客服落地实践

自从 ChatGPT 上线以来,在全球范围内瞬间就掀起了大模型的热潮,我们团队也是第一时间开始关注。我们一边在感叹它的“聪明”,一边在思考如何合理的“应用”它,基于当时对它的理解和海外的一些开源项目,我们决定通过智能客服的形式来验证它的应用性。在整个实践过程中,随着对它理解的深入,我们的项目迭代方向也在不断的调整。本文通过介绍基于 GPT 实现智能客服的实践过程,讲解如何让 GPT 链接企业的知识库,以及知识库的搭建,最终完成 1.0 版本上线。根据 1.0 版本设计的一些缺点和弊端,引出 2.0 版本的设计,2.0 版本的核心思路是,大模型和业务 API 接口打通,如用户输入“课程”相关文字,智能客服可以直接调用业务的接口,给出体验课的课程卡片。为了实现和 API 联动的效果,我们参考了 AutoGPT 的设计思想,通过介绍 AutoGPT 的实现原理,讲解我们如何和业务 API 打通。最后会介绍对于大模型应用的一些心得和理解。

演讲大纲:

  1. 问答客服的搭建和技术设计

1.1 如何让大模型链接企业专有知识库

1.2 语料库的搭建

1.3 当前设计的一些弊端

  1. 问答客服向智能客服的转变

2.1 如何让大模型业务 API 联动

2.2 工程相关的改造

  1. 心得和展望

演讲嘉宾:王楠 JinaAI 联合创始人兼 CTO

博士毕业于德国波鸿鲁尔大学。自 2009 年开始从事深度学习相关研究,之后先后担任德国知名电商 Zalando 高级数据科学家,腾讯高级研究员,在搜索和推荐领域的具有丰富的模型设计、实现和部署经验。专注于机器学习和深度学习算法在 NLP 和搜索领域的实际应用。作为开源神经搜索框架 Jina 的核心贡献者,热衷于开源软件和云原生技术。

演讲主题:基于 Langchain 和 Langchain-serve 的智能文档问答系统

文档问答系统的任务是从文档数据中查找与用户问题相关的答案。由于文档数量不断增加,传统的搜索已经不能满足人们的需求。随着深度学习模型的发展,文档问答系统从基于字符匹配的方法迁移到基于向量表示的方法,大规模语言模型更为文档问答系统的答案生成问题提供了解决方案。新一代的文档问答系统将传统模型、深度学习问答模型和大规模语言模型技术融合在一起,为用户提供更完善的文档问答服务。本次演讲将介绍如何使用 Langchain 开发框架和 Langchain-serve 部署工具来开发智能文档问答系统。

演讲大纲:

  1. 文档问答系统的背景
  2. 智能文档问答系统的算法方案
  3. 智能文档问答系统的工程方案
  4. 总结与展望

演讲嘉宾:郭人通 Zilliz 合伙人和产品总监

华中科技大学计算机软件与理论博士,CCF 分布式计算与系统专委会委员。专注于开发面向 AI 的高效并可扩展的数据分析系统,是 Milvus 项目的系统架构师和 Towhee 项目负责人。其工作成果曾发表于 SIGMOD、VLDB、USENIX ATC、ICS、DATE、IEEE TPDS 等国际顶级会议与期刊。在加入 Zilliz 前,曾就职于华为,是 ModelArts 平台核心研发成员。

演讲主题:向量数据库:大模型的海量记忆体

对于构建专有大型语言模型的组织而言,向量数据库至关重要。向量数据库的一个新型重要用例是 LLM,在文本生成过程中可用于检索领域特定事实或专有事实,用以存储、索引、搜索和检索非结构化数据的大型数据集。本次分享将重点介绍 AI 基础设施的开源向量数据库 Milvus 以及对应的云服务 Zilliz Cloud 是如何知识增强和赋能 LLM,并进而引出大模型与向量数据库的关系、生态集成、工具与应用等。

演讲大纲:

  1. 开源向量数据库 Milvus 技术能力详解
  2. 相应云服务 Zilliz Cloud 赋能大模型能力介绍
  3. 介绍大模型与向量数据库的关系、现有生态、工具与应用等

演讲嘉宾:李俊毅 字节跳动算法工程师

爱丁堡大学 NLP 硕士,ACL/EMNLP 等 NLP 顶会审稿人,中文语言理解测评基准 CLUE 核心成员、执委会。目前在字节跳动担任算法工程师。

演讲主题:如何基于 PLHF 来优化 ChatGPT 类型的打语言模型

本次分享会将剖析 ChatGPT 中提及的 RLHF 流程,包括数据收集、数据质量优化、SFT、Reward 模型,以及最终的 PPO 优化。内容将基于 WebGPT 系列已公开的论文和已知的数据收集方案,进行数据质量的验证和提升。考虑到当前存在很多开源模型并未公开详尽的 RLHF 流程和实现方案,我们将在此进行详细展开,相关代码也会开源。

演讲大纲:

  1. 背景简介:ChatGPT 基础信息与 Pretrain 流程

  2. 数据工作:训练数据收集与清洗

2.1 业内公开数据与数据获取来源

2.2 数据标注机制

2.3 数据清洗与质量优化

  1. RLHF 原理流程及实现方式介绍

  2. 基于开源 LLM 进行 RLHF 的实现介绍

  3. 总结

除了以上嘉宾分享的「大模型与 AIGC」外,本届大会策划的专题还包含**「云原生实践、前端未来、前端工程实践、分布式云和边缘计算、可观测性探索、音视频技术前沿」等数十个技术专场,这些议题由来自字节、腾讯、阿里巴巴、QQ 影像、哗哩哗哩、小红书、剪映**等公司具备技术影响力与洞察力的行业专家负责把控。目前大会出品人已全部集齐,讲师阵容在陆续公布中,欢迎关注,敬请期待!

👉 参与「代码不止」互动抽奖,赢开发者大会线下门票&周边奖品

图片

参与任务:分享本推文/任一分论坛海报到朋友圈/微信群/微博/抖音/B站/小红书等任一社交平台,将你的分享截图上传到活动问卷,我们会抽出「30位同学」送出「在吗?在码!」系列周边单品,抽出「30位同学」送出稀土开发者大会线下门票~

图片

「代码不止」互动抽奖

👉 更多精彩内容和抽奖互动,欢迎加入稀土开发者大会交流群

图片