风口上的GenAI :关于技术的热实践与冷思考

6,201 阅读11分钟

多年前,Ray Kurzweil在《灵魂机器的时代》中展开的种种设想——多数商业场景都包含一个虚拟人,画家、音乐家与作家等虚拟艺术家出现——正因生成式人工智能(GenAI )的快速发展而成为现实。2023年被誉为“生成式AI元年”,这一年AIGC大模型纷纷面世,各类文生文、文生图、知识问答吸引了数亿用户关注,为企业带来了大量商业机会。据工信部测算数据,2023年我国生成式AI市场规模约为14.4万亿元,预计2035年将突破30万亿元。

然而,业务挑战往往与趋势机遇并生:如何灵活运用技术实践,优化生成框架?如何更好地推动GenAI挖掘业务场景,重塑产业价值?从内容社区到电商经营,GenAI如何降低内容创作门槛,又如何以优质内容促进商业化落地?以上问题依旧困扰着不少开发者。

英特尔助力,稀土掘金技术社区举办的 2024 稀土开发者大会 ,将于 6 月 28 日至 29 日在北京富力万丽酒店举行。届时,字节跳动商业化 GenAI 中国区负责人袁泽寰、字节跳动智能创作图文方向技术负责人邵杰作为出品人,将特别设置 GenAI 技术实践 分论坛。9 位 GenAI 领域的大咖将齐聚于此,共同探讨文本生成、图像生成、代码生成、音频生成、视频生成等 GenAI 最新技术的探索和实践,分享 GenAI 在抖音、快手、小红书等平台的应用与探索,讨论 GenAI 技术实践的未来发展路径。

🔥🔥🔥 199元限量超值票火热售卖中!还有免费AI展区&掘金动手实验室专属票! AI展区企业包含商汤,月之暗面,宇树(unitree)、Jina AI、科大讯飞、硅基流动、零一万物、Zilliz、扣子和字节cloud IDE等! 点击购票:conf.juejin.cn/xdc2024/?ut…

分会场议程

袁泽寰-邵杰.jpg

演讲嘉宾:刘潇 元始智能(RWKV)联合创始人

元始智能(RWKV)联合创始人兼首席技术官,毕业于武汉大学计算机系,拥有 17 年算法与机器学习的产品和研发经验;为某创业公司技术联合创始人,并于公司上市后负责技术创新事业部;曾在字节跳动负责推荐产品,并在电商平台担任算法中台负责人。

演讲主题:RWKV : New backbone in Transformer era

此议题将从 RNN(循环神经网络)出发,探讨业界广泛应用的 Transformer 模型,并深入分析最近备受关注的 SSM(状态空间模型);重点探讨 ViT(视觉Transformer)、DiT(动态Transformer)以及 LWM(轻量级模型)在 SSM 中的应用,揭示这些技术在实际场景中的潜力和挑战。

演讲大纲:

  1. 为什么要从 Transformer 迁移到 RNN?

  2. 为什么选择 SSM?

    • SSM 的优势
    • 如何使用 Diffusion RWKV 替换 DIT
    • Visual RWKV 在 LlaVA 中的应用
  3. Infinity Context 之争

    • 如何在 8G 显存下运行 300K-7B 模型
    • 新的 RAG 范式以实现超低推理成本介绍
  4. 大一统模型和信息压缩

    • 探讨智能的本质是信息压缩
    • SSM 模型的使用特点和实际应用分析
  5. RWKV v6 技术路线演进

    • RWKV v6 的技术演进路线介绍
    • State-tuning 技术介绍
  6. 油车还是电车:混合架构的优势

    • 混合架构相对于 attention RoPE 的优势探讨
    • 如何实现近 1 倍的训练成本下降
    • RWKV 架构的迁移和融合能力
  7. 模型能力与端上部署

  8. 未来展望

演讲嘉宾:王春雨 微软亚洲研究院首席研究员

微软亚洲研究院首席研究员,研究兴趣包括空间计算、文生图、文生 3D 和多模态大模型预训练等;其研究成果应用于微软无人零售、Powerpoint(一键美化)、Designer(包括 Layout 理解、模板生成、平面设计生成等)、小冰、Phi3 等。

演讲主题:Graphic Design Generation: An Early Attempt

此议题将分享对平面设计生成方法及其未来发展路线的理解,介绍 Powerpoint 和 Designer 等微软相关产品相关技术实践,包括大规模无监督 Layout 理解、大语言模型与多模态大模型加持下的 Layout 生成、分层平面设计生成等。

演讲大纲:

  1. 平面设计与通用的文生图的同与不同。

  2. 大语言模型与 Diffusion 模型技术下,平面设计生成的挑战与机会

  3. Layout 理解在平面设计一键美化上的应用

  4. 可扩展的分层模板生成

  5. 全自动文生平面设计算法探索

演讲嘉宾:林立凡 英特尔软件工程师;卢中延 英特尔数据中心软件生态技术经理

林立凡专注于 TensorFlow、PyTorch等框架在英特尔至强上的性能优化;卢中延为机器学习、人工智能、大语言模型专家,负责英特尔中国区数据中心重点客户的软件赋能与人工智能相关工作。

演讲主题:火山引擎 g3i 实例:基于第五代至强处理器的文生图实践

此议题将介绍搭载第五代至强处理器的火山引擎 g3i 实例在AI上的能力和应用,重点讨论 AMX 指令集对文生图模型计算性能的提升,以及在至强处理器上的优化策略,此外还将展示如何在Hugging Face社区中实现快速部署和即用体验。

演讲大纲:

  1. 基于第五代至强的火山引擎 g3i 实例介绍

  2. 文生图模型特点介绍

  3. 基于至强处理器的文生图优化实践

演讲嘉宾:李春远 ByteDance Research lead on multimodal foundation models

Chunyuan Li is currently a Research Lead at ByteDance/TikTok, based in the Seattle area. From 2018 to 2023, He worked as a Principal Researcher in the Deep Learning Team at Microsoft Research, Redmond. Before that, Chunyuan obtained his PhD at Duke University, working on probabilistic deep learning. He also spent time with Uber AI, Adobe Research, NIST and INRIA. At MSR, Chunyuan is mainly working on large-scale pre-training in computer vision (CV) and vision-language multimodality (MM), with a focus on building transferable vision models that can effortlessly generalize to a wide range of downstream CV & MM tasks.

演讲主题:LLaVA: An Open Large Multimodal Model

The future of AI is in creating systems like foundation models that are pre-trained once, and will handle countless many downstream tasks directly (zero-shot), or adapt to new tasks quickly (few-shot). In this talk, I will discuss our vision-language approach to achieving “Computer Vision in the Wild (CVinW)”: building such a transferable system in computer vision (CV) that can effortlessly generalize to a wide range of visual recognition tasks in the wild.

演讲大纲:

  • CVinW

  • LLaVA basics

  • LLaVA family: LLaVA-Med, LLaVA-1.5, LLaVA-NeXT, LLaVA-Interactive, LLaVA-Plus.

演讲嘉宾:陈艳琴 小红书资深算法工程师

在视觉算法领域拥有多年经验的专家,擅长内容生成,包括 AIGC、GAN 和移动端渲染生成。 AIGC 生成方面,实现了人体驱动视频的生成、图片风格化模板特效的应用与文生视频方向主流非开源算法的落地。GAN 生成方面,实现了变小孩、匀肤、换衣、风格化等多项业务的技术应用。移动端渲染方面,实现了双端实时美白磨皮大眼瘦脸等美颜业务领域技术应用。

演讲主题:从图文到视频:GenAI 技术在小红书的探索和应用

如何通过技术升级赋能创作工具创新,帮助用户生成更多样、更有趣的内容,成为了内容发布行业里的经典问题。该议题将围绕此问题介绍近一年来小红书从图文到视频方向的技术探索与业务思考。

演讲大纲:

  1. 业务特点和生成技术发展

  2. 风格化方向的探索

    • 早期的图像风格化,小样本定制技术
    • 无需微调的风格定制,实现快速出图
    • 视频风格化
  3. 人像定制方向的探索

    • 人像崩坏修复技术
    • 图像生成IP注入技术
    • 视频人像控制技术
  4. 未来展望

演讲嘉宾:江毅 字节跳动商业化 GenAI 基础模型负责人

毕业于浙江大学,在CVPR,ICCV,NeurIPS,ICLR,ICML,ECCV发表论文30余篇;当前研究兴趣为计算机视觉与视觉生成模型。

演讲主题:Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

此议题将介绍最新的视觉生成框架 Visual AutoRegressive Modeling,该框架基于 Visual tokenizer 结合 Transformer 实现了Next Scale Prediction,首次使得 GPT 风格的自回归视觉生成,在效果、速度、Scaling 能力多方面超越了 Diffusion,并迎来了视觉生成领域的 Scaling Laws。

演讲大纲:

  1. 经典视觉生成方法

  2. 扩散模型

  3. 自回归模型

  4. Visual tokenization 探索

  5. Visual AutoRegressive Modeling

  6. 图像 & 视频生成效果

  7. 未来展望

演讲嘉宾:薛克林顿 快手资深大前端工程师

2018 年加入快手,2018-2023 年作为资深 Android 工程师,负责快手客户端创作工具的开发与维护。2023 年开发了下载量超百万的 VSCode 插件:ChatGPT 中文版,开始投身于新 AI 的热潮中。2023 年至今,作为技术负责人,负责快手内部的 AI 设计生产力平台 —— DesignAI 从零到一的开发与维护,整个平台涉及多种不同的技术栈,包括前端、后端、AI 算法部署 等等。作为个人 IP 的何时夕,在各平台上积累近 10 万技术粉丝。

演讲主题:重构设计领域?聊聊文生图大模型的业务与技术

此议题将深入探讨快手内部 AIGC 生产力平台 —— DesignAI 从零到一的建设历程。从 AIGC 赋能创意设计的行业背景入手,详细介绍平台建设过程中遇到的技术挑战:包括如何构建统一的文生图模型协议,如何为用户提供高性能的跨平台渲染引擎,以及如何快速有效地集成大量 AI 单点能力和 AI 工作流。最后还将探讨 DesignAI 如何通过业务场景深入挖掘,全面赋能快手在商业化、本地生活和电商等领域,使其获得显著的业务收益。

演讲大纲:

  1. 新 AI 时代下我们能做什么?

  2. 业务场景

    • 创意设计场景提效
    • 商业化广告图质效提升
    • 电商图提效
    • 运营图提效
  3. 技术实现

    • 架构:业务接入层、服务层、AI 能力层
    • 挑战
  4. 未来展望

    • AI 能力与工作流效果评测
    • AI 工作流的未来发展形态
    • AI UI:大语言模型与文生图大模型结合

演讲嘉宾:李辰 字节跳动算法工程师

2020 年加入字节跳动,先后参与商业化程序化创意项目、商业化基础内容模型建设等工作,目前任职于生活服务部门,为生活服务智能创作项目核心算法成员。

演讲主题:语言大模型在抖音生活服务视频内容创作中的应用

此议题将聚焦生服 AIGC 项目从简单素材和低质稿件起步,逐步发展到自研核心能力,最终实现优质内容的高效产出的技术进展和业务实践。本次分享将从素材处理到剧本生成、再到智能剪辑全流程,展示如何利用 AIGC 技术优化视频创作,同时探讨项目在抖音来客端的应用现状和未来规划,包括提升视频多样性和质量的策略,以及构建行业化剧本套路的长远目标。通过本次分享,参与者将洞悉 AIGC 在内容创作领域的应用潜力和发展方向。

演讲大纲:

  1. 生服 AIGC 项目启动与初步探索

  2. 技术迭代与创新实践

    • 算法流程与智能创作工具
    • 素材预处理与镜头理解的技术挑战
    • 剧本生成模型的自研与优化
    • 剧本文案匹配的技术突破
  3. 业务落地与实际成效

  4. 未来规划与持续发展

分享本推文或论坛海报朋友圈/ 微信群/ 微博/ 抖音/ B站/ 小红书等任一社交平台,将你的分享截图上传到活动问卷,我们会抽出「30位幸运儿」送出虎虎生金工卡套或解码系列皮革鼠标垫,抽出「30位幸运儿」送出稀土开发者大会线下门票~

💬 更多精彩内容,欢迎加入稀土开发者大会交流群

image.png