大模型与云计算共舞,如何为开发者增添新buff

2,041 阅读8分钟

算法、算力和数据,是大模型得以快速进化的关键。近年来,得益于云计算厂商提供的基础设施、服务模型、训练加速框架等支持,AI大模型迈入快速发展新时代。“云+AI"的相辅相成,已经成为共识。

但在实操中,特别是在数据预处理、模型训练、优化、部署和监控等关键环节,面临着不少具体的问题。云计算如何提供弹性算力,支撑大模型的高效训练和推理?如何利用云原生技术,实现大模型应用的敏捷开发与交付?如何应对海量数据处理、隐私安全等挑战?这些都是业界非常关注的话题。

为此,6月28日至29日在北京富力万丽酒店,由英特尔助力,稀土掘金技术社区举办的 「2024稀土开发者大会」上,来自零一万物联合创始人,技术副总裁及 AI Infra 负责人戴宗宏作为出品人,特别设置了 「大模型时代的云计算实践」 分论坛,聚焦大模型在云上的工程化实践话题,将与专业人士进行针对性地探讨。

199元限量超值票火热售卖中!还有免费AI展区&掘金动手实验室专属票! AI展区企业包含商汤,月之暗面,宇树(unitree)、Jina AI、科大讯飞、硅基流动、零一万物、Zilliz、扣子和字节cloud IDE等! 点击购票: conf.juejin.cn/xdc2024/?ut…

分会场日程

戴宗宏.jpeg

演讲嘉宾:曹治政 Google Cloud 解决方案架构师

10 年以上云计算行业从业经验, 曾在多家知名云计算公司任职并担任工程师和解决方案架构设计等职位,项目经验丰富,并在现代化基础设施、分布式、云原生以及 AI 领域有深入的积累。

演讲主题:大模型在公有云上工程化的实践分享

大模型在场景化落地的过程中,一个重要而且充满挑战的环节便是工程化。本次分享内容将深入分享企业在AI工程化过程中所面临的挑战,并介绍如何结合公有云全球分布的基础设施、高级托管服务以及开源常用的框架(Megatron-deepspeed、 Peft、 Bitandbytes、 vLLM、 Ray)解决关键问题、提升效率、降低成本。

演讲大纲

  1. LLMops 流程介绍

  2. 大模型的预训练与微调

  3. 大模型的部署与应用集成

  4. 公有云整体方案

演讲嘉宾:胡峰 零一万物 AI Infra 首席架构师

胡峰,零一万物 (01.AI)AI Infra 首席架构师,武汉大学通信工程博士。曾任华为云 AI 平台架构师、阿里巴巴广告技术部架构师、广告引擎在线工程方向负责人。

演讲主题:构建 AI 2.0 时代的万卡集群:零一万物 AI Infra 建设实践

本次演讲将分享零一万物在包含机房基建、计算加速、网络协议选型、存储解决方案、调度系统优化等方面,AI 自底向上全栈基础设施的设计思路和实践经验,以及如何通过智能看护、快速 Checkpoint、任务不中断重启等技术手段提高集群的 Goodput。同时,演讲还将探讨如何在海量设备中快速定位问题硬件,以及如何通过预测性维护提升集群的有效使用率。最后,演讲将展望未来在扩容到万卡集群规模时面临的挑战和机遇。

演讲大纲:

  1. AI 基础设施的机房基建

  2. 计算优化和 MFU 提升

  3. 高性能网络 IB VS RoCE

  4. 高性能分布式存储

  5. 调度与 GoodPut 优化

  6. 软硬件错误秒级别定位

  7. 万卡集群的技术挑战

演讲嘉宾:苏锐 Juicedata 合伙人 & 李样兵 深势科技技术架构师

苏锐:Juicedata 合伙人。作为 1 号成员参与创建 JuiceFS,一直深度参与在开源社区中支持开发者使用 JuiceFS。

李样兵:深势科技技术架构师。多年互联网工作经验,前美菜网云计算技术部负责人。2022 年初加入深势科技,任技术架构师,聚焦于以云原生为基础,探索云与超算融合的算力平台建设。

演讲主题:混合云架构下科学算力平台构建实践

深势对算力需求巨大,且任务呈现出极高的弹性,于是深势选择在混合云架构下构建其算力平台。而存储层对算力平台数据处理的效率和性能起着决定性作用。 经过多个版本的迭代,最终深势科技在混合云架构下搭建了一个统一的存储平台,灵活的适配性,存算分离,提升了资源利用率和系统弹性。在此次分享中,深势将为大家介绍混合云架构下构建算力平台的思考与实践。

演讲大纲:

  1. 大模型场景中多云/混合云架构给存储带来的挑战 (苏锐)

  2. 深势科技混合云架构下算力平台构建实践 (李样兵)

    2.1 什么是 AI for Science

    2.2 为什么选择混合云架构?

    2.3 云原生存储层的设计与实践

演讲嘉宾:傅正佳 Alluxio 首席技术布道师、架构师

本科毕业于上海交通大学电子系,随后取得香港中文大学信息工程博士学位,毕业后加入新加坡高级数字科学中心(美国伊利诺伊大学在新加坡的研究所)从事科研工作,在计算机网络和分布式系统领域相关的顶级国际会议发表多篇论文。加入 Alluxio 前,傅正佳曾在新加坡科技公司 Bigo Technology 担任机器学习研发总监。

演讲主题:面向 AI/ML 训练中台的 I/O 解决方案

随着人工智能技术的飞速发展,数据已成为推动AI进步的核心动力。在这一背景下,快速处理和访问大规模数据集对于 AI 模型的训练和部署显得尤为关键。但是,I/O 的性能瓶颈经常成为制约效率和限制 GPU资源充分利用的主要障碍。在本次分享中,嘉宾将展示如何利用 Alluxio 构建一个高效的数据访问层,以应对 I/O 挑战并显著增强 GPU 的使用效率。结合多个实际案例和详实的实验数据,参与者将掌握在 Alluxio 中缓存数据集和模型的技巧,并认识到这种优化能带来多大的性能提升。

演讲大纲:

  1. 分析 I/O 挑战的常见形式及其对 GPU 使用效率和整体性能的具体影响

  2. 探讨如何将高效的数据访问层与机器学习流程无缝结合,减少 I/O 延迟

  3. 讨论提升 AI 工作负载性能的缓存策略

  4. 探索未来提升数据访问效率和加速 AI 工作负载的发展方向

演讲嘉宾:李艳红 阿里云后端研发工程师

可观测研发工程师,来自阿里云云原生应用平台可观测性团队,负责大模型可观测性和 Python APM Agent 研发。

演讲主题:基于 OpenTelemetry 的大型语言模型应用可观测性

在基于大型语言模型(LLM)的应用日益普及的背景下,仅仅专注于延时和错误的传统可观测能力已无法满足这些应用的复杂性需求。针对 LLMOps 特点进行研究发现,通过专注于 LLM 的提示和响应追踪,可增强知识回忆和意图识别的准确性。本次演讲将基于阿里云的人工智能平台,特别是通义千问和通义灵码,定制匹配的 LLM 应用特性的工具和流程,分享研究成果和实践经验,并展示如何将理论概念发展成可扩展、高效的实用工具。

演讲大纲:

  1. 背景:可观测性在 LLM 中的角色和重要性
  2. 基于 OpenTelemetry 的大模型可观测
  3. 案例展示:具体大模型可观测结果展示
  4. 总结与计划:大模型可观测性开源计划

分享本推文或论坛海报朋友圈/ 微信群/ 微博/ 抖音/ B站/ 小红书等任一社交平台,将你的分享截图上传到活动问卷,我们会抽出「30位幸运儿」送出虎虎生金工卡套或解码系列皮革鼠标垫,抽出「30位幸运儿」送出稀土开发者大会线下门票~

💬 更多精彩内容,欢迎加入稀土开发者大会交流群

image.png