根据目前公开的信息,USENIX ATC 2025的最佳论文名单尚未在官方渠道完整公布。不过,结合已披露的会议内容和相关报道,以下几篇论文被广泛关注并被认为是本届会议的重要成果:
1. Primus: 面向大规模深度学习推荐模型的统一训练系统
-
作者:字节跳动基础架构团队联合浙江大学、上海交通大学
-
核心贡献:针对字节跳动内部推荐业务日均训练数据量从20TB增长至160TB的挑战,Primus提出了统一资源调度、数据编排和训练范式的架构。其创新点包括:
- 统一资源抽象技术:通过标准化训练作业和异构资源,实现跨YARN和Kubernetes的多集群动态扩缩容,资源利用率提升显著。
- 动态扩缩容管理器:根据实时指标自动调整数据执行器与训练执行器的比例,适应DLRM模型的资源波动需求。
- 混合训练范式:支持记忆塔与适应塔的双塔结构,结合混合数据优先级机制,平衡历史分布记忆与实时趋势适应。
-
应用场景:已支撑抖音、今日头条等业务的搜广推模型训练,带动收益持续增长。
2. FlexPipe: 基于变长输入Transformer模型的高效训练框架
-
作者:吉林大学赵海睿(第一作者)、田琦(共同一作),指导教师李洪亮副教授,合作者陈子忠教授(美国加州大学河滨分校)
-
核心贡献:针对变长数据集训练Transformer时计算与内存需求波动的问题,FlexPipe提出:
- 在线动态调整机制:在保证训练正确性的前提下,根据迭代阶段动态调整流水线并行配置,缓解资源利用不均。
- 资源分配优化算法:以最大化吞吐率为目标,设计启发式算法求解资源分配问题。实验显示,FlexPipe在变长模型训练中平均吞吐率提升1.25倍。
-
意义:吉林大学作为第一作者单位首次被ATC接收的论文,标志着其在分布式训练系统领域的突破。
3. DEEPSERVE: 可扩展的无服务器大语言模型服务系统
-
作者:华为云联合北京大学
-
核心贡献:
- 云原生架构:针对昇腾NPU进行原生优化,整合训练与推理负载,支撑华为云生成式AI服务。
- Serverless设计:通过动态资源调度降低冷启动延迟,在昇腾超大集群中稳定运行一年以上。
- 协同优化体系:与EPIC(上下文缓存优化)和RaaS(注意力稀疏化)形成端到端解决方案,覆盖推理全流程瓶颈。
-
性能表现:DEEPSERVE在实际部署中显著降低显存占用,支持高并发、长序列处理的商业化场景。
4. LogCrisp: 大规模压缩日志的快速聚合分析
-
作者:清华大学Junyu Wei等
-
核心贡献:针对云日志存储的效率与查询性能问题,LogCrisp提出:
- 两阶段模式提取:结合向量查询技术,在压缩日志上实现高效聚合分析。
- 资源优化:通过优化数据编排和查询执行,降低存储成本的同时提升查询速度。
-
应用价值:为云原生环境下的日志管理提供了低成本、高性能的解决方案。
5. Rex: 安全且易用的内核扩展语言验证框架
- 作者:UIUC团队
- 核心贡献:通过缩小语言与验证器的差距,Rex实现了内核扩展的安全开发与验证,降低了内核模块的漏洞风险。
补充说明
- 会议背景:ATC 2025于7月7-9日在波士顿举办,聚焦云原生、AI训练优化、边缘计算等前沿领域。
- 信息动态:最佳论文的官方名单可能在会议结束后数周内通过USENIX官网公布,建议关注USENIX ATC 2025页面获取最新结果。
- 趋势观察:本届论文集中体现了工业界与学术界的深度合作(如字节跳动、华为云的实践),以及对异构计算、动态资源调度等挑战的系统性解决方案。