coting

算法工程

公众号👉coting

赞

6

|

搜索文章

算法工程

·

11天前

面试官：Transformer如何优化到线性级？

面试官：我们来聊聊Transformer吧，Transformer的复杂度为什么这么高？有什么办法能优化到线性级吗？面对这种原理与优化问题，其实都是有模板的，下面我们来看...

0

评论

算法工程

·

11天前

LongCat-Flash：美团出手，国产卡上跑出的「闪电级」大模型

最近，美团开源的 LongCat-Flash 彻底炸了 AI 圈。它用国产算力完成了一个 5600 亿参数的大模型训练...

0

评论

算法工程

·

12天前

大模型分布式训练框架对比与实践

训练大规模深度学习模型不仅依赖优化器和硬件，还需要高效的训练框架。不同框架在功能、性能和易用性上各有特点，针对 GPU/TPU、多节点分布式训练和混合精度计算有不同的支持策...

0

评论

算法工程

·

12天前

Horovod 与 NCCL 的分布式通信优化详解

在大模型训练中，通信效率直接影响训练吞吐量和扩展性。本文将浅浅介绍一下 Horovod 与 NCCL 的通信原理、性能瓶颈以及集群部署优化技巧。...

0

评论

算法工程

·

13天前

Zero Redundancy Optimizer (ZeRO) 系列解析

在大模型训练中，显存瓶颈是制约模型规模的重要因素。DeepSpeed 推出的 Zero 系列，通过将模型状态（参数、梯度、优化器状态）分布到不同GPU 上，实现显著的显存优...

0

评论

算法工程

·

13天前

模型并行训练策略：张量并行、流水线并行与混合并行

随着模型参数量快速增长，超过单张 GPU 显存承载能力的情况越来越常见。对于超大规模模型（如百亿参数以上），仅靠数据并行已无法训练。这时，模型并行（Model Parall...

0

评论

关注了

算法工程

赞了这篇文章

公众号@面汤放盐

·

1月前

面试为何15分钟就被“挂掉”？一个面试官的百场反思

那个刻骨铭心的下午还记得第一次面试只有15分钟就被面试官挂掉的经历，至今还历历在目。那是一个11月末的傍晚，时间来到了周五下午5点。我早早做好准备，前两个问题还聊得火热...

4

评论

关注了

算法工程

关注了

算法工程

关注了

算法工程

算法工程

·

1月前

数据并行训练实践：PyTorch&TensorFlow

在训练中等规模到大型深度学习模型时，单块GPU可能无法充分利用计算资源或处理足够的数据批次。数据并行是一种简单且高效的并行训练策略，通过在多张GPU上复制模型副本并分批处理...

0

评论

算法工程

·

1月前

分布式训练原理与基础架构解析

随着大模型规模不断增长，单卡训练已经无法满足计算和存储需求。分布式训练成为模型训练的必备手段，从底层硬件基础架构到梯度同步与优化器机制，每一环节都直接影响训练效率和收敛效果...

0

评论

算法工程

·

1月前

数据并行VS模型并行VS混合并行

随着深度学习模型规模不断增大，从几亿参数到上百亿甚至千亿参数，单块GPU已经难以承载模型训练的显存和计算需求。为了突破显存限制、提升训练速度，研究者提出了多种并行训练策略。...

0

评论

算法工程

·

1月前

AI模型部署：从容器化到云原生架构

训练好的AI模型如果不能快速、稳定、弹性地部署到生产环境，那么再高的准确率也只是“实验室成果”。在实际工程中，我们需要应对多环境兼容、弹性伸缩、版本迭代、资源调度与监控等挑...

0

评论

算法工程

·

2月前

一文搞懂量化、剪枝和知识蒸馏都是什么？

随着深度学习模型的参数量从百万级跃升至千亿级，部署和推理的计算、存储、带宽压力急剧增加。尤其在边缘设备和低延迟应用中，庞大的模型不仅占用显存，还拖慢推理速度。...

0

评论

算法工程

·

2月前

AI训练中的混合精度计算技术详解

在大模型训练时代，模型参数规模动辄数百亿甚至上万亿，传统的 FP32 单精度训练已经无法满足显存和速度的需求。混合精度技术通过在保持模型精度的同时使用更低位数的浮点格式，...

0

评论

算法工程

·

2月前

AI训练要的数据这么多，怎么存？

训练好的AI模型如果不能快速、稳定、弹性地部署到生产环境，那么再高的准确率也只是“实验室成果”。容器化（Docker）与云原生正好为AI部署提供了统一打包、跨环境运行与自动...

2

评论

算法工程

·

2月前

AI训练与推理的硬件需求有什么区别？

在人工智能项目的全生命周期中，训练（Training）和推理（Inference）是两个至关重要的阶段。虽然它们都需要算力支持，但在计算资源、内存容量、存储系统和通信...

0

评论

算法工程

·

2月前

GPU与TPU：AI计算硬件的核心对比

在人工智能，尤其是深度学习和大模型的浪潮中，算力已成为推动技术进步的核心引擎。GPU（图形处理器）和TPU（张量处理器）是两种主流的AI计算硬件，它们既有相似之处——都擅长...

0

评论

个人成就

文章被点赞 21

文章被阅读 12,760

掘力值 1,479

加入于

2025-05-27