首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
coting
掘友等级
算法工程
公众号👉coting
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
6
文章 6
沸点 0
赞
6
返回
|
搜索文章
coting
算法工程
·
11天前
关注
面试官:Transformer如何优化到线性级?
面试官:我们来聊聊Transformer吧,Transformer的复杂度为什么这么高?有什么办法能优化到线性级吗? 面对这种原理与优化问题,其实都是有模板的,下面我们来看...
0
评论
分享
coting
算法工程
·
11天前
关注
LongCat-Flash:美团出手,国产卡上跑出的「闪电级」大模型
最近,美团开源的 LongCat-Flash 彻底炸了 AI 圈。 它用 国产算力 完成了一个 5600 亿参数的大模型训练...
0
评论
分享
coting
算法工程
·
12天前
关注
大模型分布式训练框架对比与实践
训练大规模深度学习模型不仅依赖优化器和硬件,还需要高效的训练框架。不同框架在功能、性能和易用性上各有特点,针对 GPU/TPU、多节点分布式训练和混合精度计算有不同的支持策...
0
评论
分享
coting
算法工程
·
12天前
关注
Horovod 与 NCCL 的分布式通信优化详解
在大模型训练中,通信效率直接影响训练吞吐量和扩展性。本文将浅浅介绍一下 Horovod 与 NCCL 的通信原理、性能瓶颈以及集群部署优化技巧。...
0
评论
分享
coting
算法工程
·
13天前
关注
Zero Redundancy Optimizer (ZeRO) 系列解析
在大模型训练中,显存瓶颈是制约模型规模的重要因素。DeepSpeed 推出的 Zero 系列,通过将模型状态(参数、梯度、优化器状态)分布到不同GPU 上,实现显著的显存优...
0
评论
分享
coting
算法工程
·
13天前
关注
模型并行训练策略:张量并行、流水线并行与混合并行
随着模型参数量快速增长,超过单张 GPU 显存承载能力的情况越来越常见。对于超大规模模型(如百亿参数以上),仅靠数据并行已无法训练。这时,模型并行(Model Parall...
0
评论
分享
coting
关注了
小林coding
算法工程
coting
赞了这篇文章
uzong
公众号@面汤放盐
·
1月前
关注
面试为何15分钟就被“挂掉”?一个面试官的百场反思
那个刻骨铭心的下午 还记得第一次面试只有15分钟就被面试官挂掉的经历,至今还历历在目。 那是一个11月末的傍晚,时间来到了周五下午5点。我早早做好准备,前两个问题还聊得火热...
4
评论
分享
coting
关注了
苏三说技术
算法工程
coting
关注了
JavaGuide
算法工程
coting
关注了
逛逛GitHub
算法工程
coting
算法工程
·
1月前
关注
数据并行训练实践:PyTorch&TensorFlow
在训练中等规模到大型深度学习模型时,单块GPU可能无法充分利用计算资源或处理足够的数据批次。数据并行是一种简单且高效的并行训练策略,通过在多张GPU上复制模型副本并分批处理...
0
评论
分享
coting
算法工程
·
1月前
关注
分布式训练原理与基础架构解析
随着大模型规模不断增长,单卡训练已经无法满足计算和存储需求。分布式训练成为模型训练的必备手段,从底层硬件基础架构到梯度同步与优化器机制,每一环节都直接影响训练效率和收敛效果...
0
评论
分享
coting
算法工程
·
1月前
关注
数据并行VS模型并行VS混合并行
随着深度学习模型规模不断增大,从几亿参数到上百亿甚至千亿参数,单块GPU已经难以承载模型训练的显存和计算需求。为了突破显存限制、提升训练速度,研究者提出了多种并行训练策略。...
0
评论
分享
coting
算法工程
·
1月前
关注
AI模型部署:从容器化到云原生架构
训练好的AI模型如果不能快速、稳定、弹性地部署到生产环境,那么再高的准确率也只是“实验室成果”。在实际工程中,我们需要应对多环境兼容、弹性伸缩、版本迭代、资源调度与监控等挑...
0
评论
分享
coting
算法工程
·
2月前
关注
一文搞懂量化、剪枝和知识蒸馏都是什么?
随着深度学习模型的参数量从百万级跃升至千亿级,部署和推理的计算、存储、带宽压力急剧增加。尤其在边缘设备和低延迟应用中,庞大的模型不仅占用显存,还拖慢推理速度。...
0
评论
分享
coting
算法工程
·
2月前
关注
AI训练中的混合精度计算技术详解
在大模型训练时代,模型参数规模动辄数百亿甚至上万亿,传统的 FP32 单精度训练 已经无法满足显存和速度的需求。混合精度技术通过在保持模型精度的同时使用更低位数的浮点格式,...
0
评论
分享
coting
算法工程
·
2月前
关注
AI训练要的数据这么多,怎么存?
训练好的AI模型如果不能快速、稳定、弹性地部署到生产环境,那么再高的准确率也只是“实验室成果”。容器化(Docker)与云原生正好为AI部署提供了统一打包、跨环境运行与自动...
2
评论
分享
coting
算法工程
·
2月前
关注
AI训练与推理的硬件需求有什么区别?
在人工智能项目的全生命周期中,训练(Training) 和 推理(Inference) 是两个至关重要的阶段。虽然它们都需要算力支持,但在计算资源、内存容量、存储系统和通信...
0
评论
分享
coting
算法工程
·
2月前
关注
GPU与TPU:AI计算硬件的核心对比
在人工智能,尤其是深度学习和大模型的浪潮中,算力已成为推动技术进步的核心引擎。GPU(图形处理器)和TPU(张量处理器)是两种主流的AI计算硬件,它们既有相似之处——都擅长...
0
评论
分享
下一页
个人成就
文章被点赞
21
文章被阅读
12,760
掘力值
1,479
关注了
4
关注者
9
收藏集
0
关注标签
23
加入于
2025-05-27