辛弃疾奋笔的个人主页 - 动态

赞了这篇文章

前端开发工程师

·

1年前

魔幻+颠覆三观-我的2024半年经历记述

2024年连续3个月一个月被一家公司裁一次，你说魔幻不魔幻！同时又遇到这样的公司这样的披着人皮的那么个东西，你说颠不颠覆三观。事情经过是这样的听我细细道来……...

113

141

赞了这篇文章

后端

·

1年前

一时兴起，聊聊当今IT行业的乱象

本文写于2024年3月31号，大的背景是行业寒冬，工作岗位的数量和质量都远远不如之前，造成了打工人卷的飞起的现象，但是从企业端去看，却是面临高端人才不足，低端人才过剩以及招...

551

272

机器学习研发，aigc，大语言模型

·

1年前

混合精度训练（Mixed Precision Training）是一种在深度学习训练过程中同时使用16位浮点数（FP16）和32位浮点数（FP32）来进行计算的方法。其主要目标是通过更高效的计算和更低的显存使用来加速模型训练，并在保持数值稳定性的同时提高训练效率。

### 优势
1. 加速训练：
- 使用16位浮点数进行计算可以显著提高计算速度。现代 GPU（特别是 NVIDIA 的 Volta 和更高架构）对半精度操作进行了高度优化，支持混合精度计算的硬件指令可以显著提高计算吞吐量。

2. 减少显存使用：
- 16位浮点数占用的显存仅为32位浮点数的一半。这不仅允许在相同的硬件上训练更大的模型，还可以加载更大的批次（batch），从而提高模型的训练效率。

3. 数值稳定性：
- `GradScaler` 动态调整损失缩放比例，确保混合精度计算中的数值稳定性。通过缩放损失，可以避免梯度 underflow 和 overflow 问题，确保训练过程顺利进行。

4. 易于集成：
- PyTorch 提供了简单易用的 AMP 工具，包括 `autocast` 和 `GradScaler`，使得在现有的训练代码中引入混合精度训练变得非常简单，不需要对代码进行大规模修改。

### 总结
混合精度训练通过结合使用16位和32位浮点数计算，显著加速深度学习模型的训练过程，减少显存使用，并在保持数值稳定性的前提下提高效率。得益于 PyTorch 提供的 AMP 工具，混合精度训练已经变得非常容易实现，并且在实践中表现出色，越来越多的深度学习任务中被广泛采用。

展开

大模型生态圈

机器学习研发，aigc，大语言模型

·

1年前

`NativeScalerWithGradNormCount` 类的主要作用是结合 PyTorch 的自动混合精度（Automatic Mixed Precision, AMP）功能，在进行模型训练时对损失进行缩放、梯度计算和梯度裁剪，并提供保存和加载 AMP 状态的方法。具体来说，这个类的作用包括以下几个方面：

1. 自动混合精度缩放：通过使用 `torch.cuda.amp.GradScaler`，这个类可以在训练过程中对损失进行缩放，以减少数值不稳定性，从而更好地利用 GPU 的计算能力，提高训练速度和效率。

2. 梯度计算：在调用 `__call__` 方法时，这个类会根据传入的损失值计算梯度。通过缩放损失并调用 `backward`，可以在反向传播过程中正确处理混合精度训练。

3. 梯度裁剪：如果提供了 `clip_grad` 参数，类会进行梯度裁剪，以防止梯度爆炸问题。梯度裁剪通过 `torch.nn.utils.clip_grad_norm_` 实现，裁剪后的梯度会限制在一个指定的范围内。

4. 优化器更新：在梯度计算和裁剪之后，这个类会调用 `optimizer.step()` 进行参数更新，并调用 `self._scaler.update()` 更新 `GradScaler` 的内部状态，以便在下一次迭代时正确缩放损失。

5. 状态保存与加载：这个类提供了 `state_dict()` 和 `load_state_dict()` 方法，可以保存和加载 `GradScaler` 的状态。这样可以在训练过程中断或需要恢复训练时保存和恢复 AMP 的状态。

总结起来，`NativeScalerWithGradNormCount` 类的主要作用是简化和集成自动混合精度训练过程中的损失缩放、梯度计算、梯度裁剪和优化器更新，同时提供状态保存和加载的功能，以提高训练过程中的稳定性和效率。

以下是对这个类功能的简要总结：
- 自适应混合精度训练：利用 `GradScaler` 对损失进行缩放，确保数值稳定性。
- 梯度计算和反向传播：调用 `backward` 方法计算梯度。
- 梯度裁剪：防止梯度爆炸。
- 优化器更新：在缩放和裁剪之后更新模型参数。
- 状态管理：可以保存和加载 AMP 的状态，以便在中断和恢复训练时使用。

展开

大模型生态圈

赞了这篇文章

掘金签约作者，编程表演艺术家

·

1年前

那个不找工作在家干一人企业的程序员，现在怎么样了？

在IT圈子上班12年，年龄34岁的我，决定先不找工作，在家里自己搞些事情，并且还发布了一篇《IT男的一人企业》以明志。 5月过去了，6月也到马上过去了。我都经历了什么……...

350

99

赞了这篇文章

后端工程师 @美团

·

1年前

领域设计之理解聚合与聚合根！

文章内容收录到个人网站，方便阅读：http://hardyfish.top/ 文章内容收录到个人网站，方便阅读：http://hardyfish.top/ 文章内容收录到个...

69

2

赞了这篇文章

前端

·

1年前

失业的七个月，失去了很多很多，一个普通的不能再普通的人的年中总结

开篇这不是一篇技术的文章。可能不会帮助到你什么，我只是想记录一下自己的年中总结，为了开启人生新篇章的总结。...

669

655

赞了这篇文章

前端打工人

·

1年前

年终总结：工作三年，满腔热血已然消散

工作三年，满腔热血已然消散，已然找不回刚毕业时努力的动力和方向了，可能是已经清醒，诚然而知盲目的努力并不能改变什么，在分岔路口上如何选择出一条通往罗马的大路.........

42

43

赞了这篇文章

Bmob程序媛 @元素（深圳）软件有限公司

·

1年前

给小程序接入AI服务之后，我的睡后收入又增加了

我在原来的《学生评语大全》小程序的基础上引入了AI生成评语功能，每天的广告收入持续增加，我的睡后收入又增加了。...

40

15

赞了这篇文章

@公众号【猿java】

·

1年前

普通程序员需要具备管理能力吗？

也许你会说：我就一个普通程序员，既不做管理，也不带团队，专心做好技术就可以了。因此，作为程序员，是否需要具备管理能力？今天就来聊一聊。小故事我曾经在一家创业公司待过，最...

28

10

关注了

机器学习研发，aigc，大语言模型

关注了

机器学习研发，aigc，大语言模型

·

1年前

面试官系列：你了解几种Attention机制？

在模型设计中，我们不仅需理解Transformer的基本原理，还要了解不同变种的优劣及其适用场景。任务需求和数据特点会影响架构选择：处理长序列文本时，可能倾向于高效内存管理...

6

机器学习研发，aigc，大语言模型

·

1年前

在注意力模块中添加相对位置编码的过程：

### 1. 理解相对位置编码的背景

在自注意力机制中，传统的位置编码（如绝对位置编码）为每个输入序列的元素分配一个固定的嵌入。这种方法无法灵活地捕捉元素之间的相对位置关系。相对位置编码旨在通过考虑元素之间的距离来克服这一限制，使模型能够更好地理解序列中元素间的交互。

### 2. 定义相对位置编码

相对位置编码的核心在于生成一个表示输入序列中每对元素相对位置的编码。为了实现这一点，可以使用以下步骤：

- **计算相对位置索引**：对于输入序列的长度为 `N`，你可以计算一个大小为 `N x N` 的矩阵，其中每个元素表示两个位置之间的相对距离。例如，如果 `i` 表示第一个位置，`j` 表示第二个位置，矩阵的元素可以定义为 `j - i`。

- **相对位置嵌入**：使用一个嵌入层，将这些相对位置索引映射到一个嵌入空间中，这样可以获得每对位置之间的相对位置编码。这些嵌入可以通过学习得到。

### 3. 修改注意力分数计算

在注意力机制中，注意力权重通常是通过计算查询（Query）和键（Key）之间的点积来获得的。为了将相对位置编码引入到这个过程，可以按照以下步骤进行：

- **计算注意力分数**：首先，计算查询和键之间的点积，得到一个注意力得分矩阵。

- **添加相对位置编码**：在得到的注意力得分上加上相对位置编码的影响。具体来说，可以将相对位置编码的值与注意力得分相加，调整模型对不同位置之间关系的关注度。

### 4. 进行加权和计算输出

接下来，进行加权求和，将注意力权重应用于值（Value）以生成上下文表示。最终，这个上下文表示会被传递到后续的层，其形状与输入匹配。

### 5. 应用

相对位置编码的引入可以让模型在处理序列（如文本、时间序列或图像）时，更好地捕捉到元素之间的关系。在实践中，这种方法被广泛应用于 Transformer 结构及其变体中，显著提高了模型在许多任务上的表现。

### 总结

通过引入相对位置编码，模型能够更灵活地理解输入中元素之间的关系，从而在实际任务中取得更好的效果。相对位置编码的实现通常涉及将相对位置索引与注意力机制的计算相结合，使得相对位置的影响能够直接体现到模型的决策过程中。

展开

大模型生态圈

机器学习研发，aigc，大语言模型

·

1年前

相对位置编码（Relative Position Encoding）是一种用于处理序列数据中元素之间相对位置的方式，特别是在自然语言处理和计算机视觉任务中，如 Transformers 和其他基于序列的模型中。

### 为什么需要相对位置编码？

在传统的绝对位置编码中，模型会为每个位置分配一个固定的编码，这可以帮助模型理解输入序列中元素的位置。但在某些情况下，特别是在处理长序列时，绝对位置编码可能会限制模型的灵活性，因为它无法明确捕获元素之间的相对关系。

相对位置编码可以使模型更好地捕捉到元素之间的相对距离，从而提高性能。例如，在语言模型中，某个词与另一个词之间的距离（即它们在句子中的相对位置）可能比它们在句子中的绝对位置更为重要。

### 如何实现相对位置编码？

相对位置编码的基本思想是将位置编码的方式从绝对位置转变为元素之间的相对距离。可以考虑以下方法：

1. **计算相对位置**: 可以为输入序列中的每一对元素计算它们之间的相对位置。例如，给定一个序列的长度 `n`，对于每个元素对 `(i, j)`，可以计算 `j - i`。

2. **插入编码**: 使用一个编码矩阵来表示所有可能的相对位置，并将其加到输入的表示上。这可以是通过学习的方式来实现，或者使用某种固定的函数（如正弦和余弦函数）。

3. **与自注意力结合**: 在计算注意力权重时，可以将相对位置编码直接与键（Key）和查询（Query）向量结合，从而影响注意力机制。

### 举个例子

在 Transformer 中，最常用的绝对位置编码是将位置编码与词嵌入加在一起，而在相对位置编码中，可以在计算注意力分数的过程中引入相对位置的信息。具体来说，可以根据相对位置调整注意力分数，让模型在关注某个词时，不仅关注它的内容，还考虑它与其他词的相对位置关系。

### 总结

相对位置编码是一种在处理序列数据时考虑元素间相对关系的方法，旨在提高模型在捕捉上下文信息时的灵活性，尤其在长序列或复杂关系的任务中。通过这种编码，模型能够更好理解序列中元素之间的交互和结构。

展开

大模型生态圈

赞过

1

赞了这篇文章

前端开发 @百度

·

1年前