系列文章

系列文章

系列文章

主要是Linux，云原生等一系列文章

等 15 人订阅共60篇文章创建于2023-07-10

机器学习|从0开发大模型之DeepSeek的GRPO

最近，DeepSeek-R1的发布为国产大模型争光了（太强了），不过 GRPO 算法源自 DeepSeekMath 7B 模型，该模型在 MATH 基准测试中取得了优异成绩...

11月前
526
2
评论

技术总结|十分钟了解GPU

最近在看《黄仁勋：英伟达之芯》，这本书讲述了英伟达是如何一步一步优化GPU，感觉创业不易，不过本文为了让大家更好了解GPU，所以简单汇总了一些知识点。

1年前
223
1
评论

机器学习|从0开发大模型-译llama3-from-scratch

最近在看一篇github上大佬的文章，从0开始训练llama3，觉得对于《从0开发大模型》有点帮助，于是翻译一下，发现其中很多内容当前系列文章的知识点相似。原文：https://github.com

1年前
220
2
评论

ChatGPT|OpenAI Days12内容介绍（10-12）

最近OpenAI的发布新功能介绍，连续12天直播，为了大家能收集到完整的视频（来源B站等其他视频网站），本期整理的是10-12天的内容介绍。详细内容跳转《OpenAI Days12之10-12(中英

1年前
179
1
评论

ChatGPT|OpenAI Days12内容介绍（7-9）

最近OpenAI的发布新功能介绍，连续12天直播，为了大家能收集到完整的视频（来源B站等其他视频网站），本期整理的是7-9天的内容介绍。详细内容跳转《OpenAI Days12之7-9(中英字幕)》

1年前
245
1
评论

ChatGPT|OpenAI Days12内容介绍（4-6）

最近OpenAI的发布新功能介绍，连续12天直播，为了大家能收集到完整的视频（来源B站等其他视频网站），本期整理的是4-6天的内容介绍。详细内容跳转《OpenAI Days12之4-6(中英字幕)》

1年前
299
1
1

ChatGPT|OpenAI Days12内容介绍（1-3）

最近OpenAI的发布新功能介绍，连续12天直播，为了大家能收集到完整的视频（来源B站等其他视频网站），本期整理的是1-3天的内容介绍。具体视频可以跳转...

1年前
276
1
评论

机器学习|从0开发大模型之注意力机制

无论是在机器学习，深度学习还是人工智能中，我们都在寻找一种模拟人脑的机制，注意力机制源于人脑，比如当我们欣赏一本书的时候，当我们对某个知识点感兴趣的时候，会映像深刻，可能会反复读某一段文字，但是对于其

1年前
248
3
评论

精选机器学习开源项目

解释黑箱模型和数据集 [Aequitas] https://github.com/dssg/aequitas 一个开源的偏见审计工具包，供数据科学家、机器学习研究人员和政策制定者审计机器学习模型中的歧

1年前
630
3
评论

机器学习|精选生产级LLM开源项目

LLM 数据处理 data-juicer [https://github.com/modelscope/data-juicer] 一个一站式数据处理系统，使数据质量更高、更丰富、更易于（多模态）LLM

1年前
565
1
评论

机器学习|从0开始大模型之位置编码

上一篇完成DPO的训练，但是模型的输出效果不好，因此在找原因，于是将理论重新过一遍，以发现每个环节需要优化的地方，本文就是理论知识：《Transformer模型中的位置编码》。

1年前
291
2
评论

机器学习|从0开始大模型之模型DPO训练

上一篇如何使用LoRA训练大模型，但是模型的效果不是很好，可以看如下对话： ... 对话的偏好不是我们想要的答案，所以需要继续微调训练，这篇文章就介绍DPO。

1年前
665
2
评论

机器学习|从0开始大模型之模型LoRA训练

继续《从0开发大模型》系列文章，上一篇用全量数据做微调，训练时间太长，参数比较大，但是有一种高效的微调方式LoRA。 1、LoRA是如何实现的? 在深入了解 LoRA 之前，我们先回顾一下一些基本的线

1年前
374
1
评论

机器学习|从0开发大模型之SFT训练

继续写《从0开发大模型》系列文章，上一章主要数据数据预训练，让模型能学到句子接龙和部分语言理解能力，获取基座版本，但是用基座版本的模型的对话能力太弱了，需要用大量的数据微调，本文主要介绍如何用SFT训

1年前
414
2
评论

机器学习|深度学习基础知识

最近在看深度学习的一些资料，发现有些基础知识比较模糊，于是重新整理了一下深度学习的基础知识。 1、基础知识 1.1 神经元神经元是生物学的概念，神经网络的基本组成单元，神经元细胞有兴奋和抑制两种功能

1年前
294
1
1

机器学习|深度学习卷积模型

在早期的图像分类中，通常流程是先人工提取特征，然后用对应的机器学习算法对特征进行分类，分类的准确率一般依赖特征选取的方法，甚至依赖经验主义。 Yann LeCun最早提出将卷积神经网络应用到图像识别领

1年前
232
1
评论

机器学习|深度学习如何自动微分

在深度学习中，求导几乎是所有优化算法的关键步骤，但是对于单个值的求导比较简单，但是如果对于模型训练过程中每次都需要手动求导就很麻烦，因此深度学习框架都提供了自动导数（自动微分）。 1、PyTorch自

1年前
94
1
评论

机器学习|从0开发大模型之模型预训练

继续写《从0开发大模型》系列文章，本文主要介绍预训练过程。预训练是目的是让模型学习知识，需要将预处理的数据（《机器学习|从0开发大模型之数据预处理》）中生成的 pretrain_data.bin 文

1年前
336
2
评论

机器学习|从0开发大模型之数据预处理

本文主要介绍数据的预处理。 1、找大模型的数据前面写了一篇文章《ChatGPT|大语言模型训练有哪些开源数据集? 》（https://mp.weixin.qq.com/s?__biz=MzA3Njk

1年前
199
1
评论

机器学习|从0开发大模型之Tokenizer训练

机器学习|从0开发大模型之Tokenizer训练继续写《从0开发大模型》系列文章，本文主要介绍从头快速训练一个Tokenizer。 1、Tokenizer 什么是Tokenizer，作用是什么？对于

1年前
586
1
评论