首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
系列文章
周末程序猿
创建于2023-07-10
订阅专栏
主要是Linux,云原生等一系列文章
等 15 人订阅
共60篇文章
创建于2023-07-10
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
机器学习|从0开发大模型之DeepSeek的GRPO
最近,DeepSeek-R1的发布为国产大模型争光了(太强了),不过 GRPO 算法源自 DeepSeekMath 7B 模型,该模型在 MATH 基准测试中取得了优异成绩...
技术总结|十分钟了解GPU
最近在看《黄仁勋:英伟达之芯》,这本书讲述了英伟达是如何一步一步优化GPU,感觉创业不易,不过本文为了让大家更好了解GPU,所以简单汇总了一些知识点。
机器学习|从0开发大模型-译llama3-from-scratch
最近在看一篇github上大佬的文章,从0开始训练llama3,觉得对于《从0开发大模型》有点帮助,于是翻译一下,发现其中很多内容当前系列文章的知识点相似。 原文:https://github.com
ChatGPT|OpenAI Days12内容介绍(10-12)
最近OpenAI的发布新功能介绍,连续12天直播,为了大家能收集到完整的视频(来源B站等其他视频网站),本期整理的是10-12天的内容介绍。 详细内容跳转《OpenAI Days12之10-12(中英
ChatGPT|OpenAI Days12内容介绍(7-9)
最近OpenAI的发布新功能介绍,连续12天直播,为了大家能收集到完整的视频(来源B站等其他视频网站),本期整理的是7-9天的内容介绍。 详细内容跳转《OpenAI Days12之7-9(中英字幕)》
ChatGPT|OpenAI Days12内容介绍(4-6)
最近OpenAI的发布新功能介绍,连续12天直播,为了大家能收集到完整的视频(来源B站等其他视频网站),本期整理的是4-6天的内容介绍。 详细内容跳转《OpenAI Days12之4-6(中英字幕)》
ChatGPT|OpenAI Days12内容介绍(1-3)
最近OpenAI的发布新功能介绍,连续12天直播,为了大家能收集到完整的视频(来源B站等其他视频网站),本期整理的是1-3天的内容介绍。 具体视频可以跳转...
机器学习|从0开发大模型之注意力机制
无论是在机器学习,深度学习还是人工智能中,我们都在寻找一种模拟人脑的机制,注意力机制源于人脑,比如当我们欣赏一本书的时候,当我们对某个知识点感兴趣的时候,会映像深刻,可能会反复读某一段文字,但是对于其
精选机器学习开源项目
解释黑箱模型和数据集 [Aequitas] https://github.com/dssg/aequitas 一个开源的偏见审计工具包,供数据科学家、机器学习研究人员和政策制定者审计机器学习模型中的歧
机器学习|精选生产级LLM开源项目
LLM 数据处理 data-juicer [https://github.com/modelscope/data-juicer] 一个一站式数据处理系统,使数据质量更高、更丰富、更易于(多模态)LLM
机器学习|从0开始大模型之位置编码
上一篇完成DPO的训练,但是模型的输出效果不好,因此在找原因,于是将理论重新过一遍,以发现每个环节需要优化的地方,本文就是理论知识:《Transformer模型中的位置编码》。
机器学习|从0开始大模型之模型DPO训练
上一篇如何使用LoRA训练大模型,但是模型的效果不是很好,可以看如下对话: ... 对话的偏好不是我们想要的答案,所以需要继续微调训练,这篇文章就介绍DPO。
机器学习|从0开始大模型之模型LoRA训练
继续《从0开发大模型》系列文章,上一篇用全量数据做微调,训练时间太长,参数比较大,但是有一种高效的微调方式LoRA。 1、LoRA是如何实现的? 在深入了解 LoRA 之前,我们先回顾一下一些基本的线
机器学习|从0开发大模型之SFT训练
继续写《从0开发大模型》系列文章,上一章主要数据数据预训练,让模型能学到句子接龙和部分语言理解能力,获取基座版本,但是用基座版本的模型的对话能力太弱了,需要用大量的数据微调,本文主要介绍如何用SFT训
机器学习|深度学习基础知识
最近在看深度学习的一些资料,发现有些基础知识比较模糊,于是重新整理了一下深度学习的基础知识。 1、基础知识 1.1 神经元 神经元是生物学的概念,神经网络的基本组成单元,神经元细胞有兴奋和抑制两种功能
机器学习|深度学习卷积模型
在早期的图像分类中,通常流程是先人工提取特征,然后用对应的机器学习算法对特征进行分类,分类的准确率一般依赖特征选取的方法,甚至依赖经验主义。 Yann LeCun最早提出将卷积神经网络应用到图像识别领
机器学习|深度学习如何自动微分
在深度学习中,求导几乎是所有优化算法的关键步骤,但是对于单个值的求导比较简单,但是如果对于模型训练过程中每次都需要手动求导就很麻烦,因此深度学习框架都提供了自动导数(自动微分)。 1、PyTorch自
机器学习|从0开发大模型之模型预训练
继续写《从0开发大模型》系列文章,本文主要介绍预训练过程。 预训练是目的是让模型学习知识,需要将预处理的数据(《机器学习|从0开发大模型之数据预处理》)中生成的 pretrain_data.bin 文
机器学习|从0开发大模型之数据预处理
本文主要介绍数据的预处理。 1、找大模型的数据 前面写了一篇文章《ChatGPT|大语言模型训练有哪些开源数据集? 》(https://mp.weixin.qq.com/s?__biz=MzA3Njk
机器学习|从0开发大模型之Tokenizer训练
机器学习|从0开发大模型之Tokenizer训练 继续写《从0开发大模型》系列文章,本文主要介绍从头快速训练一个Tokenizer。 1、Tokenizer 什么是Tokenizer,作用是什么?对于
下一页