首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
系列文章
周末程序猿
创建于2023-07-10
订阅专栏
主要是Linux,云原生等一系列文章
等 6 人订阅
共46篇文章
创建于2023-07-10
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
用 Trae 从0实现高性能JSON解析器
为了探索和改进 AI 工具在编程方面的体验,同时也想验证一些 AI 的边界,于是又想到了尝试从 0 实现高性能JSON解析器,说干就干。 开始以为比较简单,不会超过半天就能实现,但是经过各种提示词优化
AI自制编程语言-用 Trae 实现JavaScript编译器
去年的这个时候一直在探索如何用 AI 实现编程语言,当时 Agent 和工具链还不够齐全,所以尝试一段时间就断更了,有兴趣的可以再回忆这两篇用 Prompt 实现的词法解析器: 《ChatGPT|AI
技术总结|Rust和Zig应该怎么选?
去年有一段时间对 Rust 特别感兴趣,不过由于时间忙,学习了一段时间但是没有使用场景就放弃了,最近这一个月又在回顾今年的目标,其中一点是重新学习一门新的语言,看了 Zig 以后...
机器学习|MCP(Model Context Protocol)实战
最近 MCP 这么火,了解了一段时间也该写篇总结,那就开始吧。 1. 什么是 MCP MCP(Model Context Protocol,模型上下文协议) ,2024年11月底,由 Anthro
RAG实战|向量数据库LanceDB指南
1. LanceDB介绍 LanceDB是一个开源的用 Rust 实现的向量数据库(https://github.com/lancedb/lancedb),它的主要特点是: 提供单机服务,可以直接嵌入
机器学习|从0开发大模型之复现DeepSeek的aha moment
前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》,并且实现了一个简单版本的 GRPO 代码,不过从工程领域来看,并没有复现DeepSeek-R1,于是最近申请了48G的显存,结合一些开
机器学习|从0开发大模型之DeepSeek的GRPO
最近,DeepSeek-R1的发布为国产大模型争光了(太强了),不过 GRPO 算法源自 DeepSeekMath 7B 模型,该模型在 MATH 基准测试中取得了优异成绩...
技术总结|十分钟了解GPU
最近在看《黄仁勋:英伟达之芯》,这本书讲述了英伟达是如何一步一步优化GPU,感觉创业不易,不过本文为了让大家更好了解GPU,所以简单汇总了一些知识点。
机器学习|从0开发大模型-译llama3-from-scratch
最近在看一篇github上大佬的文章,从0开始训练llama3,觉得对于《从0开发大模型》有点帮助,于是翻译一下,发现其中很多内容当前系列文章的知识点相似。 原文:https://github.com
ChatGPT|OpenAI Days12内容介绍(10-12)
最近OpenAI的发布新功能介绍,连续12天直播,为了大家能收集到完整的视频(来源B站等其他视频网站),本期整理的是10-12天的内容介绍。 详细内容跳转《OpenAI Days12之10-12(中英
ChatGPT|OpenAI Days12内容介绍(7-9)
最近OpenAI的发布新功能介绍,连续12天直播,为了大家能收集到完整的视频(来源B站等其他视频网站),本期整理的是7-9天的内容介绍。 详细内容跳转《OpenAI Days12之7-9(中英字幕)》
ChatGPT|OpenAI Days12内容介绍(4-6)
最近OpenAI的发布新功能介绍,连续12天直播,为了大家能收集到完整的视频(来源B站等其他视频网站),本期整理的是4-6天的内容介绍。 详细内容跳转《OpenAI Days12之4-6(中英字幕)》
ChatGPT|OpenAI Days12内容介绍(1-3)
最近OpenAI的发布新功能介绍,连续12天直播,为了大家能收集到完整的视频(来源B站等其他视频网站),本期整理的是1-3天的内容介绍。 具体视频可以跳转...
机器学习|从0开发大模型之注意力机制
无论是在机器学习,深度学习还是人工智能中,我们都在寻找一种模拟人脑的机制,注意力机制源于人脑,比如当我们欣赏一本书的时候,当我们对某个知识点感兴趣的时候,会映像深刻,可能会反复读某一段文字,但是对于其
精选机器学习开源项目
解释黑箱模型和数据集 [Aequitas] https://github.com/dssg/aequitas 一个开源的偏见审计工具包,供数据科学家、机器学习研究人员和政策制定者审计机器学习模型中的歧
机器学习|精选生产级LLM开源项目
LLM 数据处理 data-juicer [https://github.com/modelscope/data-juicer] 一个一站式数据处理系统,使数据质量更高、更丰富、更易于(多模态)LLM
机器学习|从0开始大模型之位置编码
上一篇完成DPO的训练,但是模型的输出效果不好,因此在找原因,于是将理论重新过一遍,以发现每个环节需要优化的地方,本文就是理论知识:《Transformer模型中的位置编码》。
机器学习|从0开始大模型之模型DPO训练
上一篇如何使用LoRA训练大模型,但是模型的效果不是很好,可以看如下对话: ... 对话的偏好不是我们想要的答案,所以需要继续微调训练,这篇文章就介绍DPO。
机器学习|从0开始大模型之模型LoRA训练
继续《从0开发大模型》系列文章,上一篇用全量数据做微调,训练时间太长,参数比较大,但是有一种高效的微调方式LoRA。 1、LoRA是如何实现的? 在深入了解 LoRA 之前,我们先回顾一下一些基本的线
机器学习|从0开发大模型之SFT训练
继续写《从0开发大模型》系列文章,上一章主要数据数据预训练,让模型能学到句子接龙和部分语言理解能力,获取基座版本,但是用基座版本的模型的对话能力太弱了,需要用大量的数据微调,本文主要介绍如何用SFT训
下一页