首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大模型连载
董章鱼是个攻城狮
创建于2026-03-02
订阅专栏
全网最全的大模型技术连载
等 2 人订阅
共6篇文章
创建于2026-03-02
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大模型连载6:词汇表用来做文本到数值的转换
前面几节一直在介绍 token 相关的内容,相信你看到这里,对 token 肯定很了解了吧。如果对 token 本身还有其他疑问,可以在本文下留言。 本节开始,进入下一步骤,由 token 到数值的转
大模型连载5:GPT4 的 token 可视化网站
在你了解了 token 的概念以及对文本进行分词的大致过程后。 本节给出一个使用 GPT4 模型(当前 OpenAI 最强大的模型)拆分 token 并将拆分结果进行可视化的网站,你可以去这个网站上测
大模型连载4:文本 token 化的过程是怎样的
前面两节分别通过两个代码示例展示了模型将文本转换为 token 之后是什么样的,希望你可以对此有一个感性的认识。 本节来简要介绍一下将一个连续的文本转换为 token 序列的大致过程,这个过程被称为分
大模型连载3:利用 GPT2 将文本 token 化
在上一节,利用 BERT 模型将一个文本进行了 token 化。那你可能会问,是不是所有的模型将同一个文本 token 化之后,结果都一样呢? 当然不是。 这是因为不同的模型对文本进行 token 化
大模型连载1:了解 Token
可以说,学习自然语言处理、大模型、Transformer 任何一个技术,都离不开 token这个概念。 本专栏就从这个最基础的概念开始讲起。 多年前,第一次接触到自然语言处理模型 BERT。当时在评估
大模型连载2:初步认识 tokenizer 的过程
在上一节,我们介绍了 token 的概念。 你可以这么认为, token 是自然语言处理场景(如文本生成、AI聊天)下,AI 模型能够处理的最小单位。 在计算机视觉中,模型以像素为单位来处理图像像素之