OpenAI前首席科学家Ilya Sutskever竟然说AI的本质就藏在两门大学基础课里!
不是那些让你头秃的复杂微积分,而是被很多人在大学里“睡过去”的线性代数和概率统计——这两位才是支撑起如今万亿美元AI帝国的幕后大佬。
就像英伟达老黄(Jensen Huang)在多次演讲中暗示的那样:“AI的尽头是数学,但这种直觉比代码更重要。”
很多人翻开AI教材,看到Σ(求和符号)和矩阵乘法就立刻劝退。别急,今天我们不造火箭,只讲火箭是怎么飞的。
只要5分钟,帮你彻底撕开AI的“黑盒”,看看它肚子里到底卖的什么药。
老黄的显卡在算啥?万物皆可“向量化”
为什么英伟达的股价能冲破天际?简单来说,因为老黄的显卡最擅长做一件事:大规模的线性代数运算。
线性代数听起来很吓人,但它在AI眼里的角色其实就是个超级翻译官。
什么概念?
在计算机的世界里,没有“猫”、“狗”或者“我爱你”这种概念,只有数字。线性代数的核心任务,就是把现实世界的一切——文字、图片、声音,统统变成一串数字列表,也就是传说中的**“向量”(Vector)**。
举个最接地气的例子:
你玩《王者荣耀》或者《英雄联盟》时,每一个英雄都有一个属性面板:
- 攻击力:95
- 防御力:30
- 移速:350
这组数据,就是一个向量! 它在数学空间里代表了这个英雄的特征。
AI看世界也是一样的。当它看到单词“国王”时,它不会联想到皇冠,而是会在高维空间里把它标记为一组坐标。
数据不会撒谎。在GPT-3的模型设定中,每一个Token(词元)都被转化为了一个12,288维的超长向量。
正是因为有了这种“翻译”,AI才能展现出惊人的逻辑能力。经典的Word2Vec案例告诉我们要相信数学的魔法:
国王(向量) - 男人(向量) + 女人(向量) ≈ 女王(向量)
你看,这根本不是什么魔法,这是纯粹的空间几何。AI不需要理解性别,它只需要算出空间里的距离。
小扎都在赌!大模型其实是个“概率算命师”
搞懂了数据怎么存,接下来就要看AI怎么思考了。这就轮到概率统计出场了。
最近Meta的小扎(Mark Zuckerberg)疯狂囤卡搞LLaMA,本质上是在训练一个超级巨大的“概率预测机”。
我们要认清一个残酷的现实:目前的AI大模型,其实并不真正“理解”你说的话,它只是在疯狂地“猜”下一个字。
怎么个猜法?
回想一下你用了十几年的手机输入法。当你输入“不管三七”的时候,输入法首选词是不是“二十一”?
- 接“二十一”的概率:99.9%
- 接“二十二”的概率:0.01%
这就是最原始的AI雏形!
现在的ChatGPT,无非是把这个“联想功能”做到了极致。它阅读了互联网上数万亿级别的文本数据,记住了人类说话的所有概率组合。
所谓“训练模型”,就是给AI大脑里的亿万个神经元分配**“权重”(Weight)**。
当你说“今天天气真”的时候,AI的大脑会迅速计算:
- “好”的权重是80
- “热”的权重是15
- “坏”的权重是5
于是它脱口而出:“今天天气真好”。
这里有个非常好玩的互动:你现在心里默念一句:“白日依山尽”,下一句你会接什么?
毫无疑问是“黄河入海流”。你看,你的人脑在这一瞬间,也只是完成了一次高概率的模式匹配。 AI不过是把这个过程变成了数学公式。
蒙眼下山!300万程序员不如一个“梯度下降”
既然AI是靠算概率和向量生存的,那它是怎么变聪明的?
这就涉及到了AI训练的核心——损失函数(Loss Function)和梯度下降(Gradient Descent)。
别被名字吓跑了,我们用一个这辈子都能记住的比喻:
想象你被蒙住双眼,扔到了一座高山上(代表巨大的误差),你的目标是下到山谷底(代表误差最小,预测最准)。
你看不见路,怎么办?
你只能用脚去试探周围的坡度。哪里最陡,就往哪里迈一步。
- 这一步迈得对,误差就减小一点。
- 这一步迈大了,可能掉进沟里(模型不收敛)。
- 这一步迈小了,可能走到天黑都下不去(训练太慢)。
这就是AI训练的本质:在数据的海洋里找“最优解”。
数据太疯狂了。
据传GPT-4的训练成本高达1亿美元以上,为了让模型学会如何“下山”,成千上万张显卡日夜不停地通过微积分计算坡度(梯度),调整了1.76万亿个参数(Parameter)。
这哪里是写代码,这简直是用数学在“炼丹”!只要方向(梯度)对,只要算力够,AI就能无限逼近人类的智慧。
写在最后:别被公式吓跪了
看懂了吗?
- 线性代数是AI的骨架,它把现实世界装进了计算机能懂的数学空间;
- 概率统计是AI的灵魂,它在无数种可能性中,指引出了那条最像人类语言的路径。
AI并不神秘,它没有任何玄学成分,它就是一场规模宏大、暴力美学的数学运算。
最好的还在后面。
当你下次使用ChatGPT时,不要再去纠结它是不是“产生了意识”。试着调整一下Temperature(温度参数),你会发现:
- 调低温度,AI会变得极度保守,只选概率最高的词(适合写代码);
- 调高温度,AI会开始“冒险”,选择低概率的词,瞬间变成浪漫诗人。
问题来了...
懂了这些底层逻辑,你觉得目前的AI在哪个领域的“概率预测”最容易翻车?是严谨的法律文书,还是天马行空的小说创作?
评论区聊聊,看看谁是那个被AI坑过的“大冤种”!👇
想深入了解?强烈推荐去B站或YouTube搜“3Blue1Brown”的《神经网络》系列,那个可视化的数学之美,绝对会让你跪着看完!