首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
不会弹吉他的布鲁克
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
AI 大模型窗口上下文进化史: 4K还不够?2K 饭量的 LLM如何一步步成为 10M大胃王的!
上下文长度的增加是 LLM 的一个显著发展趋势 。过去几年, 几种长上下文语言模型 陆续问世, 包括 GPT-4 (32k 上下文)、 MosaicML 的 MPT (65k 上下文)、 Anthro
监督学习 vs 强化学习RLHF:AI 大模型为什么需要"挨骂教育"?
既然监督学习能让AI模仿人类答案,为啥还要折腾强化学习(RLHF)? ——因为AI也需要"挫折教育"啊! 监督学习 vs 强化学习 强化学习(答辩课) : 让AI自由发挥答案,人类老师打分(👍/👎)。
AI 大语言模型之领域专家诞生揭秘,让我们了解如何教霸王龙跳芭蕾舞
当人们讨论"ChatGPT为何如此迷人"时,常归功于两点:数据洪水的规模效应和聊天界面的丝滑体验。但鲜少人注意到背后真正的魔法——RLHF(人类反馈强化学习),这项让AI学会"察言观色"的黑科技。 完
AI LLM大语言模型之大脑切片,看看智能体的脑袋瓜子里在想什么
智能体的大脑 LLM 历史悠久,就像美国科学家通过动物实验研究猴子一样,今天我们解构语言大模型,看看其字里行间的魔法是如何练成的, DeepSeek 的横空出世 ,整个科技圈(甚至全世界)都炸锅
AI 大语言模型的达尔文进化论:从"狗屁不通"到帮你写情书的AI秘史
各位看官,今天我们要聊的可是当代最魔幻的黑科技——大语言模型。这货现在不仅能帮你写作业,还能替你给女神发微信,但它的进化史可比你家猫主子打翻水杯的借口还要精彩。
25 年最新大佬 Paper DyT,Transformers再也不需要层归一化,这届AI学会“自我管理”了!
在深度学习的世界里,归一化层(如BatchNorm、LayerNorm)就像一位兢兢业业的“管家”。它们每天忙着给数据做按摩 (减均值、除方差),再涂点护肤品(γ、β scale 和 s
DeepSeek开源周-Day01之DeepSeek FlashMLA 深度解析
DeepSeek 开源周 Day01 FlashMLA 深度解析 DeepSeek的开源周可谓是给AI界点燃了一根“加速火箭”,一开场便引爆了全球开发者的热情!在北京时间周一上午九点,DeepSeek
AI智能操盘-你的纯视觉界面解析神器:OMNIPARSER 自动操作电脑,助你轻松搞定全自动化任务
图形用户界面(GUI)自动化需要一个能看懂屏幕、会动手(鼠标、键盘都不在话下)的聪明代理。但用一般的 大模型 LLM 来充当这个代理,往往会遇到两个大难题: 如何稳稳找出可点击的图标? 如何理解截图上
DeepSeek R1 —— 用 RL 点燃推理引擎的新纪元
DeepSeek 推理大模型 R1 一出,瞬间在 AI 领域掀起了“核爆”级别的轰动。谁能想到,要实现尖端 AI 表现竟然可以跳过传统的监督微调(SFT)?DeepSeek 却甩手一挥,直接依靠强化学
DeepSeek-V3 — 史诗级 MoE 模型,参数多到爆表
简介 论文《DeepSeek-V3 Technical Report》于 2024 年 12 月发布**。DeepSeek-V3 总参数达到 671B**,每个 token 激活 37B 参数,大约是
下一页
个人成就
文章被点赞
6
文章被阅读
8,969
掘力值
472
关注了
2
关注者
5
收藏集
0
关注标签
9
加入于
2024-08-27