首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
coting
掘友等级
算法工程
公众号👉coting
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
6
文章 6
沸点 0
赞
6
返回
|
搜索文章
最新
热门
Transformer 中为什么用LayerNorm而不用BatchNorm?
无论是 BERT、GPT 还是 ViT,几乎都不用 Batch Normalization,而是清一色地用 Layer Normalization,这是为什么呢?
Hugging Face 200页的大模型训练实录
最近,Hugging Face 发布了一篇罕见的超长技术博客——超过 200 页的《Smol 训练手册》。
Kimi K2 Thinking:面向思考+工具调用的高阶智能体大模型
最近Kimi K2 Thinking 在国内外AI圈引起了不小的轰动,它以“思考(thinking tokens)+ 长序列工具调用” 为核心设计理念,并提出训练与推理策略。
线性回归VS逻辑回归,预测工资还是脱单率?
统计回归分析是大数据时代的扫地僧,但线性回归(Linear Regression)和逻辑回归(Logistic Regression)这对名字高度相似的孪生兄弟,却在数学模型的江湖中有着天差地别的应用
面试官:你了解线性回归吗?它的损失函数是什么?
面试官:你了解线性回归吗?它的损失函数是什么? 看到这个问题你是不是不屑于回答,因为线性回归是机器学习里最基础的模型之一,但你现在想一下真的能很好的回答这个问题吗?
面试官:为什么需要量化,为什么 int4 _ int8 量化后大模型仍能保持性能?
面试官:说一下什么是量化,为什么将大语言模型从 FP16 量化到 int8 甚至 int4,性能仍然能保持得很好?
LongCat-Flash-Omni:美团的全模态大模型
在多模态浪潮加速的 2025 年,美团再次交出了一份令人惊艳的答卷。 继 LongCat-Flash-Chat 与 LongCat-Flash-Thinking 之后,LongCat 系列迎来了新成员
面试官:大模型对齐中的 RLHF 与 DPO有什么本质区别?为何 DPO 能替代 RLHF?
这道题其实是面试官想看你是否真的理解大模型安全对齐(Alignment)背后的优化逻辑。 我们都知道这两个词看起来都跟“让模型更听话”有关,但它们在原理、流程和优化目标上,差别非常关键。
Kimi Linear——有望替代全注意力的全新注意力架构
Kimi最近提出了Kimi Linear,这是一种混合线性注意力(Hybrid Linear Attention)架构。
面试官:多模态指令微调(Instruction Tuning)如何统一不同模态的输出空间?
如果面试的时候面试官问你“多模态指令微调是怎么做到统一不同模态的输出空间的?”,你会回答嘛?这个问题听起来有点玄,但其实它正好卡在“大模型落地”与“多模态理解”的交汇点上。
下一页
个人成就
文章被点赞
22
文章被阅读
17,471
掘力值
1,797
关注了
4
关注者
11
收藏集
0
关注标签
23
加入于
2025-05-27