稀土掘金 稀土掘金
    • 首页
    • 沸点
    • 课程
    • 数据标注 HOT
    • AI Coding
    • 更多
      • 直播
      • 活动
      • APP
      • 插件
    • 直播
    • 活动
    • APP
    • 插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
SteveForever的个人资料头像

SteveForever

创作等级LV.2
掘友等级
掘友3级:新星掘友
SteveForver,互联网大厂程序员,热爱编程和阅读,学无止境 知乎:SteveForver 公众号:陆吾穷奇篇, 能同途偶遇在这星球上,探索、记录、享受…
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2 沸点 0
赞
2
返回
|
搜索文章
赞
文章( 2 ) 沸点( 0 )
  • DeepSeek-V3_DeepSeekMoE机制是什么?
    背景知识 LLM 中的 MoE (Mixture-of-Experts) MoE 的好处和挑战 知识专业化与知识共享 DeepSeekMoE 架构 细粒度的专家细分 共享专家隔离 评估 DeepSee
    • SteveForever
    • 1年前
    • 316
    • 2
    • 评论
    DeepSeek
    DeepSeek-V3_DeepSeekMoE机制是什么?
  • 一文搞懂DeepSeek-V3_MLA注意力机制
    DeepSeek-V3 介绍 Transformers 解码器中的 MHA Key-Value 缓存 多查询注意力机制 (MQA) vs 分组查询注意力机制 (GQA) RoPE
    • SteveForever
    • 1年前
    • 1.3k
    • 1
    • 2
    DeepSeek
    一文搞懂DeepSeek-V3_MLA注意力机制
  • 个人成就
    文章被点赞 5
    文章被阅读 3,836
    掘力值 139
    关注了
    1
    关注者
    2
    收藏集
    0
    关注标签
    0
    加入于
    2022-11-06