稀土掘金 稀土掘金
    • 首页
    • 沸点
    • 课程
    • 数据标注 HOT
    • AI Coding
    • 更多
      • 直播
      • 活动
      • APP
      • 插件
    • 直播
    • 活动
    • APP
    • 插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
antonio326的个人资料头像

antonio326

创作等级LV.1
掘友等级
掘友3级:新星掘友
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
1
文章 1 沸点 0
赞
1
返回
|
搜索文章
antonio326的头像
antonio326
5月前

论文总结:YaRN——大语言模型上下文窗口的高效扩展方法

论文总结:YaRN——大语言模型上下文窗口的高效扩展方法 本文(arXiv:2309.00071)针对基于旋转位置编码(RoPE) 的Transformer大语言模型(如L...
0
评论
分享
antonio326的头像
antonio326
6月前

ROPE的远程衰减

一、ROPE远程衰减的理想状态:平滑衰减与精准外推 在理想状态下,PE应满足以下核心特性: 单调平滑的衰减曲线 注意力分数随相对距离的增加而单调下降,避免周期性震荡...
0
评论
分享
antonio326的头像
antonio326
6月前

ROPE 阅读苏神博客有感

最近再次推到了ROPE,又产生了很多疑惑,故而做如下笔记记录。苏神科学空间,原文:https://spaces.ac.cn/archives/8265...
1
评论
分享
个人成就
文章被点赞 1
文章被阅读 475
掘力值 31
关注了
0
关注者
0
收藏集
0
关注标签
7
加入于
2025-02-08