稀土掘金 稀土掘金
    • 首页
    • AI Coding
    • 数据标注 NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
0 /100
kvcache
订阅
avatar
敩科炼技堂
更多收藏集

微信扫码分享

微信
新浪微博
QQ

3篇文章 · 0订阅
  • 大模型低显存推理优化-Offload技术
    由于 GPU 资源稀缺和昂贵,一定程度上使得大模型的应用和普及变得困难。因此,本文从大模型推理部署出发,介绍了一些低硬件成本(消费级GPU、CPU等)部署大模型的方法,并着重介绍了低显存推理优化技术O
    • 吃果冻不吐果冻皮
    • 1年前
    • 4.3k
    • 17
    • 1
    LLM
  • 大模型推理服务调度优化技术-Continuous batching
    近两年大模型火出天际;同时,也诞生了大量针对大模型的优化技术。本系列将针对一些常见大模型优化技术进行讲解。
    • 吃果冻不吐果冻皮
    • 1年前
    • 2.9k
    • 10
    • 评论
    LLM
  • 大模型推理优化技术-KV Cache
    近两年大模型火出天际;同时,也诞生了大量针对大模型的优化技术。本系列将针对一些常见大模型优化技术进行讲解。
    • 吃果冻不吐果冻皮
    • 1年前
    • 11k
    • 15
    • 3
    LLM