首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
mamba
订阅
WingDust
更多收藏集
微信扫码分享
微信
新浪微博
QQ
11篇文章 · 0订阅
「Tokens是胡扯」,Mamba作者抛出颠覆性观点,揭露Transformer深层缺陷
「Tokenization(分词)是 Transformer 模型为弥补自身缺陷不得不戴上的枷锁。」 近日,Mamba 作者、CMU 助理教授、Cartesia AI 首席科学家 Albert Gu
Swin-UMamba:基于Mamba和ImageNet预训练的医学图像分割模型
本文提出了Swin-UMamba,借助ImageNet预训练模型的力量进一步提升基于Mamba的模型在医学图像分割任务中的性能。
[分享][每日更新][2024.03.15][CV_arxiv_papers]
[UPDATED!] 2024-03-15 (Publish Time) 分类/检测/识别/分割/... Publish Date Title Title_CN Authors PDF Code 20
大模型日报3月15日
本文总结了人工智能领域的最新进展,包括苹果的多模态大模型MM1、华中科技大学的视觉增强方法、Insilico Medicine的AI药物研发成果。产业动态方面,海尔展出家庭人形机器人,OpenAI计划
[分享][每日更新][2024.03.06][CV_arxiv_papers]
[UPDATED!] 2024-03-06 (Publish Time) 生成模型 Publish Date Title Title_CN Authors PDF Code 2024-03-06 3D
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
近期,来自华为诺亚方舟实验室的研究者提出了 DenseSSM,用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中,DenseSSM 保留了对最终输出至关重要的精细信息。
Mamba详解
深度学习新架构Mamba 论文介绍 Mamba: Linear-Time Sequence Mode
极智AI | 解读Mamba对LLM基础架构的冲击 作者一定是科密吧
大家好,我是极智视界,本文分享一下 解读Mamba对LLM基础架构的冲击 作者一定是科密吧。希望我的分享能对你的学习有一点帮助。
大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一
去年,在加速大语言模型推理层面,我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今,关于 Medusa 终于有了完整技术论文,还提供了新的版本。
MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数
状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。