mamba - WingDust的收藏集 - 掘金

mamba

更多收藏集

11篇文章 · 0订阅

「Tokens是胡扯」，Mamba作者抛出颠覆性观点，揭露Transformer深层缺陷

「Tokenization（分词）是 Transformer 模型为弥补自身缺陷不得不戴上的枷锁。」近日，Mamba 作者、CMU 助理教授、Cartesia AI 首席科学家 Albert Gu

机器之心
8月前
252
1
2

Swin-UMamba：基于Mamba和ImageNet预训练的医学图像分割模型

本文提出了Swin-UMamba，借助ImageNet预训练模型的力量进一步提升基于Mamba的模型在医学图像分割任务中的性能。

CV技术指南
2年前
916
点赞
评论

[分享][每日更新][2024.03.15][CV_arxiv_papers]

[UPDATED!] 2024-03-15 (Publish Time) 分类/检测/识别/分割/... Publish Date Title Title_CN Authors PDF Code 20

已注销
1年前
351
1
评论

大模型日报3月15日

本文总结了人工智能领域的最新进展，包括苹果的多模态大模型MM1、华中科技大学的视觉增强方法、Insilico Medicine的AI药物研发成果。产业动态方面，海尔展出家庭人形机器人，OpenAI计划

大模型空间站
1年前
342
点赞
评论

[分享][每日更新][2024.03.06][CV_arxiv_papers]

[UPDATED!] 2024-03-06 (Publish Time) 生成模型 Publish Date Title Title_CN Authors PDF Code 2024-03-06 3D

已注销
2年前
190
1
评论

DenseMamba：大模型的DenseNet时刻，Mamba和RetNet精度显著提升

近期，来自华为诺亚方舟实验室的研究者提出了 DenseSSM，用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中，DenseSSM 保留了对最终输出至关重要的精细信息。

机器之心
2年前
655
点赞
评论

深度学习新架构Mamba 论文介绍 Mamba: Linear-Time Sequence Mode

DeepGoAI
2年前
2.0k
2
评论

极智AI | 解读Mamba对LLM基础架构的冲击作者一定是科密吧

大家好，我是极智视界，本文分享一下解读Mamba对LLM基础架构的冲击作者一定是科密吧。希望我的分享能对你的学习有一点帮助。

极智视界
2年前
801
1
评论

极智AI | 解读Mamba对LLM基础架构的冲击作者一定是科密吧

大模型推理速度飙升3.6倍，「美杜莎」论文来了，贾扬清：最优雅加速推理方案之一

去年，在加速大语言模型推理层面，我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今，关于 Medusa 终于有了完整技术论文，还提供了新的版本。

机器之心
2年前
1.2k
2
评论

MoE与Mamba强强联合，将状态空间模型扩展到数百亿参数

状态空间模型（SSM）是近来一种备受关注的 Transformer 替代技术，其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。

机器之心
2年前
794
点赞
评论