看看 Tensorrt-LLM 的 XQA 内核如何在相同的 - nvdev - 沸点 - 掘金

@NVIDIA

2年前

看看 Tensorrt-LLM 的 XQA 内核如何在相同的延迟下提供高达2.4倍的吞吐量。
* 在生成过程中优化 MQA 和 GQA
* 优化波束搜索
* 以相同的延迟预算提高吞吐量
* 用张量核加速；减少数据加载和转换

大模型生态圈

等人赞过

相关推荐

#万物皆可Skill#
gemini支持将其他ai模型里的记忆导入了，为什么把对应的提示词给豆包，豆包说我违法了豆包使用规范呢，chatgpt却可以支持导出

1 赞 · 2 评论
昨天听组里一个优秀的小伙子分享，他提到哲学就是人类思考与表达的 Transformer。这个观点我觉得特别好，也挺受启发的。

我们知道，Transformer 是人工智能的核心底层架构，不管AI做内容生成、信息梳理还是各类运算，全靠它来做基础支撑；
而哲学，是我们人类思考、表达的底层逻辑，两者的核心作用是相通的。

具体来说， Transformer 有注意力机制，能从海量杂乱信息里筛选出重点，梳理清楚信息之间的关联；哲学也是一样，能帮我们在繁杂的想法、各类信息和情绪里，找准核心问题，理清思路，知道该把注意力放在哪里。

另一方面，Transformer 会把零散的信息编码整合，再输出成连贯完整的内容；哲学则是帮我们把零散的感受、直觉和生活经历，梳理成有条理的想法，再清晰地表达出来，进而指导我们做事。

可以看到，两者某种程度上还是挺相似的。

以前我觉得哲学用途不大，是形而上的，现在有了 Transformer / 大模型，哲学突然变得“工程化”、好理解了。

那么哲学是什么呢？

简单来说，哲学就是爱智慧、追根究底的一门学问，它不教具体的技术，而是帮我们看清事物本质、梳理思维方式，理解我们该如何思考、如何判断、如何面对问题。

当 AI 越来越像人，哲学也变得越来越重要。

DeepMind 设立全职哲学家岗位，OpenAI也请了哲学研究者做存在风险评估。

或许我们也该学习起来，重新思考"什么是对的""什么有价值"。

2 赞 · 0 评论
#五一计划抢先晒# 五一哪里都人多，不如反向旅游，就在自己家附近走走不挺好或者打打游戏，或者养养龙虾🦞？假装旅游，完了到了之后的周末再去旅游再请个假，不是很爽？人又少，干啥都不用排队～

7 赞 · 3 评论