首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
LLMForEveryBody
真忒修斯之船
创建于2024-08-06
订阅专栏
每个人都能看懂的大模型知识分享
等 16 人订阅
共95篇文章
创建于2024-08-06
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
10分钟了解什么是多模态大模型(MM-LLMs)
多模态(Multimodality)是指集成和处理两种或两种以上不同类型的信息或数据的方法和技术。在机器学习和人工智能领域,多模态涉及的数据类型通常包括但不限于文本、图像、视频、音频和传感器数据。
10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNorm
Normalization技术旨在应对内部协变量偏移问题,它的核心在于将数据调整到一个统一的标准,以便进行有效的比较和处理。 为了实现这一目标,***我们需要确保参与归一化的数据点在本质上是可比的。
GraphRAG: 解锁大模型对叙述性私有数据的检索能力(中文翻译)
LLM 面临的最大挑战(也是最大的机遇)或许是将其强大的能力扩展到解决训练数据之外的问题,本文中,我们介绍了微软研究院创建的 GraphRAG,这是增强 LLM 能力的一项重大进步。
搭配Knowledge Graph的RAG架构
在实际文本中,chunk与chunk之间是存在关联的,而RAG技术并未充分考虑到这种关联性。为了解决这一问题,我们可以引入知识图谱,将文档中的chunk之间的关系表示为图结构
向量数据库拥抱大模型
向量数据库的崛起与大模型时代的需求紧密相关,它为大模型提供了外部知识库的支持,增强了生成能力,支持向量嵌入,并解决了数据局限问题。
vLLM: 使用PagedAttention轻松、快速且廉价地提供LLM服务(中文翻译)
在学习vLLM和PagedAttention的过程中,我发现了很多非常优质的资料。其中最有价值应该是这篇vLLM的官方博客,我认为它写得非常好,因此尝试将其翻译,希望这能帮助到更多需要相关信息的人。
Open AI的o1用强化学习突破LLM推理极限,我们用强化学习的思想解决不知道吃什么的选择困难症
OpenAI 正式公开一系列全新 o1大模型,秘密武器在于强化学习和思维链。OpenAI 的o1大规模强化学习算法,教会模型如何在数据高度有效的训练过程中利用其思想链进行高效思考。
Transformer架构的GPU并行和之前的NLP算法并行有什么不同?
随着时间的推移,大型语言模型(LLM)开始崭露头角,这些模型拥有庞大的参数量,训练过程也变得漫长而复杂。为了有效应对这些挑战,使用多张GPU进行训练变得司空见惯,而并行计算技术也变得不可或缺
智能涌现和AGI的起源
在人工智能领域,智能涌现通常指的是随着AI模型规模的增大,如参数数量的增加,模型开始展现出一些预先没有被明确编程的能力或行为。
Agent设计范式与常见框架
智能代理是指能够在环境中感知、推理并采取行动以完成特定任务的系统。在大型语言模型(LLMs)的背景下,Agent范式通常涉及到如何利用这些模型来提升代理的规划、决策和执行能力。
韩国“N 号房”事件因Deep Fake再现,探究背后的技术和应对方法
据《环球时报》援引韩媒报道,针对女性的深度伪造犯罪在韩国日趋猖獗,不仅大学校园中出现此类案件,甚至连中小学、军队等场所也成为高发地。社交媒体上特别是Telegram群组中不断有受害学校及被害者信息流出
10分钟理解大模型的量化
量化是大模型领域中的一项关键技术,它通过降低模型参数的精度,将浮点数转换为整数或定点数,从而实现模型的压缩和优化。这样做的主要目的是减少模型的存储需求、加快推理速度,并降低模型的计算复杂度.
大家都谈的Scaling Law是什么?
一个农场里有一群火鸡,农场主每天中午十一点来给它们喂食。火鸡中的一名科学家观察到这个现象,一直观察了近一年都没有例外,于是它也发现了自己宇宙中的伟大定律:“每天上午十一点,就有食物降临。”
COT思维链,TOT思维树,GOT思维图,这些都是什么?
我认为COT能够以比较低的代价解决一些幻觉问题。但是TOT和GOT太fancy了,个人认为不太适合实际应用。与其这么复杂的prompt engineering,还不如换一个好的模型。
开发大模型or使用大模型?
大模型的更新让人眼花缭乱,但整个大模型的生态圈,其实是分工明确的.大部分的大模型从业者都是在使用大模型,而不是在开发基座大模型.
大模型有哪些评估指标?
在大模型领域,有许多指标可以帮助我们评估模型的性能。这些指标可以帮助我们了解模型的准确性、效率和可解释性。在本文中,我们将介绍一些常用的指标,以及如何使用它们来评估模型的性能。
大模型的参数高效微调(PEFT),LoRA微调以及其它
Fine-tuning 相较于基础大模型动辄万卡的代价,微调可能是普通个人或者企业少数能够接受的后训练大模型(post-training)的方式。
复变函数在大模型中的应用
说来惭愧,我研究生时的研究方向是复分析,但毕业近十年来几乎没用到它。 我还记得实习时做自我介绍时,我说我的研究方向是复分析。面试官不太了解,我便解释说,这是关于对 -1 开平方得到的虚数的研究。
大模型的latency(延迟)和throughput(吞吐量)有什么区别?
Latency:延迟,指的是从输入到输出的时间,即从输入到输出最后一个 token 的时间; Throughput:吞吐量,指的是单位时间内处理的任务数,即每秒处理的 token 数。
FlashAttention v2相比于v1有哪些更新?
FlashAttention V2在减少计算量和内存访问的同时,保持了算法的精度和效率,实现了更快的Attention计算。
下一页