叶子的论文碎碎念

叶子的论文碎碎念

叶子的论文碎碎念

分享一些有意思的论文

等 3 人订阅共13篇文章创建于2023-09-27

高效智能体设计：如何在不牺牲效果的前提下降低成本？

引言大语言模型驱动的智能体（Agent）近年来在复杂任务上展现了惊人的能力——从多轮推理、跨工具调用，到信息检索与整合。然而，性能的提升往往伴随着成本的飙升：更多的推理步数、更多的工具调用、更复杂的

2月前
110
4
评论

大语言模型的上下文工程（Context Engineering for Large Language Models）

LLM 刚开始火热的时候，有个词非常热门，叫做提示词工程，甚至有各种网文声称市面上可能会招聘大量的提示词工程师，当初在一些招聘网站上倒是也的确能搜索到这样的岗位。但随着大模型技术的发展和应用复杂度的激

2月前
203
1
评论

让 LLM 拥有“可治理的记忆”：MemOS：A Memory OS for AI System 论文解读

随着大语言模型（LLM）能力的持续扩展，研究者和开发者逐渐意识到，若要真正迈向通用人工智能（AGI），模型不仅需要强大的语言生成能力，更应具备长期一致性、知识演化能力与用户个性化适配能力。因此，越来越

3月前
290
1
评论

大模型真的能做推荐系统吗？ARAG论文给了我一个颠覆性的答案

前两天刷微博无意间刷到了一位老师转发的关于大模型做推荐系统的论文，这是 Walmart AI 团队近期发布的一篇论文：《ARAG: Agentic Retrieval-Augmented Genera

3月前
449
1
评论

论文解读：KAN: Kolmogorov–Arnold Networks

五一假期刚开始没两天的时候，刷到了一篇火遍国内外AI圈的论文，叫做 KAN: Kolmogorov–Arnold Networks , 尤其国内某些科技媒体铺天盖地的宣传更是让我提起了兴趣，在假期结束

1年前
2.5k
4
1

论文分享：Chain of LoRA

微调是调整预训练大型语言模型以适应特定任务的主要方法。随着模型规模和任务多样性的扩展，参数高效的微调方法变得至关重要。其中最广泛使用的方法之一是低秩适应（LoRA）及其变体。LoRA通过两个低秩矩阵的

1年前
360
点赞
评论

复习一下时间检验奖：Word2Vec

不久前，NeurIPS 官方公布了 2023 年度的获奖论文，其中时间检验奖颁发给了10年前的论文「Distributed Representations of Words and Phrases a

1年前
1.0k
点赞
评论

分享两个阅读论文的方法

最近因为有事没事就看看论文，虽然现在有GPT的帮助能提升不少效率，但其实对于一个科研小白而言还是非常吃力的。今天分享两个阅读论文的方式，一个是2007年就发表过的S. Keshav的How to Re

1年前
271
点赞
评论

又一个提升大模型反馈效果的思路：黑盒Prompt优化

长期潜水在各个LLM技术群的小透明今天看到了智谱AI和清华团队又整了一篇有意思的论文，叫做[Black-Box Prompt Optimization: Aligning Large Language

1年前
1.1k
点赞
评论

“你是Agent啊？巧了么不是？我也是！” -- 多代理对话框架AutoGen介绍

前几天我分享了一篇跟Agent研究有关的文章，文章最后说过我还有一篇想要分享的，今天我就给大家带来了，它就是 "AutoGen: Enabling Next-Gen LLM Applications

1年前
1.4k
1
评论

如何让你的LLM能跟操作系统一样可以持久化记忆？

好久没更新论文的分享了，今天来给大家分享一篇最近阅读的个人感觉非常有价值的一篇：MEMGPT: TOWARDS LLMS AS OPERATING SYSTEMS。我们都知道无论是ChatGPT、LL

1年前
452
点赞
评论

如何用更小的模型和更少的数据打败大型语言模型?

如今国际上各种大语言模型蜂拥而至，但我们个人或者小公司想玩一个大模型要么花钱买硬件要么花钱买服务，因为大型语言模型（LLMs）虽然厉害，但部署起来非常困难！此外，这些大型语言模型就像是那些吃不胖的人，

2年前
389
点赞
1

“羊驼”又双叒叕升级了！LLaMA 2 Long 正式来袭！

LLaMA 2 刚发布没多久，Meta又推出了它的升级版，LLaMA 2 Long正式登场！性能上全面超越LLaMA 2。和其他竞争对手相比也丝毫不弱，甚至某些方面能超越ChatGPT(3.5)。目

2年前
2.5k
2
1