自然语言处理

自然语言处理

自然语言处理

自然语言处理学习

等 32 人订阅共178篇文章创建于2022-01-21

verl进行Agentic-RL多工具数据集字段匹配问题记录

问题背景近期在用verl框架进行Agentic-RL训练，之前的agent model实验我一般都是采用了与ToRL或者ReTool类似的数据格式，即模型的工具调用通过对应的特殊工具调用token实

6月前
275
点赞
评论

Meta超级智能Lab提出Early Experience增强Agent训练

摘要本文提出 Early Experience（早期经验）训练范式，使语言智能体在无奖励环境中也能从自身行为后果中学习，突破传统依赖专家示范（SFT）或依赖奖励的强化学习（RL）的局限。具体设计了

7月前
201
1
评论

Meta超级智能Lab提出Early Experience增强Agent训练

阿里WebSailor：超越人类的推理Web Agent

摘要 WebSailor 是一套开源智能体训练方法，旨在提升其在复杂信息检索任务中的超人类推理能力。现有开源网页智能体在 BrowseComp-en/zh 等任务中几乎无法作答，其原因在于缺乏应对高不

10月前
1.6k
点赞
评论

阿里WebSailor：超越人类的推理Web Agent

SciMaster：无需微调，在人类最后考试上刷新 SOTA

摘要随着 AI Agent的发展，人们期待其在科学发现中发挥关键作用。本文提出 X-Master，一种工具增强型通用推理Agent（tool-augmented reasoning agent），

11月前
443
1
评论

SciMaster：无需微调，在人类最后考试上刷新 SOTA

Qwen3开源最新Embedding模型

Qwen3-Embedding 是构建于 Qwen3 基础模型上的新一代文本嵌入与重排序模型系列，显著提升了多语言理解、代码检索与复杂指令任务中的表现。该系列模型覆盖三个参数规模（0.6B、4B

1年前
810
2
评论

Qwen3开源最新Embedding模型

仅用一条无标签数据，如何让大模型推理能力飙升？——One-shot Entropy Minimization 论文分享

导语论文标题：One-shot Entropy Minimization 论文链接：https://arxiv.org/abs/2505.20282 1 引言大语言模型（LLMs）的推理能力主要依

1年前
561
1
评论

Qwen3技术报告笔记

昨晚Qwen3发布了完整的技术报告，介绍了最新的 Qwen3 系列模型，包含稠密架构和 MoE 架构，参数规模从 0.6B 到 235B。Qwen3 将“思考模式”（用于复杂、多步推理）和“非思

1年前
1.2k
1
评论

OpenAI发布o3和o4-mini模型：全面工具访问的最强大模型

导语几天前，OpenAI 发布了最新的o3和o4-mini模型，这些推理模型能够主动使用和结合ChatGPT内的所有工具（包括网页搜索、上传文件分析、使用Python分析数据、深入推理视觉输入，甚至

1年前
354
1
评论

OpenAI发布o3和o4-mini模型：全面工具访问的最强大模型

论文笔记：DAPO——改进的开源GRPO强化学习系统

导语 GRPO是当前LLM强化学习的核心算法，本文作者在实验中发现了原始GRPO的一些不足，进行了几点改进，有效提升了评测性能表现。

1年前
815
1
评论

mac本地部署Qwq-32b记录

导语昨天看到阿里开源了Qwq-32b，号称性能可以媲美Deepseek-R1。今天晚上有空就在Mac上折腾了一下，使用ollma进行了部署，效果感觉还不错，特此记录。环境硬件型号：Macboo

1年前
297
1
评论

mac本地部署Qwq-32b记录

一张4060完成一个miniLLM全流程训练（一）：预训练

大语言模型的出现引发了全世界对AI的空前关注。本文介绍一个项目MiniMind，主要帮助初学者从零开始亲手训练一个极小的语言模型，而不是仅仅进行推理！文中也给出了笔者自身的实验记录。

1年前
1.5k
6
1

一张4060完成一个miniLLM全流程训练（一）：预训练

论文笔记：Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling

导语当一个大模型面对给定的算力，是应该更多的用于预训练还是推理？本文尝试回答这个问题。- 会议：Arxiv 2024 - 链接：[[2408.03314] Scaling LLM Test-Time

1年前
762
1
评论

论文笔记：Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling

Open o1模型介绍（Learning to Reason with LLMs）

导语本文主要整理和翻译自Open AI官网博客内容，用于了解Open AI官方对o1的描述和定位。综合了如下博客： https://openai.com/index/learning-to-reas

1年前
653
1
评论

Open o1模型介绍（Learning to Reason with LLMs）

论文笔记：Tree of Thoughts: Deliberate Problem Solving with Large Language Models

大模型推理领域的思维链是一个常用的优化技巧，本文将其进行了拓展和一般化，考虑树结构的思维树，在解决复杂推理任务时表现出了远超一般思维链的性能表现。

1年前
965
1
评论

论文笔记：Tree of Thoughts: Deliberate Problem Solving with Large Language Models

Phi-3：手机上就能运行的强力语言模型

导语 phi-系列模型是微软研究团队推出的轻量级人工智能模型，旨在实现“小而精”的目标，能够实现在低功耗设备上例如智能手机和平板电脑上部署运行。截止目前，已经发布到了phi-3模型，本系列博客将沿着最

2年前
874
1
评论

Phi-3：手机上就能运行的强力语言模型

Phi-2：小型语言模型令人惊人的能力

导语 phi-系列模型是微软研究团队推出的轻量级人工智能模型，旨在实现“小而精”的目标，能够实现在低功耗设备上例如智能手机和平板电脑上部署运行。截止目前，已经发布到了phi-3模型，本系列博客将沿着最

2年前
928
2
评论

Phi-2：小型语言模型令人惊人的能力

高质量数据至关重要：phi-1.5论文笔记

导语 phi-系列模型是微软研究团队推出的轻量级人工智能模型，旨在实现“小而精”的目标，能够实现在低功耗设备上例如智能手机和平板电脑上部署运行。截止目前，已经发布到了phi-3模型，本系列博客将沿着最

2年前
931
3
评论

高质量数据至关重要：phi-1.5论文笔记

Llama 3问世：迄今为止的最强开源大语言模型

导语最近Meta发布了其研发的第三代开源大语言模型Llama 3，并宣称Llama 3为迄今为止的最强开源大语言模型，本文对其进行简要学习记录。若想了解之前版本的Llama模型，可参考我之前写的论文

2年前
799
3
评论

Llama 3问世：迄今为止的最强开源大语言模型

EMNLP 2023精选：Text-to-SQL任务的前沿进展（下篇）——Findings论文解读

导语本文记录了今年的自然语言处理国际顶级会议EMNLP 2023中接收的所有与Text-to-SQL相关（通过搜索标题关键词查找得到，可能不全）的论文，共计12篇，包含5篇正会论文和7篇Findin

2年前
734
2
2

EMNLP 2023精选：Text-to-SQL任务的前沿进展（下篇）——Findings论文解读

QPL：一种新型的Text-to-SQL任务中间表示形式

导语本文提出了一种叫做Query Plan Language (QPL)的语言，用来将复杂SQL语句分解为更加简单的子语句。QPL具有以下优势：1）可以转述为简单问题，从而创建了一个 $<复杂问题，

2年前
1.7k
4
评论

QPL：一种新型的Text-to-SQL任务中间表示形式