人工智能

人工智能

人工智能

人工智能相关博客、笔记、论文整理

等 23 人订阅共233篇文章创建于2022-01-21

阿里WebDancer：自主信息搜索Agent

摘要随着大语言模型（LLMs）和大推理模型（LRMs）的能力不断提升，构建具备长期任务规划与复杂信息检索能力的智能体Agent成为关键研究方向。阿里通义实验室提出WebDancer——一套从数据构建

7月前
200
1
评论

阿里WebDancer：自主信息搜索Agent

阿里WebSailor：超越人类的推理Web Agent

摘要 WebSailor 是一套开源智能体训练方法，旨在提升其在复杂信息检索任务中的超人类推理能力。现有开源网页智能体在 BrowseComp-en/zh 等任务中几乎无法作答，其原因在于缺乏应对高不

7月前
1.0k
点赞
评论

阿里WebSailor：超越人类的推理Web Agent

Kimi-K2论文解读

摘要 Kimi在近期发布了最大规模开源模型K2，其为MOE架构，包含1.04T参数，32B激活，。K2 重点强调了其大规模的智能体（agentic）数据合成流水线和联合强化学习方法，模型通过与真实和合

7月前
378
1
评论

SciMaster：无需微调，在人类最后考试上刷新 SOTA

摘要随着 AI Agent的发展，人们期待其在科学发现中发挥关键作用。本文提出 X-Master，一种工具增强型通用推理Agent（tool-augmented reasoning agent），

7月前
213
1
评论

SciMaster：无需微调，在人类最后考试上刷新 SOTA

ChatGPT使用限额记录与插件统计

昨晚使用ChatGPT发现一直报错，出现以下报错： Hmm...something seems to have gone wrong.；消息流中的错误；无论怎么试都无法继续使用。后续检索

9月前
431
1
评论

ChatGPT使用限额记录与插件统计

ReSearch：通过强化学习让大模型学会在推理中搜索

摘要当前大语言模型（LLMs）在多跳推理任务中展现出卓越表现，但如何将外部搜索与推理过程深度融合，仍是一大挑战。本文提出ReSearch框架，通过强化学习训练模型从零开始学会何时与如何进行搜索，并在

9月前
172
点赞
评论

ReSearch：通过强化学习让大模型学会在推理中搜索

TORL：工具集成强化学习，让大语言模型学会用代码解题

近年来，大语言模型（LLMs）在推理能力上取得突破，但在精确计算和复杂逻辑任务中仍受限。本文提出 TORL（Tool-Integrated Reinforcement Learning），一个可

9月前
530
1
评论

TORL：工具集成强化学习，让大语言模型学会用代码解题

Qwen3开源最新Embedding模型

Qwen3-Embedding 是构建于 Qwen3 基础模型上的新一代文本嵌入与重排序模型系列，显著提升了多语言理解、代码检索与复杂指令任务中的表现。该系列模型覆盖三个参数规模（0.6B、4B

9月前
638
2
评论

Qwen3开源最新Embedding模型

仅用一条无标签数据，如何让大模型推理能力飙升？——One-shot Entropy Minimization 论文分享

导语论文标题：One-shot Entropy Minimization 论文链接：https://arxiv.org/abs/2505.20282 1 引言大语言模型（LLMs）的推理能力主要依

9月前
413
1
评论

在RTX5060Ti上进行Qwen3-4B的GRPO强化微调

导语最近赶上618活动，将家里的RTX 4060显卡升级为了RTX 5060Ti 16GB版本，显存翻了一番，可以进行一些LLM微调实验了，本篇博客记录使用unsloth框架在RTX 5060Ti

9月前
549
1
评论

在RTX5060Ti上进行Qwen3-4B的GRPO强化微调

字节ReTool：大模型也要学会善于利用工具

尽管强化学习训练的推理模型在纯文本推理任务中表现突出，但在需要精确计算或符号操作的结构化问题上仍显不足。为此，本文提出 ReTool 框架，通过将实时代码执行与自然语言推理交叉集成，并采用结果驱动的强

10月前
459
1
评论

字节ReTool：大模型也要学会善于利用工具

OpenAI发布o3和o4-mini模型：全面工具访问的最强大模型

导语几天前，OpenAI 发布了最新的o3和o4-mini模型，这些推理模型能够主动使用和结合ChatGPT内的所有工具（包括网页搜索、上传文件分析、使用Python分析数据、深入推理视觉输入，甚至

11月前
294
1
评论

OpenAI发布o3和o4-mini模型：全面工具访问的最强大模型

mac本地部署Qwq-32b记录

导语昨天看到阿里开源了Qwq-32b，号称性能可以媲美Deepseek-R1。今天晚上有空就在Mac上折腾了一下，使用ollma进行了部署，效果感觉还不错，特此记录。环境硬件型号：Macboo

1年前
258
1
评论

mac本地部署Qwq-32b记录

一张4060完成一个miniLLM全流程训练（一）：预训练

大语言模型的出现引发了全世界对AI的空前关注。本文介绍一个项目MiniMind，主要帮助初学者从零开始亲手训练一个极小的语言模型，而不是仅仅进行推理！文中也给出了笔者自身的实验记录。

1年前
1.2k
6
1

一张4060完成一个miniLLM全流程训练（一）：预训练

论文笔记：Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling

导语当一个大模型面对给定的算力，是应该更多的用于预训练还是推理？本文尝试回答这个问题。- 会议：Arxiv 2024 - 链接：[[2408.03314] Scaling LLM Test-Time

1年前
625
1
评论

论文笔记：Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling

Open o1模型介绍（Learning to Reason with LLMs）

导语本文主要整理和翻译自Open AI官网博客内容，用于了解Open AI官方对o1的描述和定位。综合了如下博客： https://openai.com/index/learning-to-reas

1年前
516
1
评论

Open o1模型介绍（Learning to Reason with LLMs）

论文笔记：Tree of Thoughts: Deliberate Problem Solving with Large Language Models

大模型推理领域的思维链是一个常用的优化技巧，本文将其进行了拓展和一般化，考虑树结构的思维树，在解决复杂推理任务时表现出了远超一般思维链的性能表现。

1年前
654
1
评论

论文笔记：Tree of Thoughts: Deliberate Problem Solving with Large Language Models

Phi-3：手机上就能运行的强力语言模型

导语 phi-系列模型是微软研究团队推出的轻量级人工智能模型，旨在实现“小而精”的目标，能够实现在低功耗设备上例如智能手机和平板电脑上部署运行。截止目前，已经发布到了phi-3模型，本系列博客将沿着最

1年前
729
1
评论

Phi-3：手机上就能运行的强力语言模型

Phi-2：小型语言模型令人惊人的能力

导语 phi-系列模型是微软研究团队推出的轻量级人工智能模型，旨在实现“小而精”的目标，能够实现在低功耗设备上例如智能手机和平板电脑上部署运行。截止目前，已经发布到了phi-3模型，本系列博客将沿着最

1年前
846
2
评论

Phi-2：小型语言模型令人惊人的能力

高质量数据至关重要：phi-1.5论文笔记

导语 phi-系列模型是微软研究团队推出的轻量级人工智能模型，旨在实现“小而精”的目标，能够实现在低功耗设备上例如智能手机和平板电脑上部署运行。截止目前，已经发布到了phi-3模型，本系列博客将沿着最

1年前
867
3
评论

高质量数据至关重要：phi-1.5论文笔记