让 Agent 帮我们写一篇突破性的论文(1) 两个重要的提示词

81 阅读8分钟

如果为应该如何下笔来写一篇论文而发愁,相信这篇分享可能会对你有所帮助。

目标

现在深度学习方向真的是太卷了,论文出现频率越来越高,几乎每天都要阅读大量的论文,才能了解最新的研究进展。但如何从海量论文中找到那些真正有价值的信息,并从中迸发出创新的火花呢?这无疑是一个巨大的挑战。

预览成果


IMPORTANT DISCLAIMER:

  • This is an AI-generated research proposal. All content should be independently verified.
  • The synthesis may contain inaccuracies or misinterpretations of the source material.
  • This document combines and interprets the above papers using AI, but all conclusions should be critically evaluated.
  • Links to original papers are provided at the end of the document for verification and reference.

Title:  Enhancing Advanced Visual Reasoning Ability of Visual-Language Models via Large Language Models and Iterative Self-Refinement

AI Generation Disclaimer:  This paper is an AI-generated manuscript, and as such, may contain inaccuracies or misinterpretations. While the authors have made every effort to ensure the accuracy and validity of the information presented, the readers are advised to approach the content with a critical perspective and verify any findings or claims through independent means.

Abstract:  The integration of visual-language models (VLMs) and large language models (LLMs) has shown great promise in enhancing visual reasoning capabilities. Building on the principles of transferring reasoning abilities from LLMs to VLMs and leveraging iterative self-refinement, this paper proposes a novel approach to enhance the advanced visual reasoning ability of VLMs. Our methodology, dubbed "TReE-Iterative," combines the three-stage TReE approach (observation, thinking, and rethinking) with multi-modal in-context learning to create a robust and accurate visual reasoning system. By iteratively refining the VLM's understanding of the visual context and incorporating the LLM's reasoning capabilities, we demonstrate a significant improvement in visual reasoning performance. This breakthrough has far-reaching implications for the development of more sophisticated artificial intelligence systems, enabling more effective human-computer interaction and opening up new avenues for research in visual reasoning and language understanding.

Introduction:  The ability to reason about visual information is a fundamental aspect of human intelligence, enabling us to understand and navigate the world around us. The development of visual-language models (VLMs) has made significant strides in recent years, with applications in image captioning, visual question answering, and other related tasks. However, VLMs often struggle with complex reasoning tasks, which has led researchers to explore the integration of large language models (LLMs) to enhance their reasoning capabilities. This paper proposes a novel approach to combine the strengths of VLMs and LLMs, leveraging the TReE methodology and iterative self-refinement to create a more robust and accurate visual reasoning system.

先给大家看一看效果。这篇论文就是 Agent 生成的一篇完整论文的一部分,大家可以简单阅读一下,还是像模像样,当然一定还是有很多不足之处,如果大家在这个方向感兴趣,可以沿着这个思路进行深入研究。

我简单给大家翻译一下上面内容,大家可以体验一下智能体的能力

标题:通过大型语言模型和迭代自我完善增强视觉语言模型的高级视觉推理能力

AI生成免责声明: 这篇论文是由AI生成的,因此可能存在不准确或曲解的地方。尽管作者已尽最大努力确保所提供信息的准确性和有效性,但建议读者以批判性的视角对待内容,并通过独立手段验证任何发现或主张。

摘要: 视觉语言模型(VLMs)和大型语言模型(LLMs)的整合在增强视觉推理能力方面显示出巨大的潜力。本论文基于将推理能力从LLMs转移到VLMs的原则,并利用迭代自我完善,提出了一种新的方法来增强VLMs的高级视觉推理能力。我们的方法称为“TReE-Iterative”,结合了三阶段TReE方法(观察、思考、反思)和多模态上下文学习,创建了一个强大而准确的视觉推理系统。通过迭代完善VLM对视觉上下文的理解并结合LLM的推理能力,我们证明了视觉推理性能的显著提升。这一突破对开发更复杂的智能系统具有深远的影响,能够实现更有效的人机交互,并为视觉推理和语言理解的研究开辟新的途径。

引言: 对视觉信息的推理能力是人类智能的一个基本方面,使我们能够理解和驾驭周围的世界。近年来,视觉语言模型(VLMs)的发展取得了重大进展,应用于图像字幕、视觉问答和其他相关任务。然而,VLMs经常难以处理复杂的推理任务,这促使研究人员探索将大型语言模型(LLMs)整合进来以增强其推理能力。本论文提出了一种新方法,结合VLMs和LLMs的优势,利用TReE方法和迭代自我完善来创建一个更强大、更准确的视觉推理系统。

好终于读完了,因为个人设备和模型限制,可能效果不能代表当下主流模型输出能力。如果大家有条件可以按我的思路去试一试。效果如何可以,可以在评论区留言,分享给大家。

搭建环境

python 版本 语言选择是 python, 版本不小于 3.9,使用 conda 创建了一个 python 环境 模型 模型选择的是 groq 的官方提供的 llama 3.3 的模型,以上就是开发 Agent 所需要的环境

大概思路

  • 首先是收集某一个方向的相关论文
  • 然后通过相关性分析将相似的论文组合在一起,这些组合后可能会带来突破性创新
  • 根据每组组合的科学可行性、可能影响方向、互补会带来新的内容上突破、当前研究缺口来为每个组合分配实际概率分数 (0-100%)
  • 最后基于上面的内容,选择一组潜在突破性组合进行进一步分析来生成突破性的论文

主要prompt

在整个应用中主要有 2 个智能体,分别是分析当前主流的论文,分析后对论文进行整理,组合。这些论文组合后能够带来新的观点,供接下来生成论文智能体使用,每一个智能体背后都少不了一个关键提示词,我们先来看分析智能体的提示词。

分析论文

SYSTEM_PROMPT = f"""
作为科学研究顾问,分析这些论文以识别潜在的研究相关性,通过相关性分析将相似的论文组合在一起会带来突破性进步在 {SEARCH_TERM} 中。

分析指南:
1. 查找明显和隐含的论文之间的相关性
2. 考虑2-4个论文的组合,互相补充
3. 专注于质量优先,但是尽量找到至少5-7个有潜在突破性的组合    
4. 为每个组合评分严格 - 只有高概率分数才适用于可能带来真正意义上的突破
5. 考虑不同方面:方法论组合,理论框架,实验验证

对于每个组合:
- 包括2-4个论文,它们可以共同创造突破性进步
- 提供有关为何这个组合是有潜在突破性的详细解释
- 根据:
    * 科学上的可行性
    * 潜在的影响力
    * 内容上的互补会带来新的内容上突破
    * 当前研究缺口
为每个组合分配实际概率分数(0-100%)

格式化每个组合为:
<combine>
论文:
- 论文 1 的标题
- 论文 2 的标题
[- 如果有相关的其他论文]
概率:X%
突破潜力:[科学说明]
</combine>

记住:专注于质量组合,它们有真正意义上的突破潜力。尝试找到至少5个不同的组合,但只包括有实际突破潜力的组合。""" 

主要是通过论文内容上,发现显式和隐含的论文之间的相关性,考虑 2 到 4 篇论文的组合, 形成组合的论文可以在内容上形成补充。专注于质量优先,但是尽量找到至少 5,7 个有潜在突破性的组合。为每个组合进行严格的评分,只有高概率分数才适用于可能带来真正意义上的突破。考虑不同方面:方法论组合,理论框架,实验验证。

生成创新的论文

接下来就是来看一看生成论文的提示词,这个也比较重要,通过提示词指导智能体如何利用之前分析结果按照规定的格式输出一个想要论文

generate_prompt = f"""  
论文组合:
{papers}

完整论文内容:
{full_texts}

潜在的突破点:potential}

写出一个完整的学术论文,包括以下部分:
- 标题
- 摘要
- 导言
- 背景与相关工作
- 方法论
- 预期结果和影响
- 讨论
- 结论
- 未来工作

方法要非常详细和具体,要易于理解和验证,以便其他研究人员可以借鉴。
论文格式要符合学术风格,在保持科学严谨性的同时,探索新颖的想法组合。
重点关注这些方法的结合如何创造出新的有价值的东西。

"""