私人笔记——浅品Prompt Engineering & Context Engineering私人笔记——浅品Prom

私人笔记——浅品Prompt Engineering & Context Engineering

本节探讨Prompt Engineering（提示工程）。【AI大模型教程】

在与大语言模型（LLM）交互时，简单的提示词就能产出结果，但想要获得高质量输出，关键在于提供充足且完善的信息。提示词不仅可以包含指令或问题，还能融入上下文、输入内容或示例等元素，这些信息能有效引导模型，帮助我们达成预期目标。

先看一个简单案例：当我们给出提示词 “The sky is” 时，模型可能仅输出 “blue.”。这样的结果虽然语法正确，但过于单薄，甚至可能偏离我们的实际需求。因此补充上下文或明确指令就十分必要了，而这正是提示工程的核心诉求。

若对提示词进行优化，明确指令：“Complete the sentence: The sky is”，模型则会输出更全面的内容：“blue during the day and dark at night.”。清晰的指令能让模型精准把握任务方向，输出质量也会显著提升。所谓提示工程，就是通过设计有效的提示词，引导模型高效完成目标任务的方法。如今，LLM 凭借提示工程的助力，已能胜任文本概括、数学推理、代码生成等多种高级任务。

三种标准的提示词格式：

基础格式

标准提示词的基础格式简洁明了，主要分为 “问答式” 和 “指令式” 两种。

“问答式” 直接以 “<问题>?” 呈现，也可规范为 QA 格式，即 “Q: < 问题 >? A: ”。这种格式在问答场景中应用广泛，符合多数问答数据集的标准规范；“指令式” 则直接给出 “<指令>”，明确告知模型需要执行的具体操作。

零样本提示

当我们直接向模型提问或下达指令，未提供任何任务示例时，这种方式被称为零样本提示。例如：“Q: What is prompt engineering?” 或简化为 “What is prompt engineering?”。部分先进模型能精准理解这类提示并完成任务，其效果取决于任务的复杂程度、所需知识储备以及模型的训练适配性。

少样本提示

对于一些复杂任务，仅靠指令可能无法让模型准确把握需求，此时少样本提示就能发挥作用。这种方式通过提供任务示例进行示范，帮助模型快速理解任务逻辑。

少样本提示的格式可灵活调整，以问答任务为例：

Q: <问题1>?
A: <答案1>
Q: <问题2>?
A: <答案2>
Q: <问题3>?
A:

在分类任务中，示例格式可简化为：

This is awesome! // Positive
This is bad! // Negative
Wow that movie was rad! // Positive
What a horrible show! //

模型会根据示例规律，输出对应的分类结果 “Negative”。少样本提示能充分激发模型的上下文学习能力，让模型快速适配各类特定任务。

掌握这些提示工程的基础技巧，能帮助我们更高效地与 LLM 交互，充分挖掘模型的潜力。

提示词模块及撰写要点

在长期实践提示工程的过程中，我们会发现优质的提示词并非随意编写，而是由几个核心要素构成。合理搭配这些要素，能让大语言模型（LLM）更清晰地把握需求，输出符合预期的结果。

1，角色 & 任务：位于 prompt 最前面，是最高指令。角色定位让模型调用特定领域能力，如 “你是一名数据分析师”；任务则一句话说清模型要做的具体事情，如 “使用 python 分析数据”。二者共同约束模型调用相应能力完成具体任务。

2，核心原则：是模型执行任务时需遵守的最高纲领性要求，数量应控制在 3 条以内，否则易失效。可在初始撰写时输出，也可在调优过程中生成，其权重仅次于角色和任务。例如生成 sql 的 prompt 中，核心原则可能是必须基于表结构生成，且非时间筛选条件基于维度和客户解析。

3，上下文处理：需让上下文以恰当格式出现在恰当位置，以发挥最大作用。组织原则包括：内容较长时放最后以免打断提示词；讲清结构，合适的组织形式影响 token 数量和性能；说明在任务中承担的作用和价值。上下文输入一般放在提示词结尾处。

4，CoT(Chain of Thoughts)：针对逻辑强的任务场景，提醒或约束模型按要求思考，可理解为执行流程或思考过程。在复杂场景下，能让模型按要求执行，提升准确率（经验证可提升 20%）。例如维度解析中的精确匹配流程、模糊匹配流程等。

5，要求和限制：针对任务中需要特殊强调、处理的逻辑，可写在 CoT 模块内或单独成模块，建议将要求和限制分开写。如明确不提取具体数值、时间词等，明确要提取服务、零售等维度词。

6，特殊逻辑表达：当某些逻辑用文字难以准确表达时，可使用伪代码，模型能快速准确理解。例如根据当前时间计算月表和日表最新时间的逻辑。

7，输出规范：包含期望输出的内容和结构以及禁止输出的内容和结构，避免模型输出多余内容或不按要求格式输出。例如只输出提取到的维度词，多个用逗号分隔，无则输出 “无”。

8，Few-Shot：是提升准确率的有效手段，提供符合 CoT 过程的示例，能让模型更好地理解并完成任务，如同给应届生示例使其更好地做事。

设计提示的通用技巧

首先需要清楚认识到，提示词设计并非一蹴而就，而是一个需要大量实验的反复迭代过程。建议从 OpenAI、Cohere 等平台的简易实验环境入手，先搭建基础版本的简单提示词，再根据输出结果逐步添加元素、补充上下文，然后在这个过程中持续迭代提示词。面对复杂的大型任务时，可将其拆解为多个简单子任务，并随着结果的改善逐步构建完善，避免一开始就陷入复杂设计的困境。实践证明，简洁具体的提示词往往能带来更优效果，这一原则在后续各类场景中都同样适用。

清晰的指令是引导模型完成任务的核心。可以使用命令来指示模型执行各种简单任务，比如使用 “写入”、“分类”、“总结”、“翻译”、“排序” 等明确的动词命令，为各种简单任务设计有效的提示，让模型快速锁定任务目标。不过，不同场景对指令的适配度不同，这就需要结合不同的关键词（keywords）、上下文（contexts）和数据（data）进行大量实验试验不同的指令（instruction），看看什么样是最适合特定用例和任务的，找到最贴合具体需求的表述方式。通常情况下，上下文越具体和跟任务越相关则效果越好。关于指令的放置位置，目前有两种常用且高效的思路：一种是将指令放在提示词开头，让模型第一眼就能捕捉到核心任务；另一种是用 “###” 等分隔符，将指令与上下文清晰划分，比如明确标注 “### 指令 ###” 后，再给出具体任务和相关文本，避免信息混淆。

提示词的描述越详细、越具针对性，模型的输出就越符合预期，尤其是在对结果内容或风格有特定要求时，这一点尤为重要。如果希望模型输出特定格式的内容，在提示词中提供示例是非常有效的方法。但同时也要注意，提示词存在长度限制，不能堆砌无关细节，只需保留与任务紧密相关的关键信息。比如在提取地名的任务中，明确说明提取目标和输出格式，模型就能精准完成信息提取工作，既保证了效果，又避免了冗余信息带来的干扰。

示例输入

提取以下文本中的地名。
所需格式：
地点：<逗号分隔的公司名称列表>
输入：“虽然这些发展对研究人员来说是令人鼓舞的，但仍有许多谜团。里斯本未知的香帕利莫德中心的神经免疫学家 Henrique Veiga-Fernandes 说：“我们经常在大脑和我们在周围看到的效果之间有一个黑匣子。”“如果我们想在治疗背景下使用它，我们实际上需要了解机制。””

示例输出

地点：里斯本，香帕利莫德中心

过于复杂或模糊的表述很容易让模型产生理解偏差，高效的提示词往往具备直接、具体的特点，这和日常沟通中 “越直接，信息传达越有效” 的逻辑一致。举个例子，若想让模型解释提示工程概念，只说 “解释提示工程的概念，保持简短”，就无法明确输出的具体长度和目标受众；而精准限定 “用 2-3 句话向高中学生解释提示工程的概念”，就能让模型精准把握需求，给出符合预期的回应。

设计提示词时，建议优先说明模型需要执行的具体动作，而非单纯强调 “不要做什么”。这种正向引导的方式能让模型更清晰地把握行动重点，避免因仅知禁忌而陷入无措的境地。以电影推荐机器人为例，若仅告知 “不要询问兴趣、不要询问个人信息”，模型可能仍会偏离需求，主动询问用户偏好；而明确指令 “从全球热门电影中推荐，避免询问用户偏好和个人信息，无推荐时回复指定内容”，就为模型提供了明确的行动方向，确保输出符合规范。

思维链（CoT）提示

Wei等人（2022）引入了链式思考（CoT）并通过提示中间推理步骤实现了复杂的推理能力。可以将其与少样本提示相结合，以获得更好的结果，以便在回答之前进行推理的更复杂的任务。

示例提示：

这组数中的奇数加起来是偶数：4、8、9、15、12、2、1。
A：将所有奇数相加（9、15、1）得到25。答案为False。
这组数中的奇数加起来是偶数：17、10、19、4、8、12、24。
A：将所有奇数相加（17、19）得到36。答案为True。
这组数中的奇数加起来是偶数：16、11、14、4、8、13、24。
A：将所有奇数相加（11、13）得到24。答案为True。
这组数中的奇数加起来是偶数：17、9、10、12、13、4、2。
A：将所有奇数相加（17、9、13）得到39。答案为False。
这组数中的奇数加起来是偶数：15、32、5、13、82、7、1。
A：

示例输出：

将所有奇数相加（15、5、13、7、1）得到41。答案为False。

可以看到在提供推理步骤时得到了完美的结果。实际上，可以通过提供更少的示例来解决此任务，即仅一个示例似乎就足够了：

示例提示：

这组数中的奇数加起来是偶数：4、8、9、15、12、2、1。
A：将所有奇数相加（9、15、1）得到25。答案为False。
这组数中的奇数加起来是偶数：15、32、5、13、82、7、1。
A：

示例输出：

将所有奇数相加（15、5、13、7、1）得到41。答案为False。

Kojima 等人提出了零样本CoT，它基本上涉及将 “Let's think step by step” 添加到原始提示中：

在运用思维链提示技术时，通常需要人工制作有效且多样的示例，这种手动操作往往难以形成最优解决方案。为此，张等人（2022）提出了一种自动化方法，通过向大语言模型（LLMs）输入 “Let's think step by step” 的提示，使其自动生成连贯的推理链。不过，这种自动化生成过程仍可能导致推理链出现错误，而增加演示示例的多样性是减轻错误影响的关键手段。基于此，相关研究提出了 Auto-CoT 技术，该技术通过对多样化问题进行采样并生成对应推理链，以此构建高质量的演示示例。

Auto-CoT 技术主要包含两个核心阶段：第一阶段是问题聚类，即把给定的问题划分为若干个不同的聚类组；第二阶段是演示抽样，从每个聚类组中挑选出具有代表性的问题，并借助零样本思维链（Zero-Shot-CoT）结合简单启发式方法生成推理链。这里的简单启发式方法可参考问题的长度（例如设定为 60 个词元）和推理步骤数（例如限定为 5 个推理步骤），通过这种方式能引导模型生成简洁且准确的演示内容。该过程如下图所示：

思维树 (ToT)

对于需要探索或预判战略的复杂任务来说，传统或简单的提示技巧是不够的。Yao et el. (2023) 提出了思维树（Tree of Thoughts，ToT）框架，该框架基于思维链提示进行了总结，引导语言模型探索把思维作为中间步骤来解决通用问题。

ToT 框架的核心机制是维护一棵由连贯语言序列构成的 “思维树”，这些语言序列即解决问题的中间推理步骤。借助这一框架，LM 能够自主评估推理过程中的中间思维，并将生成与评估思维的能力和广度优先搜索、深度优先搜索等算法相结合，实现对思维的系统性探索，同时支持向前验证与回溯操作。

在实际应用中，ToT 需根据具体任务设定思维步骤数量及每步的候选项数量。以论文中的 “算 24 游戏” 为例，该任务被划分为 3 个思维步骤，每步需生成一个中间方程，且保留最优的 5 个候选项；执行时采用广度优先搜索（BFS），LM 需对每个候选项给出 “sure/maybe/impossible”（一定能 / 可能 / 不可能）的评估结果，每个思维步骤会抽样获取 3 份评估，以此筛选有效局部解、剔除无效解。

从下图中报告的结果来看，ToT 的表现大大超过了其他提示方法：

从核心思路来看，与龙（Long, 2023）的方法存在共通之处，二者均以多轮对话搜索树的形式增强 LM 解决复杂问题的能力。主要区别在于搜索策略：姚等人采用通用的深度优先 / 广度优先 / 集束搜索策略，不针对具体问题优化；龙则提出通过强化学习训练的 “ToT 控制器” 来驱动树的搜索，明确回退时机与层级等关键操作。相比之下，强化学习训练的 ToT 控制器可从新数据集或自对弈过程中学习，即便基于冻结的 LM，也能实现系统的持续进化与知识更新。此外，赫尔伯特（Hulbert, 2023）提出了 ToT 提示法，将 ToT 框架的核心概念提炼为简短提示词，以此指导 LM 在单次提示中完成对中间思维的评估。ToT 提示词的例子如下：

假设三位不同的专家来回答这个问题。
所有专家都写下他们思考这个问题的第一个步骤，然后与大家分享。
然后，所有专家都写下他们思考的下一个步骤并分享。
以此类推，直到所有专家写完他们思考的所有步骤。
只要大家发现有专家的步骤出错了，就让这位专家离开。
请问...

检索增强生成 (RAG)

通用语言模型经微调后可完成情绪分析、命名实体识别等无需额外背景知识的常见任务，但面对更复杂的知识密集型任务时，需构建能访问外部知识源的系统，以提升结果的事实一致性、可靠性并缓解 “幻觉” 问题。

为此，Meta AI 的研究人员提出了检索增强生成（RAG）方法，该方法将信息检索组件与文本生成模型相结合，不仅支持微调，还能高效修改内部知识，无需对整个模型重新训练。其工作流程为：接收输入后检索相关支撑文档并标注来源，将这些文档作为上下文与原始提示词结合，再输入文本生成器得到最终输出。这一特性使 RAG 能很好地适应事实随时间变化的场景，弥补了通用语言模型参数化知识静态化的缺陷，让模型无需重新训练即可获取最新信息，生成可靠结果。

Lewis 等人（2021）还提出了通用的 RAG 微调方案，以预训练的序列到序列（seq2seq）模型作为参数记忆，将维基百科的密集向量索引作为非参数记忆（供神经网络预训练的检索器访问）。在 Natural Questions、WebQuestions 等基准测试中，RAG 表现优异；经 MS-MARCO、Jeopardy 问题测试，其生成的答案更符合事实、更具体多样；FEVER 事实验证任务引入 RAG 后，结果也得到显著改善。这些测试结果充分证明，RAG 是增强语言模型在知识密集型任务中输出效果的可行方案。

近年来，以 RAG 为代表的基于检索器的方法愈发流行，常与 ChatGPT 等主流大语言模型结合使用，用以提升模型的能力及输出的事实一致性。

一些重要的解码参数

使用提示词时，可以通过配置一些参数以获得不同的提示结果。调整这些设置对于提高响应的可靠性至关重要，甚至需要进行一些精细化的实验才能找出适合该场景的用例的正确设置。以下是使用不同LLM提供程序时会遇到的常见设置：

Temperature：简单来说，temperature 的参数值越小，模型就会返回越确定的一个结果。如果调高该参数值，大语言模型可能会返回更随机的结果，也就是说这可能会带来更多样化或更具创造性的产出。（调小temperature）实质上，你是在增加其他可能的 token 的权重。在实际应用方面，对于质量保障（QA）等任务，我们可以设置更低的 temperature 值，以促使模型基于事实返回更真实和简洁的结果。对于诗歌生成或其他创造性任务，适度地调高 temperature 参数值可能会更好。

Top_p：同样，使用 top_p（与 temperature 一起称为核采样（nucleus sampling）的技术），可以用来控制模型返回结果的确定性。如果你需要准确和事实的答案，就把参数值调低。如果你在寻找更多样化的响应，可以将其值调高点。

使用Top P意味着只有词元集合（tokens）中包含top_p概率质量的才会被考虑用于响应，因此较低的top_p值会选择最有信心的响应。这意味着较高的top_p值将使模型考虑更多可能的词语，包括不太可能的词语，从而导致更多样化的输出。

一般建议是改变 Temperature 和 Top P 其中一个参数就行，不用两个都调整。

Max Length：可以通过调整 max length 来控制大模型生成的 token 数。指定 Max Length 有助于防止大模型生成冗长或不相关的响应并控制成本。

Stop Sequences：stop sequence 是一个字符串，可以阻止模型生成 token，指定 stop sequences 是控制大模型响应长度和结构的另一种方法。例如，您可以通过添加 “11” 作为 stop sequence 来告诉模型生成不超过 10 个项的列表。

Frequency Penalty：frequency penalty 是对下一个生成的 token 进行惩罚，这个惩罚和 token 在响应和提示中已出现的次数成比例， frequency penalty 越高，某个词再次出现的可能性就越小，这个设置通过给重复数量多的 Token 设置更高的惩罚来减少响应中单词的重复。

Presence Penalty：presence penalty 也是对重复的 token 施加惩罚，但与 frequency penalty 不同的是，惩罚对于所有重复 token 都是相同的。出现两次的 token 和出现 10 次的 token 会受到相同的惩罚。此设置可防止模型在响应中过于频繁地生成重复的词。如果您希望模型生成多样化或创造性的文本，您可以设置更高的 presence penalty，如果您希望模型生成更专注的内容，您可以设置更低的 presence penalty。

与 temperature 和 top_p 一样，一般建议是改变 frequency penalty 和 presence penalty 其中一个参数就行，不要同时调整两个。

在我们开始一些基础示例之前，请记住最终生成的结果可能会和使用的大语言模型的版本而异。

大模型生成prompts

借助大模型自身来生成和优化提示词，能显著提升效率与质量，具体可遵循以下两步流程：

第一步，使用大模型生成初始版本，奠定一个高的起点。准备 30 条 query 和期望输出结果、上下文输出及文本结构介绍，清晰描述模型目标和提示词框架，交由模型生成，比自行撰写第一版更高效。

第二步，人工/大模型在多轮测试过程中优化提示词。准备测试集、当前 prompt 生成的结果，添加准确结果和备注（描述错误原因），让模型基于这些信息优化当前 prompt。

在提示词格式选择上，优先推荐使用 Markdown（md）格式，该格式不仅结构清晰、撰写便捷，还具备良好的扩展性。而 JSON 格式虽然同样结构规整，但扩展性较差，当内容过长时容易出现混乱，选择时需谨慎考量。大模型提示词技巧Prompt Engineering，看这一篇就够了

大模型生成 prompt 的格式

1，角色与任务界定（含引导语 / 指示语核心）

开头需清晰界定大模型的角色（如高级 Prompt Engineer）和具体任务（如生成高质量 Prompt、优化当前 Prompt 、基于特定场景（如 SQL 生成、维度词提取等）定制 Prompt 等等），确保大模型能精准理解并高效完成对应指令。

2，核心原则阐述

列出在执行任务过程中必须遵循的核心准则，不同场景下准则不同，例如生成 SQL 相关 Prompt 时，需严格基于提供的表结构（如中 xml 格式的表结构信息），非时间筛选条件需准确关联对应维度，同时结合客户对业务的解析（如中 csv 格式里的相关业务描述），保证生成的 SQL 符合业务逻辑与查询需求。

提取维度词时，优先提取完整词，避免拆分；修饰词与核心词绑定提取，如 “红色连衣裙” 中 “红色” 与 “连衣裙” 作为整体维度词；遵循维度知识库（如中 txt 格式的树状结构内容）中的层级关系，优先匹配高层级维度。

3，上下文处理说明：明确各类上下文信息的存储位置，使用特定标签（如、<co****ntext1>等）区分。说明不同标签内文件的类型及内容，如 csv 格式包含输入 query 与预期输出结果，xml 格式包含表结构、维度解析结果等，txt 格式包含维度知识库等，且知识库以树状结构呈现，不同维度用&&&隔开。比如：

：存储 csv 格式文件，包含输入的 query 与对应的预期输出结果，用于分析 Prompt 的有效性及优化方向。

：存储 xml 格式文件，包含表结构（字段名、数据类型、关联关系等）、维度解析结果等，为 SQL 生成类 Prompt 提供数据基础。

：存储 txt 格式文件，为维度知识库，以树状结构呈现，不同维度用 &&& 隔开，如 “产品 &&& 服装 &&& 上衣 &&&T 恤 &&&...”，用于维度词提取时的匹配依据。

其他可能的上下文标签（如等）：根据具体任务需求新增，用于存储特殊场景下的补充信息，如特殊业务规则说明等。

4，执行步骤规划

**详细描述完成任务的具体流程，如优化 Prompt 时需先分析测试结果和错误原因，**再结合知识库编写新 Prompt：

分析测试结果：对比中输入 query 与实际输出，找出与预期输出的差异。

确定错误原因：判断是大模型对指令理解偏差、信息缺失还是逻辑错误导致。

结合知识库优化：参考、中的相关信息，调整 Prompt 的表述方式、补充关键约束条件等，形成新 Prompt。

进行维度匹配时，需按精确匹配、模糊匹配、高级路径确定与验证的步骤执行，且明确各步骤的规则（如匹配范围、规则、优先级、层级顺序等）。

精确匹配：在的维度知识库中，查找与待匹配内容完全一致的维度词。

模糊匹配：若精确匹配失败，基于语义相似度（如同义词、近义词）在知识库中查找相关维度词，匹配范围限定在同一父级维度下。

高级路径确定与验证：若模糊匹配仍无结果，根据树状结构的层级顺序，向上追溯父级维度，验证其是否符合业务场景，优先级为高层级维度优先于低层级维度。

5，特殊内容说明：明确需要提取或忽略的内容，如指明需提取的维度词、忽略的具体数值、时间值等业务相关词汇。

需提取的维度词：主要为业务相关的核心概念词、类别词等，如产品类型、地区、客户群体等。

需忽略的内容：具体数值（如 “销量 1000 件” 中的 “1000”）、时间值（如 “2023 年”“3 月 15 日”）、虚词（如 “的”“了”）等不影响维度判断的词汇。

6，输出格式规定：清晰定义最终输出的格式要求，如只输出提取的维度词用逗号分隔，无有效维度词时输出 “无” 等。

提取维度词时：仅输出提取到的维度词，用逗号分隔，例如 “连衣裙，红色，春季”。

无有效维度词时：输出 “无”。

生成 / 优化后的 Prompt：以清晰、简洁的自然语言呈现，必要时可分点列出关键指令，确保大模型能直接理解执行。

fromPrompt：提示词优化与技巧

提示工程的各类技术方法

重要的工具

System Prompts and Models of AI Tools

地址：github.com/x1xhlol/sys…

优点与不足：该项目的优势体现在多个方面。首先，其资源丰富且实用性强，汇集了众多知名 AI 工具的系统提示词和模型调用配置等关键要素，内容全面且结构清晰，覆盖从基础提示词设计到复杂模型参数设置等多方面，为开发者提供了丰富参考资源，便于快速了解和学习不同 AI 工具的设计逻辑，助力更好地应用于自身项目。

除了资源本身的丰富性，它对 AI 工具开发与优化也能起到有效助力。对于 AI 工具开发者而言，这是极具价值的参考范本，开发者可借鉴其中的系统提示词设计，提升工具响应质量与功能稳定性；还能学习不同工具引导模型行为、构建多轮交互上下文的方式，进而优化产品的对话策略与功能模块构造，改善整体性能和用户体验。

不仅如此，该项目对 LLM 研究与应用也有积极促进作用。对 LLM 研究者，它提供了研究不同模型交互方式对结果影响的宝贵素材，有助于探索 Prompt 对输出的控制能力，推动大语言模型相关理论和技术发展；对教育 / 培训者，它可作为教学 / 工作坊材料，用于展示如何在不同场景设计应用 LLM 的提示词，促进相关知识和技能的传播。

值得一提的是，社区驱动与持续更新也是其显著优势。项目基于社区观察与推演整理而成，作者持续更新以保持内容与当前主流工具同步演进。这种模式使项目能不断吸收新知识和经验，及时反映 AI 工具领域的最新动态，为开发者提供最新参考信息，避免因使用过时提示词或模型配置导致项目开发问题。

不过，该项目也存在一些不足。其一，内容准确性需验证，虽然大部分提示词来源于公开产品行为、API 接口调试、工具开源内容等，但并非所有内容都是官方公开的，可能存在推测和推演成分，因此开发者使用时需结合实际产品验证，确保准确性和有效性，避免模型输出不符合预期。

其二，缺乏深入的理论分析也是一个明显短板。项目主要侧重于收集和整理 AI 工具的系统提示词及模型调用配置，对这些内容背后的理论原理和设计思路的深入分析较少。这可能导致部分开发者在理解提示词和模型配置的深层次含义，以及如何根据具体需求进行创新性设计方面存在困难，需要开发者具备一定理论基础和实践经验，才能更好地利用这些资源开展深入研究和开发。

其三，适用范围有限同样值得关注。尽管项目涵盖多种 AI 工具，但随着 AI 技术发展和新工具涌现，其收录的工具种类可能无法覆盖所有 AI 应用场景。对于一些特定领域或新兴 AI 工具，开发者可能无法从项目中找到完全匹配的参考内容，需自行探索研究以满足特定项目需求。