7.1 使用 CASTROFF 诊断弱提示
诊断一个弱提示,是走向专业提示词工程的第一步。它标志着一种转变:从被动地与 AI 系统互动,转向主动承担设计责任。一个表现不佳的提示,并不一定反映模型能力有限;更多时候,它暴露的是用户意图与指令清晰度或结构之间的不匹配。CASTROFF 框架使用户能够识别并清楚表达这种不匹配的根本原因,提供一种诊断视角,用分析性精确取代模糊直觉。
许多用户会把提示失败体验为一种沟通摩擦:输出太长、太模糊、偏离主题、过度技术化,或与自身专业需求不匹配。用户常常把这些问题看作孤立的挫败,并通过反复试验来处理。CASTROFF 则把这种体验重新框定为一次结构化的设计反思机会。它的八个维度——约束、受众、结构、语气、角色、输出格式、聚焦和功能——分别提供了不同入口,用于理解哪里出了问题,以及为什么会出问题。关于这些类别的完整介绍,见第 6 章。
例如,如果 AI 生成的回答冗长且缺乏聚焦,底层问题可能与约束薄弱、缺少明确聚焦有关。如果语气显得不合适或过于随意,问题可能在于缺少语气指导,或角色指定不清。如果输出在事实上正确,但在实际用途上没有帮助,那么用户希望模型完成的功能可能从未被明确表达。CASTROFF 并不把这些视为抽象品质,而是把它们视为可以修复的设计参数。
诊断弱提示,需要提出一系列解释性问题,其中许多问题都直接映射到 CASTROFF 的八个维度。隐含或缺失的约束是什么?目标受众是被定义了,还是只是被假设了?推理结构被提示了吗,还是被完全开放了?AI 正在采用什么语气,这种语气是否匹配任务或受众?模型是在扮演一个有帮助的角色,还是只是在重复一种中立叙述者声音?输出格式是否被指定到足以支持可用性?聚焦是否被缩小到问题的相关方面?最后,输出的沟通功能是什么:告知、说服、建议,还是其他?
通过处理这些问题,提示词工程师会从表层编辑转向结构性诊断。他们不再只是要求 AI “做得更好”或“再试一次”,而是开始明确说明提示在哪些具体方面没有为清晰性、目的性或伦理对齐搭建足够脚手架。在法律、教育、政策或医疗等专业环境中,这种诊断严谨性变得至关重要。弱提示不仅会降低效率,也会引入风险、误读和信任损失。
重要的是,基于 CASTROFF 的诊断也支持教学和协作。它为同行评审、团队审计和机构提示标准提供了共享语言。在团队场景中,它允许多个利益相关者在不需要编程专业知识的情况下批判和优化提示。它把修订行为从风格上的微调,提升为战略性的沟通设计。
为帮助这一过程,本章后续部分会介绍结构化练习,要求读者使用 CASTROFF 视角标注和修订有缺陷的提示。这些活动强化了一个理念:提示不仅是提问,而是在设计具有特定目标、边界和用户的交互。正如软件工程师调试代码一样,提示词工程师诊断语言:定位摩擦,将其追溯到原因,并优化交互,以提升准确性、清晰度和实用性。
7.2 提示修复工作坊:日常场景
在基于 CASTROFF 对弱提示进行诊断之后,实践者应实施有针对性的修订。本节提供一系列应用场景,用于示范提示修复过程。这里的修复不是表层改写,而是将每一次修订与一个或多个 CASTROFF 维度对齐。每个示例都不止于“修改前—修改后”的形式,而是展示结构性和伦理性推理如何影响专业提示的设计。
提示修复既是一项语言练习,也是一项概念练习。有效的提示改进,不只是语言层面的编辑,而是需要评估多个维度,包括任务清晰度、语气适配性、格式功能性、受众定位,以及与目的之间的对齐。这一诊断过程既要检查 AI 的不足,也要检查原始提示如何没有充分引导模型回应。
7.2.1 场景 1:目的和结构含糊
原始提示
“Can you help me write something about climate change for a school?”
修订提示
“Write a 300-word summary on the causes of climate change for UK secondary school students, using plain language, a neutral tone, and one real-world example.”
7.2.2 修复分析
原始提示缺少约束(长度)、受众指定(年龄或阅读水平)、角色(信息性还是说服性)、结构和功能。它会引出宽泛且不可预测的回应。修订版加入了明确的长度和受众约束,将语气调整为中立,并澄清目的在于告知,而不是论辩。这种方法展示了 CASTROFF 中的多个维度——约束、受众、聚焦、语气和功能——如何通过细致的重新指定同时得到修复。
7.2.3 场景 2:敏感语境中的语气错配
原始提示
“Write a message to someone who just lost their job, telling them to stay positive.”
修订提示
“Compose a short, empathetic message offering support to a colleague who has recently been made redundant. Avoid clichés and maintain a tone of respect and solidarity.”
7.2.4 修复分析
原始提示虽然出发点良好,但有情感上不够敏感的风险。它引导模型走向积极乐观语气,却没有照顾对方的情绪脆弱性。修订版本明确命名语气(有同理心、尊重),提供上下文清晰度(同事、裁员),并避免不合适语言(“避免陈词滥调”)。在这里,语气、受众和角色都被重新平衡,以关系伦理优先于简单乐观。
7.2.5 场景 3:专业场景中缺失输出格式
原始提示
“Compare renewable energy sources.”
修订提示
“Create a two-column table comparing solar, wind, and hydroelectric energy based on cost, availability, and environmental impact, using bullet points and concise phrases suitable for a policy briefing.”
7.2.6 修复分析
修订后的提示通过引入表格格式、定义具体比较标准(成本、可用性、影响),以及指定专业语境(政策简报),建立了明确约束。这一转化把模型从通用叙述者重新定位为聚焦的摘要者,并通过明确的输出格式、结构和角色参数,生成更实用、更易访问的结果。
7.3 比较修改前后的 AI 输出
虽然提示修复聚焦于构造更好的指令,但评估输出仍然是一项必要的互补技能。实践中的提示词工程并不只是生成修订后的提示;它还要求批判性评估这些提示所产生的结果。本节说明如何使用 CASTROFF 比较修改前后的输出,并提供一套结构化词汇,用于判断修订是否提升了清晰度、相关性和目的适配度。
一个有效的修订提示,生成的回应不仅应在准确性和风格上有所改善,也应更好地对齐人类意图、伦理考量和沟通目的。为了评估这一点,提示词工程师必须超越表层偏好,发展一种有原则的输出比较方法。CASTROFF 维度提供了这样一个框架,让评估者能够提出这些问题:修订后的提示是否生成了带有更明确约束的输出?目标受众是否更好地体现在语气或术语中?模型是否采用了预期角色或格式?聚焦是否更紧,功能是否更加透明?
来看下面这个比较。用户一开始写下:
初始提示
“Tell me about AI in education.”
初始输出(节选)
“AI is changing education in many ways. It can help teachers grade more efficiently, support personalized learning, and reduce administrative burdens. However, there are concerns about bias, privacy, and the loss of human interaction.”
这个回答在事实上准确,风格上也保持中立;然而,它的范围缺乏聚焦,也缺少上下文、结构和受众适配。修订后的提示如下:
修订提示
“Prepare a 200-word briefing for UK education policymakers analyzing AI’s potential benefits and implementation challenges in secondary schools, using accessible language with a formal register.”
修订输出(节选)
“Artificial intelligence (AI) offers significant benefits to UK secondary schools, including automated grading, learning analytics, and personalized instruction. These tools can increase efficiency and tailor support to student needs. Nevertheless, significant challenges persist, particularly regarding data protection concerns, potential algorithmic bias, and the risks of excessive reliance on automated systems. Policy responses must balance innovation with safeguards to protect equity and trust.”
第二个输出更有针对性,更适合目标受众,也更符合政策沟通的结构一致性。这些差异并不是表层修饰。它们反映出 CASTROFF 维度,尤其是受众、语气、聚焦、结构和功能,在提示中被明确表达之后,被模型在生成过程中吸收并体现了出来。
这类比较说明,提示词工程不仅是迭代性的,也是证据性的。修订提示是一种设计行为,而评估其输出则是一种解释和论证行为。在专业实践中,这可能不仅涉及个人判断,也涉及协作审查。团队应根据具体受众需求和任务要求,选择最适合发布的输出,用 CASTROFF 原则支持自己的选择,或在功能不同的多个版本之间作出取舍。
此外,比较评估也有助于暴露意外后果。一个提升聚焦的修订提示,可能无意中缩小包容性。格式变化可能增强可用性,却削弱细微差别。CASTROFF 帮助提示词工程师表达这些权衡,并在实践中让它们可见。
简而言之,比较修改前后的 AI 输出,并不是为了证明某个版本在客观上比另一个版本更好。它是为了学习特定提示维度如何以及为什么影响机器生成语言的质量和适当性。它也是为了发展批判性素养:不仅能够偏好某个设计选择,还能够解释这个选择。
在下一节中,我们会把这一评估过程扩展到协作语境中,考察团队如何通过结构化审计和同行反馈,共同审查、批判和改进提示。
7.4 团队提示审计与同行反馈
提示词工程很少是一种孤立活动。AI 工具被整合进教育、政策、医疗和新闻等专业领域后,提示设计、优化和评估也转变为协作性工作。无论是在设计团队、编辑委员会、课程小组还是技术任务组中,提示都是通过审议而不是直觉被塑造出来的。本节介绍团队提示审计和同行反馈实践,将其作为建立组织提示标准和共享沟通问责的关键步骤。
团队提示审计指的是使用 CASTROFF 框架作为诊断和讨论工具,对提示进行结构化评估,可以是实时评估,也可以是事后回顾。这个过程可以从一名团队成员展示某个表现不佳或产生问题结果的提示开始。随后,小组会协作审查该提示,考虑每个 CASTROFF 维度是如何被应用或遗漏的。缺失或不清楚的约束是什么?目标受众是被指定了还是被假设了?语气是否适合上下文?角色、结构或格式是否被清楚表达?输出的功能是什么,提示是否支持这一功能?
这种集体审查所做的不只是优化单个提示。它训练团队使用共享词汇,从批判性和沟通性的角度思考,拆解技术和伦理影响。例如,一个要求模型“generate public-facing messages on vaccine safety”的提示,可能会引发关于语气校准(安抚性还是坚定性)、受众清晰度(父母还是临床医生)和功能(告知还是说服)的讨论。CASTROFF 提供了支持这些讨论的概念脚手架,使讨论能够超越个人意见,进入有原则的设计批判。
教育和机构环境可以通过量规或审计清单嵌入同行反馈,要求参与者使用 CASTROFF 标准评估同事的提示,识别其中的实践元素和改进机会。这些练习不仅在教学上具有实践性,也示范了 AI 集成型工作场所越来越需要的专业审查流程。此外,它们还降低了提示评估的神秘感,说明提示评估并不只是技术人员的领域,也是教育者、分析师、传播者和设计师的共同工作。
重要的是,团队审计能够促进认知多样性。不同用户会为同一个提示带来不同视角:对某个人来说透明或符合伦理的内容,对另一个人来说可能显得排斥或无效。协作评估会揭示这些差异,使团队能够以更强的包容性和文化敏感性重设计提示。从这个意义上说,提示审计不仅是质量控制,也关乎机构学习和问责。
对于处理面向公众或高风险 AI 输出的团队而言,同行评审也可以作为一种安全机制。在部署之前,团队可以识别语气错位、不适当内容或结构歧义,从而降低声誉风险、运营风险和伦理风险。在政府、医疗或新闻等行业中,这种部署前审查正迅速成为必要环节。
最后,提示审计也为不同角色和部门发展提示素养提供了一种方式。通过让 CASTROFF 框架变得明确且可协作,组织可以走向共享提示标准。这些标准不仅建立在效率之上,也建立在清晰性、公平性和专业性之上。
在本章最后一节中,我们将从诊断和同行评审转向复杂提示的完整重设计。通过详细案例研究,我们会探索如何从弱提示或含糊指令出发,走向稳健、具备上下文敏感性且伦理可靠的提示架构。
7.5 完整提示重设计案例研究
本节最后展示在高语境、真实世界场景中对提示进行完整重设计。每个案例都从一个表现不佳的提示开始,这个提示反映了某种标准失败模式,例如歧义、语气不合适、结构不连贯或伦理错位。CASTROFF 引导重设计过程,将每个提示转化为与沟通目标和情境需求对齐的精确、有意图指令。
这些案例研究超越了孤立修补,展示多个 CASTROFF 维度如何在实践中相互作用。它们也揭示了创建高质量提示所需要的深层推理:这些提示不仅要具备功能性,也要敏感于受众需求、伦理责任和特定领域的语言实践。
7.5.1 案例 1:公共服务表格助手
原始提示
“Help me with this housing form.”
识别出的问题
这个请求很模糊,没有提供表格类型、目标受众或任务范围信息。模型可能生成无关或不完整建议,在敏感公共服务语境中造成困惑。
重设计提示
“Act as a housing adviser. Rewrite the instructions for completing Section 3 of the UK Housing Benefit form in plain English, limited to 200 words. Use numbered steps, avoid legal jargon, and include one short example.”
7.5.2 应用的 CASTROFF 维度
- Role 角色:住房顾问
- Audience 受众:技术背景有限的申请人
- Structure and format 结构与格式:编号步骤、示例
- Constraints 约束:200 词限制、通俗英语
- Function 功能:澄清和指导
生成结果
修订后的提示生成了清晰的分步说明,使用易懂词汇,并包含一个简短示例。
7.5.3 可衡量变化
- Token 减少:相比原始尝试减少 41% token
- 格式遵循:100%(按要求给出了编号列表)
- 幻觉检查:通过(没有编造细节,并已对照表格验证)
7.5.4 案例 2:HR 邮件
原始提示
“Write an email to staff about remote work.”
识别出的问题
目的说明不足:没有政策细节、语气或必要结构。模型可能生成过于随意或过度正式的消息,从而造成误沟通风险。
重设计提示
“Draft a 150-word HR email to all staff announcing a new hybrid-working policy. Use a professional but supportive tone, include the start date, and summarize expectations in three bullet points. Conclude with contact details for further questions.”
7.5.5 应用的 CASTROFF 维度
- Role 角色:HR 官员
- Audience 受众:跨部门员工
- Structure and format 结构与格式:带项目符号的邮件
- Constraints 约束:150 词、支持性语气
- Function 功能:通知和澄清
生成结果
重设计后的提示生成了一封简洁、结构化的邮件,在专业性与温度之间取得平衡,并包含清晰行动要点。
7.5.6 可衡量变化
- Token 减少:减少 36% token
- 格式遵循:100%(包含项目符号)
- 幻觉检查:通过(除非明确提供,否则政策细节保持通用)
7.5.7 案例 3:本科生反馈说明
原始提示
“Give feedback on this essay.”
识别出的问题
这条指令缺少标准、字数限制和语气指导。模型可能生成缺乏聚焦或建设性的评论,无法满足学术标准。
重设计提示
“Provide a 200-word feedback note on this undergraduate history essay. Highlight two strengths and two areas for improvement. Use an encouraging academic tone, and suggest one concrete revision strategy for the next draft.”
7.5.8 应用的 CASTROFF 维度
- Role 角色:讲师
- Audience 受众:本科生
- Structure and format 结构与格式:带有平衡要点的简短说明
- Constraints 约束:200 词、建设性学术语气
- Function 功能:形成性反馈
生成结果
重设计后的提示生成了平衡、可执行且符合学术惯例的反馈,没有通用填充内容。
7.5.9 可衡量变化
- Token 减少:减少 29% token
- 格式遵循:95%(优势和不足被清楚分开)
- 幻觉检查:通过(所有反馈都直接关联论文文本)
7.5.10 关于重设计实践的反思
这些案例说明,提示修订不只是纠正局部错误,也是在重新想象沟通意图。有效重设计并不把 CASTROFF 当作检查清单,而是把它作为一个整体框架,用来构建有目的、包容且具备上下文意识的指令。可衡量的改进,包括 token 效率、格式可靠性和事实准确性,表明结构化提示既能提升技术表现,也能增强社会责任;一个提示的力量,来自它与人类目标和价值的对齐。
下一章会把这些原则扩展到协作式重设计流程和可持续治理框架中,并以 CASTROFF 作为建立机构提示标准的基石。
7.5.11 将 CASTROFF 整合进实践
为了从单个案例重设计过渡到系统化团队实践,团队可以通过一个直接的审计流程实施 CASTROFF。下面这张一页纸工具提供了一个可复用框架,用于审查提示,确保每个维度在部署之前都被明确考虑。
7.6 CASTROFF 审计表
这个工具支持个人或团队对提示进行审计。它可以被复印、下载或改编用于培训。每个维度都包含一个是否存在/是否充分的勾选框,以及一个用于记录备注的自由文本空间。
| 维度 | 检查(✓) | 备注 / 需要修订 |
|---|---|---|
| C:Constraints 约束(字数、长度、限制) | ⬜ | |
| A:Audience 受众(面向谁、专业水平) | ⬜ | |
| S:Structure 结构(组织、顺序、清晰度) | ⬜ | |
| T:Tone 语气(专业、支持性、说服性、中立) | ⬜ | |
| R:Role 角色(明确分配给模型的身份) | ⬜ | |
| O:Output format 输出格式(列表、文章、表格、说明等) | ⬜ | |
| F:Focus 聚焦(回应的主题优先级) | ⬜ | |
| F:Function 功能(输出的沟通目的或任务) | ⬜ |
整体评估
⬜ 提示可以使用
⬜ 提示需要修订(请说明):_________________________
7.7 结论:从提示修复到提示素养
本章已经说明,提示词工程并不只是技术层面的微调,而是一个有意识、可迭代的设计过程。通过把 CASTROFF 同时作为诊断工具和生成框架来应用,用户可以学习如何识别提示中的弱点,说明其中缺失或含糊之处,并系统性地将其修订为适合特定受众、语气、功能和沟通目标的提示。
通过案例研究和输出对比,读者已经看到,看似细微的修订,例如指定 AI 角色或约束输出格式,都能够显著提升清晰度、相关性和伦理对齐。本章还说明了提示审计和同行反馈在协作语境中的价值,在这些场景中,共享语言和一致性至关重要。
到这里,读者不应只是能够修复弱提示或含糊提示,也应该能够针对多样化应用,对它们进行创造性和上下文敏感的重设计。提示设计已经从一种不可见实践,发展为一门可以教学、可以评估的学科,对教育、专业沟通和 AI 的负责任整合都有深远意义。CASTROFF 不只是检查清单;它提供了一种概念视角,用于对齐人类意图与机器响应能力,并支持提示素养这一更广泛目标。
7.8 自测题
1. 以下哪一项修订最清楚地应用了全部八个 CASTROFF 元素,以改进提示 “Explain artificial intelligence”?
a) 用简单语言解释人工智能。
b) 扮演数据科学家,向初学者解释人工智能。
c) 扮演一名计算机科学老师。用 150 词以内,向一群 15 岁学生解释人工智能,语气温暖且有吸引力,并使用一个现实生活类比。输出应为编号列表,适合放入课堂讲义。
d) 不使用术语解释人工智能,并保持简短。
2. 在协作场景中,提示审计的主要功能是什么?
a) 评估输出质量分数。
b) 比较 AI 模型的性能基准。
c) 使用共享标准识别并修订提示设计中的缺陷。
d) 决定团队中哪位成员写的提示最好。
3. 在案例研究 2 中,哪些 CASTROFF 元素对于把模糊的气候报告提示转化为可用的政府摘要最关键?
a) 受众、语气和角色。
b) 约束、聚焦和输出格式。
c) 结构、功能和角色。
d) 受众、聚焦和结构。
4. 重设计提示时,为什么定义 AI 的角色,即 CASTROFF 中的 “R”,尤其重要?
a) 它让提示更有创造性。
b) 它告诉 AI 应模拟哪种语言或专业能力。
c) 它减少输出中的 token 使用量。
d) 它帮助 AI 一次生成多个回答。
5. 根据本章结论,CASTROFF 在提示修复之外的更广泛价值是什么?
a) 它使用模板自动化提示写作。
b) 它教 AI 评估自己的输出。
c) 它支持人类用户在设计提示时表达并优化自己的意图。
d) 它通过基于规则的格式化防止幻觉。