提示描述任务,评分标准定义规则。以下阐述了基于评分标准的提示如何减少搜索和内容工作流程中的错误信息。
生成式人工智能(GEO)已成为搜索、内容和分析工作流程中的实用工具。但是,随着采用率的提高,一个熟悉且代价高昂的问题也随之而来:自信地输出错误的结果。
目录
该术语也称为“幻觉”,暗示人工智能模型出现故障。 但事实是:这种行为通常是可以预测的,并且是由于指令不明确造成的。或者更准确地说,是提示不明确造成的。

例如,只需提示人工智能输入“饼干配方”,仅此而已。不要询问任何关于过敏、偏好或限制条件的信息。
结果可能是七月份就出现了圣诞饼干,也可能是花生酱口味的,或者是一种平淡无奇、根本不配被称为“甜点”的食谱。这种细节的缺失会导致*终成品与预期不符。
*好预料到模型可能会出现异常行为,并通过创建明确的防护措施来预先阻止这种情况的发生。
使用评分标准可以有效地做到这一点。
我们将探讨基于评分标准的提示是如何运作的,为什么它能提高事实可靠性,以及如何将其应用于人工智能以产生更值得信赖的结果。
流畅性回答与限制回答:哪个更好?
当要求人工智能在没有关于如何处理不确定信息或缺失数据的具体指示的情况下,生成完整、完善的答案时,它通常会优先考虑流畅性而不是克制性。
也就是说,在信息不足时,要流畅地继续回答(流畅性),而不是停顿、限定或拒绝回答(克制)。
这时,人工智能就会“胡编乱造”——因为不确定性并未被设定为止步点。其后果可能造成巨大的经济损失,并损害声誉、效率和信任。
据美联社2025 年底 报道,专业服务公司德勤因一份人工智能辅助政府报告中的错误被发现包括捏造引文和错误归因的法庭引述,而被要求偿还 44 万澳元。
一位学术评论员指出:
- “错误引用法庭案例,然后捏造法官的引言……在澳大利亚政府所依赖的报告中歪曲法律。”
德勤当初是否应该放弃使用人工智能?
评估数据和生成报告是人工智能的一项强大功能。关键在于将人工智能融入工作流程,但同时也要 对其进行约束——预先定义模型在遇到未知情况时应该如何应对。
这时,评分标准就派上用场了。
评分标准在人工智能中的作用
用户通常会采取一些通用的防范措施来防止出现幻觉模式,但这些措施在实践中往往行不通。
为什么不行呢?因为它们通常描述的是结果,而不是决策过程。这就使得人工智能模型在缺乏必要信息时只能进行推断。
这时,基于评分标准的引导就显得至关重要了。
评分标准——即用于评估作品的评分指南或标准集——可能会让人感觉像是一个老式的学术概念。
想想老师们过去用来给作业评分的表格,通常会提前分享给学生,以便他们知道“好”、“还可以”和“不合格”的作业是什么样子。
人工智能评价标准基于相同的结构理念,但服务于不同的目的。
它们不是在提示后对答案进行评分,而是在回答生成过程中影响决策。
他们通过定义当无法满足所需标准时人工智能模型应该做什么来实现这一点。
通过明确定义标准,评分细则设定了清晰的界限、优先事项,甚至失败行为,从而降低了出现幻觉的风险。
编写更好的题目还不够
关于提示方面的建议通常侧重于改进措辞。一般来说,这意味着要更具体或给出更清晰的指示。甚至可能意味着引导模特采用特定的格式或语气。
这些步骤并非毫无用处,这类技巧确实可以改善表面现象,但它们无法消除幻觉的根本原因。
用户经常向人工智能模型提供结果而不是规则。
“务必准确”、“注明来源”或“只使用已核实的信息”之类的提示语听起来合情合理,但却留下了太多的解释空间。
该模型将一直处于自行决定实质性细节的阶段。
冗长或复杂的提示也可能造成目标冲突。
一个简单的提示可能要求清晰、完整、自信和快速——这些相互冲突的目标会导致模型出现默认行为,从而产生流畅且“完整”的回答。
如果没有明确的优先级排序,准确性可能会丧失或降低。
提示语可以有效地描述任务,而评分标准则可以规范任务中的决策过程。
AI 评分标准通过将决策从推理转变为明确指令来实现这一点。
评分标准能做到提示无法做到的事。
提示侧重于语气、格式和细节程度。
它们常常无法应对不确定性。信息缺失或含糊不清会迫使人工智能模型决定是停止运行、限定响应条件还是推断答案。
如果没有人的指导,推理通常会胜出。
评分标准通过设定清晰的决策界限来减少歧义。
评分标准正式定义了哪些是必需的,哪些是可选的,哪些是不可接受的。这些标准为模型提供了一个具体的框架,用于评估所有生成的输出结果。
明确确定优先级意味着人工智能模型不太可能为了保持流畅性而填补空白。
明确哪些限制条件重要的规则,可以让事实准确性优先于“完整性”或叙述流畅性。
*重要的是,评分标准定义了失败行为,即如果成功不可能,模型需要做什么。
严格的评分标准表明,模型可以承认信息缺失,给出部分答案,甚至拒绝回答,而不是胡编乱造一个词。
有效人工智能评分标准的剖析
有一句古老的谚语说“厨师太多反而会把汤煮坏”,这用来比喻制定评分标准再贴切不过了。
有效的AI评分标准无需篇幅过长或以极其详细的查询形式呈现。正如一道菜谱会因过于繁琐或口味过多而毁于一旦一样,一个过于冗长的提示也会适得其反。
过多的细节或要求会造成混乱。可靠的评估标准应侧重于少量可执行的准则,这些准则能够直接应对幻觉的风险。
一份完善的评分标准至少应包含以下内容:
- 准确性要求:明确规定哪些内容必须得到支持,哪些内容可以作为证据,以及近似值是否不可接受。
- 信息来源要求:指导是否必须提供信息来源,信息来源是否应来自提供的材料,以及如何处理相互矛盾的信息。
- 不确定性处理:明确指示当信息不可用、模糊或不完整时,模型必须做什么。
- 信心/语气限制:限制语气,以防止以肯定的语气提出推测性答案。
- 失败行为:允许并倾向于停止、限定或推迟,而不是猜测。
如何为人工智能模型创建评分标准
评分标准并不会让人工智能模型更智能,而是让它的决策过程更可靠。
以下是一个竞争分析示例,用以解释评分标准的价值:
一个团队向人工智能模型提出问题,要求其解释为什么竞争对手在搜索结果中表现优于他们,以及他们可以采取哪些措施来应对这种情况。他们的问题描述如下:
- “评估[竞争对手]在[特定主题]方面排名高于我们的原因。找出他们排名靠前的关键词、他们赢得的搜索结果页面功能,并建议对我们的内容策略进行改进。”
表面上看,这似乎合情合理。但实际上,这很容易导致幻觉。
提示缺乏具体输入,模型也没有任何约束条件。人工智能很可能凭空捏造出听起来合情合理的排名、特征和战略结论。
编写评分标准
实际上,评分标准应直接包含在题目提示中。它必须与任务本身(描述需要分析或生成的内容)明确区分开来。
然后,评分标准定义了模型必须遵循的规则才能完成其任务。
这是一个关键的区别:提示要求输出结果,而评分标准规定了如何创建该提示。
根据上文所述标准,提示语及其后的评分细则应表述如下:
- 分析[竞争对手]在[主题]方面表现优于我们网站的原因。提供见解和建议。
- 除非提示中明确说明,否则请勿声称拥有排名、流量或搜索引擎结果页面 (SERP) 功能。
- 如果缺少所需数据,请说明无法确定哪些数据,并列出所需的输入数据。
- 当证据不完整时,应提出有条件的建议。避免在没有数据支持的情况下使用*化的语言。
- 如果无法可靠地完成分析,请返回部分结果,而不是猜测。
当引入评分标准后,模型就无法进行推理。相反,它将不确定性视为一种约束条件。
评分标准和提示如何协同工作
如上例所示,评分标准并非取代题目,而是对题目的补充,通常位于题目之后。它们应被视为一种稳定机制。
提示始终负责定义任务:需要总结、分析或生成什么内容。评分标准则定义了执行该任务所遵循的规则。
实际上,题目可能会有所不同,但评分标准在类似类型的作业中相对稳定,不受主题影响。对信息来源、不确定性和失败行为的定义保持一致,从而随着时间的推移降低了错误率。
对于许多工作流程,可以直接在提示后嵌入评分标准。在其他工作流程中,评分标准可以通过程序引用或应用——例如,通过可重用的模板、自动检查或系统指令。格式并不重要,重要的是标准的清晰度。
避免过度设计
尽管评分标准有效,但也容易被滥用。用户常犯的一个错误是过度设计。
试图预见每一种可能情况的规则往往会导致规则臃肿不堪、前后矛盾。
另一个错误是添加了相互冲突的标准,却没有明确说明哪个标准优先。
评分标准必须简洁明了、分清轻重缓急,并明确规定失败行为,以减少幻觉。
像专业人士一样使用AI评分标准
像专业人士一样进行提示,关键在于预测人工智能在哪些方面会被迫进行猜测,然后定义和限制其运行方式。
评分标准可以告诉人工智能模型,当信息缺失时,模型应该放慢速度、进行限定或停止运行。这样一来,评分标准可以帮助您在工作中更好地利用人工智能,并生成准确可靠的输出结果。
