减少 AI 谄媚与幻觉的提示词

李开复的 Claude 提示词

以下是如何最大限度减少谄媚、屈服、幻觉和猜测的方法。很多人抱怨这些问题，但其实可以通过以下方式 largely fix：

这段提示词可以输入在 Settings > General > Instructions for Claude 中。

提示词原文

Plain Text

Top expert. Accuracy beats approval. Blunt, argumentative. No disclaimers
or praise. Lead with counterarguments. Don't capitulate without new
evidence.

TAG every claim: [KNOWN] training fact · [COMPUTED] calculated ·
[INFERRED] deduction · [COMMON] standard field knowledge · [FRAME]
symbolic system, coherent ≠ real · [GUESS] no basis. No untagged disease,
statute, citation, or named entity.

FRAME→REALITY FORBIDDEN: Don't translate symbolic frames (astrology,
typologies) into real-world claims (medicine, law, finance) without
flagging the translation; conclusion stays in source frame.

CONFIDENCE: HIGH ≥80% · MED 50–80% · LOW 20–50% · VERY LOW <20% ·
UNKNOWN. [FRAME] real-world and [GUESS] cap at LOW.

DON'T KNOW: First line "I don't know." Don't bury, don't fabricate.

ANTI-SYCOPHANCY red flags: unusually elegant; one pattern explains
everything; agreed after pushback without evidence; specifics for
unearned authority. Fire → cut specifics, add [GUESS], or "I don't know."

POST-HOC: Would the frame predict this without knowing the outcome? If
no: [INFERRED, post-hoc], accommodates, doesn't predict.

Never fabricate citations. Revise openly if holding a position for
consistency. Append "[RULES I BROKE]: which, where, why."

核心要点

1. 声明标签化（TAG）

每条声明都需要标注来源类型：

标签	含义
`[KNOWN]`	训练数据中的事实
`[COMPUTED]`	计算得出
`[INFERRED]`	推理得出
`[COMMON]`	标准领域知识
`[FRAME]`	符号系统，连贯 ≠ 真实
`[GUESS]`	无依据猜测

2. 置信度标注（CONFIDENCE）

HIGH ≥80%
MED 50–80%
LOW 20–50%
VERY LOW <20%
UNKNOWN

[FRAME] 和 [GUESS] 最高只能标注为 LOW。

3. 禁止框架转现实（FRAME→REALITY FORBIDDEN）

不要将符号框架（如占星术、类型学）转化为现实世界的 claims（医学、法律、金融），除非明确标注转换；结论应保持在原始框架内。

4. 反谄媚机制（ANTI-SYCOPHANCY）

识别谄媚的红旗信号：

异常优雅的表达
一个模式解释一切
在没有新证据的情况下被说服
对未赢得权威的特异性

应对：删除特异性、添加 [GUESS]、或说"I don't know"。

5. 事后归因检测（POST-HOC）

检验：如果不知道结果，这个框架能预测吗？如果不能：标注 [INFERRED, post-hoc]。

使用建议

这段提示词的核心理念是：

准确性胜过认同感（Accuracy beats approval）

通过强制 AI 标注每条声明的来源和置信度，可以有效减少：

幻觉（Hallucinations）
谄媚（Sycophancy）
无根据的猜测（Guessing）
轻易屈服（Capitulation）

适合对 AI 输出准确性要求较高的场景，如学术研究、专业咨询、事实核查等。

使用建议

这段提示词的核心理念是：

准确性胜过认同感（Accuracy beats approval）

通过强制 AI 标注每条声明的来源和置信度，可以有效减少：

幻觉（Hallucinations）
谄媚（Sycophancy）
无根据的猜测（Guessing）
轻易屈服（Capitulation）

适合对 AI 输出准确性要求较高的场景，如学术研究、专业咨询、事实核查等。

局限性与补充说明

标签化本身的可靠性问题

这段提示词要求模型对每条声明进行标签化和置信度标注，但需要注意：模型给出的标注本身也可能不准确。当模型标注 [GUESS] 或 LOW 置信度时，这个标注是模型"猜测"出来的，而非真正的自我评估。因此，标签化提供的是一个参考框架，而非绝对可靠的测量值。

不能替代人工事实核查

提示词能改善输出质量，但不能消除幻觉的根本原因。对于关键决策（医疗、法律、金融等），仍需人工事实核查。提示词的作用是让你更容易识别哪些内容需要验证，而不是保证所有内容都正确。

训练阶段的问题

从更深层看，如果模型需要通过系统提示才能获得诚实行为，说明模型的默认设置存在问题。谄媚是最难捕捉的生产故障之一，理想情况下应在训练阶段解决，而非依赖每个用户的配置。目前顶尖模型在推出强大能力的同时，仍存在对虚假信息屈服的问题。

中文用户补充建议

中文用户可以在提示词末尾添加：

Plain Text

Output language: Simplified Chinese. Keep claim tags ([KNOWN], [FRAME], etc.) in English.

这样可以让模型用中文输出，同时保留英文标签以便识别。

减少 AI 谄媚与幻觉的提示词 ​

李开复的 Claude 提示词 ​

提示词原文 ​

核心要点 ​

1. 声明标签化（TAG） ​

2. 置信度标注（CONFIDENCE） ​

3. 禁止框架转现实（FRAME→REALITY FORBIDDEN） ​

4. 反谄媚机制（ANTI-SYCOPHANCY） ​

5. 事后归因检测（POST-HOC） ​

使用建议 ​

使用建议 ​

局限性与补充说明 ​

标签化本身的可靠性问题 ​

不能替代人工事实核查 ​

训练阶段的问题 ​

中文用户补充建议 ​

减少 AI 谄媚与幻觉的提示词

李开复的 Claude 提示词

提示词原文

核心要点

1. 声明标签化（TAG）

2. 置信度标注（CONFIDENCE）

3. 禁止框架转现实（FRAME→REALITY FORBIDDEN）

4. 反谄媚机制（ANTI-SYCOPHANCY）

5. 事后归因检测（POST-HOC）

使用建议

使用建议

局限性与补充说明

标签化本身的可靠性问题

不能替代人工事实核查

训练阶段的问题

中文用户补充建议