大型语言模型尚无法实现推理自纠错!
2025-09-25
DL论文
00

目录

大模型无法自我纠错
核心结论
实验发现
关键数据
问题分析
对您的词槽提取任务的启示
更好的做法
什么时候自我纠错有用?
总结

https://arxiv.org/abs/2310.01798

大模型无法自我纠错

核心结论

当前的大模型在没有外部正确答案提示的情况下,无法有效自我纠错,反而经常把对的改成错的。

实验发现

研究团队测试了GPT-3.5、GPT-4等模型在数学题、常识推理等任务上的表现:

关键数据

  • 有正确答案提示时:性能提升7-15%
  • 纯靠模型自己纠错时:性能全面下降

以GPT-3.5在数学题上为例:

  • 第一次回答:75.9%正确率
  • 自我纠错后:74.7%正确率(下降了1.2%)

问题分析

模型在自我纠错时会出现:

  • 74.7%的情况:保持原答案不变
  • 8.8%的情况:把正确答案改成错误答案
  • 7.6%的情况:把错误答案改成正确答案

问题根源:模型无法准确判断自己的答案是否正确。

对您的词槽提取任务的启示

您的做法(先提取词槽,再给定义让模型纠错)很可能会:

  1. 降低整体准确率 - 模型可能把已经正确提取的词槽改错
  2. 增加不必要的计算成本 - 需要两次模型调用

更好的做法

直接在第一次提示中给出完整的词槽定义,而不是分两步:

展开代码
❌ 不推荐:先提取 → 再给定义纠错 ✅ 推荐:直接给出完整定义 → 一次性提取

什么时候自我纠错有用?

只有在有可靠外部反馈时才有效:

  • 代码生成:可以运行代码检查错误
  • 计算题目:可以用计算器验证
  • 有明确评判标准的任务

总结

这个研究颠覆了"大模型能自我改进"的常见认知。对于词槽提取这类任务,一次性给出清晰完整的指令比事后纠错更有效

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!