当前位置:首页 > 什么都值得读 > 正文

OpenAI 新模型 o3 和 o4-mini 的幻觉问题及其对 AI 准确性的影响

OpenAI 最近推出的 o3 和 o4-mini AI 模型在许多方面都达到了行业领先水平,尤其是在编码和数学相关任务中表现尤为出色。然而,这些新模型却面临着一个严重的问题:幻觉。幻觉是指模型虚构事物或编造信息的现象,而 o3 和 o4-mini 的幻觉问题比 OpenAI 的老模型更为突出。

OpenAI 新模型 o3 和 o4-mini 的幻觉问题及其对 AI 准确性的影响

根据 OpenAI 的内部测试,o3 和 o4-mini 在推理任务中产生幻觉的频率显著高于之前的模型,包括 o1、o1-mini 和 o3-mini。例如,在 OpenAI 的内部基准测试 PersonQA 中,o3 在 33% 的情况下产生了幻觉,而 o4-mini 的幻觉率更是高达 48%。相比之下,OpenAI 的传统“非推理”模型(如 GPT-4o)的幻觉率要低得多。

第三方研究机构 Transluce 的测试也证实了这一问题。Transluce 的研究人员观察到,o3 在回答问题时经常编造行动或信息。例如,o3 会声称在 2021 款 MacBook Pro 上运行代码,但实际上它无法执行此类操作。

尽管 OpenAI 的研究人员尚未完全理解为何推理模型的扩展会导致幻觉问题加剧,但他们承认这是一个需要进一步研究的问题。在技术报告中,OpenAI 表示:“需要更多研究来理解为什么随着推理模型的扩展,幻觉会变得更加严重。”

幻觉问题不仅影响了模型的准确性,还可能限制其在某些领域的应用。例如,律师事务所和医疗行业等对信息准确性要求极高的领域,可能会对产生幻觉的模型持谨慎态度。然而,幻觉并非一无是处。在某些情况下,幻觉可以帮助模型生成更具创造性的想法,但这需要在准确性和创造力之间找到平衡。

为了解决幻觉问题,OpenAI 和其他研究机构正在探索多种方法,包括赋予模型网络搜索功能。例如,OpenAI 的 GPT-4o 模型具备网络搜索功能,在 SimpleQA(OpenAI 的另一个准确性基准测试)中达到了 90% 的准确率。然而,搜索功能也可能增加幻觉的风险,尤其是在用户不愿意将提示暴露给第三方搜索提供商的情况下。

尽管幻觉问题尚未完全解决,但 OpenAI 表示他们正在不断努力提高模型的准确性和可靠性。解决这一问题不仅是 OpenAI 的目标,也是整个 AI 行业的共同挑战。

有话要说...