原创

模型越新幻觉越重！AI幻觉扣住产业发展命脉

时间：2025-05-07 14:23:09

关键字：人工智能大模型 AI

手机看文章

扫描二维码
随时随地手机看文章

[导读]自诞生以来，人工智能大模型始终被“幻觉”问题困扰。这里的“幻觉”，指的是大语言模型会将虚构信息当作真实事实输出。

自诞生以来，人工智能大模型始终被“幻觉”问题困扰。这里的“幻觉”，指的是大语言模型会将虚构信息当作真实事实输出。实际上，“幻觉”这一表述相当委婉，它实则暴露出AI的核心缺陷——当前的大语言模型尚未达到真正意义上的智能水平。

就在上个月，编程工具Cursor引发一场风波。用户收到消息称，其使用政策将进行调整，未来仅支持在单台电脑上使用。然而，这条消息很快被证实为假。Cursor首席执行官兼联合创始人Michael Truell迅速出面澄清：“我们并未制定类似政策，用户完全可以在多台设备上使用Cursor。这一错误信息源于一线AI机器人的错误回复。”

此次事件不仅让用户虚惊一场，更直观展现了人工智能系统的不稳定。

幻觉成为AI进化的拦路虎

经过数年发展，尽管AI技术在诸多领域取得突破，但在判断信息真假时仍不尽如人意。即使是OpenAI、谷歌、DeepSeek等行业头部机构研发的模型也存在许多错误输出。

值得警惕的是，这些错误并未随着时间推移而减少，反而呈现增多趋势。诚然，AI在数学运算、编程领域有所提升，但在处理复杂事实性信息时依然存在明显短板，难以满足用户需求。

今天的AI实际上是根据“复杂数学系统”构建的，它们通过不断分析海量数字数据，持续优化自身性能。然而，算法系统始终存在一个根本性缺陷——无法有效区分信息真假。在一项测试中，相较于旧版AI系统，新版AI系统的“幻觉率”竟然更高，这说明AI面临严峻挑战。

Vectara专注于企业级AI工具开发，其首席执行官Amr Awadallah直言：“尽管我们倾尽全力，可‘幻觉’问题还是存在，它并没有消失。”现状表明，即便在专业团队的持续攻坚下，AI“幻觉”依然是难以攻克的技术顽疾。

Okahu致力于解决AI“幻觉”问题，其首席执行官Pratik Verma也指出：“判断AI回应是事实还是虚假需要耗费大量时间。如果不能妥善处理这些错误，就无法保证人工智能系统发挥应有价值，毕竟这些系统的设计初衷是帮助用户自动完成各项任务。”

AI企业并非不清楚“幻觉”问题的存在，它们付出了巨大努力，但始终无法有效解决这一难题。OpenAI的内部测试显示，相比老系统，它所开发的新系统“幻觉率”反而更高。

在PersonQA标准测试中，o3模型在33%的回答中产生幻觉，几乎是o1模型（16%）的两倍，而最新的o4-mini模型表现更差，“幻觉率”高达48%。若采用SimpleQA标准测试，情况同样不容乐观。o3和o4-mini的“幻觉率”分别达到51%和79%，o1模型的“幻觉率”也有44%。

OpenAI指出，AI系统从海量数据中学习，数据量之巨远超人类专家的理解能力，因此很难确定问题根源究竟在哪里。

人类恐怕不能解决AI幻觉

华盛顿大学及艾伦人工智能研究所研究人员Hannaneh Hajishirzi表示，他们找到一种新方法，能够追溯AI特定行为在训练数据中的源头。但由于系统学习的数据量过于庞大，新工具无法解释所有情况。Hannaneh Hajishirzi坦言：“我们仍然搞不清这些模型到底是如何运行的。”

Vectara近年来持续对AI系统展开测试，通过让系统总结新闻内容的方式，观察“幻觉率”的变化情况。然而，测试结果令人沮丧——“幻觉率”不仅未降低，反而呈上升趋势。

长期以来，OpenAI认定一个理念：向AI投喂的数据越多，AI就会越聪明。但如今，AI在训练时几乎耗尽所有互联网英文信息，它的幻觉却愈发严重。这一现实表明，若想突破“幻觉”困境必须探寻新的技术路径。

当前，工程师们开始倚重“强化学习”技术。在数学、编程等领域，强化学习确实能通过试错机制实现学习与进步，但在部分领域，该技术仍未带来明显改善。

此外，推理模型在解答复杂问题时会先进行“思考”，采用分步解决的策略。然而，每个思考步骤都潜藏着产生“幻觉”的风险，思考步骤越多，累积的错误也就越多，这无疑给提升AI信息准确性带来更大挑战。

如今的AI能够展示思考过程，使用户可以看到错误产生的环节，这无疑是技术层面的一大进步。然而研究人员发现，AI所展示的思考步骤可能与最终答案毫无关联。Anthropic研究人员Aryo Pradipta Gema直言：“AI系统声称自己正在思考，但它的思考有时并无必要。”

一些研究人员甚至认为，杜绝AI“幻觉”不可能实现，只能通过多种方法降低“幻觉率”。比如让AI直面自身知识盲区，主动向用户承认“我不知道”；引入“检索增强生成”技术，促使AI通过检索相关文档辅助作答，而非单纯依赖记忆数据直接输出答案。

美国东北大学体验式人工智能研究所研究人员Usama Fayyad提出，“幻觉”这一表述存在概念偏差，它过度拟人化。Usama Fayyad强调，AI生成错误信息与人类产生幻觉存在本质差异——AI既无意图，也无意识，应避免用带有情感色彩的词汇模糊技术本质。（小刀）

模型越新幻觉越重！AI幻觉扣住产业发展命脉

阿维塔、赛力斯已入股！华为引望可能成“中国博世”

Trianz与AWS达成战略合作协议，彻底改变云采用和管理方式

人工智能驱动工具SODA V将颠覆汽车市场，使汽车开发时间和成本降低90%

从容应对未知风险----解密亚马逊云科技的韧性之道

中国游戏市场开始复苏！腾讯、网易等巨头缩减在日本投资

独立自主！华为董事：致力打造不依赖西方的技术

华为张平安：数字世界话语权最终由生态繁荣决定！

中国通信服务公布2024年中期业绩

NVI技术创新联盟成立！自主生态将带动产业链高速发展

软通动力与长三角投资达成战略合作共谋数字生态新发展

海南区6家凯悦系酒店与岚图达成战略合作，共同推动新能源出行体验

安岚携手妮可•巴菲特开启疗愈之旅在秋日红叶的浪漫中疗愈身心

不惧美国封锁！华为：我们给大家提供系统、存储等

尼尔森IQ深耕中国四十载，共绘未来新篇章

第二十二届跨盈年度B2B营销高管峰会2025聚焦"营销竞取，打破市场内卷实现认知进化"

恒久动力驰骋天地美孚1号携手周冠宇邀您纵擎驰骋，劲享驾趣体验

美通社母公司Cision发布CisionOne平台，进军亚太地区媒体监测市场

移远通信推出大模型解决方案，重塑千行百业智能边界

高途公布2024年第二季度未经审计业绩

华为发布AI百校计划：培养AI人才每年获最高100万支持