当前位置:首页 > 芯闻号 > 极客网
[导读]自诞生以来,人工智能大模型始终被“幻觉”问题困扰。这里的“幻觉”,指的是大语言模型会将虚构信息当作真实事实输出。

自诞生以来,人工智能大模型始终被“幻觉”问题困扰。这里的“幻觉”,指的是大语言模型会将虚构信息当作真实事实输出。实际上,“幻觉”这一表述相当委婉,它实则暴露出AI的核心缺陷——当前的大语言模型尚未达到真正意义上的智能水平。

就在上个月,编程工具Cursor引发一场风波。用户收到消息称,其使用政策将进行调整,未来仅支持在单台电脑上使用。然而,这条消息很快被证实为假。Cursor首席执行官兼联合创始人Michael Truell迅速出面澄清:“我们并未制定类似政策,用户完全可以在多台设备上使用Cursor。这一错误信息源于一线AI机器人的错误回复。”

此次事件不仅让用户虚惊一场,更直观展现了人工智能系统的不稳定。

幻觉成为AI进化的拦路虎

经过数年发展,尽管AI技术在诸多领域取得突破,但在判断信息真假时仍不尽如人意。即使是OpenAI、谷歌、DeepSeek等行业头部机构研发的模型也存在许多错误输出。

值得警惕的是,这些错误并未随着时间推移而减少,反而呈现增多趋势。诚然,AI在数学运算、编程领域有所提升,但在处理复杂事实性信息时依然存在明显短板,难以满足用户需求。

今天的AI实际上是根据“复杂数学系统”构建的,它们通过不断分析海量数字数据,持续优化自身性能。然而,算法系统始终存在一个根本性缺陷——无法有效区分信息真假。在一项测试中,相较于旧版AI系统,新版AI系统的“幻觉率”竟然更高,这说明AI面临严峻挑战。

Vectara专注于企业级AI工具开发,其首席执行官Amr Awadallah直言:“尽管我们倾尽全力,可‘幻觉’问题还是存在,它并没有消失。”现状表明,即便在专业团队的持续攻坚下,AI“幻觉”依然是难以攻克的技术顽疾。

Okahu致力于解决AI“幻觉”问题,其首席执行官Pratik Verma也指出:“判断AI回应是事实还是虚假需要耗费大量时间。如果不能妥善处理这些错误,就无法保证人工智能系统发挥应有价值,毕竟这些系统的设计初衷是帮助用户自动完成各项任务。”

AI企业并非不清楚“幻觉”问题的存在,它们付出了巨大努力,但始终无法有效解决这一难题。OpenAI的内部测试显示,相比老系统,它所开发的新系统“幻觉率”反而更高。

在PersonQA标准测试中,o3模型在33%的回答中产生幻觉,几乎是o1模型(16%)的两倍,而最新的o4-mini模型表现更差,“幻觉率”高达48%。若采用SimpleQA标准测试,情况同样不容乐观。o3和o4-mini的“幻觉率”分别达到51%和79%,o1模型的“幻觉率”也有44%。

OpenAI指出,AI系统从海量数据中学习,数据量之巨远超人类专家的理解能力,因此很难确定问题根源究竟在哪里。

人类恐怕不能解决AI幻觉

华盛顿大学及艾伦人工智能研究所研究人员Hannaneh Hajishirzi表示,他们找到一种新方法,能够追溯AI特定行为在训练数据中的源头。但由于系统学习的数据量过于庞大,新工具无法解释所有情况。Hannaneh Hajishirzi坦言:“我们仍然搞不清这些模型到底是如何运行的。”

Vectara近年来持续对AI系统展开测试,通过让系统总结新闻内容的方式,观察“幻觉率”的变化情况。然而,测试结果令人沮丧——“幻觉率”不仅未降低,反而呈上升趋势。

长期以来,OpenAI认定一个理念:向AI投喂的数据越多,AI就会越聪明。但如今,AI在训练时几乎耗尽所有互联网英文信息,它的幻觉却愈发严重。这一现实表明,若想突破“幻觉”困境必须探寻新的技术路径。

当前,工程师们开始倚重“强化学习”技术。在数学、编程等领域,强化学习确实能通过试错机制实现学习与进步,但在部分领域,该技术仍未带来明显改善。

此外,推理模型在解答复杂问题时会先进行“思考”,采用分步解决的策略。然而,每个思考步骤都潜藏着产生“幻觉”的风险,思考步骤越多,累积的错误也就越多,这无疑给提升AI信息准确性带来更大挑战。

如今的AI能够展示思考过程,使用户可以看到错误产生的环节,这无疑是技术层面的一大进步。然而研究人员发现,AI所展示的思考步骤可能与最终答案毫无关联。Anthropic研究人员Aryo Pradipta Gema直言:“AI系统声称自己正在思考,但它的思考有时并无必要。”

一些研究人员甚至认为,杜绝AI“幻觉”不可能实现,只能通过多种方法降低“幻觉率”。比如让AI直面自身知识盲区,主动向用户承认“我不知道”;引入“检索增强生成”技术,促使AI通过检索相关文档辅助作答,而非单纯依赖记忆数据直接输出答案。

美国东北大学体验式人工智能研究所研究人员Usama Fayyad提出,“幻觉”这一表述存在概念偏差,它过度拟人化。Usama Fayyad强调,AI生成错误信息与人类产生幻觉存在本质差异——AI既无意图,也无意识,应避免用带有情感色彩的词汇模糊技术本质。(小刀)

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭