当前位置:首页 > 芯闻号 > 极客网
[导读]计算机科学家团队近期开发出一种更敏捷更具弹性的机器学习模型,它们可以周期性忘记已知信息,而现有大语言模型不具备忘却能力。

计算机科学家团队近期开发出一种更敏捷更具弹性的机器学习模型,它们可以周期性忘记已知信息,而现有大语言模型不具备忘却能力。

实测表明,在很多情况下,“忘却法”的训练效率很高,忘却型模型表现也会更好。韩国基础科学研究院(Institute for Basic Science)的AI工程师Jea Kwon说,新研究意味着AI领域取得明显进步。

“忘却法”训练效率很高

今天的AI语言引擎大多都是人工神经网络驱动的。网络中的每一个“神经元”都是一个数学函数,它会从其它神经元接收信号,它会运算,然后通过多层神经元发送信号。

最开始时信息流或多或少都是随机的,当网络不断与训练数据匹配,神经元之间流动的信息会不断优化。例如,如果研究人员想训练一个双语翻译模型,它首先要收集海量双语文本,用文本训练模型,它会调整神经元之间的连接,将一种语言中的文本与另一种语言中的等效单词联系起来。

上述训练会耗费大量计算力。如果模型运行时不够出色,如果后来用户的需求变了,模型会很难匹配。

新模型研究人员Mikel Artetxe说:“假设你有一个模型,里面包含100种语言,有1种语言没有被覆盖。如果你想将这种语言添加进去,那就要重新训练。”

几年前,Artetxe和同事用1种语言训练神经网络,他们抹去神经网络所知的单词组成信息,也就是所谓的“Tokens”。Tokens存储在神经网络的第一层,它也叫“嵌入层”。对于其它层,不去理睬。抹去第1语言的Tokens之后,用第2种语言训练,第2种语言新的Tokens可以填充到嵌入层。

虽然模型包含大量不匹配信息,但仍然可以用第2种语言重新训练,也就是说模型可以学习、处理第2种语言。研究人员认为,虽然嵌入层存储了第2种语言的语汇特殊信息,但神经网络更底层存储了抽象信息,它涉及到人类语言的幕后概念,正是这些概念帮助模型学习第二种语言。

研究报告作者Yihong Chen认为:“我们生活在相同的世界,用不同语言的不同词汇来赋予相同事物以概念。所以在模型之中会有相同等级的推理,比如一个苹果,它是甜的,美味的,它不只是一个词汇。”

将新语言添加到已训练模型中,采用“忘却法”效率很高,尽管如此,还是需要重新训练,仍然需要海量数据和强大的处理能力。有没有更好的办法?当然有,不需要训练,直接抹去嵌入层,然后再训练,也就是在初步训练时周期性重置嵌入层。

Artetxe称:“如此一来,整个模型就能适应重置。如果你想扩展模型,让它适应另一种语言,过程会变得更容易。”

忘却型模型表现更好

研究人员用一种比较通用的大语言模型Roberta做实验,采用周期性忘却技术训练,将它与那些用标准、非忘却方法训练的模型作比较。结果发现,在处理第1种语言时,忘却型模型得分85.1分,传统标准模型得分86.1分。再用第2种语言训练,只用约500万Tokens(第一种语言用了700亿)训练,忘却型模型的精准度得分降至62.7分,标准模型降到53.3分。

再训练时如果研究人员施加计算限制,忘却型模型的表现会更好。例如,当研究人员将训练长度从125000步短到5000步,忘却型模型的平均得分约为57.8分,标准模型降到37.2分,几乎和猜测差不多。

因此研究人员得出结论:在学习语言时,忘却型模型表现更好一些。

魁北克深度学习研究中心Mila的研究人员Evgenii Nikishin认为:“因为模型在训练时不断忘却,然后再重新学习,所以后面再教网络一些新东西时会变得更容易些。”种种迹象显示,模型理解语言时会从更深层次着眼,不只是了解单个词汇的意思。

忘却法与人类大脑的运行模式有些相似。旧金山大学神经科学家Benjamin Levy认为:“存储大量详细信息时人类记忆是相当不精准的。但人类大脑可以记住经验要点,记住抽象信息,而且擅长推断。让AI像人类一样处理信息,比如让它具备忘却能力,AI也许会更有弹性。“

Yihong Chen认为,未来也许会出现制造语言模型的工厂,这样的工厂需要忘却型技术,它是一个基本模型,可以快速适应新领域。(小刀)

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

业界应如何看待边缘人工智能?ST授权合作伙伴 MathWorks 公司的合作伙伴团队与ST 共同讨论了对边缘机器学习的看法,并与 STM32 社区分享了他们的设计经验。

关键字: AI 机器学习 处理器

业内消息,在昨天的中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标Sora...

关键字: Sora 清华 AI Vidu

OPPO今日推出 Find X7全新配色 ——「白日梦想家」,为消费者带来更多选择。新配色采用独特釉层处理工艺,焕发如白瓷般柔润细腻的光泽,带来初夏般的清爽。Find X7「白日梦想家」以敢想敢做,坚韧信念、无限潜能的信...

关键字: Find X7 大模型 AI

4月26日,MediaTek宣布推出天玑汽车平台新品,以先进的生成式AI技术赋能智能​汽车的体验革新。

关键字: AI 汽车电子

2024年4月26日,中国深圳——2024年是OPPO品牌成立20周年。在2024年世界知识产权日,OPPO正式发布首份《OPPO创新与知识产权白皮书》,系统性地展现了OPPO 20载技术创新和知识产权保护成果。

关键字: OPPO 知识产权 AI

「人工智能浪潮下的中国制造」论坛顺利召开 上海2024年4月17日 /美通社/ -- 4月12日,由百年名校法国里昂商学院主办,斯巴诺萨设计承办,福州东湖数字小镇,福建亚太合会数字经济专委会协办的"中法建交6...

关键字: 微软 雷诺 AI 中国制造业

根据调研机构Gartner的预测,由于竞相投资AI以及IT设备更换周期的到来,全球2024年的IT支出将增长8%。

关键字: GenAI IT AI

据报道,日本电信巨头软银集团将在未来两年投资1500亿日元(9.6亿美元)升级其计算设施,该计划包括大量采购英伟达GPU。

关键字: 软银 英伟达 GPU AI

4月24日消息,特斯拉CEO马斯克在最近的财报电话会议上透露,特斯拉的Optimus人形机器人预计将在今年底前具备执行“有用的”工厂任务的能力,并有望在2025年底前推向市场。这一消息引发了业界和公众的广泛关注。

关键字: 马斯克 AI 特斯拉 GPU

眼下,人工智能不仅能辅助科学研究与艺术创作,还能实现自动驾驶、打造“无人农场”和“黑灯工厂”,成为解锁新质生产力的关键钥匙。

关键字: 人工智能 AI 无人农场
关闭