当前位置:首页 > 物联网 > 智能应用
[导读]大型的语言模型(LMS),比如gpt-3、gpt-4,或者谷歌的伯特,已经成为人工智能(AI)如何理解和处理人类语言的一个重要组成部分。但是在这些模型背后隐藏着一个很容易被忽视的过程: 符号化 .本文将解释什么是符号化,为什么它如此重要,以及它是否可以避免。

大型的语言模型(LMS),比如gpt-3、gpt-4,或者谷歌的伯特,已经成为人工智能(AI)如何理解和处理人类语言的一个重要组成部分。但是在这些模型背后隐藏着一个很容易被忽视的过程: 符号化 .本文将解释什么是符号化,为什么它如此重要,以及它是否可以避免。

想象一下,你正在阅读一本书,而不是单词和句子,整个文本只是一堆没有空格或标点符号的大字母。什么都说不通!这就是计算机处理原始文本的方式。为了使机器能够理解语言,文本需要被分解成更小的、可消化的部分.

什么是符号化?

符号化 将文本分解成更小的块的过程,对模型来说更容易理解。这些块可以是:

· 语言 : 大多数自然语言单位(例如:,"我","我","快乐"。

· 子词 当模型不知道整个单词时,较小的单元会起作用。,"跑","宁"中的"跑"。

· 人物 ::在某些情况下,单独的字母或符号(例如:、"A"、"B"、"C")。

为什么我们需要代币?

我们来举个例子:

" 一只敏捷的棕色狐狸跳过了那只懒狗 ."

计算机把这句话看作是一长串字母: Thequickbrownfoxjumpsoverthelazydog .

如果我们不把它分解成更小的部件或者 代币 .以下是这个句子的符号化版本:

1.字级符号化 :

· ["The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog"]

2.分字形化 :

· ["The", "qu", "ick", "bro", "wn", "fox", "jump", "s", "over", "the", "lazy", "dog"]

3.字符级符号化 :

· ["T", "h", "e", "q", "u", "i", "c", "k", "b", "r", "o", "w", "n", "f", "o", "x", "j", "u", "m", "p", "s", "o", "v", "e", "r", "t", "h", "e", "l", "a", "z", "y", "d", "o", "g"]

然后模型从这些标记中学习,了解模式和关系。没有令牌,机器就不知道一个词的起点和终点,也不知道一个词的哪一部分是重要的。

符号化如何在LLMS中运作

大型语言模型 不要像人类那样"理解"语言。相反,他们分析文本数据中的模式。符号化对这一点至关重要,因为它有助于将文本分解为一个易于模型处理的表单。

大多数LLMS采用特定的符号化方法:

字节对编码(BPE)

这个方法将字符或子词组合成常用的组。例如,"跑"可以分为"跑"和"宁。BPE对于捕捉子字形层次的模式很有用。

字句

伯特等模型都采用了这种标记化方法。它的工作原理与BPE相似,但基于它们在上下文中的频率和意义构建标记。

句子部分

这是一种更通用的符号化方法,可以处理没有明确的单词边界的语言,如汉语或日语。

符号化如何在LLMS中运作

文本分解的方式可以显著地影响LRAM的性能。让我们来分析一下为什么符号化是必要的一些关键原因:

高效加工

语言模型需要处理大量的文本。标记化将文本减少为可管理的片段,使模型更容易处理大型数据集,而不会使内存耗尽或不堪重负。

处理未知词

有时候,模特会遇到以前没见过的词。如果模型只懂得整个单词,遇到一些不寻常的东西,比如" supercalifragilisticexpialidocious ,"它可能不知道该怎么做。子词符号化可以帮助将这个词分解成更小的部分,如"超级"、"卡利"和"弗拉格",这样模型就有可能理解它。

多种语言和复杂文本

不同的语言以独特的方式构成单词。符号化有助于用不同的字母来分解语言中的单词,比如阿拉伯语或汉语,甚至处理复杂的事情,比如社交媒体上的标签(#后后文)。

符号化如何帮助

让我们来看看符号化是如何帮助模型处理一个复杂单词的句子的。

想象一个语言模型给出了这句话:

" 人工智能正在以前所未有的速度改变工业 ."

没有符号化,模型可能难以理解整个句子。但是,当被标记为:

有符号的版本(子词) :

· ["Artificial", "intelligence", "is", "transform", "ing", "industr", "ies", "at", "an", "unprecedented", "rate"]

现在,尽管"转换"和"产业"可能是个棘手的词,但模型将它们分解为更简单的部分("转换"、"ING"、"INSTR"、"IES")。这使模型更容易向它们学习。

符号化的挑战

虽然符号化是必要的,但它并不完美。有一些挑战:

没有空格的语言

有些语言,如汉语或泰语,在单词之间没有空格。这使得符号化变得困难,因为模型必须决定一个词的结尾和另一个词的开头。

含糊不清的话

当一个词有多重含义时,符号化会很困难。例如,"铅"一词可能是指金属或负责人。符号化过程不能总是仅仅根据符号来确定正确的意义。

罕见的话

LMS经常遇到罕见的词汇或发明的术语,特别是在互联网上。如果一个单词不在模型的词汇表中,那么符号化过程可能会将其划分为笨拙或无用的符号。

我们能避免符号化吗?

考虑到它的重要性,下一个问题是,是否可以避免符号化。

理论上,可以通过在字符级别直接工作来构建不依赖于符号化的模型(即:,把每一个角色都当作象征)。但这种办法有缺点:

较高的计算费用

使用字符需要更多的计算。模型需要处理数百个字符,而不是仅仅处理一个句子的几个令牌。这大大增加了模型的内存和处理时间。

失去意义

人物本身并不总是有意义。例如,"苹果"中的字母"A"和"猫"中的"A"是一样的,但这两个词有完全不同的含义。没有标记来引导模型,人工智能就很难掌握上下文。

也就是说,一些实验模型正试图远离符号化。但是现在,符号化仍然是LLMS处理语言的最有效的方法。

结论

符号化看起来似乎是一个简单的任务,但它对于大的语言模型理解和处理人类语言是至关重要的。没有它,LLMS将很难理解文本,处理不同的语言,或处理罕见的单词。虽然一些研究正在寻找替代符号化的方法,但目前,它是LLMS工作方式的重要组成部分。

下一次你使用语言模型时,不管是回答问题、翻译课文还是写诗,记住:一切都是通过符号化实现的,它将单词分解成部分,这样人工智能就能更好地理解和回应。

主要措施

· 符号化是将文本分解成更小、更容易处理的片段的过程。 代币 .

· 符号可以是单词、子单词或单个字符。

· 符号化对于模型有效处理文本、处理未知单词和跨语言工作至关重要。

· 虽然存在替代品,但标记化仍然是 现代LLMS .


本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭