当前位置:首页 > 物联网 > 智能应用
[导读]去年,我们目睹了大型AI的爆炸性崛起,产生了全球性的热情,使人工智能看起来像是所有问题的解决方案。今年,随着大肆宣传的减弱,大型模型进入了更深层次,目的是重塑各个行业的基本逻辑。在大数据处理领域,大型模型与传统ETL(提取、转换、负载)流程之间的冲突引发了新的争论。

去年,我们目睹了大型AI的爆炸性崛起,产生了全球性的热情,使人工智能看起来像是所有问题的解决方案。今年,随着大肆宣传的减弱,大型模型进入了更深层次,目的是重塑各个行业的基本逻辑。在大数据处理领域,大型模型与传统ETL(提取、转换、负载)流程之间的冲突引发了新的争论。

大型模型 特点是"transformer",而ETL依靠的是"转换"过程--类似的名称代表了截然不同的范式。一些声音大胆预言: "ETL将在未来完全被替换,因为大型模型可以处理所有数据!" 这是否意味着几十年来支持数据处理的ETL框架的结束?还是仅仅是一个被误解的预言?这场冲突的背后是对科技未来的更深刻的思考。

大数据处理(ETL)会消失吗?

随着大型模型的迅速发展,一些人开始推测传统的大数据处理方法,包括ETL,是否仍然有必要。无可否认,能够自主学习规则并从大量数据集中发现模式的大型模型给人留下了深刻印象。不过,我的答案很明确: 他不会消失的。 大型模型仍未能应对若干核心数据挑战:

1. 效率问题

尽管大型模型在特定任务中表现出色,但却要付出巨大的计算成本。训练大型transformer模型可能需要数周时间,耗费大量能源和财政资源。相比之下,ETL依赖于预先定义的规则和逻辑,是高效的,资源轻,擅长处理结构化数据。

对于日常企业数据任务,许多操作仍然是由规则驱动的,例如:

· 数据清理 :使用明确的规则或正则表达式消除异常。

· 格式转换 *使格式标准化,以便利数据传输和跨系统整合。

· 集合和统计 :每日、每周或每月分类、聚合和计算数据。

这些任务可以由ETL工具快速处理,而不需要大型模型的复杂推理能力。

2. 自然语言含糊不清

大型模型在 自然语言处理 但也暴露了固有的挑战--人类语言的含糊和含糊。例如:

· 单个输入查询可能会根据上下文产生不同的解释,无法保证准确性。

· 数据质量的差异可能导致模型产生与实际需求不一致的结果。

相反,ETL是确定性的,根据预先定义的规则处理数据,以产生可预测的、标准化的输出。在金融和医疗等高需求领域,ETL的可靠性和精确性仍然是至关重要的优势。

3. 强适应结构化数据

大型模型善于从非结构化数据中提取见解(例如:,文本,图像,视频),但经常与结构化数据任务斗争。例如:

· 传统的ETL有效地处理关系数据库,处理连接和组BYS等复杂的操作。

· 大型模型要求数据在处理之前转换成特定的格式,从而引入了冗余和延迟。

在结构性数据主导的情况下(例如:表,JSON),ETL仍然是最佳选择。

4. 解释和顺从

大型模型常被称为"黑匣子"。"即使数据处理工作完成,其内部工作和决策机制仍不透明:

· 无法解释的结果 :在金融和医疗等监管行业,大型模型的预测可能因缺乏透明度而无法使用。

· 遵守方面的挑战 :许多行业需要对数据流和处理逻辑进行全面审计。大型模型及其复杂的数据管道和决策机制构成了重大的审计挑战。

相比之下,ECL提供了高度透明的流程,记录了每一个数据处理步骤并进行了审计,确保遵守公司和行业标准。

5. 数据质量和输入标准化

大型模型对数据质量高度敏感。噪音、异常或非标准化投入会严重影响其性能:

· 数据噪音 :大型模型无法自动识别错误数据,可能将其用作"学习材料",并产生有偏见的预测。

· 缺乏标准化 :将未经清理的原始数据输入大型模型可能会导致不一致和值缺失,这就需要像ETL这样的预处理工具。

ECL确保数据在输入大型模型之前得到清理、复制和标准化,保持高数据质量。

尽管大型模型在许多领域都很出色,但它们的复杂性、对高质量数据的依赖、硬件的需求以及实际的局限性,确保了它们不能完全取代ETL。ETL作为一种确定性、高效和透明的工具,将继续与大型模型共存,为数据处理提供双重保障。

共同国家小组GPU:与ETL平行的。大型模型

虽然ETL无法替换,但大型模型在数据处理中的兴起是一个必然趋势。几十年来,计算机系统都以CIP为中心,其他组件都被认为是外围设备。GPS主要用于游戏,但今天, 数据处理依赖于CPU和GPS的协同作用。 这种范式的转变反映了英特尔和英伟达公司股票趋势所反映的更广泛的变化。

从单中心到多中心计算

历史上,数据处理架构从"以CIP为中心"演变为"CPU+GPU(甚至NPU)协作。"由于计算性能要求的变化,这种转变对数据处理工具的选择产生了深刻影响。

在以CIP为中心的时代,早期ETL流程严重依赖CPU逻辑进行数据清理、格式化和聚合等操作。这些任务非常适合CPU的顺序处理能力。

然而,复杂数据格式(音频、视频、文本)的上升和指数存储的增长揭示了CPU能力的局限性。GPS拥有无与伦比的并行处理能力,此后在数据密集型任务中占据了中心地位,比如培训大型transformer模型。

从传统ETL到大型模型

传统ETL流程,优化为"以CIP为中心"的计算,擅长处理基于规则的结构化数据任务。实例包括:

· 数据验证和清理。

· 格式标准化。

· 集合和报告。

相比之下,大型模型则需要GPU功率来进行高尺寸矩阵计算和大规模参数优化:

· 预处理:实时标准化和数据分割。

· 模型培训:涉及浮点操作的繁重计算机任务。

· 输入服务:针对低延迟和高吞吐量的优化批处理。

这反映了一种转变 神经推理的逻辑计算 扩大数据处理,包括 推理和知识提取。

为大型模型准备新一代ETL架构

大型模型的兴起凸显了传统数据处理效率低下的问题,这就需要一个更先进、更统一的体系结构。

当前数据处理中的痛苦点

1. 复杂的 , 支离破碎的过程 :数据清理、注释和预处理仍然是高度手动和孤立的。

2. 可重用性低 :团队经常重新创建数据管道,导致效率低下。

3. 质量不一致 :缺乏标准化工具导致数据质量不同。

4. 高成本 :每个团队的单独开发和维护增加了成本。

解决方案:Ai增强ETL工具

未来的ETL工具将嵌入人工智能功能,将传统的优势与现代智能融合在一起:

· 嵌入式发电 *对文本、图像和音频矢量化的内置支持。

· 法学院硕士 :非结构化数据的自动化结构化。

· 动态清洗规则 :优化数据清理战略。

· 非结构化数据处理 支持键盘提取、OCR和语音对文本。

· 自动增强 :智能数据生成和增强。

终极趋势:transformer+变换

随着技术的不断进步,大型模型和传统ETL工艺正在逐步收敛。预计下一代ETL架构将把大型模型的智能与ETL的效率相融合,创建一个能够处理不同数据类型的综合框架。

硬件:数据处理单元的集成

数据处理的基础正在从以CIP为中心的系统转向涉及CPU和GPS的协作方法:

· 基本任务的中央业务单位 :CPU擅长基础操作,如初步数据清理、集成和基于规则的处理,如提取、转换和加载结构化数据。

· 高级分析通用数据表 :拥有强大的并行计算能力,GPS处理大型模型训练和预处理数据的推理任务。

这一趋势不仅反映在技术创新上,而且也反映在产业动态上:英特尔正在推进Cpui-AI协作的人工智能加速器,而NVIDIA正在将GPU应用扩展到传统的ETL场景中。CPU和GPS之间的协同作用为下一代数据处理提供了更高的效率和智能支持。

软件:数据处理架构集成

随着ETL和大型模型功能日益交织在一起,数据处理正在演变成一个多功能的协作平台,在这个平台上ETL充当大型模型的数据准备工具。

大型模型在培训期间需要高质量的输入数据,ETL提供初步处理,以创造理想的条件:

· 噪音清除及清洁 :消除噪音数据,以提高数据集的质量。

· 格式化和标准化:将不同的数据格式转换为适合大型模型的统一结构。

· 数据增强:通过预处理和基于规则的增强来扩展数据的规模和多样性。

ai增强的ETL架构的出现

ETL工具的未来在于嵌入人工智能的能力,以实现更智能的数据处理:

1.嵌入能力

· 集成用于生成嵌入的模块,以支持基于向量的数据处理。

· 为文本、图像和音频生成高维表示;在下游任务中使用预先训练好的模型进行语义嵌入。

· 直接在ETL工作流中执行嵌入计算,减少了对外部推理服务的依赖。

2. LLM Knowledge Extraction

· 利用大型语言模型(LLMS)有效地处理非结构化数据,提取实体和事件等结构化信息。

· 完成和推断复杂领域,如填补缺失的价值或预测未来趋势。

· 在数据集成过程中启用多语言数据转换和语义对齐。

3.非结构化数据识别和键盘提取

· 支持视频、图像和音频数据,使自动键盘提取用于注释或培训数据集。

· 从图像中提取特征(例如:,目标检测,OCR),并执行音频到文本转换,情绪分析等。

4.动态清洁规则

· 根据数据上下文动态调整清理和增强策略,以提高效率和相关性。

· 实时检测异常并生成自适应清洗规则。

· 优化特定领域的清理策略(例如:(金融、保健)。

5.自动数据增加和生成

· 通过人工智能模型(例如。,同义词替换,数据反向转换,对抗性样本生成)。

· 扩展低样本场景的数据集,并支持跨语言或跨域数据生成。

AI增强ETL是一个从传统ETL的转变飞跃,提供嵌入生成、基于LLM的知识提取、非结构化数据处理和动态规则生成,以显著提高数据处理的效率、灵活性和智能。

案例研究:阿帕奇--一个新一代的AI-增强ETL架构

例如,开源 阿帕奇座位 该项目正在通过支持创新数据格式和先进的处理能力,打破传统的ETL限制,展示数据处理的未来:

· 对非结构化数据的本土支持 :Seatunel引擎支持文本、视频和音频处理,以满足不同的模型培训需求。

· 矢量化数据支持 :能够与深度学习和大模型推理任务无缝兼容。

· 嵌入大型模型特征 支持嵌入式生成和LLP转换,将传统ETL与AI推理工作流连接起来。

· "对任何"转换 ::从任何来源转换数据(例如:,数据库,双日志,PDF,SaaS,视频)到任何目标格式,提供无与伦比的多功能性。

像Seatunel这样的工具说明了现代数据处理如何演变成一个AI+大数据全堆协作系统,成为企业AI和数据策略的核心。

结论

大型模型transformer和大数据转换不是竞争对手,而是盟友。数据处理的未来在于ETL和大型模型的深入整合,具体说明如下:

1. 协作数据处理股 :利用Cpu-GSP的协同作用,进行结构化和非结构化数据处理。

2. 动态数据处理架构 :将人工智能嵌入到ETL中,用于嵌入生成、LLS知识提取和智能决策。

3. 下一代工具 :像阿帕奇赛恩涅尔这样的开源解决方案突出了这一趋势,使"对任何"数据转换和重新定义ETL边界成为可能。

大型模型和ETL的收敛将推动数据处理进入一个智能、标准化和开放的新时代。通过满足企业需求,这种演变将推动企业创新和智能决策,成为数据驱动型企业未来的核心引擎。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭