当前位置:首页 > 数据库 > 正文内容

【金猿人物展】白鲸开源CEO郭炜:未来数据范畴的PK是大模型Transformer vs 大数据Transform

邻居的猫1个月前 (12-09)数据库1390

file

本文由白鲸开源CEO郭炜编撰并投递参加“数据猿年度金猿策划活动——2024大数据工业年度趋势人物榜单及奖项”评选。

上一年是大模型繁荣鼓起的一年,热度席卷全球,似乎AI现已能够处理一切问题。本年跟着热潮退去,大模型开端进入深水区,企图深化改造各行各业的底层逻辑。而在大数据处理范畴,大模型与传统ETL的磕碰更是点着了新的评论:大模型算法中有“Transformer”,而ETL中有“Transform”,二者看似姓名附近,却代表了彻底不同的国际。有声响断语:“未来,ETL会被彻底替代,因为大模型能够处理一切数据!”这是否意味着数十年来支撑数据处理的ETL将走向完结?仍是说,这是一个被误解的预言?抵触的背面,隐藏着关于技能未来的深层考虑。

file

大数据处理(ETL)会消失么

跟着大模型的快速开展,许多人开端想象未来是否不再需求传统的大数据处理办法,乃至置疑ETL的存在价值。大模型能够从海量数据中自主学习规矩、发掘形式,其强壮才干令人拍案叫绝。但是,我的答案是:大数据处理(ETL)不会消失。到目前为止,大模型仍是无法处理的一些有关数据中心问题:

功率问题

虽然大模型在特定使命上展现出了出色功用,但其核算本钱依然昂扬。一个大规划Transformer模型的练习或许需求数周时刻,并耗费巨大的动力和资金资源。相比之下,ETL依据清晰的规矩和逻辑进行数据处理,操作高效、资源占用低,尤其在结构化数据的处理上具有明显优势。

在企业日常的数据处理中,大多数使命仍是以规矩为导向的高效操作,例如:

  • 数据清洗:经过清晰的正则表达式或规矩去除反常数据。
  • 格式转化:以标准化格式存储,便于系统间传递和集成。
  • 汇总核算:按天、周或月对数据进行归类、聚合、核算。

这些作业彻底能够经过ETL东西快速完结,无需依靠大模型杂乱的推理才干。

自然言语的二义性问题

大模型在自然言语处理(NLP)范畴大放异彩,但也暴露出其难以处理的根本问题——自然言语的二义性和含糊性。例如:

  • 用户输入一个问题时,模型或许依据上下文得出不同的解读,无法保证成果确实定性。

  • 数据质量差异或许导致模型推理成果违背实在需求。

相比之下,ETL流程是“确定性”的数据处理办法,依据预先界说的规矩运转,输出成果可猜测且契合标准。尤其是在金融、医疗等高要求的范畴,ETL的可靠性和确定性是要害优势。

对结构化数据的强适应性

大模型拿手从非结构化数据(如文本、图画、视频)中发掘信息,但面临结构化数据的特定使命时,往往功率低下。例如:

  • 在大规划联系数据库中,传统ETL能够快速提取数据表,完结JOIN、GROUP BY等杂乱操作。

  • 大模型则需求将数据转化为特定格式才干参加处理,添加了冗余环节和时刻本钱。

因而,在数据主要以表格或JSON等结构化格式存在的场景下,ETL仍是最佳挑选。

可解说性与监管合规问题

大模型往往被称为“黑箱”,即便数据处理完结后,其具体作业机制和决议计划进程难以解说:

  • 成果不行解说:关于监管要求较高的范畴(如金融、医疗、稳妥),大模型的猜测成果或许因无法解说而无法采用。

  • 难以满意合规性: 许多职业需求对数据流和处理逻辑进行全面审计,而大模型的数据流杂乱性和决议计划机制使审计难度大幅添加。

传统ETL流程则具有高度透明性,一切数据处理进程都能够被清晰记载并审计,契合企业和职业的合规需求。

数据质量与输入标准化问题

大模型对数据质量极为灵敏,任何噪声、反常或非标准化的输入都会明显影响模型功用:

  • 数据噪声:大模型无法主动区分数据中的过错或反常值,或许将过错的数据作为“学习资料”,导致猜测成果呈现差错。

  • 缺少标准化:输入数据未经过清洗或转化,直接“喂”给大模型或许导致维度不一致、缺失值等问题,这需求ETL等传统东西提早处理。

相比之下,ETL东西能够在数据进入大模型前完结清洗、去重和标准化,保证数据的高质量。

虽然大模型在许多使命中体现出色,但其核算杂乱性、对数据质量的依靠、对硬件的高要求以及运用中的实践约束,决议了它无法彻底替代ETL。ETL作为一种确定性、高效且可解说的东西,仍将在未来与大模型一起发挥作用,为数据处理供给两层保证。

CPU vs GPU 的趋势便是 ETL vs 大模型的趋势

ETL无法替代,但不行否认,大模型在数据处理范畴的鼓起是前史的必定。在曩昔的几十年里,电脑和服务器都是以CPU为中心,其它叫做外设,也便是CPU才是数据处理的中心,GPU的显卡仅仅用于玩游戏,而现在变为CPU+GPU(NPU)为中心进行数据处理了。而现在大模型火爆的程度,看看Intel和NVIDIA的股价趋势就知道了,为什么会发生这么大的改变呢?

核算架构的改变:从单一核算中心到多中心核算

曩昔数十年间,数据处理的架构阅历了从“CPU为中心”到“CPU+GPU(乃至NPU)协同”的演进。这一趋势不只反映了核算硬件的功用需求改变,也深入影响了数据处理的逻辑与东西挑选。

在“CPU为中心”的年代,CPU是核算系统的肯定中心,其它组件(如硬盘、显卡、内存)仅仅辅佐外设。这一架构支撑了前期大数据的ETL流程:抽取、转化、加载(Extract, Transform, Load)的核算形式简直彻底依靠CPU处理杂乱的逻辑操作。典型的运用包含数据清洗、格式转化、汇总与整合,其特点是高度依靠次序核算和可猜测的流程。

但是,跟着大数据杂乱度(音频、视频、文字)和存储的指数级增加,单靠CPU的算力已无法满意需求。GPU的呈现,尤其是深度学习兴起后,其并行处理才干和高效浮点核算才干,使其成为大规划数据处理的另一极。现在,NVIDIA的显卡不再仅仅“游戏设备”,而是企业和科研核算的中心硬件。调查Intel与NVIDIA曩昔十年的股价趋势,也足以体现CPU与GPU在职业位置上的此消彼长。

file

从传统ETL到大模型:数据处理范式的演进

传统ETL流程的规划,契合“CPU中心化”的核算形式,重视谨慎的事务逻辑处理和高效的存储拜访优化。CPU拿手处理杂乱但较小规划的使命,例如:

  • 数据清洗与验证:查看和修正缺失或过错数据。
  • 格式转化:将多种数据格式一致为标准格式。
  • 数据聚合:对涣散的数据源进行核算和汇总。

在这一进程中,CPU的指令集规划和多核并行才干被最大化运用,满意了大数据运用中“高吞吐量”的需求。

相比之下,大模型的数据处理需求彻底不同。深度学习模型的练习触及高维矩阵运算和大规划的参数优化,GPU凭仗其成百上千的并行核算单元,在这一范畴大放异彩:

  • 数据预处理:GPU能在练习时实时对输入数据进行归一化和分片处理。
  • 模型练习:浮点运算需求高,练习大型Transformer模型需求GPU的强壮算力。
  • 推理服务:GPU经过批处理优化在线推理的推迟和吞吐量。

这一趋势不只仅技能的搬迁,也是数据处理范式的演进: 从重视“逻辑核算”到寻求“类人脑核算”,从结构化数据的处理到非结构化文章、PDF、音视频的处理。

数据处理的内核和外延也从“核算+数据处理”变为了“核算+推理+常识提取”, 大模型的呈现,数据处理也能够处理常识了。

大模型数据也需求新一代的ETL架构

另一外面,现在大模型数据处理还有许多痛点问题无法处理,也需求用更高档的办法来处理。

虽然大模型在许多范畴体现出强壮的才干,但其背面的数据处理却面临许多杂乱且没有彻底处理的应战。这些痛点不只约束了大模型的作用发挥,也迫使企业从头考虑数据处理的架构规划。

数据处理环节杂乱且冗长

缺少有用的数据处理机制,让大模型对语料数据的依靠使得数据处理成为一个高度杂乱的技能系统,包含多个环节:

  • 语料归集:企业需求整合涣散在各个部门的语料资源,包含人、财、物等范畴的数据。这一进程往往遭到数据孤岛和权限约束的困扰。
  • 数据清洗:去重、编码处理、拼写纠正等操作是语料质量的根底,但面临海量数据时,现有的东西和算法功率缺少,难以快速完结。
  • 数据预处理:包含分词、词形复原、词干提取等,这些使命需求高度定制化的东西链,而不同语种或范畴的差异加重了杂乱性。
  • 数据增强:近义词替换、回译、噪声注入等增强技能需求针对模型方针进行调整,过度增强或不合适的增强办法或许对模型练习发生反作用。
  • 数据标示与预备:标示质量直接影响模型的体现,但标示作业量巨大且贵重,主动化标示技能的精度仍待进步。

大模型缺少有用的数据处理东西

缺少有用的数据处理东西,这使得大模型数据处理的功率和一致性大打折扣:

  1. 重复劳动严峻,功率低下 在不同团队进行大模型数据处理时,语料归集、清洗、预处理、增强、标示等环节需求从头手艺建立。因为没有一致的模板化东西,每个团队往往需求从头规划流程,导致很多重复劳动,严峻糟蹋时刻和资源。

  2. 处理流程分裂,难以复用 数据处理流程缺少模块化规划,导致各团队自行开发的流程无法标准化或复用。例如,一个团队开发的文本分词或语料增强计划无法轻松同享给其他团队运用,造成了资源的糟蹋和协作功率的低下。

  3. 缺少灵敏扩展性,难以应对多样化需求 没有插件化的架构,各团队在面临特定场景(如职业特定的语料处理或RAG优化)时,需求自行研制和调整算法。这种“从零开端”的办法不只耗时长,还难以快速呼应事务改变的需求。

  4. AI资源涣散,专家支撑缺少 当时企业内部的AI专家资源往往是涣散的,各团队独立探究大模型运用时,算法调优问题(如幻象现象和RAG优化)只能依靠本地团队处理,缺少系统性的会集支撑。这种低效的资源运用形式,导致了问题处理周期长,影响了大模型运用的全体成效。

  5. 数据处理质量不一致,缺少标准化东西意味着不同团队或许运用不同的办法处理数据,导致数据质量良莠不齐,终究影响大模型练习和推理的作用。这种不一致性不只添加了保护难度,还或许导致事务决议计划的差错。

  6. 昂扬的开发和保护本钱, 在没有一致东西的情况下,各团队需求花费很多资源进行流程开发、优化和保护,而这些投入很难在企业层面完结规划效益。例如,每个团队都需求独立处理分词规矩、增强算法、提示词优化等,造成了技能资源的糟蹋。

缺少有用的的东西,企业在大模型数据处理中陷入了高本钱、低功率和资源涣散的困局。假如不能处理这些痛点,大模型的实践运用才干将难以开释,企业也难以在AI驱动的竞赛中占有先机。这一现状迫切需求经过新一代标准化东西来处理,为大模型数据处理供给更高效、更灵敏、更一致的支撑。

数据处理的终极趋势:大模型Transformer X 大数据Transform

跟着技能的不断进步,大模型与传统ETL逐步走向交融。在未来的数据处理中,新一代的ETL架构会要交融大模型的智能与ETL的高效,变为万物皆可处理的大模型大数据结构:

硬件:数据处理单元的交融

数据处理的根底单元正从单一的CPU主导,转向CPU与GPU的分工协作:

  • CPU拿手根底使命:完结开始的数据清洗、整合与简略规矩处理,如对结构化数据的抽取、转化、加载。
  • GPU驱动深度剖析:运用强壮的并行核算才干,在预处理后的数据上,进行大模型练习与推理使命。

这种交融趋势不只体现在技能层面,还反映在工业意向中:Intel布局AI加速卡,推进CPU+AI协作;NVIDIA测验进军数据处理范畴,将GPU的运用扩展至传统ETL场景。CPU与GPU的协同,将为下一代数据处理供给更高的功率与智能支撑。

软件:数据处理架构的交融

跟着ETL与大模型功用的深度结合,数据处理架构正在演变为一个多功用的协同渠道:ETL作为大模型的数据预备东西。

大模型在练习前需求高质量的输入数据,而ETL能够完结数据的开始处理,为大模型供给最佳的练习条件:

  • 去噪与清洗:除掉噪声数据,进步数据集的质量。
  • 格式化与标准化:将多种数据源格式一致为适配大模型的输入格式。
  • 数据增强:经过规矩化增强和预处理,扩大数据规划,丰厚模型学习的多样性。

架构:AI增强型ETL架构的呈现

未来的ETL东西将嵌入AI才干,完结愈加智能化的数据处理:

  • Embedding才干:ETL东西将集成Embedding生成模块,为数据的向量化处理供给支撑。支撑对文本、图画、音频等非结构化数据生成高维向量标明;运用预练习模型生成语义嵌入,用于下流的大模型练习和语义检索使命;在ETL流程中直接完结Embedding核算,削减对外部推理服务的依靠。
  • LLM常识提取才干:结合大言语模型(LLM)的常识抽取功用,ETL东西能够高效处理非结构化数据,例如,从文档、网页、对话中提取结构化信息,如实体联系、事情信息;运用LLM生成杂乱数据字段的补全和揣度,例如生成缺失数据值或猜测未来趋势;在数据整合环节,依据LLM完结多语种数据的翻译和语义对齐。
  • 非结构化数据辨认与要害帧提取才干:AI增强型ETL将原生支撑处理视频、图画和音频等非结构化数据。主动辨认视频内容中的要害帧,用于数据标示或练习集生成;从图画中提取特征信息,如方针检测、OCR辨认等;音频处理支撑语音转文本、情感剖析等,生成合适大模型练习的输入数据。
  • 动态清洗规矩:AI增强型ETL能够依据数据的上下文动态调整清洗与增强战略,保证处理的高效性和适用性。实时检测数据反常并生成适配的清洗规矩,例如主动纠正差错或补全缺失值;针对不同场景(如金融、医疗、营销)优化清洗战略,使数据愈加契合范畴特性;运用AI剖析前史数据,猜测潜在问题并提早优化处理流程。
  • 数据主动增强与生成:经过AI模型嵌入,ETL东西能够动态完结数据增强。依据原始数据生成更多样本,例如近义词替换、数据回译、对立样本生成等;为小样本场景供给主动数据扩大才干,满意模型练习需求;跨言语、跨范畴的数据生成,支撑更广泛的运用场景。

AI增强型ETL不只仅传统ETL的晋级,更是数据智能化的一次深入革新。经过Embedding、LLM才干、非结构化数据处理和动态规矩生成等功用,这类东西将从根本上进步数据处理的功率、灵敏性和智能水平,成为未来企业数据架构的重要组成部分。

举例:新一代AI增强型ETL架构——Apache SeaTunnel

以开源的Apache SeaTunnel为例,这一开源项目正在打破传统ETL形式的约束,经过支撑多种新式数据格式和处理才干,展现了数据处理未来的蓝图:

  • 原生支撑非结构化数据:SeaTunnel的引擎层面直接支撑处理文本、视频、语音等非结构化数据,为大模型练习供给了多样化数据源。
  • 向量化数据支撑:支撑向量数据结构,使得数据能够直接适配深度学习和大模型推理需求。
  • 嵌入大模型功用:SeaTunnel v2.3.8现已支撑Embedding生成和LLM(大言语模型)的Transform功用,打通了从传统ETL到AI推理的完好链路。
  • “Any 2 Any”才干:SeaTunnel的愿景是完结恣意数据到恣意方针格式的转化。例如,将数据库、binlog、PDF、SaaS、文章、视频或语音转化为向量化数据,并发送到任何存储或剖析渠道。

file

SeaTunnel的事例标明,现代数据处理现已不再是单一的ETL或大模型的使命,而是一种AI+BigData全栈化的协同系统,相似的东西将成为企业AI和数据处理战略的中心。

总结

大模型Transformer和大数据Transform并不是对立联系。未来的数据处理格式是 “ETL+大模型”的深度交融:

  1. 数据处理单元将由CPU和GPU协作完结,充分发挥二者的优势,处理结构化和非结构化数据。

  2. 数据处理架构将完结动态进化,ETL在作为根底数据管道的一起,将嵌入AI才干,支撑Embedding生成、LLM常识提取和智能决议计划。

  3. 以新一代的开源东西如Apache SeaTunnel为代表的新一代AI增强型ETL架构,现已展现了这一交融趋势的雏形,为企业打造“Any 2 Any”数据转化才干,打破传统ETL的鸿沟。

未来大模型与ETL的协同将推进数据处理进入一个智能化、标准化和敞开化的新阶段。咱们信任,跟着技能的不断开展,数据处理将愈加靠近企业的实践需求,成为驱动事务立异和智能决议计划的中心引擎。无论是对数据工程师的人物转型,仍是对企业架构的晋级,ETL与大模型的交融必将成为未来十年的要害趋势,引领数据处理迈向更高效、更智能的新年代。

  • 关于郭炜:

郭炜,人称“郭大侠”,白鲸开源CEO,Apache基金会成员, Apache DolphinScheduler PMC Member, Apache SeaTunnel Mentor,ClickHouse 我国开源社区建议人和首席布道师。

郭炜先生结业于北京大学,现任我国通讯学会开源技能委员会委员,我国软件职业协会智能运用服务分会副主任委员,全球中小企业创业联合会副会长,TGO鲲鹏会北京分会会长,ApacheCon Asia DataOps论坛主席,全球中小企业创业联合会副会长,人民大学大数据商业剖析研讨中心客座研讨员。

郭炜曾作为讲演嘉宾到会波兰DataOps峰会、北美Big Data Day,并被评为虎啸十年出色数字技能人物,我国开源社区最佳33人,金猿榜2023大数据工业年度趋势人物,2024我国数智化转型晋级前锋人物,并取得2024年我国互联网开展立异与出资大赛(开源)一等奖等奖项。

郭炜先生曾任易观CTO,联想研讨院大数据总监,万达电商数据部总经理,先后在中金、IBM、Teradata任大数据方重要职位,对大数据前沿研讨做出出色贡献。一起郭先生参加多个技能社区作业,如Presto、Alluxio、Hbase等,是国内开源社区领军人物。

本文由 白鲸开源 供给发布支撑!

扫描二维码推送至手机访问。

版权声明:本文由51Blog发布,如需转载请注明出处。

本文链接:https://www.51blog.vip/?id=561

标签: 大数据
分享给朋友:

“【金猿人物展】白鲸开源CEO郭炜:未来数据范畴的PK是大模型Transformer vs 大数据Transform” 的相关文章

mysql 数组类型,功能与应用

1. 使用字符串或文本类型: 将数组元素存储为一个由特定分隔符(如逗号)分隔的字符串。例如,`apple,banana,cherry`。 在插入和检索时,使用字符串函数(如 `SUBSTRING_INDEX` 和 `FIND_IN_SET`)来处理这些字符串。2. 使用 JSON 类型:...

mysql分割字符串,MySQL字符串分割函数

mysql分割字符串,MySQL字符串分割函数

1. 使用`SUBSTRING_INDEX`函数:这个函数可以用来根据指定的分隔符分割字符串。它返回从字符串的左侧或右侧开始,直到遇到指定的分隔符为止的子字符串。 语法:`SUBSTRING_INDEX` `str`:要分割的字符串。 `delimiter`:分隔符。 `num...

spark大数据分析,大数据时代的利器

spark大数据分析,大数据时代的利器

Apache Spark 是一个开源的大数据处理框架,它提供了一个快速、通用和易于使用的大数据处理平台。Spark 支持多种数据源,包括 Hadoop、Hive、Cassandra、HBase、Tachyon 等,并且提供了多种语言 API,包括 Scala、Java、Python 和 R。以下是...

外卖大数据分析,洞察行业趋势,优化运营策略

外卖大数据分析,洞察行业趋势,优化运营策略

外卖大数据分析是一个涉及多个方面和技术的复杂领域,以下是关于外卖大数据分析的一些关键点: 1. 市场规模与用户规模根据艾瑞咨询的调查数据,截至2019年年底,中国外卖消费者规模约为4.6亿人,占城镇常住人口数量的53.9%。外卖产业的渗透率也在不断提升,2019年达到14.0%,相比2018年提升了...

springboot配置数据库,SpringBoot配置数据库详解

在Spring Boot中配置数据库主要涉及以下几个步骤:1. 添加依赖:首先需要在`pom.xml`文件中添加数据库连接依赖。例如,如果你使用的是MySQL,你需要添加`mysqlconnectorjava`依赖。如果使用的是H2数据库,则不需要添加额外的依赖,因为H2是Java自带的内存数据库。...

数据库对比工具

数据库对比工具

1. SQL Server Data Tools :这是微软提供的一个工具,主要用于SQL Server数据库的开发和管理。它包括一个数据库比较功能,可以比较两个SQL Server数据库的结构和内容。2. Redgate SQL Compare:这是一个专门用于比较和同步SQL Server数据库...