2023年,超级大模型GPT3、GPT4热浪席卷全球,它的出现,为数字化建设领域带来了一次“重生”的契机。当“类人思考”出现后,哪些可以被“加速”、被“绕过”、被“替代”呢?本文作者围绕数据场景下的GPT应用,做了详细的拆解,一起来看一下吧。
1995年,尼古拉斯·尼葛洛庞帝宣布“数字化时代已经到来”,随之而来的是,数字化成为各行业大力投入建设的基础设施。其中,以互联网为代表的天生具有数字化属性的行业,一直是引领技术创新的风向标,这就包括应用人工智能技术(AI)——超级工具为各行各业提高生产效率和效能。数据与AI之间,是互为促进,相辅相成,有机融合的关系。
当时间来到2023年,超级大模型GPT3、GPT4热浪席卷全球(Generative Pre-Trained Transformer,即生成式预训练Transfomer模型,是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型,可以在海量通用数据上进行预先训练,能大幅提升AI的泛化性、通用性、实用性)。
它的出现,为数字化建设领域,带来了一次“重生”的契机,作为从业者的我们尝试应用GPT4等AGI能力,为企业内部的数字化建设做一次“刷新”,当“类人思考”出现后,哪些可以被“加速”、被“绕过”、被“替代”。截止目前,已有GPT的49种应用,其中两项是跟数据场景有关。下面,我们将围绕数据场景下的GPT应用,做更细粒度的拆解。
一、数据的生命周期1. 用数据时,遇到的问题
业务高速发展带动数据需求高涨,这与数据部门的应接能力之间存在博弈,这是摆在非天生数字化属性的行业的一道难题。理想中,业务需要的数据都有,都能找到,可以支持各种维度的解析和创新。而现实是,能用的数据有限(A),很多已经建设出来的数据,大家不认识,不敢用(B),多个雷同数据存在使得校对该用哪一个耗时耗力。很多沉睡数据,已经过时,占用着存储空间(D),使得数据存储成本连年上涨。缺失重要数据,需要排期开发(C)。
2. 数据生命周期
数据产生于业务各环节中,部分在online的业务系统中,另一部分散落在offline(比如,工厂),要将散落在各处的数据做好采集(人工录入、扫码、RFID),确保必要数据进入业务数据库中。之后,针对想做分析的数据,可以放入大数据平台的数仓中,通过数据集成工具,将结构化、非结构化多源异构数据汇聚到ODS层。根据数据建模方法,数据开发工程师做DWD和DWS层的加工建设,供业务的数据分析师使用(ADS层),做报表、配看板、提数等。
为进一步提高数据消费效率,通过复用数据API的模式打通最后一公里,降低各系统分别对接的成本。针对一次性,或者长期不用的冷僵数据,做归档和删除处理,腾出宝贵的存储空间和计算资源。这套大数据平台,涉及平台管理能力,以及资产管理模块。而数据治理则横跨业务系统到数据平台的全生命周期中。
3. 人、货(数据)、场
大数据环境下的人货场,跟电商场景中的人货场有两点相似,其一,都需要一个存储货物的地方——“仓库”。大数据环境下叫数据仓库。其二,都需要传输,大数据环境下叫“加工”。与实体的货物相比,数据具有两个特殊的属性,使得,它的存储和运输,要比电商场景更为复杂。这两个属性是,“权限等级”、“体积变化”。
数据有等级之分,高敏感的数据,需要做更严格的权限管控,以确保消费安全。体积变化,是指经过一系列的加工(删除delete、drop、修改alter、增加insert、创建create等),数据的整体体积会发生变化(变大or变小)。这使得存储or加工计算都需要具备弹性的能力,能包容、承托住数据的这些变化。货物的流通VS数据的流通,使得我们还要考虑继承的问题,跨系统的继承、权限继承、表/字段血缘继承。这些因素,使得虚拟场景下的“人、数、场”比实体中的“人、货、场”更为复杂。
基于上章节提及的数据生命周期,我们拆解了每个环节中,人是谁,在做什么事儿,继而数据会发生怎样的变化(体积变大变小,定义更迭)。为了更为清晰的展示这些环节中人的角色,我们将他们逐一做了定义,共9个角色,1数据生产方、2数据拥有者(将数据采集到业务数据库中)、3数据消费方(想用数据作分析,接入数仓)、4数据开发工程师、5数据分析师、6终端的小白用户。过程中,在数仓范围内,有7资产管理者,有8大数据平台的开发者和管理员。在整个数据生命周期范围内,有9数据治理专家。每个角色,都有其要执行的动作,均简要绘制在图上,具体不再赘述。
数据方面,图中标注了离线和实时两种数仓结构,具体的数仓介绍,网络上各种专家分享,内容翔实且精彩,不再赘述。
二、GPT介入后数据生命周期发生的变化
【前提】GPT打通大数据平台的数仓(即要添加企业专有知识 ,才能提升准确度,让GPT在企业内部用起来,提醒,这些信息数据的交换要在安全允许的范围内进行),以获取准确的元数据信息,这样在用户输入自然语言时,GPT能懂,并返回符合企业数据结构特征的结果。其次,GPT还具有coding的能力,所以当它跟企业内部各个系统打通后,还可以扩展能力,代替人,执行某些既定操作。下面,我们以大数据环境中,6个常见环节,GPT是如何辅助人类的逐一做拆解。
1. 数据集成(聚)
GPT协助提效ETL:
2. 数据开发&建模(养)
1)GPT代写SQL做数据建模和开发
【前提】将表的元数据信息导给 ElasticSearch,结合 GPT 与 ElasticSearch 服务,提高 SQL 生成结果的准确性。
2)GPT代为配置数据质量监控告警
【前提】GPT跟数据质量模块、调度模块、email、飞书等系统打通。
【结论】GPT介入后,可以不做前端质量规则配置平台,并节约配置质量规则的人力投入。
3. 资产管理(治)
GPT代做冷僵数据归档和删除:
【前提】GPT跟调度模块、资产管理模块、email、飞书等系统打通。
【结论】GPT介入后,可以不做前端冷僵数据归档和删除平台,可以节约配置冷僵数据定时删除规则的人力投入。
4. 平台管理(管)
GPT代建权限申请流程:
【前提】GPT跟低代码流程中心、大数据权限管理模块打通。
【结论】GPT介入后,可以不做繁杂的定制化的权限审批流程,可以由安全与业务同学达成一致后,给GPT输入自然语言,形成审批流,以此节约研发人力投入。
5. 数据分析(用)
GPT代做“自助提数”:
【前提】1、与权限(行列权限和加解密),安全审计能力打通。2、打通元数据,确保GPT生成SQL时,对表、字段的描述跟数仓保持一致,可以直接使用。
第一步:输入文字,找目标表(支持一次访问多张表)。“例如我想查询A表,在P条件下的x、y、z字段,可以直接输出SQL语句。当然,经过预训练,或者在数据源仅有一张表的情况下,描述话语甚至可以更加简略。在训练输入了多张表结构后,也可以支持关联分析。”
第二步:尝试在原有SQL的基础上修改一些条件“保留23年第一季度的结果”。
第三步:尝试增删改查表或者对表中数据进行更新“帮我把价格表中的用户单价上调10%”。
第四步:尝试,将SQL翻译为自然语言,以助于帮助了解SQL。
备注:以上是以EverSQL产品举例。
虽然GPT能快速撰写高质量的SQL,但是对于不能接受任何误差的数据场景,准确理解业务需求,并关联到所需的表和字段,需要一定的预训练以提高准确度。快速训练GPT提升特定场景匹配能力,会成为分析师核心竞争力之一。
【结论】GPT介入后,可以不做自助提数的前端平台,特别是拖拉拽的平台,直接用SQL取数能力即可,可以降低写SQL的门槛,可以节约用SQL配置模版的人力投入。针对复用场景,直接将“prompt”保存下来,只要有权限访问,即可复用。
6. BI看板(用)
GPT生成“图表”:
【前提】GTP跟图表生成工具打通。
【结论】GPT介入后,快速支撑业务的临时性看板需求(自助),可以节约数据分析师配置看板人力投入(只做长期高频BI看板,针对临时性的业务需求,特别是紧急的,无需排队等待,业务小白可以让GPT制作)。
7. 业务应用(用)
【结论】GPT介入后,后续甚至是语音输入,即可,无需码字,在移动端调取数据会更加方便,很适合销售门店等offline无PC电脑的场景。
基于以上建设,大数据场景下向数字孪生方向的发展加快了步伐。美国国防部、微软在工业化等数字孪生场景中(模型建设、场景设计),均引入生成式AI。智能问答、语音交互获取数据将会实现。
受作者领域认知深度所限,及技术无时无刻不在更新迭代,业界对GPT、AutoGPT、AGI、即时AI……的衍生应用必定是珠零锦粲。无法在一篇中尽现全貌,未来可能会彻底推翻当下的种种尝试而不得知。能为大家带去一点点新的启发,以深感欣慰。文中难免有纰漏或不准确的地方,欢迎大家批评指正。撰写中参考网络上各位同仁的最新观点,拿来主义为打招呼,还望见谅。若有任何建议或意见,欢迎联系作者探讨。
参考资料: