新闻  |   论坛  |   博客  |   在线研讨会
独家 | Zero-ETL, ChatGPT以及数据工程的未来(2)
数据派THU | 2023-07-17 19:55:03    阅读:286   发布文章

OBT和大型语言模型

图片 

图片


它是什么:目前,业务利益相关者需要向数据专业人员表达他们的需求、指标和逻辑,然后数据专业人员将其全部转换为 SQL 查询甚至仪表板。该过程需要时间,即使数据仓库中已存在所有数据也是如此。更不用说在数据团队最喜欢的活动列表中,临时数据请求的排名介于根管和文档之间。


有一群初创公司旨在利用像 GPT-4 这样的大型语言模型的力量,通过让消费者在平滑的界面中“查询”自然语言中的数据来自动化该过程。


图片图片至少在我们的新机器人霸主使二进制成为新的官方语言之前


这将从根本上简化自助式分析过程,并进一步使数据大众化,但考虑到更高级分析的数据管道的复杂性,除了基本的“指标获取”之外,该问题很难解决。


但是,如果通过将所有原始数据填充到一个大表中来简化这种复杂性呢?


这是本恩·斯坦西尔(Benn Stancil)提出的想法,他是数据领域最优秀和有远见的作家/创始人之一。没有人比他更能预见现代数据堆栈的消亡。


作为一个概念,它并非那么遥不可及。一些数据团队已经开始使用褒贬不一的(one big table, OBT)策略了。


利用大型语言模型似乎可以克服使用OBT的最大挑战之一,即在发现和模式识别方面的困难以及其完全缺乏组织性。对于人类来说,为他们的故事提供一个目录和标记良好的章节是十分有用的,但人工智能并不在乎。


优点:也许可以最终兑现自助式数据分析的承诺;快速获得见解;使数据团队能够将更多时间用于释放数据价值和构建,减少响应即席查询的时间。


缺点:是否自由过度?数据专业人员熟悉数据令人痛苦的怪癖(时区!什么是“帐户”?),而在某种程度上,大多数业务利益相关者对此却并不熟悉。我们是否受益于代议制而不是直接的数据民主?


谁在推动它:Delphi和 GetDot.AI 等超级早期创业公司。像Narrator这样的初创公司。更成熟的参与者正在做一些这样的版本,如Amazon QuickSight,Tableau Ask Data或ThoughtSpot。


实用性和价值释放潜力:令人耳目一新的是,这不是一项寻找用例的技术。价值和效率是显而易见的,但技术挑战也是显而易见的。这一愿景仍在构建中,需要更多的时间来制定。也许采用的最大障碍将是所需的基础设施中断,这对于更成熟的组织来说可能风险太大。


数据产品容器


它是什么:数据表是构建数据产品的数据的构建基块。事实上,许多数据领导者将生产表视为他们的数据产品。但是,要将数据表视为产品,需要对许多功能进行分层,包括访问管理、发现和数据可靠性。


容器化已成为软件工程中微服务运动不可或缺的一部分。它们增强了可移植性、基础架构抽象,并最终使组织能够扩展微服务。数据产品容器概念设想了数据表的类似容器化。


数据产品容器可能被证明是使数据更加可靠和可治理的有效机制,特别是如果它们可以更好地呈现与数据基础单元关联的语义定义、数据沿袭和质量指标等信息。


优点:数据产品容器似乎是更好地打包和执行四个数据网格原则(联合治理、数据自助服务、将数据视为产品、域优先基础结构)的一种方式。


缺点:这个概念会让组织更容易还是更难扩展其数据产品?对于许多这些未来数据趋势,另一个基本问题是,数据管道的副产品(代码、数据、元数据)是否包含值得数据团队保留的价值?


谁在推动它:Nextdata,由数据网格创建者Zhamak Dehgahni创立的创业公司。Nexla也一直在这个领域发挥作用。


实用性和价值释放潜力:虽然Nextdata最近才从隐身中脱颖而出,数据产品容器仍在不断发展,但许多数据团队已经看到了数据网格实施的成熟结果。数据表的未来将取决于这些容器的确切形态和执行。


数据生命周期的无尽想象重构

图片 

图片图片来自Unsplash, zero

为了窥探数据的未来,我们需要回顾过去和现在的数据。过去、现在、未来——数据基础设施处于不断中断和重生的状态(尽管我们可能需要更多的混乱)。


数据仓库的含义与 Bill Inmon 在 1990 年代引入的术语相比发生了巨大变化。ETL 管道现在是 ELT 管道。数据池不像两年前那样无固定的形状。


随着现代数据堆栈带来的这些创新,数据工程师在决定数据如何移动以及数据消费者如何访问数据方面仍然发挥着核心的技术作用。但有些变化比其他变化更大、更可怕。


Zero-ETL这个术语似乎很有威胁,因为它(不准确地)暗示了管道的消亡,如果没有管道,我们需要数据工程师吗?


尽管 ChatGPT 生成代码的能力背后大肆宣传,但这个过程仍然掌握在技术数据工程师手中,他们仍然需要审查和调试。大型语言模型的可怕之处在于它们如何从根本上扭曲数据管道或我们与数据消费者的关系(以及如何向他们提供数据)。


然而,这个未来,如果它成为现实,仍然强烈依赖数据工程师。


自古以来一直存在的是数据的一般生命周期。它被放出,它被塑造,它被使用,然后它被存档(最好避免在这里纠缠于我们自己的消亡)。


虽然底层基础设施可能会发生变化,自动化会将时间和注意力转移到右边或左边,但在可预见的未来,人类数据工程师将继续在从数据中提取价值方面发挥关键作用。


这并不是因为未来的技术和创新无法简化当今复杂的数据基础设施,而是因为我们对数据的需求和使用将继续增加复杂性和规模。


大数据已经并且永远是一个来回摆动的钟摆。我们在能力上向前飞跃,然后我们同样迅速地找到一种方法来达到这些边界,直到需要下一次飞跃。在这个循环中得到安慰——被需要是件好事。


Shane Murray是这篇文章的合著者。请订阅以将他的故事发送到您的收件箱。

对数据质量的未来感兴趣,请联系蒙特卡洛团队!


原文标题:Zero-ETL, ChatGPT, And The Future of Data Engineering原文链接:https://towardsdatascience.com/zero-etl-chatgpt-and-the-future-of-data-engineering-71849642ad9c



*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客