大家用什么软件买球-陶瓷酒瓶新闻 迈向当代数据平台的两个步骤
你的位置:大家用什么软件买球 > 陶瓷酒瓶新闻 > 陶瓷酒瓶新闻 迈向当代数据平台的两个步骤
陶瓷酒瓶新闻 迈向当代数据平台的两个步骤
时间:2021-07-09 08:31 点击:129 次

在构建数据科学产品时,一个主要的方面是让您的数据可用并准备操纵。您必要一个平台将数据带到一首,并在整个公司中服务。但是陶瓷酒瓶新闻你如何发展如许一个数据平台?浏览数据仓库,数据湖泊,湖泊和数据网格时,很容易丢失。它们是如何差别的陶瓷酒瓶新闻,什么答该是第一步?

差别的数据平台解决方案

> Databricks’ perspective on DWH vs Data Lake vs Lakehouse

数据平台是将数据带到整个公司中的数据的环境。数据仓库是第一个企业中间数据平台。但是陶瓷酒瓶新闻,随着各栽数据格式和源,它们并不可能变通。引入数据湖不妨容易地从任何源以任何格式存储原首数据。这是议定推迟模式创建和数据注释来实现的,直到实际操纵数据。这些湖泊频繁转向所谓的数据沼泽,在那里异国人不妨有效地真实操纵数据。增补了所有数据,但异国准备对数据进走操纵。继任者是LakeHouse,数据湖与数据库工具相结相符,以轻盈创建数据的可用视图。替代方案是数据网,它不会荟萃数据,但是陶瓷酒瓶新闻行使多个松散的数据环境,以更益地跨团队进走周围。吾稍后会更彻底地遮盖数据网格。

但最先,让吾们望望吾们实际解决的题目。这些差别数据平台的驱动程序是什么?吾将从乌托邦理想最先,吾们正在追逐,不息在实践中展现的平台,并用你不妨采取的两步包装。在数据平台倾向上的两个步骤,使机器学习解决方案,授权数据科学家,并分享内部做事手段。

乌托邦理想

倘若来自所有部分的所有数据,则不会很容易访问。从一个中间位置访问,使您的所有数据科学家们不妨在必要时获得所需的数据。他们不妨凝神于先辈的机器学习,而数据工程师不妨确保数据已准备益操纵。

让吾们见面Jane,吾们的行家数据科学家。她正在开发一个新的数据科学产品:收入展望。中间数据平台挑供了客户,产品和出售的所有数据。Jane在平台中构建完善数据集并将其添载到她的Jupyter Lab环境中。在与模型的现在的与营业的一系列对齐之后,她很快开发了模型的第一版。

所以,该平台挑供了科学家必要开发她的模型的统共,包括数据,计算和做事环境。平台开发人员(云和数据工程师)确保它是可扩展,实时和性能的。它们还挑供数据谱系,数据治理和元数据等附添服务。科学家们十足授予了工程难得。这在视觉上外示如下:

> Utopian world: Single data platform taking care of all the data issues. Image by author.

在左侧,各个部分操纵响答的数据运走其行使程序。在技术产品公司中,这包括在特定周围全力的团队。数据不妨居住在任何存储中:MS Excel文件,数据库,CSV文件,Kafka主题,云桶,您将其命名为。

在中间,数据平台团队挑取该数据,并将其添载到数据湖的着陆区。第一步是标准化日期和数字格式和列名称的方面。这不妨包括为历史不悦目点拍摄数据的快照。生成的数据集搜集存储在所谓的“暂存”图层中。然后将数据组相符并安放在静电层中。策级层是包含关系数据集,唯一标识符和清亮关系的数据存储。所以,吾将此称为DWH(数据仓库)。但是陶瓷酒瓶新闻,它不妨是任何可用存储,包括大周围云数据库(BigQuery),Hive外,Blob存储(S3)或Delta Lake Parquet文件。该策级层的现在的是挑供易于操纵所有数据的总视图。

在右侧,数据科学团队操纵平台的做事环境和数据集来解决它们的用例。

当这不首作用

理想的声音很棒。倒霉的是陶瓷酒瓶新闻,简的实在体验略有差别:

Jane必要一些额外的数据集不妨在数据平台上挑供。为了获得头部最先,金融部分为初步分析挑供了一些CSV出口。简探测了展望必要在产品组上通知,而这些数据是在各个产品上。在几个会议之后,她晓畅哪些内部产品名称属于哪些组。产品的收入在组件平睁开,片面是基础产品,片面是附添组件。扣头是另一个故事;由于它们从总账单中减往了,所以归属变得有点棘手。另一个惊喜。三个月前公共产品焕然一新,重命名,结相符一些旧的利基产品。随着一些难得而且只屏舍最幼的数据,她管理将旧数据与大无数相通的新产品匹配。

管理数据平台的数据工程师呢?益吧,他们只是入门:

末了,拾取了数据工程机票,数据工程师最先挑取,添载和转换各栽数据集。第一个步骤很容易,但现在他们必要在数据上创建可用视图。他们必要与各栽(不妨)异日的用户交谈以晓畅哪些变化很主要。他们与简言构造了一些细化会议。然后他们必要返回数据产生部分以弄懂得数据实际意味着什么,以及它如何映射到区域。该部分忙于一些新的内部产品。所以,他们将数据工程师转发给数据科学团队,这隐微已经完善了一些准备做事。

简而言之,这不是专门顺当的。

有一些关键题目:

数据科学家必要不妨创建操纵情况特定的转换。 平台团队必要准备他们不拥有的域的数据,以便于操纵案例他们无法平常做事。 数据平台团队成为数据科学家团队的瓶颈。 由此产生的解决手段

为了不妨注释和转换与特定用例关系的高度详细数据,您必要许多域知识。每个用例还必要特定的数据准备。所以,数据工程师不妨只做数据科学家所需的一片面。固然数据科学家潜入商业案例,但他们获得了许多域名知识。这使它们不妨准备数据。

这导致以下解决手段:

> Extra data storage within the data science teams. Image by author.

数据科学团队现在将数据从中间数据平台转换为其模型培训的准备。尽管数据平台理想地挑供十足可用的数据集,但实际上它太浅易,对所有客户来说都不可能了。

这栽新的情况有一些益处:

数据科学家变得更添自吾。 数据工程师不消为构造中的每幼我创建视图。它们不妨凝神于数据的标准化接口。 数据工程师不妨凝神于保持数据近来并挑供良益的访问手段。

但是陶瓷酒瓶新闻,有些事情照样出了题目:

数据科学家的数据集及其生产流水线与数据平台具有相通的标准。它们不会监视,并不适用于战败,并且义务调度并不标准化。 议定更松散的转换,多个数据科学团队正在重新发明多所周知的轮子。 新的理想:数据网格

稍后,已经展现了数据网格的概念(请参阅此风趣的博客文章和此操作。数据来自构造中的多个位置。数据网格而不是创建所有组相符数据的单个外示,而不是创建所有组相符数据的单个外示。为了使数据公司普及可用,每个团队的数据也被视为该团队的产品。该公司的团队还要仔细创建其数据的可用偏见。在这栽情况下,机器学习(ML)产品团队(数据科学家)还将将其转换的数据行为产品挑供给其他数据科学家。他们从各栽其他产品团队中获取本身的数据。所以,每个产品团队(或团队团队)不光开发了他们的产品,而且还向其他团队挑供了可用的景色。在吾注释的是上风之前,让吾画出新的情况:

> A data mesh approach. Image by author.

在左侧,部分或产品团队将通用数据行为服务挑供。固然一组规范化外(DWH)是一栽不妨性,但它也不妨包括事件流(Kafka)或Blob存储。这必要产品团队中的更无数据工程功能。而不是带有数据工程师的中间团队,数据工程师现在正在分布在所有产品团队中,包括分析和ML团队。

在中间,中间数据平台已从数据产品团队(请求域知识)更改为数据平台行为服务团队(必要技术知识)。他们开发内部平台,授权所有团队创建本身的数据存储实例,功能存储,数据处理,数据谱系,调度,过程监控,模型工件,模型服务实例等。所以,先前数据平台团队的所有技术技能都用于创建工具。如许,每个团队都不妨成为本身(幼周围)数据平台团队。这确保了整个公司的做事和高标准的同一手段。

在右侧,数据科学团队不光是数据的消耗者,还不光是数据的制作者。他们的特征工程和数据宣传的效果与其他数据科学团队共享。

这有许多益处:

在域知识是创建的转换。 数据平台团队瓶颈被删除。 自给自足的产品团队。

挑衅是:

将中间平台竖立为服务团队。 防止新的中间数据平台成为成为新瓶颈的服务团队。 以共同的做事手段将所有团队纳入这栽新手段。

在此竖立中,中间平台行为服务团队(或团队)具相关键作用。它们以浅易的自走服务手段竖立并挑供基础架议和柔件服务。当他们创建平台行为服务时,该团队不必要大量的域特定知识。它只凝神于技术方面,使其成为可重复的,并与所有团队分享解决方案。这促进竖立尺度专门益!吾的同事Ruurtjan阵列在这个博客中展现了如何从团队成分角度来实现缩放。然而,有一个大风险:采取瀑布手段。

数据网格手段解决了与数据重用关系的域知识的难度。这是议定将数据的义务移动到生产和操纵该数据的团队的义务来完善。而不是拥有所有数据的中间团队,吾们现在必要一个中间团队,以方便所有团队管理他们的数据。

陷阱是在让这个中间团队最先和运走时采取瀑布手段。在船上之前,不要创建所有必需的基础架议和服务。只要异国操纵服务的单一团队,就异国增补值。所以,您必要迭代地添长和改善服务,而团队则不妨操纵它。

第二个风险是使平台成为服务团队决定了做事手段。这将使团队成为整个公司的瓶颈。在迅速和迭代的手段中,一些团队必要新的工具或服务,该服务尚未为公司采用准备益生产。行为服务团队的平台陶瓷酒瓶新闻,而不是控制那些早期的采用者,而是答该批准和授予新工具和服务的发现和试验。让他们授权产品团队并添入军队。这将为两支球队挑供分享工具和服务的经验进一步跨本公司。

是否不妨转换到数据网?是否有不妨在中间数据平台和数据网之间具有内容?吾们如何务实地采取第一步?吾们尽快收获尽快收入。在一个针对您构造的基础架构功能上量身定制的解决方案中。此帖子的其余片面将注释如何转换到可实现机器学习解决方案,授权数据科学家的数据平台的转换,并分享内部做事手段。

第一步:轻量级的中间数据平台

您不妨创建该数据平台的第一步是什么?倒霉的是,异国饼干刀模板。该手段答倚赖于详细情况,包括现有的技术堆栈,可用技能和能力,流程和清淡Devops以及MLOPS成熟。吾不妨给你通用的提出,期待有一个有效的排泄率。

一栽手段是将以前版本的上风与异日的垫脚石结相符首来,更高级版本(如数据网格):

数据工程师凝神于挑取和负载,变换最幼。 域特定(数据科学)团队凝神于高级转换。 工具答挑供授权团队。

该手段是创建一个轻量级的中间数据平台,包括以下步骤:

操纵特定用例拍摄一个数据科学团队。 竖立一支团队,包括平台工程师和数据工程师。 该平台工程师挑供数据科学团队,其中包含分析环境,包含起码存储和处理。 数据工程师从源外中添载原首数据,增补基本标准化转换,并将其挑供给操纵案例团队。与平台工程师一首,他们创造了所需的服务。 数据科学家与数据平台工程师配相符,在调度,运走和运走数据转换,模型训练循环和模型服务时,不妨成为自吾。他们与数据工程师配相符,专科化其数据转换。

在这栽情况下,数据科学家照样必须做很无数据播栽。但是陶瓷酒瓶新闻,吾们批准它而不是倘若不会发生,而是为他们挑供最佳做事的工具。

这栽手段的一个关键方面是从一个用例最先焦点。数据工程师,平台工程师和数据科学家最先解决这一案例。与此同时,他们在稍后开发必要的工具方面获得经验。

效果如下:

> A lightweight data platform, as a step toward the data mesh. Image by author.

在左侧,吾们保留了原首情况,部分或产品团队只是开发或运营生产实例。这控制了公司普及的变化。

在中间,数据工程师凝神于具有高质量管道的轻量级数据建模。他们主要有助于添载数据,并挑供标准化的访问手段。他们具有重大的技术焦点,包括基础设施和服务。

在右侧,数据科学团队凝神于按照所有必需的域知识创建数据产品。他们议定从客户(操纵他们的数据产品)和上游数据来源的团队来获得所述域知识。他们运走所有必需的分析和转换,同时由平台行为服务团队声援。他们有一个重大的周围和用例焦点。

在底部,平台行为服务团队的做事组件创建可重用组件。所以,他们具有技术焦点。他们为具有域名焦点的数据科学团队挑供服务。行为服务团队的平台答由其请求推动。

下一步:跨团队扩展和分享

下一步是扩展。不妨在各栽维度上完善缩放,包括获取更多源数据集,接入更多的数据科学团队,或者将更多的授权平台增补为服务(思考要素存储,型号,依此类推)。同样,这些选择取决于情况。

现在,让吾们参添一个典型的步骤:接入更无数据科学团队。第一支球队的登上队确保了发达的服务很有效。第一个团队是推出的客户。行为服务团队的平台确保了良益的市场正当内部客户。下一个团队答该更快,更顺当地运走。

操纵多个团队操纵该服务,下一个窒碍将是批准在数据科学团队之间共享数据。这不妨必要服务的一些变化和做事手段。但倘若达到该里程碑,平台倡议将真实改善所有后续团队的生活。这导致以下情况:

> Scaling up by on-boarding more teams

与上一个图像相比,吾们现在有一个额外的数据科学团队,开发敲诈检测产品。他们答该不妨从平台工程师中重用开发的服务并从第一支展望团队中重复操纵数据。

以下步骤:专科化和缩放

不要遗忘这些数据平台举措的现在的。现在的是启用更无数据产品。所以,除了登上多个数据科学团队,还不妨全力向生产模式做事。授权第一个(幼批)团队实际嵌入他们的模型展望到营业中。

操纵这些平台,流程和做事手段,下一步不太懂得。有许多机会不妨挑高服务素质和团队配相符。

按照营业需求,不妨挑高所挑供服务的质量。可能必要一个实时特征存储,一个新的型号服务平台,主动ml工具或更益的模型监控?

就球队的相反性而言,不妨必要一些班次。可能许多案例必要一个“客户360视图”,这不妨导致创建一个团队来管理该同一视图,具有一些主动生成的功能。各栽相通的常见题目不妨用作创建新的常见解决方案的主动性。

总结

议定对其开发的迅速手段,吾已经表现了一栽朝着更无数据驱动构造移动的手段。该帖子期待将您的情况进走比较,而不是将任何解决方案挑出“最佳手段”。

这栽手段的关键构成片面是:

迅速(内部)客户荟萃的手段。 平台思考。 删除瓶颈,同时挑供一个变通性的平台,并授予数据科学团队。 解放团队,解放和自立。它们不妨解放地操纵正当它们的服务,并不妨自立准备他们的数据。

【编辑保举】陶瓷酒瓶新闻

数据科学家变身故事大王的秘诀是……?何为特出?数据科学简历上什么最有价值?关于数据仓库架构及组件方案选型七个Python库:帮你构建第一个数据科学行使程序数据科学训练营之五:机器学习(英文版)
当前网址:http://www.kondogyotaku.net/taocijiupingxinwen/5177.html
tag:陶瓷,酒瓶,新闻,迈向,当代,数据,平台,的,两个,
相关新闻