但并不是每家公司都有 Netflix 的预算

人数有限制。然而,贵公司雇用的数据科学家和分析师的数量似乎没有限制。更多关注数据,实现“数据驱动”。 因此,“数据构建者”(数据工程师)和“数据消费者”(数据分析师、科学家、机器学习应用程序等)之间的比例急剧上升。 我发现(数据构建者)与(数据消费者)的比例在 之间。一名数据工程师必须支持个下游用户。 这就是问题开始的地方。回到最初的三个工作领域,将会发生以下情况: 管道运行很长时间并会产生错误和问题。

或者他们编写自己的 SQL 语句

不过,您可能只能在运行后发现,而现在您必须找出发生了什么问题。这是一个巨大的干扰。 现有的模型可能无法提供企业想要的答案。分析师希望快速行动,因此他 沙特阿拉伯电报号码数据 们绕过您并 开始添加新模型,甚至直接查询您的仓库中的原始数据 。如果基础表发生变化,这会导致模型膨胀和损坏。 您的最终用户可能正在使用为其生成 的工具。这两种方法都可能导致 语法不佳,从而给整个仓库带来压力, 导致每个人的查询速度都很慢。

对于数据工程师来说

然后用户向数据工程师提交支持票证(“我的查询很慢”,或者“我的查询没有完成或完成”)。您会被大量的支持请求淹没。 我们当然是在戏剧化,但从方向上来说,这是工作中 电子邮件列表 最糟糕的三个部分。我们称之为“保持盘子旋转”。 数据工程中最糟糕的部分 我书中最糟糕的是最后一点——处理糟糕的 。 那是因为管道和模型是您可以控制的。约定、工具、监控、警报、访问权限等——有一种方法可以在事物周围设置护栏。 但控制最终用户及其 SQL 是不可能的。

Tags: , , , ,