作为初创公司的第一位数据工程师，我学到了什么

发布时间：2019-09-17 19:27:27 所属栏目：评测来源：AI前线小组译

导读：副标题#e# 一个没有数据工程经验的人成了一家初创公司的第一位数据工程师，这是一项艰巨的挑战，但回报也是很可观的。公司在招人的时候不仅要找到合适的人，还要让他们相信加入公司是正确的选择。当我收到 EmCasa 公司的面试邀约的时候，我是另外一家公司

副标题[/!--empirenews.page--]

一个没有数据工程经验的人成了一家初创公司的第一位数据工程师，这是一项艰巨的挑战，但回报也是很可观的。

公司在招人的时候不仅要找到合适的人，还要让他们相信加入公司是正确的选择。

当我收到 EmCasa 公司的面试邀约的时候，我是另外一家公司的数据科学家。他们想找一位可以帮助他们组织数据的人。我问他们现在已经有哪些数据了，他们真诚地回答我：“我们只有 PostgreSQL 数据库里的几张表，还尝试使用了一些 BI 工具，仅此而已”。听了他们的话，我也很诚实地告诉他们：我没有亮眼的学位，之前也没做过数据工程师，不懂 Spark，不会 Airflow，不是 ETL 方面的专家，也不懂测试和 Git 之类的东西，我也不是一名开发人员。但我见过很多东西，有一些很好，有一些还不错但仍有提升的空间，还有一些完全不行。我的想法是要尽量避免去尝试已知不可行的东西。

我不知道他们是怎么想的，总之最后我成了他们公司的第一位数据工程师。

在加入这家公司后，一切都像他们之前所说的那样。我有足够的施展空间，可以按照我认为的最好的方式去做每一件事情。第一周，我们就制定了一些季度 OKR：

从 Facebook Ad、Google Ad、SalesForce 和其他第三方服务获取数据；
实现一个 BI 平台；
将物业估价算法准确度提高 20%；
将评估模型设计成独立的 API；
更新和改进 Web 爬虫。

为了从第三方服务提取数据，我们开始调研 ETL 解决方案，比如 StitchData、Fivetran、Segment、Alooma、Rivery，等等。要为每个第三方服务 API 构建自定义集成方案需要花费很多时间，但我们速度要快，而使用 ETL 服务解决方案可以为我们节省几个月的开发和维护时间。我们决定使用 Rivery，并在两周内搭建了一个 Redshift 集群，用来每天更新来自第三方服务的数据。这个时候，Luca 加入了我们，成了我们的 BI 分析师。他现在有很多数据可以玩了。我们还使用 Metabase 作为仪表盘。到目前为止，一切都很顺利。我们终于有了真正的数据，而不只是 PostgreSQL 里的几个表了！

下一步是改进物业估价模型，并将其作为一个独立的 API（之前的模型是与后端绑定在一起的）。但我们没有足够的数据来创建新模型（虽然确实有了一些数据，但还不够）。于是，我把目光投向了我们的 Web 爬虫工具。它是用 Elixir（我们的后端就是用 Elixir 开发的）开发的，但我不懂 Elixir，于是我决定用 Python 从头开始开发另一个爬虫。我创建了一个叫作 Spatula 的 Python 包，它可以从其他网站爬取数据清单，并将它们保存到 S3。这个时候，我们的数据科学家 Priscila 也加入进来，她负责处理旧数据。我在本地运行 Spatula，她就可以使用 Athena 查询数据，然后开始建模。

接下来，我开始研究 Airflow，不过我遇到了一些麻烦。一个是学习如何编写 DAG，一个是学习如何将 Airflow 可靠地部署到 AWS 上。我花了很多时间学习 Airflow、Terraform、Docker 和 AWS ECS，才顺利地在 AWS 上进行了第一次部署（https://github.com/nicor88/aws-ecs-airflow），然后又花了更多的时间按照我们的需求进行了定制。我担心这项任务会占用太多时间，所以我问经理是否可以把时间往后推一点，并换一种方式来安排任务（我知道这种方式从长远来看是行不通的）。经理的回答是：“我们在面试你的时候就知道你的情况，有些东西你也不懂，但你可以花时间去学，找到正确的方式来完成这些任务”。这种管理姿态和”做正确的事情“的承诺是我在其他公司从未见过的。随后，我们花了更多的力气部署好了 Airflow，让 Spatula 爬虫每周爬取一次数据。

ä½œä¸ºåˆåˆ›å…¬å¸çš„ç¬¬ä¸€ä½æ•°æ®å·¥ç¨‹å¸ˆï¼Œæˆ‘å¦åˆ°äº†ä»€ä¹ˆ

收集用户信息，用来预测房产销售价格。我们会询问物业的详细信息，如有多少个房间、套房、浴室和车库。

这个时候，Priscila 的新估值模型也准备就绪，但还没有准备好用于生产环境。我开始和她结对编程，并告诉她我修改了哪些东西，以及为什么和怎么改的。然后我们一起部署了 Priceteller，这是我们的第一个机器学习模型。它是运行在 AWS Lambda 上的 Flask API 和 API 网关。在部署之前，我们还与开发团队讨论了很多与代码质量、测试和文档相关的问题。他们不想在生产环境中向不可靠的 API 发送请求——他们提出这样的高标准绝对是有道理的。当我们达到他们的标准，我们的第一个机器学习模型就可以上线了。最近，我们还部署了第二个实时模型 Selekta，它可以根据用户的偏好来推荐清单。

ä½œä¸ºåˆåˆ›å…¬å¸çš„ç¬¬ä¸€ä½æ•°æ®å·¥ç¨‹å¸ˆï¼Œæˆ‘å¦åˆ°äº†ä»€ä¹ˆ

我们的第一个机器学习模型，从数据抓取到部署

Priscila 告诉我她以前的公司是如何使用 Airflow 的。因为我之前都没有用过 Airflow，所以试着通过反复试错来学习。她提出了一个改进清单，我全盘接受了。从那时起，我们开始在 AWS Glue 上运行 Spark 作业，并用一个 Airflow 任务来触发和监控它们。我们的作业每隔一个小时从后端获取数据。我们还有其他一些负责保存用户日志事件的任务。我们还创建了一个推荐模型，每天以批次的方式运行。不知不觉地，我们现在在 S3 上有了一个数据量超过 2TB 的数据湖。

ä½œä¸ºåˆåˆ›å…¬å¸çš„ç¬¬ä¸€ä½æ•°æ®å·¥ç¨‹å¸ˆï¼Œæˆ‘å¦åˆ°äº†ä»€ä¹ˆ

我们目前的数据基础设施

那么，我们从中学到了什么？

如果目标明确，学习就不是个问题

（编辑：源码网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

B365主板首测牙膏还能	moto edge X30评测我
思博伦推动日本乐天移	系列史上最强影像！华