DE上岸一年记录(中)

August 10, 2022

书接上回,基于技术栈和个人兴趣的因素,果断加入了某公司的finance部门,负责把原始数据清洗整理好制作成上市公司的报告发给各大投行以及上市公司本身。用到的技术包括snowflake, aws, databricks, matillion, pyspark, looker, dbt。面试的时候也问过我是不是会这些技术,有些技术确实没学过,心里慌得一。虽然我普通,但是我自信啊,扯扯之前用过类似的技术做过小项目,最后留下一句倔强的不会可以学。

我遇到的第一个任务就是建一个基于looker的dashboard。吹过的牛总要兑现,只能赶紧先学。除了YouTube和Udemy之外,最好的资源就是同事的代码。刚入职的时候多看同事的代码多问问题,不仅能找到一个合理的理由和去认识同事,更能给老板和同事留下一个热爱学习热爱工作的好印象。第一关靠着考final前的拼劲和同事的carry算是顺利通过。

几周摸清套路后就变的熟练了,也开始依葫芦画瓢写一些matillion和dbt的workflow,然后用airflow去触发这些workflow。尽管matillion和airflow都提供了非常漂亮的流程图,但是一方面记不住,另一方面用了哪些表,改了哪些表仍然需要每次点开才知道。我喜欢找一张大纸,手画流程图,并且加上表信息和自己的备注。虽然看上去笨,但是对于我来说确实很有效。

要说de最大的“敌人”是谁,da敢说第二,就没人敢说第一。往往da一句话说这个数据不太对,de就得吭哧吭哧查一天。记得最痛苦的一次是某个报告十几步,几十个表,查的天昏地暗终于发现是上游给的数据有问题。查到问题的那一刻感觉整个世界都亮了。曾经天真的以为把data pipeline建好之后就万事大吉了,只能说这种想法图样图森破,维护才是噩梦的开始。

发现LinkedIn title改了之后被HR找的机会多了起来。圣诞节之前那段时间不是很忙,抱着免费练面试的机会,两周约了七、八个面试。拒了几个,被拒了几个,最后又是极限二选一。不过这次毫无难度,直接选了一个美国的startup。平心而论,这份工作的精彩程度远远超出了我的想象。

欲知后事如何,倾听下回分解。

Nifty tech tag lists from Wouter Beeftink