陆陆续续有小伙伴私信我问如何准备数据科学面试,于是索性写一篇攻略好啦,本篇超级无敌干货!
🎀 本人背景
我本科是清华数理基科班的,硕士是UC Berkeley运筹学MEng program(这个项目当时只有九个月,我一来到美国就开始找工作了,面试了Quant和Data science,第三个月拿到了心仪的Data Science offer就从了)。从业至今做过Fraud detection、finance forecasting和growth领域,做过end to end machine learning model,deep learning model,写过production code,也做过很多dashboard、ad hoc analysis和AB testing。除了recommendation领域没做过,其他或多或少都有过涉及。
📈 关于Data Science
Data science业界现在主要两个方向,core和product:core主要是读paper做model,may or may not write production code,depends on是否有eng合作支持;product主要是做AB testing、dashboard和analytics,根据分析需求做一些小model。
🎈 准备方向
如果是面Core方向的,以下都需要准备;如果是product方向的,3⃣️不需要花时间,了解简单的regression、tree model就可以了,4⃣️也基本不太用准备。
1⃣️ SQL
主要刷Leetcode和HackerRank,如果之前没接触过SQL的可以看一下W3 School Tutorial。面试前可以考察一下自己是否熟练掌握:各种join,window function,各种condition,group,各种date相关的,coalesce,cast,等等。写SQL一定要有条理,尤其在写白板的时候,不仅要对,而且还要工整,面试官一目了然知道你想干嘛。建议大家用with,业界除了特殊情况,DS们都是用with的,好debug好解释。还有就是校招的可能对SQL要求会小一些,已经在industry摸爬滚打过的小伙伴们SQL一定要过关。
2⃣️ Business Insights
对metrics要多一些理解,也多读一些文章和论坛看看大家的分析,比如retention、MAU等等最基本的metric能说出一二,能和面试官聊到一块儿去。不一定全都答对,主要是聊思路。
3⃣️ Machine Learning
这个不同领域用的model主要面临的问题会比较多样,比如fraud会碰到很多imbalance data,recommendation会有sparse data问题,等等。面试前可以考察自己对regression、tree model是否理解的透彻,不同model优缺点是什么,supervised和unsupervised learning model有哪些,什么时候适合用什么model,如果学过deep learning的更好。推荐大家一本简单易懂的书:Elements of Statistical Learning,面试复习必备。想学deep learning的推荐Deep Learning book。
4⃣️ Leetcode
刷Easy一般部分就够了,通常不会考DP,但我也真面过考DP的,直接懵逼了。编程语言什么都可以,主流就是Python和R,一般production code都是Python,会Spark的加分。
5⃣️ Stats / AB Testing
这个一定要复习,推荐看Udacity的AB Tesing by Google课程,非常非常有用!!
6⃣️ 自己的projects
自己做过什么project一定要熟悉,用了什么model,为什么这样选择,performance怎样。
7⃣️ Behavioral Questions
夸自己的不多说了,一定要准备好被问一些你觉得自己哪里做的不够好这种问题,主要思路就是曾经有什么地方做得不够好,经过哪些努力改善,最后有了哪些进步。“work too hard”这种答案可以不用说了,没啥必要。
8⃣️ 面经
刷一亩三分地里对应公司的面经就好。
完成以上的准备,你的面试基本safe了。祝大家好运!
最新评论 7
:嗷嗷又美又学霸!
:
:普通人找工作多不容易得学习准备那么多,不像某人甩出头衔就拿个cfo.
:又发现一个人美学习又好的宝藏女孩,dealmoon里真是卧虎藏龙
:学霸
:很好的面试准备,我现在在大银行做data engineer,主要做coding,pipeline,mechine mearning model training。
: