1. AB test
为一个新的广告计费模型做AB test,想看看新的模型是否有效。给了数据,要求做tests
2. 找数据,清理数据,分析,建模和汇报结果
问美国的哪个地区近些年来气候变化最大?
这个是完全开放的,要求自己找数据,清理数据,分析,建模和汇报结果.
3. AB test
tables,tweets,tweetid, userid, time
follow,follower, followe
1) 为每个用户显示的推文是什么
2) 找出相互之间的跟随关系
4. Product sense
大概就是他们launch 了一个feature, 然后有两个platform的revenue time series和其他covariates的数据. 需要你建模去测量这个feature带来的revenue.
5. Metrics calculation
从yahoo finance上load一个bit-coin的data set, 然后大概算算某几个时间段的perf
6. 简单coding+MLE application
简单coding+MLE application。 Coding问题:罐子里有红糖和蓝糖 取到红就吃点 取到蓝就放回去,再取一次并吃掉. 问罐子最后一粒是红的概率. ML application和model selection有关, ROC AUC什么的.
7. 随机分类
给定100k怎么随机分给三个人,并且分钱的expectation相同.
8. Product metrics
关于如何选metrics定义spam users who come back,coding题是给了user - phone number 的hashmap,通过找linkage的电话号码return可以被identify成同一个人的所有user的hashmap.
9. Python histogram
给了user id,action, timestamp table, 用python output一个可以直接用来画histogram的table (i.e. count of users by active minutes).
10. ML新系统问题
有一个新的ML系统,帮助检测哪些tweet是侵权的或者人身攻击的。基于这个model的output(very likely, maybe,not likely),人工会仔细review 第一大类或最多第一+第二大类。
case的context就是要在mobile platform上增加push notification.
11. SQL metrics
给的input table 有三个column: userid, notification_setting('on' or 'off') 和timestamp
1. 算多少人今天turn off notification?
2. 算多少人在今天是eligible to receive notification?
3. generalize 2 to time series
12. SQL join
两个表,A有100行数据,B有150行数据,primary key是ID. 问:full join后的表有多少行数据?inner join后有多少行?
13. SQL join
关于广告竞拍的. second price auction,要优化price floor/reserve price.
给的数据每行是一个bid price bucket,然后有关于这个bucket一共有多少的竞拍,赢了多少,平均竞拍价格,实际支付价格.