1.SQL聚合/窗口功能
视频通话表
呼叫者|收件人|日期 |call_id |呼叫长度
Q:过去 30 天,呼叫者发起呼叫的前 10 个
2.SQL聚合/窗口功能
用户表
user_id |age_group |国家|日期 |
dau_flag
问:昨天在我们这里花费的时间/活跃用户的总和?
3. 产品感
如果过滤器垃圾邮件好友请求。列举出一系列criterion之后,如何验证你的criterion是正确的,最后一个问题是,可以添加什么新 feature来防止垃圾邮件.
4.产品感
筛选出在某天有多少人通过了好友请求,对于某个人overtime他的好友通过率是多少.
5.产品感
news feed 缩小25% 怎么衡量有没有用,然后就是经典的如何解释美国和泰国两个地区metric 表现不一样?
6.SQL 功能
示例行:
日期|search_id |user_id |age_group |
search_query
--------------------------------------------------------------------
'2020-01-01' |101 |9991 |“<30”|贾斯汀·比伯
“2020-01-01” |102 |9991 |“<30”|“门洛公园
”2020-01-01“ |103 |5555 |“30-50”|'john'TABLE
2
示例行:
日期 |search_id |result_id |result_type |点击--------------------------------------------------------------------
'2020-01-01' |101 |1001 |“页”|TRUE'2020-01-01
' |101 |1002 |“事件”|FALSE
'2020-01-01' |101 |1003 |“事件”|假
的'2020-01-01' |101 |1004 |“组”|FALSE
Q1:在过去 7 天中,10 个最受欢迎的搜索查询是什么?
问题 2:执行返回多类型结果的搜索的用户占多百分比?
7. 贝叶斯/ 统计
考的基础概率,bayes,comment/dau distribution 要画分布然后根据你估计的mean和median,问你x天后p95和p50的mean怎么变(regression to mean)
8. ML模型基础
一个binary classification的case,问了rf和gbdt的区别,它们的优缺点,loss function是什么,用什么求解(gradient descent)然后问了gradient descent的意义是什么
9.SQL聚合/窗口功能
表:user_actions
ds (字符串) |actor_id|post_id|关系(字符串)|互动(字符串)
'2019-07-01'|431 |7921 |“朋友”|“喜欢
”2019-07-01'|431 |7921 |“朋友”|'评论'
2019-07-01'|938 |9235 |“页面”|“哇
”2019-07-01'|209 |7220 |“组”|“爱”
2019-07-01'|384 |7128 |“组”|'分享'
2019-07-01'|492 |0879 |“页面”|'喜欢'
2019-07-01'|887 |3842 |“组”|“哈哈”
表:user_posts
ds (STRING) |poster_id|post_id|
'2019-07-01'|123 |7921 |
'2019-07-01'|123 |3910 |
'2019-07-01'|004 |3495 |
'2019-07-01'|832 |3294 |
'2019-07-01'|283 |4820 |
'2019-07-01'|822 |2472 |
'2019-07-01'|119 |8204 |
Q1:昨天好友帖子上有多少点赞?
Q2:如果我是用户123,你们会如何计算我所有帖子的平均点赞数?
产品:
如何在新闻源中定义有意义的互动?
10.SQL聚合/窗口功能
session id, userid, session start time, session end time, date_stamp, app
a. 求各app的session之间的平均间隔,就是关闭一个session然后打开另一个session之间的时间
b. 每个user的bounce rate,好像是app1到app2再回到app1 算一个 bounce