写在前面的话
哈喽各位dealmoon的小仙女们,我是兔子。三年前我还是一个纯纯的商科生,虽然高中学的是理科,但本科四年+研究生两年,全部读的都是会计!研究生毕业之后曾经短暂地在会计师事务所工作过一年。因为种种原因,我在2017年的夏天gap了一年,2018到2019年读了一年的Data Science program,终于在2019年末再次上岸,成为一名码农啦。
写这篇文章的目的,其实是想从一个转行过来人的角度,给大家分享一下在入学Data Science program之前我做了哪些准备,哪些材料/技术在我后来上学和工作的时候让我觉得获益匪浅。在数据这条路上我并没有走得很远,写码之路也才刚刚开始,希望我的小小经验可以帮助正在观望的盆友们。
知识储备篇
Stats + Linear Algebra
想要入门数据科学,那么统计和线性代数简直是必不可少的两门基础课程。统计的重要性不言而喻,不管是想走偏analytical的方向,还是machine learning,stats的地位都不可撼动。至于linear algebra,我记得在入学前曾经听学长说过一句话,“stats决定了你(data science生涯)的下限,而linear algebra决定了你的上限”。大家所知道的machine learning/deep learning,这些听起来就非常fancy的领域,其实linear algebra是最重要的基础。
下面推荐几本我读master时候我最最爱的老师使用的教材:
🌟Hogg, Robert V. and Elliot A. Tanis. Probability and Statistical Inference, 9th edition.
🌟Ghahramani, Saeed. Fundamentals of Probability, with Stochastic Processes, 3rd edition.
🌟Howard Anton and Chris Rorres. Elementary Linear Algebra, 11th edition.
A/B Testing
也许是因为我实习期间做了一些跟A/B Testing相关的事情,又或许是因为我们A/B Testing的老师特别帅气(雾),我对这个领域其实很感兴趣。最简单的应用大概就是,大家刷ins的时候都会刷到投放的广告,假设现在ins每隔8个posts会投放一个广告,那如果我propose每隔5个posts投放广告,会对revenue产生怎样的影响呢?这就可以用到A/B Testing啦。
A/B Testing的基础就是统计,所以对这方面感兴趣的小伙伴一定要好好学习统计啦。我对A/B Testing的学习全部源自于我们program老师自己编写的教材,所以不方便share,但是曾经看到过大家诚恳推荐Udacity的A/B Testing课程。感兴趣的小伙伴可以去看一下。
Machine Learning
Machine Learning的火爆程度,哪怕不是做tech的小伙伴,也应该都听得耳朵出茧子了吧。上面这张图应该是最经典的machine learning memes了哈哈。入门machine learning的第一步,大家可以先把statistics学起来了!当然如果之后想要进一步钻研deep learning,背后还有更庞大的数学知识需要掌握。
不过Twitter上流行这么一句话,“When you’re fundraising, it’s AI. When you’re hiring, it’s ML. When you’re implementing, it’s logistic regression.” 也正说明了,其实好多时候工业界的implementation和理论研究也相差很多。
下面给大家推荐几个我自己入门machine learning的时候听过的课程。
🌟 Andrew Ng在Coursera上的Machine Learning课程
这大概是想要学习Machine Learning的朋友都会想去看的一门课啦。课程内容比较深入浅出,讲解得也比较细致,只是课后练习我觉得并没有必要跟着做,因为所用的技术已经比较过时了。
🌟apachecn/AiLearning
喜欢看中文版的小伙伴可以去搜这个github,里面的内容涵盖了machine learning, deep learning, 甚至还有natural language processing,非常齐全了。
🌟Kaggle
Kaggle是一个成立于2010年的进行数据发掘和预测竞赛的在线平台。Machine Learning初学者去到Kaggle很容易迷失方向(至少我是这样),但是当你有一定了解之后,Kaggle就是个宝藏啦。先排除比赛名次什么的不说,光是很多有趣的dataset就能让我们有很多发挥的余地。对于很多已经结束的比赛,我们还是可以继续做,比赛排名靠前/大牛们都喜欢发一些自己的notebook或者code来分享自己整个modeling的过程,从中可以学习到很多,建议有兴趣的小伙伴一定要去看看。第一步从哪里开始呢?当然就是最著名的Titanic Machine Learning Competition啦!可以先跟着别人的notebook走一遍,再根据自己的想法添加features,选择model。不得不说有时候看着自己的model performance很好,真的很有成就感呢。
敬请期待工具篇+资源篇
好啦,这就是我今天想给大家分享的入门数据科学我觉得比较重要的一些知识,希望对大家有帮助。疫情期间如果有空余时间,大家可以好好利用这些时间,做些自己喜欢的事情,充实自己,生活才会更有意义呢 🥰大家如果有什么问题,欢迎留言给我,我们一起交流一起成长呀!
如果你对我从会计转行程序员的经历感兴趣,也欢迎戳下面的晒货,看看我转码六个月里学到的事情~👇
君君提示:你也可以发布优质内容,点此查看详情 >>
本文著作权归作者本人和北美省钱快报共同所有,未经许可不得转载。长文章仅代表作者看法,如有更多内容分享或是对文中观点有不同见解,省钱快报欢迎您的投稿。