1. Transformer相关问题
什么是attention network, transformer
2. Transformer相关问题
什么是BERT
3. Gradient Descent
什么是stochastic gradient descent. 和gradient descent有什么区别
4. Bias/Variance
什么是bias and variance
5. SVM
什么是SVM?
What does Support Vector stand for?
什么是kernal trick?
6. Regularization
有哪些regularization方法(L1,L2,dropout)
什么是dropout?
为什么可以regularize?
7. Gradient Descent
什么是stochastic gradient descent. learning rate应该怎么决定?
当batch size增加时,learning rate应该增加还是减小?
8. Batch Norm
什么是batch norm。有什么用
9. Dropout
什么是dropout。dropout的过程中activation的input会比没有dropout要小,因为一些上一层的neuron没有contrbute,这个时候怎么办。Testing的时候要不要dropout。
10. ML基础知识
什么是supervised 和unsupervised learning