1.快排

2.数据类别不均衡的处理方法

3.XGBoost相对于GBDT有什么不同

4.数据记录有多少？特征有多少？训练时间多久？

5.决策树如何处理缺失值？

在选择分裂属性的时候，训练样本存在缺失值，如何处理？假如你使用ID3算法，那么选择分类属性时，就要计算所有属性的熵增(信息增益，Gain)。假设10个样本，属性是a,b,c。在计算a属性熵时发现，第10个样本的a属性缺失，那么就把第10个样本去掉，前9个样本组成新的样本集，在新样本集上按正常方法计算a属性的熵增。然后结果乘0.9（新样本占raw样本的比例），就是a属性最终的熵。分类属性选择完成，对训练样本分类，发现属性缺失怎么办？比如该节点是根据a属性划分，但是待分类样本a属性缺失，怎么办呢？假设a属性离散，有1,2两种取值，那么就把该样本分配到两个子节点中去，但是权重由1变为相应离散值个数占样本的比例。然后计算错误率的时候，注意，不是每个样本都是权重为1，存在分数。训练完成，给测试集样本分类，有缺失值怎么办？这时候，就不能按比例分配了，因为你必须给该样本一个确定的label，而不是薛定谔的label。这时候根据投票来确定，或者填充缺失值。

6.大文件求交集，如何解决哈希之后小文件还是放不进内存

7.卷积神经网络中卷积如何实现，激活函数的意义，损失函数有哪些，初始化参数如何选择

8.用过哪些深度学习框架，TensorFlow中的session是什么

9.贝叶斯公式，实际如何计算

10.L1、L2正则化，区别

11.bagging和bossting

12.Batch Normal的原理以及作用

13.ARMA、LSTM、CNN、convLSTM原理以及网络结构

14.二叉树后序遍历

15.起码得会手推SVD,以及各种变种如funkSVD，BiasSVD，SVD++

16.(27,27,3) stride=1,padding=0,kernel=9, feature map=()

17.关键字怎么提取的，TF-IDF有改进么，怎么改进的

18.关键字怎么提取的，TF-IDF有改进么，怎么改进的

19.命名实体怎么得到的，原理了解

4.LDA的原理是什么，使用了哪个框架

5.狄利克雷分布能具体说说么

6.深度学习了解么

7.RNN LSTM了解么

2.SVM原始问题为什么要转化为对偶问题，为什么对偶问题就好求解，原始问题不能求解么

3.K-means 中我想聚成100类结果发现只能聚成98类，为什么

6.一枚不均匀的硬币，我抛了100次，有70次朝上，那么第101次朝上的概率是多少这个概率怎么样，公示是如何推导出来的

8.4个海盗，100个金币，每个人轮流提方案，如果你的方案有半数以上通过，那么久可以，否则就会被杀掉，如果你是第一个人，那么你怎么提方案比较好 CNN去掉激活函数会怎么样

介绍YOLO/SSD/RCNN/Faster-RCNN/Mask-RCNN算法 YOLO v1/v2/v3 区别细节，SSD如何改进有思考过嘛，知道DSSD/RSSD/FSSD嘛是否了解RPN，RoI pooling,和RoIAlign YOLO/SSD里面有全连接层嘛 ResNet原理 YOLO/SSD算法**如何用到三维点云目标检测目标检测算法one-stage和two-stage区别点在哪里 two-stage算法相比于one-stage有何优势 YOLO v3对比Faster-RCNN有何优缺点单张图片物体越多越密集，YOLO/SSD/Faster-RCNN中计算量是否也随着增加 CVPR/ECCV 2018 最新目标检测算法有了解过嘛如何理解上采样，和下采样的区别是什么上采样(UNSampling)与上池化(UnPooling)区别全连接层理论上可以替代卷积层嘛神经网络里面可以用什么方法替换掉pooling 神经网络提取特征的方式有哪些介绍下你了解的轻量级CNN模型网络模型压缩方面的剪枝，量化和二值化编码基于视频的C3D三维网络模型有听说过嘛什么是空洞卷积，什么是反卷积，作用是什么如何一张RGB图片生成三维模型 PNG/JPG存储图像的原理 global average pooling 和average pooling区别 FPN的原理，为什么不同尺度feature map融合会有效果提升无监督/半监督深度学习有了解过嘛 GAN的原理结构光原理基于RGB图的深度信息估计有了解过嘛 MobileNet V1/V2区别 MobileNet V2中的ResNet怎么应用 ShuffleNet和SqueezeNet Relu为什么比sigmod好目标识别算法常用评测方式 IOU和mAP，AUC和ROC分别是什么图像语义分割评价指标是什么，说下详细原理介绍下常见损失函数，softmax一般和哪个激活函数使用介绍下PointNet/PointNet++/VoxelNet以及他们的优缺点 PointCNN介绍一下旋转矩阵是什么，有什么性质，PointNet中T-Net旋转矩阵的损失函数如何设计如何计算旋转矩阵双线性插值，量化对齐介绍下机器学习和深度学习中常见的参数类算法和非参数类算法随机梯度下降逻辑回归和线性回归区别神经网络训练如何解决过拟合和欠拟合 L1正则化和L2正则化区别，具体有何用途 L1正则化相比于 L2正则化为何具有稀疏解

list tuple区别生成器和迭代器 Python类的定义和实例化方法 tuple为元素的list中tuple可变嘛 list为元素的tuple中list可变嘛 Tensorflow如何合并两个Tensor word2vector怎么做的，讲一下其中的原理。如何进行分词，算法原理，分词的几种方法，正向最大匹配法，逆向最大匹配法 LR公式推导损失函数如何多分类什么情况下用LR 聊聊树，ID3为什么相比C4.5能会过拟合，信息熵，条件熵，信息增益，信息增益率几种常用的特征选择方法

9.LR和SVM的联系与区别？

@朝阳在望，联系：

1、LR和SVM都可以处理分类问题，且一般都用于处理线性二分类问题（在改进的情况下可以处理多分类问题）

2、两个方法都可以增加不同的正则化项，如L1、L2等等。所以在很多实验中，两种算法的结果是很接近的。

区别：

1、LR是参数模型，SVM是非参数模型。

2、从目标函数来看，区别在于逻辑回归采用的是Logistical Loss，SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。

3、SVM的处理方法是只考虑Support Vectors，也就是和分类最相关的少数点，去学习分类器。而逻辑回归通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。

4、逻辑回归相对来说模型更简单，好理解，特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些，SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。

5、Logic 能做的 SVM能做，但可能在准确率上有问题，SVM能做的Logic有的做不了。

18.LSTM结构推导，为什么比RNN好？

推导forget gate，input gate，cell state， hidden information等的变化；因为LSTM有进有出且当前的cell informaton是通过input gate控制之后叠加的，RNN是叠乘，因此LSTM可以防止梯度消失或者爆炸。

19.经常在网上搜索东西的朋友知道，当你不小心输入一个不存在的单词时，搜索引擎会提示你是不是要输入某一个正确的单词，比如当你在Google中输入“Julw”时，系统会猜测你的意图：是不是要搜索“July”，如下图所示：

这叫做拼写检查。根据谷歌一员工写的文章How to Write a Spelling Corrector显示，Google的拼写检查基于贝叶斯方法。请说说的你的理解，具体Google是怎么利用贝叶斯方法，实现”拼写检查”的功能。

用户输入一个单词时，可能拼写正确，也可能拼写错误。如果把拼写正确的情况记做c（代表correct），拼写错误的情况记做w（代表wrong），那么”拼写检查”要做的事情就是：在发生w的情况下，试图推断出c。换言之：已知w，然后在若干个备选方案中，找出可能性最大的那个c，也就是求P(c|w)P(c|w)的最大值。而根据贝叶斯定理，有：

P(c|w)=P(w|c)P(c)P(w)P(c|w)=P(w|c)P(c)P(w)

由于对于所有备选的c来说，对应的都是同一个w，所以它们的P(w)是相同的，因此我们只要最大化P(w|c)P(c)P(w|c)P(c)即可。其中：

P(c)表示某个正确的词的出现”概率”，它可以用”频率”代替。如果我们有一个足够大的文本库，那么这个文本库中每个单词的出现频率，就相当于它的发生概率。某个词的出现频率越高，P(c)就越大。比如在你输入一个错误的词“Julw”时，系统更倾向于去猜测你可能想输入的词是“July”，而不是“Jult”，因为“July”更常见。

P(w|c)表示在试图拼写c的情况下，出现拼写错误w的概率。为了简化问题，假定两个单词在字形上越接近，就有越可能拼错，P(w|c)就越大。举例来说，相差一个字母的拼法，就比相差两个字母的拼法，发生概率更高。你想拼写单词July，那么错误拼成Julw（相差一个字母）的可能性，就比拼成Jullw高（相差两个字母）。值得一提的是，一般把这种问题称为“编辑距离”，参见程序员编程艺术第二十八~二十九章：最大连续乘积子串、字符串编辑距离。

所以，我们比较所有拼写相近的词在文本库中的出现频率，再从中挑出出现频率最高的一个，即是用户最想输入的那个词。具

20.为什么朴素贝叶斯如此“朴素”？

因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知，这个假设在现实世界中是很不真实的，因此，说朴素贝叶斯真的很“朴素”。

25.hash 冲突及解决办法？

@Sommer_Xia

关键字值不同的元素可能会映象到哈希表的同一地址上就会发生哈希冲突。解决办法：

1）开放定址法：当冲突发生时，使用某种探查(亦称探测)技术在散列表中形成一个探查(测)序列。沿此序列逐个单元地查找，直到找到给定的关键字，或者碰到一个开放的地址(即该地址单元为空)为止（若要插入，在探查到开放的地址，则可将待插入的新结点存人该地址单元）。查找时探查到开放的地址则表明表中无待查的关键字，即查找失败。

2）再哈希法：同时构造多个不同的哈希函数。

3）链地址法：将所有哈希地址为i的元素构成一个称为同义词链的单链表，并将单链表的头指针存在哈希表的第i个单元中，因而查找、插入和删除主要在同义词链中进行。链地址法适用于经常进行插入和删除的情况。

4）建立公共溢出区：将哈希表分为基本表和溢出表两部分，凡是和基本表发生冲突的元素，一律填入溢出表。

26.维特比算法。

godkillok / daguan

1.快排

2.数据类别不均衡的处理方法

3.XGBoost相对于GBDT有什么不同

4.数据记录有多少？特征有多少？训练时间多久？

5.决策树如何处理缺失值？

6.大文件求交集，如何解决哈希之后小文件还是放不进内存

7.卷积神经网络中卷积如何实现，激活函数的意义，损失函数有哪些，初始化参数如何选择

8.用过哪些深度学习框架，TensorFlow中的session是什么

9.贝叶斯公式，实际如何计算

10.L1、L2正则化，区别

11.bagging和bossting

12.Batch Normal的原理以及作用

13.ARMA、LSTM、CNN、convLSTM原理以及网络结构

14.二叉树后序遍历

15.起码得会手推SVD,以及各种变种如funkSVD，BiasSVD，SVD++

16.(27,27,3) stride=1,padding=0,kernel=9, feature map=()

17.关键字怎么提取的，TF-IDF有改进么，怎么改进的

18.关键字怎么提取的，TF-IDF有改进么，怎么改进的

19.命名实体怎么得到的，原理了解

4.LDA的原理是什么，使用了哪个框架

5.狄利克雷分布能具体说说么

6.深度学习了解么

7.RNN LSTM了解么

2.SVM原始问题为什么要转化为对偶问题，为什么对偶问题就好求解，原始问题不能求解么

3.K-means 中我想聚成100类结果发现只能聚成98类，为什么

About

Languages

1.快排

2.数据类别不均衡的处理方法

3.XGBoost相对于GBDT有什么不同

4.数据记录有多少？特征有多少？训练时间多久？

5.决策树如何处理缺失值？

6.大文件求交集，如何解决哈希之后小文件还是放不进内存

7.卷积神经网络中卷积如何实现，激活函数的意义，损失函数有哪些，初始化参数如何选择

8.用过哪些深度学习框架，TensorFlow中的session是什么

9.贝叶斯公式，实际如何计算

10.L1、L2正则化，区别

11.bagging和bossting

12.Batch Normal的原理以及作用

13.ARMA、LSTM、CNN、convLSTM原理以及网络结构

14.二叉树后序遍历

15.起码得会手推SVD,以及各种变种如funkSVD，BiasSVD，SVD++

16.(27,27,3) stride=1,padding=0,kernel=9, feature map=()

17.关键字怎么提取的，TF-IDF有改进么，怎么改进的

18.关键字怎么提取的，TF-IDF有改进么，怎么改进的

19.命名实体怎么得到的，原理了解

4.LDA的原理是什么，使用了哪个框架

5.狄利克雷分布能具体说说么

6.深度学习了解么

7.RNN LSTM了解么

2.SVM原始问题为什么要转化为对偶问题，为什么对偶问题就好求解，原始问题不能求解么

3.K-means 中我想聚成100类 结果发现只能聚成98类，为什么

About

Languages

3.K-means 中我想聚成100类结果发现只能聚成98类，为什么