chriswangweb / Machine-learning

Machine learning records

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Machine-learning

机器学习后的一些梳理

image

决策树与朴素贝叶斯

逻辑回归通过拟合曲线(或者学习超平面)实现分类,决策树通过寻找最佳划分特征进而学习样本路径实现分类,支持向量机通过寻找分类超平面进而最大化类别间隔实现分类。相比之下,朴素贝叶斯独辟蹊径,通过考虑特征概率来预测分类。举个可能不太恰当的例子:眼前有100个人,好人和坏人个数差不多,现在要用他们来训练一个“坏蛋识别器”。怎么办呢?咱们不管他们干过啥事,只看他们长啥样(这确实不是个恰当的例子)。也就是说,我们在区分好坏人时,只考虑他们的样貌特征。比如说“笑”这个特征,它的取值可能是“甜美的笑”、“儒雅的笑”、“憨厚的笑”、“没心没肺的笑”、“微微一笑”,等等——这都是“好人的笑”;也可以是“阴险的笑”、“不屑的笑”、“色眯眯的笑”、“任我行似的笑”、“冷笑”、“皮笑肉不笑”,等等——这很可能是“坏人的笑”。单就“笑”这个特征来说,一个好人发出“好人的笑”的概率更大,而且频率更高;而坏人则发出“坏人的笑”的概率更大,频率更高(电视上总能看见作奸犯科的人在暗地里发出挨千刀的笑)。当然,好人也有发出坏笑的时候(那种偶像剧里面男猪脚“坏坏的笑”),坏人也有发出好人的笑的时候(想想《不要和陌生人说话》里面的冯远征),这些就都是噪声了。

除了笑之外,这里可用的特征还有纹身,性别等可以考虑。朴素贝叶斯把类似“笑”这样的特征概率化,构成一个“人的样貌向量”以及对应的“好人/坏人标签”,训练出一个标准的“好人模型”和“坏人模型”,这些模型都是各个样貌特征概率构成的。这样,当一个品行未知的人来以后,我们迅速获取ta的样貌特征向量,分布输入“好人模型”和“坏人模型”,得到两个概率值。如果“坏人模型”输出的概率值大一些,那这个人很有可能就是个大坏蛋了。 决策树是怎么办的呢?决策树可能先看性别,因为它发现给定的带标签人群里面男的坏蛋特别多,这个特征眼下最能区分坏蛋和好人,然后按性别把一拨人分成两拨;接着看“笑”这个特征,因为它是接下来最有区分度的特征,然后把两拨人分成四拨;接下来看纹身,,,,最后发现好人要么在田里种地,要么在山上砍柴,要么在学堂读书。而坏人呢,要么在大街上溜达,要么在地下买卖白粉,要么在海里当海盗。这些个有次序的特征就像路上的一个个垫脚石(树的节点)一样,构成通往不同地方的路径(树的枝丫),这些不同路径的目的地(叶子)就是一个类别容器,包含了一类人。一个品行未知的人来了,按照其样貌特征顺序及其对应的特征值,不断走啊走,最后走到了农田或山上,那就是好人;走到了地下或大海,那就是大坏蛋。(这是个看脸的例子,但重点不是“脸”,是“例子”,这真的只是个没有任何偏见的例子)。可以看出来,两种分类模型的原理是很不相同。

关注的人

https://www.zhihu.com/people/YJango/activities

About

Machine learning records