datawhalechina / pumpkin-book

《机器学习》(西瓜书)公式详解

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

西瓜书待推导或待解析公式征集

Sm1les opened this issue · comments

commented

请评论留下西瓜书需要补充推导细节或者需要解析的公式编号,我们看到后会尽快进行补充。

第一章的 no free lunch theory

这是我读书时遇见的第一个,感觉对我来说也是比较难的数学公式推导。

我还记得旁边有个注释说 如果你看不懂这个公式,就不用看这本书了,Σ( ° △ °|||)︴

非常感谢

commented

第一章的 no free lunch theory

这是我读书时遇见的第一个,感觉对我来说也是比较难的数学公式推导。

我还记得旁边有个注释说 如果你看不懂这个公式,就不用看这本书了,Σ( ° △ °|||)︴

非常感谢

好的,我们尽快补充上。

commented

@eeechoo 你好,公式1.2的解析已经补充好了,顺便说一下,西瓜书前两章的公式能看懂最好,看不懂也没关系,不会是你像说的“如果你看不懂这个公式,就不用看这本书了”那样夸张,看完第三章以及后续章节讲的各种模型以后再回过头看前两章会容易很多,同时也会理解得更深刻,个人愚见,仅供参考 :)

@Sm1les 非常感谢,确实是这样的。后面很多模型**还是很简单的(很多基于常识和高中数学),**简单,为了解决一个一个问题逐渐复杂化(例如SVM,为了解决异或问题引入核函数)。大家不要被我误导,其实看不懂的时候跳着看也有很多收获(手动斜眼笑)。
again, thank you for your work @Sm1les

公式3.40的推导St = Sb + Sw是怎么的得到之后的3.40中表示的式子的,xi和miu,m这几个变量都表意不明

commented

@mxl1990 同学你好,式3.40、3.41、3.42都是定义来的,西瓜书上对每个变量都有作说明,唯独式3.43是需要推导的,我刚刚已经将式3.43的推导过程添加进南瓜书了,您可以查阅一下,如果还有疑问可以继续反馈 :)

你好,公式6.34那个括号里面为什么不应该是max(0, 2 - yi(w^Txi + b)),从上文看z =yi(w^Txi + b)-1,所以1-z应该等于2 - yi(w^Txi + b)呀?

commented

@soNGBoO 同学你好,你所说的上文应该是式6.29和6.30吧,式6.29和6.30中所说的z和式6.31中所说的z并不是完全相同的z,但是都指代的是损失的决策边界(我自己诌的哈),在式6.29和6.30中考察的是z是否大于0,而在式6.31中考察的是z是否大于1,所以是不能把式6.29和6.30中的z直接搬到式6.31中的,再结合前文SVM的建模思路应该不难理解式6.34中的后半部分,个人愚见,仅供参考 :) ps:如果还是不能理解的话欢迎关注Datawhale公众号(直接搜“Datawhale”),点击公众号菜单栏中的“加入学习---学习社群”加入学习群,群里面有很多很有爱很能干的同学会为你解答。

@Sm1les 非常感谢

《机器学习(西瓜书)注解》百度网盘链接: https://pan.baidu.com/s/1QtEiNnk8jMzmbs0KPBN-_w (目前已有第3-4,6-11,13章共九章的内容),建议这里重点攻克后三章(第14-16章)内容

公式3.44怎么来的?能不能解释一下

commented

@jbb0523 好的,感谢前辈的建议,我们这边已经有在推进所有未完成章节的推导,前辈写的注解相当详细,不知是否愿意合作一起完善南瓜书,我的邮箱:sm1les@qq.com,期待您的回复 :)

啥时候把12章的公式都上一上,虽然会比较硬核😂

commented

@wizcheu 同学你好,我们已经有专人在跟进这一章了,我们会尽快更新上来,请保持关注 :)

@Sm1les 好的,谢谢哈~

commented

@shaoyuhlq 好的,我们尽快将其补充进去 :)

@jbb0523 好的,感谢前辈的建议,我们这边已经有在推进所有未完成章节的推导,前辈写的注解相当详细,不知是否愿意合作一起完善南瓜书,我的邮箱:sm1les@qq.com,期待您的回复 :)

我也是初入机器学习,入门中。后面我还会推一下其余几章,目前打算先2/5/12吧,最后三章再看时间吧,但我不太会用github,感觉大家尽量利用好有限的精力,已经推出来的可以让会github的编辑放到这里来~
现在深度学习大火,建议另弄一个开源,把goodfellow等人写的“深度学习”推一遍~

commented

@jbb0523 好的,您方便留一下联系方式吗?不想公开可以发我邮箱,我想和您进一步交流一下可以吗?:)

@jbb0523 好的,您方便留一下联系方式吗?不想公开可以发我邮箱,我想和您进一步交流一下可以吗?:)

就是我的名字AT163.com~

commented

@shaoyuhlq 同学你好,式3.44的解析已经更新上去了,请查阅 :)

10.11 对矩阵的计算不太懂,谢谢

commented

@SiyingLiang 10.11公式其实是利用对角矩阵的特殊性(可以把一个对角矩阵拆成两个其开方后的对角矩阵的乘法形式),使B=V(^1/2^1/2)VT=(^1/2VT)T(^1/2VT)=ZTZ。所以Z=^1/2VT。即10.11。

求教,176页(8.16)是怎么推导的。谢谢。

commented

@dingyinghua 同学你好,我们负责第8章的同学已经将式8.16的推导补充上去了,你看一下能看懂不?

求教,38页二项检验,不太懂。希望能结合普通的假设检验步骤i.e.从设定H0到设定检验统计量等等说明一下

commented

@SkyFishMoon 同学你好,由于第2章的公式比较硬核,我们还在尝试推进,请保持关注 :)

commented

第二章41页的公式2.33以及42页的公式2.34和2.35是怎么推导出来的,我初略知道卡方分布和F分布的公式构成,但是无法推导出来,请求指教😄

@dingyinghua 同学你好,我们负责第8章的同学已经将式8.16的推导补充上去了,你看一下能看懂不?

听君一席话,烦恼都不见!谢谢您的的指点!

在8.5-8.8的推导中的那一大段话的最后一句: f(x)是概率分布函数,但是前文和书上说的是f是真实函数,这里是不是写错了?
另外下面的式子
ExD[exp(-fh)]=P(f=1|x)*exp(-h)+P(f=-1|x)exp(h) (
虽然直观上我能理解,但是结合8.16推导里的
Ex
D[exp(-fh)]=累加D(xi)exp(-f(xi)h(xi)) (
我就想不通怎么由第二个式子(
)推到第一个式子(*)。这中间应该有一条桥梁,某个公理之类的东西我没想到。请您指教下,谢谢!

commented

@bianjie0618 同学你好,这部分我们还在推进当中,你先看后面的内容,这部分内容我们会尽快补充上 :)

commented

你好,请问公式2.41中左边的注释:考虑到噪声不依赖于f,由式2.37,最后项为0怎么理解啊?

commented

@MrZ19 同学你好,第2章的公式暂时还没法及时回答你,请保持关注 :)

commented

@msterdb 同学你好,负责第8章的同学针对你的问题进行了一些补充,你看一下是否还有问题?

commented

你好,我想问下第十章p230页,若基于z_i来重构x_i,请问后面的式子是如何推导出来的呢?谢谢

您好,请问第3章中,如何从(3.45)中求得W的闭式解呢?

commented

@ZengPingLin 同学你好,书上式(3.45)下面那句话不就已经告诉我们求W的闭式解的方法了吗?

@msterdb 同学你好,负责第8章的同学针对你的问题进行了一些补充,你看一下是
没有了,谢谢!

commented

@yekebuda 同学你好,你说的是式(10.14)吗?

commented

是的,就是10.14。我想知道为什么可以用z_ij*w_j来表示x_i?

commented

@yekebuda 同学你好,这是第10章的主要贡献者给出的解释:“举个例子,x_i是三维数据样本,z_i是对应降到二维的样本,其实z_i是三维空间那所谓的重构平面的点,但是z_i目前坐标只是二维的,所以有这个式子。重构回三维空间的z_i就是所谓的重构x_i,根据向量的减法规则,它们的差就是x_i垂直那个平面的距离。”,如果你还是不理解的话,你可以邮箱联系他,他会给你做进一步的解释,邮箱地址:1277841724@qq.com

6.13 最后一个 =0 是为什么

commented

@qiao1406 同学你好,你看一下西瓜书附录的B.1里面关于KKT条件的讲解你应该就知道为什么了。

commented

@yekebuda 同学你好,这是第10章的主要贡献者给出的解释:“举个例子,x_i是三维数据样本,z_i是对应降到二维的样本,其实z_i是三维空间那所谓的重构平面的点,但是z_i目前坐标只是二维的,所以有这个式子。重构回三维空间的z_i就是所谓的重构x_i,根据向量的减法规则,它们的差就是x_i垂直那个平面的距离。”,如果你还是不理解的话,你可以邮箱联系他,他会给你做进一步的解释,邮箱地址:1277841724@qq.com

好的,谢谢

187页8.38相关系数推导能做一下吗,直接按相关系数公式推比较繁琐,但最后的形式很简洁完美,我在想有没有什么精巧的推导解法。

commented

@SanGilbert https://doc.mbalib.com/view/f98245cda48cfd88d0646330e19cb4c7.html 同学你好,可以看下这个资料,从第36页开始

commented

您好,请问10.28的推导中,
\left | \sum_{j\in Q_{i}}w_{ij}(x_{i}-x_{j}) \right |2^2
为何会导出
W
{i}^{T}(x_i-x_j)(x_i-x_j)^TW_i
呢?
我理解在sum的过程中,x_j也会被 \sum_{j\in Q_{i}}加起来呀?

commented

您好,请问10.28的推导中,
\left | \sum_{j\in Q_{i}}w_{ij}(x_{i}-x_{j}) \right |2^2 为何会导出 W{i}^{T}(x_i-x_j)(x_i-x_j)^TW_i
呢?
我理解在sum的过程中,x_j也会被 \sum_{j\in Q_{i}}加起来呀?

x_j是要被sum的,所以wij变成了Wi,这个Wi我简写了,可以看下面对它的说明,就是那个k近邻得到的权值。

commented

您好,请问10.28的推导中,
\left | \sum_{j\in Q_{i}}w_{ij}(x_{i}-x_{j}) \right |2^2 为何会导出 W{i}^{T}(x_i-x_j)(x_i-x_j)^TW_i
呢?
我理解在sum的过程中,x_j也会被 \sum_{j\in Q_{i}}加起来呀?

x_j是要被sum的,所以wij变成了Wi,这个Wi我简写了,可以看下面对它的说明,就是那个k近邻得到的权值。

谢谢你的回复!
我理解中因为w_i_j(x_i-x_j)对于不同j的交叉线无法消除,所以可能会导致
C_i=(x_i-x_k)(x_i-x_l)^T,k\in Q_i,l\in Q_i
这样的情况发生?

16章中 "P(state=x| action=a) 表示在状态 x下选择动作 a的概率”,这个不是条件概率么,条件概率的话不就该理解成在动作a下状态x的出现概率么?

2.33
不太明白为什么除以分母后就变为卡方分布了

commented

@aiaiaiaia 同学你好,第2章的公式我们还在尝试推进当中,暂时还没法及时回答你,请保持关注 :)

16.7 的意思是对当前状态x求全概率( p(x)=\sum p(x|a)p(a) ),还是对下一状态x'求全概率( p(x')=\sum p(x'|a)p(a) )?

(6.21)推导时候为何没有b 呢??

commented

@flitdu 同学你好,这是因为和前面6.11一样,只要求出了alpha的值,自然也就求出了w和b。

您好,式(6.52)中SVR的KKT条件没有明白式怎么推出来的,由什么推出来的,谢谢!

16.7 的意思是对当前状态x求全概率( p(x)=\sum p(x|a)p(a) ),还是对下一状态x'求全概率( p(x')=\sum p(x'|a)p(a) )?

为啥小哥哥不理我呀 (;′⌒`) ,是我的问题太蠢了么,哭唧唧 (ノへ ̄、)

commented

@VVVXYZ 没有没有,你一提问完我就看到了,而且我还联系了16章的负责人来帮忙回答你的问题,由于他这两天在外面有事,没带电脑,所以没有及时回复你,我今天再帮你问一下,这两天应该就能给你答复,对于每个提问我们可能会有怠慢,但是绝对不会忽视的 :)

commented

16章中 "P(state=x| action=a) 表示在状态 x下选择动作 a的概率”,这个不是条件概率么,条件概率的话不就该理解成在动作a下状态x的出现概率么?

这个是我们写错了,现已更正,请查阅。

16章中 "P(state=x| action=a) 表示在状态 x下选择动作 a的概率”,这个不是条件概率么,条件概率的话不就该理解成在动作a下状态x的出现概率么?

谢谢你的疑问,对不起,是我笔误了,请问这位同学还有什么疑问吗?

16.7 的意思是对当前状态x求全概率( p(x)=\sum p(x|a)p(a) ),还是对下一状态x'求全概率( p(x')=\sum p(x'|a)p(a) )?

同学你好,16.7这个公式是对VπT(x)的推导,公式展开的时候使用了全概率公式。

@MrBigFan 还是有的,如果π(x,a)=P(state=x∣action=a)的话,那P x→x ′^a是表示的什么?
我的理解是 π(x,a) = P(action=ai) , P x→x ′^a = P(state=x'∣action=ai),
全概率展开是对下一个状态x'展开,P(x')=sum over i P(action=ai)*P(state=x'∣action=ai),
带进去并用离散变量求期望的公式就得到书上的结果

符号用的不是很严谨,但意思应该表达清楚了 …(⊙_⊙;)…

您好,希望可以增加式(6.69)的推导

@MrBigFan 还是有的,如果π(x,a)=P(state=x∣action=a)的话,那P x→x ′^a是表示的什么?
我的理解是 π(x,a) = P(action=ai) , P x→x ′^a = P(state=x'∣action=ai),
全概率展开是对下一个状态x'展开,P(x')=sum over i P(action=ai)*P(state=x'∣action=ai),
带进去并用离散变量求期望的公式就得到书上的结果

符号用的不是很严谨,但意思应该表达清楚了 …(⊙_⊙;)…

抱歉,是我之前写公式的时候笔误了,按书上π(x,a)=P(action=a∣state=x)的定义,可以这样得到。明白你的意思,你理解的p(x')是条件概率展开,可以的。

@MrBigFan 好的。感谢两位小哥哥@MrBigFan @Sm1les ,两位小哥哥好认真的。

@MrBigFan 好的。感谢两位小哥哥@MrBigFan @Sm1les ,两位小哥哥好认真的。

同学很仔细,谢谢你的指正

commented

@VVVXYZ 不客气,有问题欢迎随时反馈,我们一起让南瓜书越来越完善,帮助更多有需要的人 :)

commented

@Fussiji 同学你好,式(6.52)的推导我已经添加进南瓜书第6章了,请查阅。式(6.69)的推导我们尽快补充进去,请保持关注 :)

您好,12.42可否补充一下,谢谢

commented

@OriginPrince 同学你好,书上12.42下面不是有具体的证明过程吗?你是对证明过程有疑问是吗?

@OriginPrince 同学你好,书上12.42下面不是有具体的证明过程吗?你是对证明过程有疑问是吗?

是的啊,主要就是夹杂了sup运算的证明好多地方不是很理解,如果方便证明一下的话就太好了,十分感谢。

commented

@OriginPrince 好的,同学方便微信和我们联系一下吗?我们沟通一下看看具体要对哪些地方进行补充说明,我的邮箱sm1les@qq.com

第10章公式10.17∂J(W)/∂W的结果可能存在错误 ,按照迹求导结果应该是这个:∂J(W)/∂W = -2XX.TW+2λW

commented

第10章公式10.17∂J(W)/∂W的结果可能存在错误 ,按照迹求导结果应该是这个:∂J(W)/∂W = -2XX.TW+2λW

你好,我查看了矩阵求导公式,在保证求导后为列向量的情况下,求导后前一项是2Ax,后一项是2x。

书138面,公式7.27的推导过程,谢谢

commented

@mxl1990 同学你好,是【158页】的公式7.27吗?

@mxl1990 同学你好,是【158页】的公式7.27吗?

嗯,是的,写错了,是158页

commented

@mxl1990 同学你好,7.27那个公式书上写得很清楚,没有需要补充推导的地方,结合着图7.3中间的那个V型结构图应该是不难理解7.27的,你再试着思考一下,如果还是不能理解的话可以邮件和我沟通,我给你解释,我的邮箱sm1les@qq.com

commented

3.26是怎么推出来的吗?

commented

@LinusRobot 同学你好,式3.26属于一种技巧性的公式,所以是无需推导的,理解了就好。

commented

3.26该如何理解吗?可以说一下吗

commented

@LinusRobot 好的,式3.26书上说了是似然函数里面的似然项,而似然函数里面的似然项其实就是随机变量y的概率密度函数(或者分布律),所以只要能构造出一个p(y)表达式能满足p(y=1)=p_1,p(y=0)=p_0即可,其中p_1表示的是y取到1的概率,p_0表示的是y取到0的概率。而式3.26你可以自行验证一下它是满足这个要求的,同样满足这个要求的另一种p(y)表达式我在南瓜书第3章式3.27的推导最后有给出,你可以去查阅一下。

commented

3.26 哦,yi是样本的输出值,之前以为是第i个样本为正例的概率,没看清条件,谢谢了!

commented

10.17中J(W)对W求导是否应该是(-2)倍的?

commented

10.17中J(W)对W求导是否应该是(-2)倍的?

你好,那个公式,我按维基百科上的矩阵求导公式是(2)倍的,如果有哪个矩阵导数公式求出来的是(-2)倍的,欢迎给我发个链接,谢谢。

commented

10.17中J(W)对W求导是否应该是(-2)倍的?

你好,那个公式,我按维基百科上的矩阵求导公式是(2)倍的,如果有哪个矩阵导数公式求出来的是(-2)倍的,欢迎给我发个链接,谢谢。

matrix cookbook p13页第108和115个公式

commented

10.17中J(W)对W求导是否应该是(-2)倍的?

你好,那个公式,我按维基百科上的矩阵求导公式是(2)倍的,如果有哪个矩阵导数公式求出来的是(-2)倍的,欢迎给我发个链接,谢谢。

matrix cookbook p13页第108和115个公式

谢谢,我去看看。

commented

10.17中J(W)对W求导是否应该是(-2)倍的?

你好,那个公式,我按维基百科上的矩阵求导公式是(2)倍的,如果有哪个矩阵导数公式求出来的是(-2)倍的,欢迎给我发个链接,谢谢。

matrix cookbook p13页第108和115个公式

谢谢,我去看看。

你好,我找了那本书看了,还是2倍的,我看了一下南瓜书上写的,推到出来应该是J = -(2xx^TW+2lambdaW),是由于后面要使等于0,就简写了。可以修正过来。

commented

10.17中J(W)对W求导是否应该是(-2)倍的?

你好,那个公式,我按维基百科上的矩阵求导公式是(2)倍的,如果有哪个矩阵导数公式求出来的是(-2)倍的,欢迎给我发个链接,谢谢。

matrix cookbook p13页第108和115个公式

谢谢,我去看看。

你好,我找了那本书看了,还是2倍的,我看了一下南瓜书上写的,推到出来应该是J = -(2xx^TW+2lambdaW),是由于后面要使等于0,就简写了。可以修正过来。

嗷嗷不好意思,2倍没有问题,刚才没仔细看。我想说的是在10.17给出的公式解释中,J对W的偏导数应该是-(2)倍的。因为还没有给出0这个条件,不应该把(-2)省略。

commented

10.17中J(W)对W求导是否应该是(-2)倍的?

你好,那个公式,我按维基百科上的矩阵求导公式是(2)倍的,如果有哪个矩阵导数公式求出来的是(-2)倍的,欢迎给我发个链接,谢谢。

matrix cookbook p13页第108和115个公式

谢谢,我去看看。

你好,我找了那本书看了,还是2倍的,我看了一下南瓜书上写的,推到出来应该是J = -(2xx^TW+2lambdaW),是由于后面要使等于0,就简写了。可以修正过来。

你好,刚才看了一下还没有修正过来。麻烦看到修正一下吧。

请问可以解释一下公式(9.5)-(9.7)的含义吗

commented

@Fussiji 好的,我们尽快补充上去 :)

commented

@yekebuda 同学你好,我已经代@Ggmatch 修订了式10.17,你看一下还有什么问题吗?

commented

@yekebuda 同学你好,我已经代@Ggmatch 修订了式10.17,你看一下还有什么问题吗?

没有了,谢谢

commented

@Fussiji 同学你好,公式9.5-9.7的解释已经补充进去了 :)

请问(9.33)公式推导中是怎么由倒数第二行到最后一行的呢,谢谢

@Sm1les 收到啦,谢谢

commented

@Fussiji 同学你好,公式9.33倒数第二行令其等于0以后两边乘上一个sigma_i就可以得到最后一行,我已经将这一恒等变形过程补充上去了,你查阅一下。