yihui / MSG

Modern Statistical Graphics (《现代统计图形》的附加包)

Home Page:https://bookdown.org/xiangyun/msg/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

data(cn_vs_us) 里的 Market capitalisation 数据

pzhaonet opened this issue · comments

古统第 6.2.4 小节“中美国力”中有段话有些让人费解:

我们在检查《卫报》提供的数据表时发现表中“市值”(Market Capitalisation)一栏中美数据被颠倒了,对比原图和我们重画的图让我们很快注意到了这个差异。

“对比原图和我们重画的图”,看不出这个差异。

对比《卫报》的条形图、data(cn_vs_us) 中的数据以及重新绘制的条形图,三者是一致的,皆是 China 3.6,America 15.0,并没有看到哪里“颠倒”。

那么,书稿里的意思是不是说,《卫报》数据表里错写成了 China 15.0,America 3.6,他家自己的表跟图不一致?而 MSG 包里的数据已经订正了?书稿中没有给出《卫报》提供的数据表,我搜也搜不到。

如果是这样的话,我觉得应该在书稿里体现出这种不一致。比如说,让 cn_vs_us 数据与《卫报》原始数据一致,将错就错,这样就可以体现出书稿里想表达的“数据的录入错误无处不在,而看数字不如看图形更直观这一点也让我们相信图形在检查错误方面有其特殊价值。”同时在 cn_vs_us 数据的帮助文档里说明一下就可以了。

图上有卫报文章的链接(PDF 版本中看不到):https://www.guardian.co.uk/news/datablog/2011/jan/19/china-social-media

文章里提供了数据表地址,错误在这里(居然十年后还没有修正):https://docs.google.com/spreadsheets/d/1Fs0B5uCUwt6p7CsjI5CwiZViHspS83pCJ6i-l3OiL7I/edit?hl=en&hl=en#gid=0&range=A12:C13

截图为证:
image

对比原图和我们重画的图让我们很快注意到了这个差异

这句话的意思是:我用错误的数据画了一幅条形图,很快发现在“市值”的指标上,两幅图不一致,所以才回到源数据检查了一下,发现这一项数据在两个国家上颠倒了。

你把这个意思重新整理一下吧。要是觉得没什么意义,也可以删了。

哦,那我猜对了,MSG 包的数据是订正后的数据。

这个还是很有意义的。那这样,我把这个卫报的数据源链接放到书里(虽然被墙了,然而毕竟言之有据),用这个错误数据自制条形图,这样就能体现两图的不同(这一点在自制条形图的 caption 里强调一下),跟文字就对应上了。

又发现卫报的数据表的一个错误!

China Economic growth 374436 $ GDP per capita
America Economic growth 459891.18 $ GDP per capita

**的这条数据是卫报插图里的 10 倍!

那么要不要把包里 cn_vs_us 这个数据表订正一下?要么两处都订正,要么都不订正。现在只订正了一处。

https://data.worldbank.org/indicator/NY.GDP.PCAP.KD?end=2019&locations=CN-US&start=2002 的数据来看的话,卫报数据表**数据应该是实际的百倍,美国是实际的十倍。卫报的图中数据应该是对的。我看还是在 cn_vs_us 数据中订正一下吧。