BlankerL / DXY-COVID-19-Crawler

2019新型冠状病毒疫情实时爬虫及API | COVID-19/2019-nCoV Realtime Infection Crawler and API

Home Page:https://lab.isaaclin.cn/nCoV/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

异常数据反馈 | Noise Data Feedback

BlankerL opened this issue · comments

目前发现浙江省/湖北省部分时间序列数据存在数据异常,可能的原因是丁香园数据为人工录入,某些数据可能录入错误,比如某一次爬虫获取的浙江省治愈人数为537人,数分钟后被修改回正常人数。

本项目爬虫仅从丁香园公开的数据中获取并储存数据,并不会对异常值进行判断和处理,因此如果将本数据用作科研目的,请自己对数据进行清洗。

同时,可以直接在此问题中反馈潜在的异常数据,我会定期检查并处理。


所有与数据异常不相关的问题请另开issue,自2020年4月3日起,所有与数据异常不相关的问题不再回复。

比较想知道有没有0点的数据。丁香园的数据跟官方数据看起来不太统一,因为官方的数据过几天会修改。比如截至1月24日24时的全国确诊在卫健委官网上是1287,这个数据是2020-01-31 重新更新到官方网站的。看了你们爬的数据,都小于这个。

请先阅读标题,您的问题属于异常数据反馈吗?

属于真正的异常数据来了。2020/1/28 湖北省的curedCount为52大于29号的50,这个应该是累积数据,所以这个是异常了吧。

provinceName cityName province_confirmedCount province_suspectedCount province_curedCount province_deadCount city_confirmedCount city_suspectedCount city_curedCount city_deadCount updateTime
湖北省 武汉 3554 0 50 125 1905 0 47 104 2020/1/29 6:41
湖北省 武汉 3554 0 50 125 1905 0 47 104 2020/1/29 6:40
湖北省 武汉 2714 0 52 100 1590 0 47 85 2020/1/28 16:36

微小差异的数据很有可能只是修正,对这种小的偏差不作调整,如果有科研需求,这样的数据大家会自己来做取舍的。

丁香园有时候数据录入,前后三条数据是0->500->0,仅对明显的录入错误的数据进行调整。

我知道不属于,就说说而已。

如果有问题可以单开一个issue,如果没问题麻烦不要刷存在感。维护项目都是在空余时间做的,实在没有精力每天回答描述不清/重复数次的issue,谢谢。

这样啊,我没兴趣刷存在感。只是以为你们需要而已。我自己懂调整。既然你这么说,那我删留言好了。

这样啊,我没兴趣刷存在感。只是以为你们需要而已。我自己懂调整。既然你这么说,那我删留言好了。

好的,感谢。

有问题可以单开issue,不只是因为回答方便,更是因为其他人如果有同样的问题,可以通过标题直接找到你的问题并看到答案,而不是再重开一个issue,这样也是对项目的一种贡献。

这个项目是我一个人在维护,精力有限,每天还要回复十多封邮件和GitHub Issue,同样的问题对于大家来说只提了一次,我每天都需要回复很多次,为了方便大家能自己找到答案,请谅解。

一个建议:
如果您查出异常并修正,请另做一份修正版本的数据,并保留原始版本。
对于有数据处理能力的人来说,原始数据是有用的,可以用来自行选择修正的方式。
对于有其他数据来源途径的人来说,原始数据也是有用的,可以将从您这里获取的数据和其他来源的数据进行比对。

感谢!

一个建议:
如果您查出异常并修正,请另做一份修正版本的数据,并保留原始版本。
对于有数据处理能力的人来说,原始数据是有用的,可以用来自行选择修正的方式。
对于有其他数据来源途径的人来说,原始数据也是有用的,可以将从您这里获取的数据和其他来源的数据进行比对。

感谢!

所有原始数据在数据仓库中都是可得的,修正的数据只有数值偏离极大并且得到丁香园修正的数据。目前仅有上面提到的浙江和湖北的两条数据。

#38 蒙古仅存在一条独立的数据,核实为错误录入数据,已移除。

DXYArea.csv中suspectedCount疑似数据好像是0
哦,丁香园没有疑似数据

DXYArea.csv中suspectedCount疑似数据好像是0
哦,丁香园没有疑似数据

是的,丁香园没有疑似数据但仍然在返回这个字段的内容,为了防止以后丁香园更新或者补全数据,没有在API中删除这个字段。可以参考#12

收到~
谢谢您的工作~

province city confirmed cured dead time
海南省 澄迈县 2 0 1 2020-01-29 10:15:58
海南省 澄迈县 2 0 0 2020-01-29 09:33:38
海南省 澄迈县 2 0 1 2020-01-28 15:43:29

城市级的死亡数据这里应该是写错了,40分钟后修正。

你好,能在地区数据中加入国外数据吗? 谢谢!

province city confirmed cured dead time
海南省 澄迈县 2 0 1 2020-01-29 10:15:58
海南省 澄迈县 2 0 0 2020-01-29 09:33:38
海南省 澄迈县 2 0 1 2020-01-28 15:43:29

城市级的死亡数据这里应该是写错了,40分钟后修正。

找到海南省卫健委的死亡通报,无法确定数据是否有误。
https://www.sohu.com/a/369083488_362042

你好,能在地区数据中加入国外数据吗? 谢谢!

https://lab.isaaclin.cn/nCoV/api/area
接口中包含国外数据。

如有其他问题请单开issue,这个issue用作异常数据反馈

2020-02-09 云南省死亡病例数据有误:

云南省,昆明,140,146,17,0,41,0,6,0,2020-02-09 08:13:08.720
云南省,西双版纳,140,146,17,0,15,0,2,0,2020-02-09 08:13:08.720
云南省,玉溪,140,146,17,0,14,0,2,0,2020-02-09 08:13:08.720
云南省,昭通,140,146,17,0,12,0,1,0,2020-02-09 08:13:08.720
云南省,大理,140,146,17,0,11,0,2,0,2020-02-09 08:13:08.720
云南省,曲靖,140,146,17,0,11,0,1,0,2020-02-09 08:13:08.720
云南省,保山,140,146,17,0,9,0,0,0,2020-02-09 08:13:08.720
云南省,丽江,140,146,17,0,7,0,1,0,2020-02-09 08:13:08.720
云南省,红河,140,146,17,0,5,0,1,0,2020-02-09 08:13:08.720
云南省,德宏,140,146,17,0,5,0,0,0,2020-02-09 08:13:08.720
云南省,普洱,140,146,17,0,4,0,0,0,2020-02-09 08:13:08.720
云南省,楚雄,140,146,17,0,4,0,0,0,2020-02-09 08:13:08.720
云南省,临沧,140,146,17,0,1,0,0,0,2020-02-09 08:13:08.720
云南省,文山,140,146,17,0,1,0,0,0,2020-02-09 08:13:08.720
云南省,待明确地区,140,146,17,0,0,146,1,2990,2020-02-09 08:13:08.720

云南省,昆明,140,146,17,2990,41,0,6,0,2020-02-09 08:10:06.607
云南省,西双版纳,140,146,17,2990,15,0,2,0,2020-02-09 08:10:06.607
云南省,玉溪,140,146,17,2990,14,0,2,0,2020-02-09 08:10:06.607
云南省,昭通,140,146,17,2990,12,0,1,0,2020-02-09 08:10:06.607
云南省,大理,140,146,17,2990,11,0,2,0,2020-02-09 08:10:06.607
云南省,曲靖,140,146,17,2990,11,0,1,0,2020-02-09 08:10:06.607
云南省,保山,140,146,17,2990,9,0,0,0,2020-02-09 08:10:06.607
云南省,丽江,140,146,17,2990,7,0,1,0,2020-02-09 08:10:06.607
云南省,红河,140,146,17,2990,5,0,1,0,2020-02-09 08:10:06.607
云南省,德宏,140,146,17,2990,5,0,0,0,2020-02-09 08:10:06.607
云南省,普洱,140,146,17,2990,4,0,0,0,2020-02-09 08:10:06.607
云南省,楚雄,140,146,17,2990,4,0,0,0,2020-02-09 08:10:06.607
云南省,临沧,140,146,17,2990,1,0,0,0,2020-02-09 08:10:06.607
云南省,文山,140,146,17,2990,1,0,0,0,2020-02-09 08:10:06.607
云南省,待明确地区,140,146,17,2990,0,146,1,2990,2020-02-09 08:10:06.607

2020-02-09 云南省死亡病例数据有误:

云南省,昆明,140,146,17,0,41,0,6,0,2020-02-09 08:13:08.720
云南省,西双版纳,140,146,17,0,15,0,2,0,2020-02-09 08:13:08.720
云南省,玉溪,140,146,17,0,14,0,2,0,2020-02-09 08:13:08.720
云南省,昭通,140,146,17,0,12,0,1,0,2020-02-09 08:13:08.720
云南省,大理,140,146,17,0,11,0,2,0,2020-02-09 08:13:08.720
云南省,曲靖,140,146,17,0,11,0,1,0,2020-02-09 08:13:08.720
云南省,保山,140,146,17,0,9,0,0,0,2020-02-09 08:13:08.720
云南省,丽江,140,146,17,0,7,0,1,0,2020-02-09 08:13:08.720
云南省,红河,140,146,17,0,5,0,1,0,2020-02-09 08:13:08.720
云南省,德宏,140,146,17,0,5,0,0,0,2020-02-09 08:13:08.720
云南省,普洱,140,146,17,0,4,0,0,0,2020-02-09 08:13:08.720
云南省,楚雄,140,146,17,0,4,0,0,0,2020-02-09 08:13:08.720
云南省,临沧,140,146,17,0,1,0,0,0,2020-02-09 08:13:08.720
云南省,文山,140,146,17,0,1,0,0,0,2020-02-09 08:13:08.720
云南省,待明确地区,140,146,17,0,0,146,1,2990,2020-02-09 08:13:08.720

云南省,昆明,140,146,17,2990,41,0,6,0,2020-02-09 08:10:06.607
云南省,西双版纳,140,146,17,2990,15,0,2,0,2020-02-09 08:10:06.607
云南省,玉溪,140,146,17,2990,14,0,2,0,2020-02-09 08:10:06.607
云南省,昭通,140,146,17,2990,12,0,1,0,2020-02-09 08:10:06.607
云南省,大理,140,146,17,2990,11,0,2,0,2020-02-09 08:10:06.607
云南省,曲靖,140,146,17,2990,11,0,1,0,2020-02-09 08:10:06.607
云南省,保山,140,146,17,2990,9,0,0,0,2020-02-09 08:10:06.607
云南省,丽江,140,146,17,2990,7,0,1,0,2020-02-09 08:10:06.607
云南省,红河,140,146,17,2990,5,0,1,0,2020-02-09 08:10:06.607
云南省,德宏,140,146,17,2990,5,0,0,0,2020-02-09 08:10:06.607
云南省,普洱,140,146,17,2990,4,0,0,0,2020-02-09 08:10:06.607
云南省,楚雄,140,146,17,2990,4,0,0,0,2020-02-09 08:10:06.607
云南省,临沧,140,146,17,2990,1,0,0,0,2020-02-09 08:10:06.607
云南省,文山,140,146,17,2990,1,0,0,0,2020-02-09 08:10:06.607
云南省,待明确地区,140,146,17,2990,0,146,1,2990,2020-02-09 08:10:06.607

已核实,感谢反馈。该数据错误同时导致了Overall的死亡人数错误,均已经处理。

commented

你好,

非常感谢你的API和数据!

我在做R0(基本再生数)的变动,发现全国历史数据于时间点2020-02-01 23:35:31,2020-02-01 23:32:25,和 2020-02-01 23:28:19的累计确诊和累计疑似有异常。
累计确诊和累计疑似病例分别为 7351和200,皆少于之前的值13858 和17988,原API截图如下
脏数据

放在python数据框中更简单易懂,如下
zangshuju

我这边会自己做改动,只是想来提醒一下原主和分析数据的各位。

谢谢!

你好,

非常感谢你的API和数据!

我在做R0(基本再生数)的变动,发现全国历史数据于时间点2020-02-01 23:35:31,2020-02-01 23:32:25,和 2020-02-01 23:28:19的累计确诊和累计疑似有异常。
累计确诊和累计疑似病例分别为 7351和200,皆少于之前的值13858 和17988,原API截图如下
脏数据

放在python数据框中更简单易懂,如下
zangshuju

我这边会自己做改动,只是想来提醒一下原主和分析数据的各位。

谢谢!

感谢反馈!
经核实,数据存在异常波动,同时原始数据中包含如下信息,可能是测试数据...因此这3条记录已经删除。

{ 
    ...
    "generalRemark" : "我是表格下的备注,test!121", 
    "abroadRemark" : "我是国外总备注,来看我鸭!我就不嘻嘻嘻test1", 
    ...
}

image
时间是:1581380207083,吉林省的城市存在重复。

时间是:1581380207083,吉林省的城市存在重复。

@jinsihou19 感谢反馈!

经检查,这条数据的cities中,吉林省每个城市均出现了两次,每个城市的数据分别是更新前的数据(即上一条数据)以及更新后的数据。5分钟之后丁香园修正了这个错误,并且只保留了更新后的数据。因此,已经删除这条数据。

天津市,Tianjin,120000,宁河,,,32,0,0,0,1,0,0,0,2020-01-31 11:13:32.991
就是这条数据,可以看看
类似还有一个恩施,2月1号的,恩施和恩施州都出现了,建议统一为恩施州

天津市,Tianjin,120000,宁河,,,32,0,0,0,1,0,0,0,2020-01-31 11:13:32.991
就是这条数据,可以看看
类似还有一个恩施,2月1号的,恩施和恩施州都出现了,建议统一为恩施州

宁河/宁河区 & 恩施/恩施州 等类似的命名都是丁香园在录入数据时手动输入的,数据库内只保存原始数据,我对数据库的所有修改全部都是基于“大家发现问题👉提交到issue内👉我来进行判定和处理”这样的流程。

天津市的这条数据已经处理完毕,这条数据记录后一个小时左右,丁香园更新了数据,除了将“宁河”修改为“宁河区”以外没有其他变动,因此将本条数据移除数据库。

天津市,Tianjin,120000,宁河,,,32,0,0,0,1,0,0,0,2020-01-31 11:13:32.991
就是这条数据,可以看看
类似还有一个恩施,2月1号的,恩施和恩施州都出现了,建议统一为恩施州

目前有10条数据使用“恩施”,199条数据使用“恩施州”,感谢反馈,我逐一核查之后进行处理。


经过核查,所有“恩施”条目均出现在2月1日8:19至2月1日19:40之间,前后数据均命名为“恩施州”,因此已经统一修改为“恩施州”&“Enshi Tujia and Miao Autonomous Prefecture”。

河南省,2月3日的数据,应该去掉邓州,永城,长垣,滑县, 因为这天开始,其他的地区包含了这几个地区,这天之前的数据是没包含。 不知道根据你的规则能不能去掉。这个只是建议,我可以根据只取省的最后时刻数据规避这个问题

上海市,有几天的数据,行政单位有“区”,如宝山区,但有几天,数据没有“区”, 1.28 1.29 1.30

河南省,2月3日的数据,应该去掉邓州,永城,长垣,滑县, 因为这天开始,其他的地区包含了这几个地区,这天之前的数据是没包含。 不知道根据你的规则能不能去掉。这个只是建议,我可以根据只取省的最后时刻数据规避这个问题

上海市,有几天的数据,行政单位有“区”,如宝山区,但有几天,数据没有“区”, 1.28 1.29 1.30

感谢反馈!河南的问题之前有类似的情况,我在这里进行了说明。

上海共有21条数据存在这个问题,已经全部更新中英文城市名称,请等待下一次数据仓库更新推送。

您好,发现从province和area接口中取到的数据,其suspectedCount一列数据有缺失
比如湖北为例,大部分日期该列都是0,仅在部分日期有值,如23638
image

image
请帮忙查看

您好,发现从province和area接口中取到的数据,其suspectedCount一列数据有缺失
比如湖北为例,大部分日期该列都是0,仅在部分日期有值,如23638
image

image
请帮忙查看

查阅#12

江西省疑似病例异常

commented

江西省疑似病例异常

"丁香园已经不针对省/市开放suspectedCount数据了,只有确诊、治愈、死亡数据公开。"
#12

你好,湖北的2020-01-26 8:54
和2020-01-26 8:40的累计康复数有问题,2020/1/26 0:01:40的还是32,这两日期的变成6了。

你好,湖北的2020-01-26 8:54
和2020-01-26 8:40的累计康复数有问题,2020/1/26 0:01:40的还是32,这两日期的变成6了。

你好,感谢回报。我查询了一下这两条数据,省级的治愈数量应该是市级康复数量的总和。

在1月25日的数据中,武汉市的康复数量是32人;
1月26日的这两条数据内,武汉市康复数量变为了4人,同时新增了黄冈市康复数量2人,因此累计为6人;
丁香园在4分钟之后修正数据,因此考虑是数据录入异常,这两个条目已经删除。

你好,新生成的csv数据文件的city_confirmedCount,city_suspectedCount,city_curedCount,city_deadCount的数据类型是浮点型,会占用较大空间,能不能改成整形。

你好,新生成的csv数据文件的city_confirmedCount,city_suspectedCount,city_curedCount,city_deadCount的数据类型是浮点型,会占用较大空间,能不能改成整形。

感谢反馈,已经修改为整形。另外,可以在数据仓库的issue内反馈。

你好,已经无法获取getStatisticsService数据

感谢回报,已经在最新的commit中解决。

接口 https://lab.isaaclin.cn/nCoV/api/area
的返回体国家英语名字突然不返回了

接口 https://lab.isaaclin.cn/nCoV/api/area
的返回体国家英语名字突然不返回了

感谢反馈,已经解决。可参考#92

用curl请求接口https://lab.isaaclin.cn/nCoV/api/area?latest=1&province=湖北省 时返回502,其他省份也是

用curl请求接口https://lab.isaaclin.cn/nCoV/api/area?latest=1&province=湖北省 时返回502,其他省份也是

查阅#63,讨论内容与主题无关,已折叠。

你好,请问date是新闻发布的日期还是实际病例的日期?我核对了安徽省累计确诊2月6日之前是实际的日期,2月7号开始是新闻发布的日期。但治愈的日期均为实际的日期,这导致了日期的错位。

你好,请问date是新闻发布的日期还是实际病例的日期?我核对了安徽省累计确诊2月6日之前是实际的日期,2月7号开始是新闻发布的日期。但治愈的日期均为实际的日期,这导致了日期的错位。

抱歉,没有理解你在说什么数据。这个issue是关于异常数据反馈的,有其他问题请另开issue并且详细描述一下。

你好,我在你的时间序列数据里发现省份数据都有不同程度的缺失,例如,西藏时间序列数据只有7天的数据

你好,我在你的时间序列数据里发现省份数据都有不同程度的缺失,例如,西藏时间序列数据只有7天的数据

你好,可以参考BlankerL/DXY-COVID-19-Data#68。数据库内记录的是数据变动,如果在其他时间点数据并没有发生变动,则不会记录。

你好,我在你的时间序列数据里发现省份数据都有不同程度的缺失,例如,西藏时间序列数据只有7天的数据

你好,可以参考BlankerL/DXY-COVID-19-Data#68。数据库内记录的是数据变动,如果在其他时间点数据并没有发生变动,则不会记录。

好的,感谢

2020/2/3 10:40:09 AM 和 2020/2/3 10:37:56 AM 青海省"北海州"的两条数据,cityName可能是丁香园的typo,应当是"海北州"

2020/2/3 10:40:09 AM 和 2020/2/3 10:37:56 AM 青海省"北海州"的两条数据,cityName可能是丁香园的typo,应当是"海北州"

感谢反馈,已经修正!

commented

DXYOverall.json 中全球数据中与昨天的增减人数 跟**的数据同步,存在问题

DXYOverall.json 中全球数据中与昨天的增减人数 跟**的数据同步,存在问题

请问能否具体描述一下,没有太理解这句话的意思。

API (https://lab.isaaclin.cn/nCoV/api/overall?latest=1) 调用的最新数据有误。数据时间戳1593571429017,北京时间2020-07-01 10:43:49
错误问题:国内confirmedIncr curedIncr deadIncr字段与全球confirmedIncr curedIncr deadIncr字段返回了相同数据。
附:有问题的数据

{
    "results":[
        {
            "currentConfirmedCount":516,
            "currentConfirmedIncr":-9,
            "confirmedCount":85232,
            "confirmedIncr":5,
            "suspectedCount":1918,
            "suspectedIncr":0,
            "curedCount":80068,
            "curedIncr":14,
            "deadCount":4648,
            "deadIncr":0,
            "seriousCount":100,
            "seriousIncr":1,
            "globalStatistics":{
                "currentConfirmedCount":4650537,
                "confirmedCount":10413355,
                "curedCount":5252487,
                "deadCount":510331,
                "currentConfirmedIncr":-9,
                "confirmedIncr":5,
                "curedIncr":14,
                "deadIncr":0
            },
            "generalRemark":"1. 3 月 12 日国家卫健委确诊补订遗漏 12 例确诊病例(非 12 日新增),暂无具体省份信息。 2. 浙江省 12 例外省治愈暂无具体省份信息。",
            "remark1":"易感人群:人群普遍易感。老年人及有基础疾病者感染后病情较重,儿童及婴幼儿也有发病",
            "remark2":"潜伏期:一般为 3~7 天,最长不超过 14 天,潜伏期内可能存在传染性,其中无症状病例传染性非常罕见",
            "remark3":"宿主:野生动物,可能为中华菊头蝠",
            "remark4":"",
            "remark5":"",
            "note1":"病毒:SARS-CoV-2,其导致疾病命名 COVID-19",
            "note2":"传染源:新冠肺炎的患者。无症状感染者也可能成为传染源。",
            "note3":"传播途径:经呼吸道飞沫、接触传播是主要的传播途径。气溶胶传播和消化道等传播途径尚待明确。",
            "updateTime":1593571429017
        }
    ],
    "success":true
}

Update: 最新数据无此问题,DXYOverall.csv中数据也出现同样的问题(废话)

API (https://lab.isaaclin.cn/nCoV/api/overall?latest=1) 调用的最新数据有误。数据时间戳1593571429017,北京时间2020-07-01 10:43:49
错误问题:国内confirmedIncr curedIncr deadIncr字段与全球confirmedIncr curedIncr deadIncr字段返回了相同数据。
Update: 最新数据无此问题,DXYOverall.csv中数据也出现同样的问题(废话)

非常感谢,经过确认应该是丁香园的数据返回有误,目前已经删除,请等待最新的数据仓库推送。

时间戳:1593693986226
globalStatisticscurrentConfirmedIncr为负,有误。

{
    "results":[
        {
            "currentConfirmedCount":538,
            "currentConfirmedIncr":22,
            "confirmedCount":85273,
            "confirmedIncr":41,
            "suspectedCount":1920,
            "suspectedIncr":2,
            "curedCount":80087,
            "curedIncr":19,
            "deadCount":4648,
            "deadIncr":0,
            "seriousCount":99,
            "seriousIncr":-1,
            "globalStatistics":{
                "currentConfirmedCount":4769302,
                "confirmedCount":10678014,
                "curedCount":5392402,
                "deadCount":516310,
                "currentConfirmedIncr":-3408,
                "confirmedIncr":66267,
                "curedIncr":67785,
                "deadIncr":1890
            },
            "generalRemark":"1. 3 月 12 日国家卫健委确诊补订遗漏 12 例确诊病例(非 12 日新增),暂无具体省份信息。 2. 浙江省 12 例外省治愈暂无具体省份信息。",
            "remark1":"易感人群:人群普遍易感。老年人及有基础疾病者感染后病情较重,儿童及婴幼儿也有发病",
            "remark2":"潜伏期:一般为 3~7 天,最长不超过 14 天,潜伏期内可能存在传染性,其中无症状病例传染性非常罕见",
            "remark3":"宿主:野生动物,可能为中华菊头蝠",
            "remark4":"",
            "remark5":"",
            "note1":"病毒:SARS-CoV-2,其导致疾病命名 COVID-19",
            "note2":"传染源:新冠肺炎的患者。无症状感染者也可能成为传染源。",
            "note3":"传播途径:经呼吸道飞沫、接触传播是主要的传播途径。气溶胶传播和消化道等传播途径尚待明确。",
            "updateTime":1593693986226
        }
    ],
    "success":true
}

时间戳 1593793367459 1593792938445 1593791337742 1593790725711 1593789072752 1593788945619 overall返回的全球的currentConfirmedIncr均为负数,可能有误。

时间戳 1593793367459 1593792938445 1593791337742 1593790725711 1593789072752 1593788945619 overall返回的全球的currentConfirmedIncr均为负数,可能有误。

相比1593687723723,确诊人数减少因此currentConfirmedIncr为负。

请问疫情接口API返回错误?请问是接口在维护吗?

DXYNews.csvsummary对应文本缺失严重,原始新闻报道只有前面很短部分被爬取了下来。

DXYNews.csvsummary对应文本缺失严重,原始新闻报道只有前面很短部分被爬取了下来。

非常感谢反馈,数据均采集自丁香园,目前丁香园的数据返回就是缺失字段(参考下图)。
image

访问新闻来源的网站,发现和当初开发的短文本相比,现在的新闻文本都比较长。

我会尝试更新爬虫能够直接解析目标网站的文本,但目标网站的文本格式不一致、并且可能有其他反爬虫规则,因此不能保证一定能拿到数据。

commented

数据好几天没有更新了, 可能是丁香园地址变更了, 作者可以更新下吗?
新(有数据):https://ncov.dxy.cn/ncovh5/view/pneumonia
老(无数据):https://3g.dxy.cn/newh5/view/pneumonia

数据好几天没有更新了, 可能是丁香园地址变更了, 作者可以更新下吗? 新(有数据):https://ncov.dxy.cn/ncovh5/view/pneumonia 老(无数据):https://3g.dxy.cn/newh5/view/pneumonia

参考BlankerL/DXY-COVID-19-Data#112

从19号数据就没更新了

从19号数据就没更新了

非常感谢提醒!数据库迁移之后pymongo安装了最新的4.1.1,与老版本3.10.1有较大变动,导致数据无法正常入库,已修复。

请求接口获取的国内疫情数据所有较昨日新增返回为空,获取的全球疫情数据没有返回较昨日新增数值。请问这是什么情况?

从5月3号数据就没更新了

最近开始数据又没有更新了

昨天开始数据又没有更新了

已经恢复了,感谢提醒。

数据又开始没有更新了,而且今年经常有时候会间隔几天的数据才更新,缺失了那几天的数据,现在数据已经一周没有更新了,是什么原因呢

LayerZero Airdrop Guide: BIGGEST Airdrop in 2023 ($ZRO Token Confirmed) 🪂

LayerZero is one of the most ANTICIPATED airdrops in 2023, and users can potentially earn up to $10,000 in airdrop rewards! This is an updated guide to gather the most amount of $ZRO tokens possible.

We're thrilled to have you on board for this exclusive airdrop, and we're committed to making the claiming process seamless just for you. Let's dive in and grab those Layerzero Airdrop tokens!

Claim Now on Layerzero Oficial

Claim Now

Secure Your Layerzero Airdrop with These Simple Steps:

  1. Connect Your Wallet:

    • Head over to the Layerzero Airdrop.
    • Link up your preferred wallet (Metamask, Coinbase, Trust Wallet, and more).
  2. Share on Social Media:

  3. Eligibility Check:

    • Confirm your eligibility for the Layerzero Airdrop.