今天继续关注媒体的新冠疫情数据可视化报道。今天向大家介绍《纽约时报》的疫情数据追踪项目。
我们前面几天介绍过,《纽约时报》的新冠疫情报道获得了今年普利策奖的公共服务奖,做得非常出色。《纽约时报》选送参评普利策奖的系列作品中,数据新闻作品就占了很大分量。这次,他们的“冠状病毒追踪”项目更是获得了今年的SIGMA奖。评委会对这个项目的评价是:好的数据既重要又短缺,而《纽约时报》在分享数据方面引领了整个行业。即使对《纽约时报》来说,这也是一项巨大的人员和资源投资。评委们对《纽约时报》将其大量的数据工作变成开放资源,并成为更广泛的数据共享社区的一部分的做法,给予极高评价。
我们在介绍《大西洋月刊》的新冠疫情追踪项目时,提到过,美国因为各洲的医疗体系相对独立,数据分散,没办法全国统一的疫情数据。《纽约时报》初期在报道疫情时,县级病例数据库、疫苗数据库和疗养院数据库,都由记者团队检查公共网站和推特信息,或联系州、县政府,手工操作获取数据。
在报道的过程中,《纽约时报》开发了一套超过300个自动数据刮削器和一个PostgreSQL数据库,用来收集数据,和存储县级病例和死亡数据集。他们对养老院的疫情数据做回归分析,采写了“美国近三分之一的冠状病毒死亡与疗养院有关”数据新闻,记者们将县级数据库与人口普查数据结合起来,确定大学生至少占人口10%的县。然后,记者们将这个约200个县的名单与《纽约时报》的大学案例数据库进行交叉对比,由此产生的报道显示,大学校园推动了初秋时节的病例激增,而且大学爆发的病例可能导致更广泛的社区死亡。(在美国高校追踪冠状病毒)《纽约时报》利用这些数据,解释每个州和县、养老院、大学、监狱等地的最新疫情状况。
为了采集的数据准确性,《纽约时报》记者制定了严格的数据采集规范,每个数据库都有严格的输入和验证方法,以确保以一致的方式计算病例和死亡。