Сложный процесс получения данных о смертности в Пуэрто-Рико: хронология

анализ данных визуализация данных
Rafael Irizarry

Rolando Acosta and I recently posted a manuscript on bioRxiv describing the effects of Hurricane María, based on an analysis of mortality data provided by the Demographic Registry. I was also an author on a paper published in May based on a survey of 3,000 households. These are very different datasets. Assuming it is complete, the Demographic Registry dataset provides much more precise quantitative information. However, this dataset was not made publicly available until June 1, 2018, three days after the paper based on the survey data was released. The story of how all this happened is somewhat complex. In this post I describe this process in some detail.

There is also a bit of confusion about why we performed a survey at all, as opposed to using the Demographic Registry as done by other groups. The main reason is that we were not provided the 2017 data and did not know if what was being published was official government data or not. We eventually obtained preliminary 2017 data, after our survey was finished, but, as I show below, these data appeared to be incomplete for November and December. The complete data for 2017 was not released until June 1.

As I was looking through my emails to remind myself of the multiple ways we requested the data, I found that the entire story to be interesting and informative. So I put together an annotated timeline. Note that I might update this list if colleagues or other involved parties send me corrections or more information.

Sep 20- Ураган Мария обрушился на Пуэрто-Рико.

Sep 20-30– Сообщения друзей и родственников указывают на ужасную ситуацию: ни у кого из них нет электричества, у немногих есть водопровод, у некоторых нет возможности связаться.

Oct 03– Президент США посещает Пуэрто-Рико.press conference the governor states that the death count is 16.

«Каждая смерть — это ужас, — сказал Трамп, — но если вы посмотрите на настоящую катастрофу, такую ​​как «Катрина», и вы посмотрите на чудовищное — сотни и сотни погибших людей — и вы посмотрите на то, что здесь произошло, действительно, буря это было просто потрясающе… никто никогда не видел ничего подобного»."Каков ваш счет смертей? - спросил он, обращаясь к губернатору Пуэрто-Рико Рикардо Росселло. - 17?" "16", - ответил Росселло."16 человек сертифицированы, — сказал Трамп. — Шестнадцать человек против тысяч. Вы можете очень гордиться тем, что все ваши люди и все наши люди работают вместе.

Oct 3 - 23 - The number 16 did not make sense to me. And if the government is incorrectly assuming things are fine, the response will not be appropriate and people will be at risk. This is when I first decide I should look for daily mortality data as we can probably get a decent estimate from studying the jump right after September 20.

Oct 23– Доктор Кэролайн Баки, ведущий автор исследования, впервые связывается со мной и спрашивает, не заинтересован ли я в оценке ситуации в Пуэрто-Рико. На основании отчетов коллеги, проводившей полевые исследования в Пуэрто-Рико, она говорит: обеспокоен тем, что оценки смертности в Пуэрто-Рико после урагана в корне ошибочны". Она уже организует кластерный опрос, чтобы попытаться количественно определить истинную смертность, вызванную ураганом. Я согласен помочь. Мы начинаем изучать литературу по этой теме и думать о том, с кем сотрудничать с группами в Пуэрто-Рико.

Oct 31 - Caroline starts contacting people in Puerto Rico asking for help with the survey.

Nov 01 - We start designing the study. For the power calculation it would be convenient to get an idea of a possible range of death rates. We start trying to find public mortality data that can help us do this.

Nov 08 - The New York times publishes an article based on funeral home data confirming our suspicion that the situation in Puerto Rico is much worse than was reported on October 3.

Nov 14– Не имея никаких шансов найти официальные правительственные данные в Интернете, я отправил электронное письмо в Статистический институт Пуэрто-Рико (PRIS) с просьбой о помощи.

Nov 16– PRIS отвечает, что эти данные есть в Демографическом регистре, они от нашего имени отправляют по электронной почте справочник Демографического регистра.

Nov 20– CNN публикуетarticle describing a funeral home survey estimates. They estimate about 499 excess deaths.

Nov 21– Исследование Университета штата Пенсильвания (PSU) с первой оценкой избыточной смертности, основанной на данных о смертности, размещено наSocArXivПо их оценкам, избыточных смертей около 1000. Эта оценка основана на исторических данных за 2010–2016 годы и подсчете за сентябрь 2017 года, который авторы получили из публичного заявления, сделанного министром общественной безопасности Пуэрто-Рико.

Nov 27 - I email the corresponding author of the PSU study asking if they have the data.

Dec 03 - I scrape the data from PSU study, as described in an earlier post. This data helps guide our study design. Here is a plot of the data that clearly shows that there are more deaths than expected. The plot includes a count for October which is publicized later (see Dec 07 entry).

Dec 05 - We receive data from a Demographic Registry demographer, but it does not include the most important part: the 2017 data. Они утверждают, что у них «до сих пор нет этих данных».

Dec 05 - We start finalizing the study design for a survey. Based on the limited information we have, we perform a power calculations and decide to make the sample size as large as our funds permit.

Dec 06 - PSU study author replies. But email with data appears to be lost in the mail.

Dec 07 - Centro de Periodismo Investigative (CPI) publishes an estimate of excess deaths based on September and October data of about 1,000. It appears they have 2017 data!

Dec 07- Отthis tweet, it appears PSU investigator also has the data. I ask on twitter if CPI or PSU investigator have official data.

Dec 08– Я пишу следователю ПГУ по электронной почте с просьбой предоставить данные.

Dec 08 - New York Times published a comprehensive article with very nice data visualization and an estimate of 1,052. They have daily data!

Dec 08– Я написал первому автору статьи в New York Times. Она говорит, что потребовалось 100 писем/звонков, чтобы получить данные, и предлагает связаться с директором реестра. Итак, теперь мы знаем, что у Демографического реестра действительно есть данные.

Dec 08- Кажется, чтоthe 2017 data does exist and three different groups were given accessЗа три дня до этого Демографический регистр сообщил нам, что у них «все еще нет этих данных».

Dec 09– Я прошу доктора Баки написать по электронной почте директору регистратуры, чтобы убедиться, что не только мне отказывают в данных.

Dec 11 - PRIS replies. They give us the name of a Registry demographer that gave data to others. PRIS emails Registry directory, again, on our behalf.

Dec 13- Официальное количество смертей сейчас составляет около 55, и министр общественной безопасности отвергает текущие оценки избыточных смертей. Он говорит следующее:

It should be noted that similar numbers are seen in December and January of previous years when no atmospheric phenomenom took place.

Source: Twitter.com/расстояние от него 77/тело…

This statement shows ignorance of the well-known fact that death rates in the winter are higher than in the fall. You can clearly see this from the Demographic Registry data:

Comment - At this point we become quite concerned. A high ranking government official, who has seen the reports of excess deaths around 1,000 by three different groups, ignores the warnings and instead makes a misguided statement claming what we are observing is normal. It is also concerning that the government is only selectively sharing the data.

Jan 07- "Нью-Йорк Таймс" поделилась с нами полученными необработанными данными. Они в формате PDF! Но их можно извлечь. Эти данные очень четко показывают, что в сентябре и октябре произошел огромный всплеск смертности.However, it is immediately obvious from exploratory data analysis that data for November and December are incomplete:

Jan 16 - Field workers are deployed in Puerto Rico and our survey starts.

Jan 25 - Демографический регистр наконец отвечает доктору Баки, говоря, что «мы не уполномочены предоставлять новые данные о смертности за 2017 год».

Feb 01 - PSU investigator emails Public Security Secretary asking them to make data public.

Feb 22- Правительство Пуэрто-Рикоannounces that they have contracted George Washington University (GWU) to perform an independent investigation into the death toll.

Feb 24 - Our household survey is completed. We start analyzing data right away. Our goal is to get the paper published before June 1, the start of hurricane season.

Feb 28 - Latino USA publishes an article showing data provided to them by PRIS. I email PRIS again and they send us data that same day. We immediately see that, like the data we received from New York Times, it appears incomplete:

Mar 16 - First draft of our survey paper is completed and submitted to the New England Journal of Medicine (NEJM). A particularly troubling finding is the large proportion of deaths attributed to lack of access to medical services. We also see evidence of indirect effects lasting until December 31, the end of the survey period.

May 04 - Survey paper is tentatively accepted by NEJM.

May 25 - Official death count is still at 64. We send a draft of our paper to PR governors office.

May 29- НашNEJM paper comes out and gets extensive media coverage: 410 outlets including articles in NPR, Washignton Post, New York Times, and CNN, Несмотря на все наши усилия, в том числе переписывание пресс-релиза нашего университета, большинство заголовков сосредоточено на точечной оценке ине сообщать о неопределенности. All the data and code is made available on GitHub.

May 31 - We post an FAQ (in English and Spanish) explaining the uncertainty in our estimate and making it clear that our study does not say that 4645 (the point estimate) people died.

Jun 01– Губернатор по связям с общественностьюinterviewedАндерсон Купер из CNN, который допрашивает его, почему правительство не поделилось данными. Губернатор говорит, что данные всегда были доступны и что «если данные будут недоступны, придется заплатить ад».PR government makes data public. Dr. Buckee requests the data again. This time we get it almost immediately.

Jan 06 - I post my first analysis with the official mortality data here. The newly released data confirms that the data we were provided earlier were in fact incomplete and that there was a sustained indirect effect lasting past October.

Aug 27 - GWU study comes out with a preliminary estimate of about 3,000 deaths.

Sep 05 - Rolando Acosta and I post a preprint describing an analysis of the newly released data including a comparison to the effects of other hurricanes. We also provide a preliminary estimate of about 3,000 deaths due to indirect effects lasting until April.

Please enable JavaScript to view the comments powered by Disqus. comments powered by Disqus