Przykłady pracy z danymi

Spróbujmy przeanalizować przykłady dziennikarstwa danych w praktyce. Omówimy efekty jakie osiągnięto oraz sposób pracy i wykorzystane narzędzia. Zachęcamy także do analizy wielu przykładów znakomitego dziennikarstwa danych, które nagradzane są co roku w ramach “Data Journalism Awards”.

 

1. Nadużycia w sieci kalifornijskich szpitali

Kalifornia (USA)

Temat:

Reporterzy California Watch prześledzili dane medyczne dotyczące pacjentów w wieku 65+ w kalifornijskich szpitalach. Celem dziennikarskiego śledztwa w oparciu o dane było ujawnienie nadużyć jednej z większych sieci szpitali, polegających na podwyższaniu klasyfikacji choroby (upcoding), aby otrzymać wyższą refundację za pacjenta. Federalny program opieki zdrowotnej finansuje leczenie pacjentów 65+, dlatego są oni nie lada gratką dla szpitali.

Efekt:

Analiza danych medycznych pacjentów kalifojnijskch szpitali powyżej 65 roku życia, infografika California Watch. Dane jasno pokazały pewne anomalie w niektórych placówkach, takie jak np. bardzo wysoki odsetek pacjentów z niedożywieniem. Szczególnie uderzające było raportowanie przez szpitale sieci jednostki chorobowej o nazwie Kwashiorkor, czyli zespół niedoboru białka, choroby odnotowywanej głównie u dzieci w dotkniętych głodem w krajach rozwijających się. Współczynnik przypadków odnotowania tej choroby w szpitalach był o 70 razy większy niż w pozostałych placówkach.

Sposób rozwiązania i wykorzystane narzędzia:

Do pracy wykorzystano bazy kalifornijskiego Departamentu Zdrowia, które zawierają szczegółowe informacje na temat wszystkich osób leczonych w stanowych szpitalach. Bazy nie zawierają informacji o imieniu i nazwisku, podają jednak wiek pacjenta, nazwę szpitala, w którym był leczony, sposób zapłaty oraz schorzenia w oparciu o międzynarodową klasyfikację ICD-9.

Reporterzy wzięli pod lupę 6 lat, czyli musieli zmierzyć się z bazą danych liczącą 24 mln rekordów (po ok. 4 mln rekordów za każdy rok). Dane z rządowej agencji otrzymali na CD-romie. Do analizy danych wykorzystano system SAS

 

2. Dziennikarze La Nacion badają dotacje na transport publiczny

Argentyna

Temat:

Dziennikarze jednego z największych argentyńskich dzienników La Nacion postanowili prześledzić wykorzystanie dotacji na publiczny transport. Temat wywołał zainteresowanie mediów ze względu na ogromne sumy przekazywane rokrocznie na publiczny transport autobusowy, co nie znajdowało odzwierciedlenia w jakości usług. Opóźnienia, strajki, awarie pojazdów, a nawet wypadki były na porządku dziennym.

Dziennikarze postanowili sprawdzić, na co wydawane są pieniądze, a jednocześnie uczynić te dane łatwo dostępnymi dla mieszkańców poprzez stworzenie wyszukiwarki linii i firm transportowych (Buscador de Linea y Empresa de Transporte). Wyzwaniem, przed jakim stanęli, był format i terminologia danych, udostępnianych przez Departament Transportu.

Efekt:

Efektem prac zespołu złożonego z dziennikarzy, programisty, statystyka i projektanta wizualizacji było stworzenie wyszukiwarki linii i firm transportowych (Buscador de Linea y Empresa de Transporte). Narzędzie umożliwia sprawdzenie, jakie fundusze są przekazywane na konkretne przedsiębiorstwo oraz w jaki sposób są wykorzystywane.

Sposób rozwiązania i wykorzystane narzędzia:

Wyszukiwarka dotacji miała pokazywać, ile dane przedsiębiorstwo transportowe otrzymuje co miesiąc. Do jej stworzenia użyto API Google charts (wizualizacje), Mysql (baza danych) oraz framework programistyczny Ruby on Rails. Wykorzystano dane ze strony Departamentu Transportu. Ze względu na formę dostępnych danych (ponad 400 PDF-ów z danymi dotyczącymi miesięcznych wypłat dla ponad 1300 kompanii autobusowych w latach 2006-2011) stworzono skrypt programistyczny (scraper), który pozwalał na automatyczne pobieranie plików ze strony www i konwersję PDF-ów na pliki Excel i pliki bazodanowe. W bazie znalazło się 285 000 rekordów w formacie umożliwiającym przeszukiwanie każdemu Argentyńczykowi. Przy pobieraniu PDFów okazało się jednak, że w trakcie tego procesu adresy URL zmieniały nazwy i program nie był w stanie ich odnaleźć. Dziennikarze poruszyli ten problem na hackathonie w Bostonie. Problem ten postanowił rozwiązać programista Matt Perry, który stworzył skrypt programistyczny “PDF Spy” (skrypt wygrał hackathon w kategorii najbardziej intrygujący projekt). Program automatycznie sprawdza dane adresy i czy znajdujący się tam PDF także uległ zmianie (program można znaleźć pod adresem: https://github.com/mattoperry/pdfSpy)

Kolejnym krokiem było sprawdzenie, ile miesięcznie kosztuje utrzymanie floty. W tym celu wykorzystano dane Narodowej Komisji Regulacji Transportu (Comisión Nacional de Regulación del Transporte). Na podstawie bazy 9000 pojazdów, zawierającej numery rejestracyjne, określono średni wiek pojazdów w danej firmie (argentyńskie numery rejestracyjne składają się z informacji o wieku pojazdów). Umożliwiło to porównanie nakładów finansowych z wiekiem floty przedsiębiorstw transportowych. W trakcie pracy nad całym projektem wykorzystano Visual Basic, makra Excel, Tableau Public oraz Junar Open Data Platform i Ruby on Rails.

 

3. Dziennikarze The Guardian analizują przyczyny zamieszek

Wielka Brytania

Temat:

Latem 2011 roku Wielka Brytania została dotknięta falą zamieszek. Politycy sugerowali, że zamieszki te kategorycznie nie były powiązane z ubóstwem, zaś osoby, które dokonywały grabieży, były zwyczajnymi przestępcami. Dodatkowo premier wraz z czołowymi konserwatywnymi politykami za spowodowanie zamieszek obwiniał media społecznościowe, sugerując, że na tych platformach miało miejsce podżeganie do zamieszek oraz że były organizowane za pomocą takich serwisów jak Facebook, Twitter i Blackberry Messenger (BBM). Pojawiły się sugestie do tymczasowego wyłączenia mediów społecznościowych. Ponieważ rząd nie wszczął dochodzenia w sprawie przyczyn zamieszek, The Guardian Newspaper, we współpracy z London School of Economics, przeprowadził przełomowy projekt “Reading the Riots”, który miał na celu analizę przyczyn zamieszek wspólnie przez dziennikarzy i pracowników akademickich.

Efekt:

Korzystając z prostych map, zespół danych Guardian pokazał lokalizacje potwierdzonych miejsc zamieszek. Poprzez połączenie danych o związanych z wykluczeniem społecznym z miejscem zamieszek, dziennikarze obalili główną narrację polityczną, mówiącą, że zamieszki nie mają żadnego związku z ubóstwem.

W związku z masowym wykorzystywaniem mediów społecznościowych podczas zamieszek (w tym przypadku Twittera), gazeta stworzyła wizualizację hashtagów związanych z zamieszkami używanych w tym okresie. Wizualizacja pokazała, że Twitter był używany głównie do reagowania na zamieszki, a nie do organizowania ludzi i grabieży (przykładem był hashtag #riotcleanup, inicjujący spontaniczną kampanię mającą na celu oczyszczenie ulic po zamieszkach). Dodatkowo dziennikarze wspólnie ze specjalistą od map transportowych stowrzyli modele najbardziej prawdopodobnych tras wybieranych przez uczestników zamieszek od swojego adresu domowego. Wspólnie z naukowcami dziennikarze przeanalizowali także sposób rozpowszechniania się plotek na Twiterze.

Sposób rozwiązania i wykorzystane narzędzia:

Gazeta intensywnie korzystała z dziennikarstwa danych wspólnie z zespołem naukowców z Uniwersytetu w Manchesterze. Programiści opracowali interaktywną oś czasu, gdzie plotki z Twittera były ładowane z plików JSON. Aby zapewnić jak największą liczbę odbiorców programiści napisali także dodatkowe rendery dla WebGL, HTML5 Canvas i Flash, aby nawet starsze przeglądarki miały dostęp do wizualizacji. Do synchronizacji wykorzystano także bibliotekę backbone.js.

 

4. Dziennikarze The Guardian poprzez dziennikarstwo danych pokazują obraz działań wojennych w Afganistanie i Iraku.

Wielka Brytania

Temat:

Dziennikarze otrzymali dane na temat działań wojennych w Afganistanie od organizacji WikiLeaks. Od samego początku celem analiz obszernej bazy danych było pokazanie jak najbardziej obszernego i ogólnego obrazu wojny na podstawie ludzkich historii zawartych w bazach danych. Jako że baza danych pochodziła do WikiLeaks, dziennikarze od samego początku dbali, aby w materiałach dziennikarskich nie ujawniać nazwisk informatorów i w żaden sposób na zagrozić oddziałom wojskowym NATO.

Efekt:

W oparciu o analizy danych powstało szereg publikacji w The Guardian. Dane te np. pokazały, że południe Afganistanu, na którym stacjonowały wówczas wojska brytyjskie i kanadyjskie, było obszarem najciężej dotkniętym działaniami wojennymi. Stworzono interaktywną mapę z wszystkimi incydentami, w których zginęła przynajmniej jedna osoba.

Sposób rozwiązania i wykorzystane narzędzia:

Baza danych dotyczących działań w Afganistanie, którą otrzymali dziennikarze od WikiLeaks to plik programu Excel z ponad 92 201 wierszami, które były źle sformatowane lub też nie były sformatowane w ogóle. Taka forma uniemożliwiała bliższe przyjrzenie się temu zbiorowi, dlatego dane zostały oczyszczone i sformatowane, zaś programiści stworzyli dla dziennikarzy bazę danych SQL, dzięki której można było wyszukiwać historie po słowach kluczowych lub wydarzeniach i zastosować dodatkowe filtry. Dziennikarze przefiltrowali dane i szybko zauważyli wzrost liczby ataków IED (improwizowanych urządzeń wybuchowych) – domowych bomb przydrożnych. W przypadku bazy danych dotyczącej działań w Iraku dziennikarze stworzyli interaktywną wizualizację w oparciu o narzędzie Google Fusion Tables (aplikacja ma zostać zamknięta w grudniu 2019 r.) pokazującą każde z 60 000 zdarzeń, w których zginęła co najmniej jedna osoba. Dziennikarze usunęli pole podsumowania, zostawiając tylko podstawowe dane:  rodzaj dowództwa, liczba ofiar śmiertelnych i podział geograficzny. To co przykuło uwagę dziennikarzy podczas filtrowania bazy, to fakt, że w porównaniu z Afganistanem wśród ofiar śmiertelnych było bardzo dużo cywilów. Bazę tę umożliwiono do pobrania przez czytelników.

 

Sprawdź swą wiedzę:

#1 Aby usprawnić przeszukiwanie większej bazy danych tekstowych można:

#2 Framework Ruby on Rails można wykorzystać do:

#3 Do pobrania danych z pliku PDF:

#4 Do stworzenia interaktywnej wizualizacji osadzonej na stronie www:

Sprawdzam

Wynik