Wprowadzenie do dziennikarstwa danych i pracy z danymi

Dziennikarstwo danych: czym jest?

Pojęcie dziennikarstwa danych pojawia się coraz częściej w tekstach dotyczących współczesnych mediów. Obecnie nie ma już chyba dziennikarza, który zajmowałby się mediami cyfrowymi i któremu obcy byłby to termin . Ogólnie rzecz biorąc można by powiedzieć, że dziennikarstwo danych to po prostu dziennikarstwo oparte na danych. Jednak takie spłycenie z pewnością nie wyczerpuje całościowo terminu dziennikarstwa danych. Dokonując próby opisu pojęcia dziennikarstwa danych przede wszystkim należy wyjść od zdefiniowania specyfiki pracy dziennikarza w dzisiejszych czasach cyfrowego świata. Jak kiedyś dziennikarz musiał dniami, tygodniami poszukiwać informacji, danych, tak teraz bolączką dziennikarzy jest ich nadmiar. Nie oznacza to bynajmniej, że na wyciągnięcie ręki dziennikarz ma obecnie dostęp do terabajtów danych. Dane, które nas otaczają (często przytłaczają) są nieustrukturyzowane, niekompletne i często nieaktualne. Problemem dla dziennikarza staje się dotarcie do tych wartościowych danych, które mogą opowiedzieć odbiorcy konkretną historię. Tak, bo właśnie istotą dziennikarstwa danych jest opowiadanie historii opartych na danych. Zaprezentowanie danych w formie narracji (nie oznacza to wcale, że narracja powinna być linearna, a w dzisiejszych czasach wręcz przeciwnie). Co by jednak nie powiedzieć, dostęp do danych obecnie jest znacznie bardziej ułatwiony. Opracowania statystyczne można już znaleźć nie tylko w drogich książkach, ale bezpośrednio na stronach internetowych. Jeszcze dwadzieścia lat temu jedyną formą dostępu do danych były opracowane arkusze kalkulacyjne, dzisiaj praktycznie każde zjawisko można zapisać w formie cyfrowej. Dzisiejszy świat, to świat cyfr.

Dziennikarstwo danych pomaga opowiedzieć złożoną historię, często ukrytą gdzieś w pokładach danych za pomocą prostych środków eksploracji danych i ich wizualizacji. Wizualizacja danych jest więc integralną i nieodzowną częścią dziennikarstwa danych.

 

Dziennikarstwo danych jako metoda

Dziennikarstwo danych choć jako gatunek dziennikarski jest bardzo młody (o ile można w ogóle mówić o nowym gatunku dziennikarskim), to narzędzia, które wykorzystuje stosowane były już od bardzo dawna. Przykładem jest artykuł Guardiana (wówczas the Manchester Guardian) z 1821 roku. W tekście dziennikarskim zamieszczono w formie tabeli wyekstraktowane dane dotyczące listy szkół w Manchesterze i Salford. W tamtych czasach informacje płynące z danych wywołały wiele kontrowersji. W tabeli zamieszczono dane mówiące o liczbie uczniów uczęszczających do każdej ze szkół i średnimi rocznymi wydatkami. Po raz pierwszy powiedziano wówczas, ilu uczniów otrzymało bezpłatne wykształcenie oraz ile w mieście żyło biednych dzieci.

Jak już wcześniej wspominaliśmy, eksploracja danych w dziennikarstwie danych często odbywa się w formie wizualizacji. To właśnie dzięki wizualizacji naszych danych, dowiadujemy się o konkretnych korelacjach czy wnioskach. Metoda tego rodzaju analizy stosowana była już od XIX wieku. W 1854 roku epidemia cholery dziesiątkowała ludność Londynu. Doktor John Snow, brytyjski lekarz i jeden z twórców epidemiologii, na podstawie rozmów z mieszkańcami i własnych obserwacji stworzył mapę epidemii, z której wynikało, że przypadki cholery koncentrowały się wokół pompy przy ulicy Broad Street. Zastosował także statystykę, aby zilustrować związek między przypadkami cholery a jakością wody. Kolejnym znakomitym przykładem jest wizualizacja Charlesa Minarda. W 1869 roku Minard opublikował graficzną wizualizację inwazji Napoleona na Rosję w 1812 roku (Carte figurative des pertes successives en hommes de l’Armee Frangais dans la campagne de Russe 1812–1813), uznawaną przez niektórych za najlepszą grafikę świata. Wykres przedstawia zmianę liczebności armii Napoleona w czasie inwazji na Rosję. Przemarsz wojska przedstawiony jest na mapie i zaznaczony strzałkami, których grubości ilustrują wielkość armii w danym miejscu i czasie. Minard zastosował graficzne połączenie informacji geograficznych, statystycznych oraz meteorologicznych, co ukazało ogrom poniesionej klęski przez Napoleona.

 

A gdzie w dzisiejszych czasach szukać inspiracji? Z pewnością przykładem rzetelnego data journalism jest prowadzony przez brytyjski The Guardian – DataBlog. Artykuły oparte o dane z wizualizacjami znajdziemy także w New York Times, to właśnie w tej redakcji jeszcze do niedawna pracował Mike Bostock, twórca jednego z najlepszych narzędzi do wizualizacji danych dla języka Javascript – biblioteki D3js. Dobre dziennikarstwo danych znajdziemy także w takich tytułach jak Los Angeles Times czy The Economist. Materiały dziennikarskie oparte w większości na danych i zawierające wizualizacje czy infografiki znajdziemy już obecnie jednak w większości serwisów internetowych. Jedne wykorzystują możliwości metody dziennikarstwa danych w większym stopniu inne w mniejszym, ale tak czy inaczej wydaje się, że eksploracja danych i ich wizualizacja stała się integralną częścią większości portali. Przykładem stale rosnącej popularności dziennikarstwa danych jest powstanie takiego serwisu jak Biqdata (http://biqdata.wyborcza.pl/biqdata/0,0.html) Gazety Wyborczej w Polsce.

 

Dziennikarstwo a świat cyfrowy

Niewątpliwie większość informacji i danych dostępnych jest obecnie poprzez sieć internetową. W ogóle nasza komunikacja ze światem odbywa się już praktycznie w stu procentach cyfrowo poprzez internet. Dzisiaj prawie wszystko zapisywane jest w formie binarnej. Nasze pamiątkowe fotografie, wideo, historia zawodowa, akty prawne, wszystko to zapisujemy w formie cyfrowej, czyli zero-jedynkowej. Każda osoba ma swój profil na portalu społecznościowym, instytucja publiczna czy firma posiada swoją stronę internetową. Z urzędem miasta komunikujemy się online poprzez profil zaufany, a o informację publiczną z kancelarii Sejmu wnioskujemy drogą emailową. Dziennikarze niezwykle sprawnie odnaleźli się w cyfrowej rewolucji. Po tym jak w latach 40 skonstruowano uznawany za pierwszy komputer ENIAC, już w 1952 amerykańska stacja telewizyjna CBS wykorzystała stworzonego przez twórców ENIACA komputer UNIVAC do prognozowania wyborów prezydenckich, dzięki czemu znacznie wyprzedziła konkurencję. Okazało się, że wynik podany przez UNIVAC-a niemal dokładnie pokrył się z końcowymi rezultatami wyborów. Cztery lata później już wszystkie telewizje podczas wieczorów wyborczych korzystały z komputerów. Z kolej w 1967  maszyna cyfrowa została wykorzystana już do konkretnej analizy dziennikarskiej. Philip Meyer, pracujący wówczas w The Detroit Free Press, wykorzystał komputer do analiz ilościowych, aby odkryć przyczyny zamieszek w Detroit. Maszyna pozwoliła zaoszczędzić dziesiątki godzin analiz przeprowadzonych ankiet. Cały zespół dziennikarski za swój materiał został nagrodzony w 1968 nagrodą Pulitzera. Dzisiaj chyba żaden dziennikarz nie wyobraża sobie pracy bez komputera i bez aplikacji, które w znaczny sposób ułatwiają mu pracę. Istotną częścią rewolucji cyfrowej było powstanie sieci internetowej, poprzez którą odbywa się dzisiaj cała komunikacja w świecie cyfrowym. Dzięki internetowi mamy dostęp do niezliczonych baz danych. Zamiast wnosić o informację publiczną drogą emailową, możemy ją odnaleźć na stronie internetowej, pobrać ją i dowolnie przetworzyć na darmowym programie np. w arkuszu kalkulacyjnym Google. Oczywiście nie zawsze rzeczywistość jest tak różowa. O problemach w dostępie do informacji publicznych czy dostępności treści i stron internetowych więcej znajdziesz w części dotyczącej pozyskiwania danych.

 

Warsztat dziennikarza pracującego z danymi

Profesjonalne uprawianie dziennikarstwa danych wymaga od dziennikarza wielu umiejętności, które dotychczas raczej nie były kojarzone z zawodem dziennikarza. Przede wszystkim dziennikarz pracujący z danymi, powinien mieć umiejętności ich pozyskiwania i analizy. Pozyskiwanie w dzisiejszych czasach wiąże się głównie z wyszukiwaniem informacji i danych w internecie. Dobry dziennikarza powinien bez trudu poruszać się po stronach internetowych i większych portalach danych. Już na tym etapie można wykorzystać zaawansowane umiejętności techniczne. W przypadku, gdy dane nie są udostępniane w formie plików, ale osadzone w kodzie html strony, do ich ekstrakcji można wykorzystać techniki tzw. scrapowania strony. Aby dokonać scrapowania konieczna już jest podstawowa znajomość któregoś z języków programowania. Aczkolwiek w naszym kursie pokażemy jak można sobie z tym częściowo poradzić bez umiejętności programowania. Niewątpliwie dziennikarz operujący danymi powinien potrafić je oczyścić, przeanalizować, jednym słowem wydobyć z nich potrzebne informacje do zbudowania narracji. Z pewnością podstawowa znajomość matematyki i statystyki się tutaj przyda. Praca analityka danych polega z kolei na pracy na konkretnych narzędziach do obróbki i analizy danych. Dziennikarz musi zdecydowanie nauczyć się ich obsługi. Dziennikarstwo danych wprost wiąże się z wizualizacją danych czy infografiką, dlatego wskazane jest, aby dziennikarz posiadał przynajmniej zmysł estetyczny czy jakieś podstawowe umiejętności z zakresu grafiki komputerowej. Przy wizualizacji danych mamy w końcu do czynienia z kolorami i kształtami, powinniśmy mieć zatem umiejętności ich kulturowego odczytywania. Jeżeli w naszej pracy koncentrujemy się na tworzeniu infografik, wskazane będzie nabycie umiejętności obsługi programów do obróbki graficznej. Jak wiadomo cyfryzacja współczesnego świata jak i samo automatyczne przetwarzanie danych łączy się bezpośrednio z programowaniem. Niektórzy nawet na pytanie jakiego drugiego języka powinny uczyć się młode osoby, bez wahania odpowiadają: języka programowania. Umiejętność programowania w dzisiejszych czasach przydaje się praktycznie w większości dziedzin. Nie inaczej jest w przypadku zawodu dziennikarza pracującego z danymi. Poprzez napisanie programu jesteśmy w stanie zescrapować dane ze strony internetowej, przeparsować plik pdf i wydobyć z niego potrzebne dane, przefiltrować dane i wreszcie stworzyć swoją autorską wizualizację wykorzystując do tego np.  język Javascript i HTML. Najpopularniejszymi językami programowania wykorzystywanymi w analizie i wizualizacji danych są Python, R i Javascript.

Czy wszystkie te umiejętności są niezbędne, aby rozpocząć przygodę z dziennikarstwem danych? Oczywiście, że nie. Zamiast scrapować strony internetowe napisanym programem, możemy poświęcić trochę czasu i ręcznie wydobyć dane czy też skorzystać z dostępnych narzędzi online. Zamiast tworzyć wyrafinowane grafiki za pomocą Adobe Illustratora, możemy skorzystać z darmowych narzędzi online jak Canva czy Piktochart. Bez umiejętności programowania też sobie poradzimy. Do tworzenia wizualizacji możemy wykorzystać darmowe aplikacje internetowe do tworzenia rozbudowanych wykresów jak np. infogram.com. Warto jednak swoje umiejętności rozwijać w tym kierunku, ponieważ nasza praca z danymi będzie zdecydowanie sprawniejsza i szybsza. Również pracując w większej grupie odpowiedzialnej za stworzenie materiału opartego na danych składającej się z grafika, dziennikarza, programisty, mając ogólną wiedzę z zakresu grafiki, programowania czy wizualizacji jesteśmy w stanie skuteczniej się komunikować z pozostałymi członkami grupy. Szukając pracowników z data journalism, niektóre media mają dosyć ogólne wymagania – https://careerssearch.bbc.co.uk/jobs/job/Senior-Data-Journalist/22352, a inne już bardziej szczegółowe – https://seattletimes.applytojob.com/apply/mlrMEKhD1X/Data-Journalist, tak czy inaczej praca z bazami danych i rozumienie ich budowy to w większości ogłoszeń o pracę podstawowe umiejętności.

 

Dokąd zmierza dziennikarstwo cyfrowe?

Jonathan Gray z zespołu databloga z The Guardian porównuje dziennikarstwo danych do idei punkowych. Tak jak punk w latach 70. wstrząsnął przemysłem muzycznym, zachęcając dzieciaków bez wykształcenia muzycznego po sięgania po instrumenty i tworzenie muzyki, tak dziennikarstwo danych pozwala każdemu na opracowanie tematu dziennikarskiego przy użyciu narzędzi internetowych czy aplikacji i dotarcie do historii ukrytej w danych. W wyniku cały czas rozwijającej się rewolucji cyfrowej powstaje coraz więcej narzędzi, które umożliwiają pracę dziennikarza. Obecnie coraz częściej nie trzeba być grafikiem, programistą, aby stać się dziennikarzem pracującym na danych. Mamy takie narzędzia jak Tableau, Gephi, Open Refine, import.io i mnóstwo narzędzi do wizualizacji. Jeżeli chcemy rozpocząć pracę jako dziennikarz danych, wystarczy tylko zanurzyć się w internecie. Wydaje się, że praca dziennikarza będzie coraz bardziej automatyzowana i wyręczana przez różnego rodzaju aplikacje, a głównym zajęciem dziennikarza będzie tworzenie narracji i prowadzenie researchu. Nie będziemy rozwodzić się nad wpływem nowych technologii i nad przyszłością dziennikarstwa w ogóle. Nie jest niczym odkrywczym, że automatyzacja będzie coraz bardziej wpływać na rozwój wielu gatunków dziennikarstwa, przykładem jest sztuczna inteligencja Heliograf z Washington Post, program ten wygenerował ponad 850 depesz bez udziału dziennikarza. Automatyzacja dosięga również dziennikarstwo danych, dlatego kluczowym jest, aby na bieżąco śledzić pojawiające się nowinki w postaci aplikacji do przetwarzania i wizualizacji danych. A czego nowego można się spodziewać w dziennikarstwie danych? Cóż, właściwszym jest pytanie o rozwój dziennikarstwa w ogóle. Wszystko na to wskazuje, że dziennikarstwo samo w sobie nie może przejść obojętnie wobec postępującej rewolucji cyfrowej i świata opartego o dane (w 2018 roku co sekundę powstawało 50 tys. GB danych), dlatego pojawiają się głosy, że dziennikarstwo danych, to nic innego jak obecnie dziennikarstwo faktów, czy bardziej wymownie po prostu dziennikarstwo.

 

Sprawdź swą wiedzę:

#1 Jakie są popularne języki programowania wykorzystywane w dziennikarstwie danych?

#2 Dziennikarstwo danych:

#3 Największy polski serwis udostępniający dane publiczne to:

Sprawdzam

Wynik