Pozyskiwanie danych

Wiemy już czym jest dziennikarstwo danych. Czas zabrać się za stworzenie własnego projektu dziennikarskiego opartego o dane. Od czego zaczniemy? Oczywiście od pozyskania danych. W tej części kursu nauczysz się jak pozyskać dane i gdzie ich szukać.

Świat danych

Każdego dnia powstaje 2,5 kwintyliona bajtów danych, tak wygląda ta liczba z zerami: 1 000 000 000 000 000 000 000 000 000 000. Szacuje się, że do 2020 roku 1,7 MB danych będzie tworzonych co sekundę dla każdej osoby na Ziemi. Jeszcze w 2002 r. działało nieco ponad 17 milionów stron internetowych. W 2018 roku liczba stron na świecie wyniosła 1,64 miliarda. Te potężne liczby pokazują jak bardzo dzisiejszy świat opiera się na danych, danych wytwarzanych cyfrowo. Aby zrozumieć jak funkcjonuje rzeczywistość cyfrową, trzeba zrozumieć dane. To dzięki danym pozyskujemy informacje. Co jednak kryje się za pojęciem danych? Dane reprezentują fakty. W systemach zarządzania wspomaganych komputerowo dane są kodowane za pomocą odpowiednich symboli. Danymi mogą być słowa opisujące cechy dowolnej rzeczy, zjawiska czy też liczby stwierdzające ich parametry. Z kolei informacja to dane zawarte w komunikacie, zinterpretowane przez odbiorcę, mające dla niego znaczenie i wnoszące do jego świadomości element nowości, czyli zwiększające jego wiedzę. Tematyczne zbiory i zestawienia informacji na określony temat określa się zbiorami danych. Zbiory danych możemy przechowywać w postaci trwałej, dzięki procesowi archiwizacji danych. Przykładowe rodzaje danych: dane alfanumeryczne, dane otwarte, dane publiczne, Big Data, dane tekstowe, dane osobowe wrażliwe, dane binarne, dane statystyczne, dane tabelaryczne. Dane w szczególności interesujące dziennikarza to z pewnością dane publiczne, czyli, nieco upraszczając, wszelkie dane wytwarzane przez instytucje publiczne. Dane publiczne także stają się coraz bardziej dostępne i otwarte. Możemy je znaleźć na dedykowanych portalach internetowych, stronach internetowych czy BIPach (Biuletynach Informacji Publicznej). Otwarte dane publiczne to dane instytucji, urzędów, z których każdy może korzystać. Polskim przykładem serwisu udostępniającego otwarte dane jest dane.gov.pl. Portal jest źródłem wiarygodnych na bieżąco aktualizowanych danych, udostępnianych bezpłatnie do ponownego wykorzystywania. Aktualnie na serwisie zbiory danych udostępnia ponad 120 instytucji (stan na rok 2019).

Rodzaje, typy danych i formaty plików

Obojętnie czy dane, z którymi pracujemy są publiczne czy nie, czy dotyczą zagadnień statystycznych czy są zawarte w większych zbiorach tekstowych, aby móc je wykorzystać do opowiedzenia historii w nich zawartej, muszą spełniać kilka warunków. Dane muszą być przede wszystkim: dostępne, aktualne, kompletne, maszynowo odczytywalne (pojęcia te opiszemy w dalszej części lekcji). Skoncentrujmy się na pojęciu “maszynowo odczytywalne”. Dane w obecnych czasach przetwarzane są przez komputery. Korzystając z programów do przetwarzania arkuszy kalkulacyjnych czy tworząc wizualizacje za pomocą narzędzi online wykorzystujemy programy komputerowe. Dane muszą być zatem możliwe do odczytania maszynowego przez program komputerowy. Ale co to dokładnie oznacza? Zdanie: „Mamy 5 białych, używanych piłek golfowych o średnicy 43 mm w cenie 0,5 $ za sztukę” – jest dla człowieka proste do zrozumienia. Inaczej jest w przypadku komputerów. Powyższe zdanie jest tym, co nazywa się danymi nieustrukturyzowanymi. Nie ma ono stałej struktury – zdanie może być w prosty sposób zmienione, a dla komputera nie jest jasne, do czego odnoszą się poszczególne wartości (człowiek – w przeciwieństwie do komputera – wie, że przymiotnik „używany” odnosi się do stanu). Podobnie jest z plikami PDF lub zeskanowanymi obrazami – drukarka wie, co ma z nimi zrobić, a ludzkie oko może się cieszyć z ładnego zdjęcia. Spróbujmy jednak przekonwertować zeskanowaną tabelkę na plik CSV. A teraz pomyślmy, jak biedny komputer ma zinterpretować zdanie: „Mamy 5 białych, używanych piłek golfowych o średnicy 43 mm w cenie 0,5 $ za sztukę”… Komputery z natury różnią się od ludzi. Zmuszenie komputera do pozyskania wiedzy z pewnych źródeł może być bardzo trudne lub wręcz niemożliwe. Niektóre zadania, które człowiek rozwiązuje bez trudu ręcznie, mogą być trudne do zautomatyzowania przy użyciu komputera. Na przykład interpretacja obrazów to dla maszyn wciąż wyzwanie nieosiągalne. Jeśli chcemy, by nasz komputer przetworzył i przeanalizował dostarczone przez nas dane, musimy dostarczyć mu bazę w odpowiednim formacie. Najczęściej używanym formatem zbioru danych jest CSV (comma separated values, czyli wartości oddzielone przecinkami). Nasze zdanie dotyczące piłek golfowych w formacie CSV wyglądałoby tak: “quantity”, “color”, “condition”, “item”, “category”, “diameter (mm)”, “price per unit (AUD)” 5,”white”,”used”,”ball”,”golf”,43,0.5. Taki ciąg znaków jest dla komputera zrozumiały i pozwala programom do odczytu arkuszy kalkulacyjnych na jego przetworzenie. Warto zwrócić uwagę, że słowa umieszczone są w cudzysłowach, a wartości liczbowe są ich pozbawione. Może się to kiedyś przydać podczas edycji tego typu plików. Warto jednak pamiętać, że CSV nie jest jedynym ustrukturyzowanym formatem.

Przetwarzając dane komputer jest w stanie rozpoznać ich typ. Typy danych możemy podzielić na:

tekstowe – zazwyczaj oznaczane jako “string”, obejmują określony tekst
logiczne – zazwyczaj oznaczane jako “boolean”, przyjmują wartości “true” lub “false”
liczby całkowite – zazwyczaj oznaczane jako “integer”, reprezentują liczby całkowite
liczby zmiennoprzecinkowe – zazwyczaj oznaczane jako “float”, reprezentują liczby zmiennoprzecinowe
bitowe – reprezentują ciągi bitów

W językach programowania występuje o wiele więcej typów danych, te jednak są najbardziej popularne i w zupełności wystarczą do analizy zbiorów danych przetwarzanych przez program komputerowy.

Przejdźmy teraz do samych plików, w których dane są zawarte. Schemat działania oparty o pliki komputerowe to podstawa wszelkich systemów operacyjnych. Czym dokładnie jest plik komputerowy? To uporządkowany zbiór danych o skończonej długości, posiadający szereg atrybutów i stanowiący dla użytkownika systemu operacyjnego całość. Dzisiaj przetwarzanie danych, wymiana danych odbywa się właśnie poprzez system plików. Każde dane znajdują się w jakimś pliku, w jakimś rodzaju pliku. I właśnie ten rodzaj pliku ma dla nas kolosalne znaczenie. Bo możemy sobie wyobrazić jakie możliwości przetwarzania ma tabela zamieszczona w pliku pdf, a tabela w pliku xls czy xlsx. O tym z jakim formatem pliku mamy do czynienia możemy sprawdzić po rozszerzeniu, które jest oddzielone od reszty nazwy za pomocą kropki. Aby móc dane przetwarzać na komputerze (np. w programach do analizy czy wizualizacji), musimy korzystać z odpowiednich formatów plików. Formaty powinny być przede wszystkim edytowalne i z możliwością do odczytu maszynowego. Jakie formaty powinny nas zatem interesować? W przypadku plików tekstowych są to przede wszystkim: doc, txt, odt, docx, rtf, pages. W przypadku plików arkuszy kalkulacyjnych: csv, tsv, xls, xlsx, numbers, ods (do odczytu i edycji większości plików wystarczy nam darmowy program np. Libre Office). Wspominaliśmy o tym, jak istotne w pracy dziennikarza są dane publiczne, otwarte dane publiczne. Udostępniając swe dane, instytucje publiczne powinny dążyć do jak największej otwartości danych. W Polsce tym zagadnieniem zajmuje się i propaguje przede wszystkim Ministerstwo Cyfryzacji. Wnioskując o dane publiczne powinniśmy pamiętać, że aby były dla nas maksymalnie użyteczne, dane powinny spełniać szereg kryteriów. Dane publiczne, z których korzystamy powinny być przede wszystkim:

kompletne – dane nie powinny zawierać luk.
źródłowe – dane powinniśmy otrzymać w formie źródłowej, nie w formie analiz, podsumowań
aktualne – dane powinny być udostępniane tak szybko, jak to tylko możliwe.
dostępne – należy wnioskować o formaty będące uznanymi standardami, powinno dać się je pobrać w łatwy sposób – idealnie w formie jednego pliku zawierającego całość danych.
przetwarzalne maszynowo – dane powinny być dostępne w formie do odczytu maszynowego (czyli do wykorzystania w zaawansowanych programach)
udostępnione w sposób niedyskryminujący – dane powinny być dostępne dla każdego, bez konieczności rejestracji czy podpisywania umów.

Dane do odczytu maszynowego

Wróćmy do danych do odczytu maszynowego. Dane odczytywalne maszynowo (machine-readable data) to format danych, który może być automatycznie odczytany przez przeglądarkę lub system komputerowy (np. XML). Tradycyjne pliki procesorów tekstu czy dokumenty PDF mogą być łatwo odczytane przez ludzi, ale są zazwyczaj trudne do interpretacji maszynowej (nie oznacza to, że jest to niemożliwe; obecnie zaawansowane techniki jak OCR pozwalają wydobyć dane nawet ze zeskanowanych plików JPG, wymaga to jednak zaawansowanych procesów, nam zaś zależy, aby dane były możliwe do odczytu przez maszynę łatwo i bez wykorzystywania jakichś zaawansowanych programów i pomocy człowieka). Inne formaty, takie jak extensible markup language (XML), JavaScript Object Notation (JSON) lub arkusze kalkulacyjne z opisem kolumn, które mogą być eksportowane do formatu z wartościami oddzielonymi przecinkiem (CSV – comma separated values) są formatami nadającymi się do odczytu maszynowego. Istnieje możliwość przekształcenia tradycyjnych plików edytorów tekstu do postaci zdatnej do odczytu maszynowego, jednak wymaga to zawarcia w nich dodatkowych elementów strukturalnych. Formaty do odczytu maszynowego ułatwiają dostęp i umożliwiają bardziej zaawansowane analizy dużej ilości informacji.

Bazy danych

Jako, że dane zazwyczaj odnoszą się do opisu złożonej rzeczywistości, gromadzone są w większych zbiorach danych. Aby umożliwić łatwiejszy dostęp do tych zbiorów danych użytkownikom, zbiory te zaczęto porządkować i szeregować. Przykładem miejsca, gdzie przetwarza się różne zbiory danych jest np. biblioteka. Aby znaleźć odpowiednią pozycję, czytelnik korzysta z katalogu książek. Do identyfikowania konkretnych egzemplarzy stosuje się oznaczenia zwane sygnaturami. W bibliotece prowadzony jest ponadto spis książek wypożyczonych, zaś przy każdej książce znajduje się informacja, kto daną książkę wypożyczył. Aby umożliwić sprawne przetwarzane tych zbiorów są one umieszczone w bazie danych. Można też powiedzieć, że zbiory danych o określonej strukturze, umożliwiającej realizację wymienionych funkcji, określa się mianem baz danych. Pierwsze systemy zarządzania bazami danych zostały wprowadzone w latach 60. XX wieku. Głównymi cechami baz danych jest trwałość danych, rozmiar wolumenu danych i złożoność danych.

Narracje w obecnych czasach przyjmują często postać nielinearną. Historie oparte na danych także często nie mają postaci linearnej, ich filozofia oparta jest przede wszystkim na funkcjonowaniu bazy danych. Warto się zatem przyjrzeć jak bazy danych wyglądają od środka i jakiego są rodzaju. Wiedza ta z pewnością przyda się w przygotowywaniu odpowiednich zapytań do instytucji publicznych i tworzeniu własnych baz (np. przez zatrudnionego w redakcji programistę). Bazy danych dzielimy na bazy proste i bazy złożone.

Bazy proste:

kartotekowe – bazy te złożone są z jednej tablicy, która zawiera identyczną strukturę pól. Każda tablica jest samodzielnym dokumentem i nie może współpracować z innymi tablicami. Przykładem są: książka telefoniczna, książka kucharska, spisy książek
hierarchiczne – bazy o drzewiastej strukturze powiązań; rekordy są powiązane jednokierunkowo: rekord „pierwotny” może być związany z wieloma „rekordami potomnymi”, natomiast rekord potomny może wskazywać tylko na jeden rekord pierwotny.

Bazy złożone:

relacyjne – dane grupowane są w relacje, które reprezentowane są przez tablice. Relacje są zbiorem rekordów o identycznej strukturze, wewnętrznie powiązanych za pomocą związków zachodzących pomiędzy danymi. Relacyjne bazy danych obsługiwane są przez język SQL.
obiektowe – baza to zbiór obiektów, które mają swoje zachowanie się, stan oraz związki między nimi
strumieniowe – dane napływające do systemu nie są jeszcze znane w momencie tworzenia zapytania do bazy. Dane takie napływają na bieżąco i zapisywane są w strumieniu. Nie można założyć ile elementów będzie posiadał dany strumień danych. Każdy jego element jest przetwarzany, a następnie niszczony lub archiwizowany.
nierelacyjne (NoSQL) – baza danych reprezentowana jest przez tablicę asocjacyjną. Dane to pary klucz – wartość, gdzie każdy możliwy klucz pojawia się maksymalnie raz. Jest to jeden z prostszych nierelacyjnych modeli danych. Inne powstają często, jako rozszerzenie zestawienia klucz-wartość.
grafowe bazy danych (rodzaj baz nierelacyjnych) – to baza wykorzystująca struktury grafów z węzłami, krawędziami i własnościami do przedstawiania i przechowywania danych oraz do obsługi zapytań semantycznych. Firma Neo4j prowadzi program dla dziennikarzy danych z wykorzystania grafowych baz w swojej pracy: https://neo4j.com/graph-database-data-journalism-accelerator-program/.

Aby zagłębić się w obsługę baz danych i ich przetwarzanie warto zapoznać się z językiem SQL. Zagadnienia związane z działaniem baz danych i ich obsługą wymagają bardziej szczegółowego omówienia tematu. Jeżeli jesteś zainteresowany/a tym tematem rozpocznij od zgłębienia zasad działania poszczególnych baz danych i skorzystania z kursów online z języka SQL. Zagadnienia baz danych warto pogłębić już po wstępnym kursie programowania. Pamiętaj jednak, aby korzystać z wiedzy i umiejętności, które przydadzą Ci się w Twojej pracy z danymi. Jeżeli uważasz, że w tym momencie praca na plikach z arkuszami kalkulacyjnymi jest dla Ciebie wystarczająca, nie ma sensu aby zagłębiać się w zasady funkcjonowania baz danych od strony programistycznej.

API

API (application programming interface), czyli interfejs programistyczny aplikacji, to sposób w jaki łączymy się bezpośrednio z danymi udostępnianymi z baz danych. API to nowy i niezwykle efektywny dostęp do danych, dlatego postanowiliśmy nieco bardziej przybliżyć temat jego funkcjonowania. Interfejs API umożliwia komunikowanie się między sobą różnych aplikacji. Jedna aplikacja udostępnia dane poprzez API, druga aplikacja może bezpośrednio połączyć się z nimi i stale pobierać strumienie danych. Interfejsy API dane udostępniają zazwyczaj w formacie JSON. Jest to format powstały na bazie języka programistycznego Javascript, którego struktura prezentuje się następująco:

{
   "coord" : {
"lon" : -0.13,
"lat" : 51.51
   	      },

   "weather" : {
 "id" : 2643743,
 "name" : Warsaw,
 "temp" : 25,
 "pressure" : 1012
         }
}

Dane są otwierane i zamykany znakiem nawiasu klamrowego “{“. Oznacza to, że mamy do czynienia z obiektem. Następnie właściwości otoczone są cudzysłowami, a po dwukropku znajduje się wartość właściwości. W podanym przykładzie mamy właściwość “coord”, która oznacza współrzędne geograficzne. Właściwość ta składa się z wartości, będącej obiektem składającym się z dwóch właściwości: długości i szerokości geograficznej. Po dwukropku mamy podane wartości tych współrzędnych. Następnie mamy właściwość “weather”, z której możemy bez trudu odczytać, że aktualnie temperatura w Warszawie wynosi 25 stopni. Dane w formacie JSON udostępniane są przez API poprzez protokół http np. https://bdl.stat.gov.pl/api/v1/data/localities/by-unit/030210564011-0986283?format=jsonapi&var-id=270672. Aby przyjrzeć się danym udostępniamym jako ciąg znaków, możemy wykorzystać np. narzędzia: http://jsonparseronline.com/ lub https://codebeautify.org/jsonviewer. Możemy tam albo wkleić kod JSON albo bezpośrednio link. Dzięki tego typu narzędziom możemy się przyjrzeć w “przyjaznej” strukturze hierarchicznej z jakimi danymi mamy do czynienia. W taki sposób możemy np. skorzystać z API udostępnianego na stronie mojepanstwo.pl: https://mojepanstwo.pl/api/sejmometr. Klikając w https://api-v3.mojepanstwo.pl/dane/poslowie.json, otrzymujemy w postaci JSON listę wszystkich posłów na Sejm. Co najważniejsze, to fakt, że dane poprzez API są na bieżąco aktualizowane, ponieważ stanowią bezpośrednie połączenie z bazą danych. Dlatego korzystając np. z API Banku Danych Lokalnych GUS ( https://bdl.stat.gov.pl/api/v1/home) w tworzonej wizualizacji czy aplikacji, możemy być pewni, że dane zawsze będą się na bieżąco aktualizować. Wizualizowanie danych udostępnionych poprzez API zostanie omówione w części kursu poświęconej wykorzystania programowania do wizualizacji danych. Szczególnie warto korzystać z możliwości API w przypadku tworzenia rozbudowanych raportów opartych o dane publiczne. Liczba danych publicznych udostępnianych przez API w Polsce stale rośnie i warto śledzić zbiory udostępniane na serwisie dane.gov.pl.

Wyszukiwanie danych

Najwięcej danych znajdziemy rzecz jasna w internecie. Niestety nie zawsze ich poszukiwania kończą się sukcesem. Na pomoc przychodzą nam tutaj wyszukiwarki i fakt, że nasze dane czy bazy danych są przez nie indeksowane. Rozpoczynając więc poszukiwania danych, zaczniemy od wykorzystania możliwości jakie daje nam obecnie najbardziej popularna wyszukiwarka Google.

Konkretne frazy na stronie internetowej mogą występować w różnych miejscach: w opisie strony (w kodzie źródłowym), w tekście, w tytule, czy w adresie URL. Jeżeli interesują nas tylko teksty zawarte na stronie internetowej, możemy wykorzystać operator „allintext”, np.: allintext:odpowiedzi na interpelacje Kowalski. Pamiętaj, nie wstawiaj spacji między słowo lub symbol a wyszukiwane słowa. Wyszukanie hasła allintext:odpowiedzi na interpelacje Kowalski zadziała, ale allintext: odpowiedzi na interpelacje Kowalski już nie.
Może się zdarzyć, że szukamy strony internetowej dotyczącej odpowiedniej tematyki. Możemy wówczas wykorzystać operator „allinurl:”, np. szukając bloggerów prowadzących strony internetowe na temat danych publicznych możemy wpisać „allinurl:blog dane publiczne”.
Google umożliwia także wyszukiwanie osób z mediów społecznościowych. Przed frazą należy wpisać znak @, np. @tusk.
Prawdopodobnie korzystałeś już z możliwości jakie daje cudzysłów. Google wyszuka nam wszystkie wpisane wyrazy w podanej przez nas kolejności (dokładnie wpisaną całą frazę), jeśli ujmiemy je w cudzysłów, np. “Budynki użyteczności publicznej w Łodzi”.
Z pewnością w trakcie wyszukiwania plików z bazą danych przyda się także możliwość wykorzystania operatora, który umożliwi wyszukiwanie konkretnych formatów plików. Wpisujemy wówczas np. filetype:XLS bezrobocie.
Jeżeli chcemy poprzez wyszukiwarkę przeszukać jakąś określoną stronę internetową, możemy skorzystać z operatora site: oraz intext:. Wpisując np. site:dane.gov.pl intext:”zgony niemowląt”, trafimy na podstrony dotyczące tego zagadnienia znajdujące się wyłącznie na stronie internetowej dane.gov.pl.

Skąd pobierać i jak pobierać?

Trzeba przyznać, że w ostatnim czasie znacząco zwiększył się dostęp do informacji i danych publicznych udostępnianych na stronach internetowych instytucji publicznych. Zarówno administracja rządowa jak i samorządowa coraz częściej tworzy dedykowane portale udostępniające dane publiczne. Zwiększa się także jakość udostępnianych danych na stronach internetowych instytucji publicznych. Wymieńmy zatem najważniejsze portale, na których znajdziemy dane o wyższej niż przeciętnie jakości:

dane.gov.pl – w jednym miejscu znajdziesz dane ponad 120 instytucji publicznych. Portal jest źródłem wiarygodnych na bieżąco aktualizowanych danych, udostępnianych bezpłatnie do ponownego wykorzystywania. Aktualna lista dostawców danych jest dostępna w dziale Instytucje. Portal prowadzony jest przez Ministerstwo Cyfryzacji i agreguje zbiory danych publicznych instytucji publicznych z całej Polski. To zdecydowanie najlepsze źródło zbiorów danych w Polsce. Zbiory można przeszukiwać, kategoryzując je np. pod kątem rodzajów formatów baz danych.

Bank Danych Lokalnych – największy w Polsce uporządkowany i udostępniany w internecie zbiór informacji o sytuacji społeczno-gospodarczej, demograficznej, społecznej oraz stanie środowiska, opisującym województwa, powiaty oraz gminy jako podmioty systemu organizacji społecznej i administracyjnej państwa, a także regiony i podregiony stanowiące elementy nomenklatury jednostek terytorialnych do celów statystycznych. Bank Danych Lokalnych jest prowadzony i rozwijany przez Główny Urząd Statystyczny. Od grudnia 2018 r. dostęp do danych realizowany jest także przez API (ang. Interfejs Programowania Aplikacji).

Główny Urząd Statystyczny – GUS to centralny organ administracji rządowej podległy Prezesowi Rady Ministrów zajmujący się zbieraniem i udostępnianiem informacji statystycznych na temat większości dziedzin życia publicznego i niektórych stron życia prywatnego. Na stronie internetowej GUS znajdziemy wszystkie dane i informacje, które zbiera ta instytucja. Większość z nich dostępna jest formie odczytywalnej maszynowo.

legislacja.rcl.gov.pl – to serwis, poprzez który można monitorować proces legislacyjny w Polsce. Na stronie w dosyć intuicyjny sposób możemy śledzić historię aktów prawnych od założeń projektów do skierowania ustawy do Sejmu czy podpisania rozporządzenia przez właściwe ministerstwo. W dokumentach znajdziemy także pisma zewnętrzne w ramach prowadzonych konsultacji i przesyłanych opinii.

ISAP – Internetowy System Aktów Prawnych (ISAP) to system informacji prawnej redagowany przez zespół specjalistów w Ośrodku Informatyki Kancelarii Sejmu. ISAP jest częścią Systemu Informacyjnego Sejmu. Baza ISAP zawiera opisy bibliograficzne i teksty aktów prawnych opublikowanych na podstawie ustawy z dnia 20 lipca 2000 r. o ogłaszaniu aktów normatywnych i niektórych innych aktów prawnych, w wydawnictwach urzędowych: Dzienniku Ustaw i Monitorze Polskim, wydawanych przez Rządowe Centrum Legislacji. W ISAPie znajdziemy więc wszelkie uchwalane ustawy.

otwartepanstwo.pl – strona internetowa prowadzona przez Fundację Media 3.0, na której agregowane są wszystkie dokumenty z dzienników urzędowych ministerstw i urzędów centralnych. Baza dzienników stale się zwiększa, dlatego warto co jakiś czas śledzić nowe zasoby na tym portalu.

mojepanstwo.pl – serwis udostępniający dane publiczne z różnych dziedzin zazwyczaj w formie przetwarzalnej. Znajdziemy tutaj dane z GUS, Krajowego Rejestru Sądowego czy dane z funkcjonowania polskiego Sejmu.

przeswietl.pl – komercyjny serwis agregujący dane z oficjalnych rejestrów. W aplikacji znajdziemy wszelkie oficjalne dane na temat podmiotów gospodarczych czy osób zasiadających w ich organizacjach.

data.worldbank.org – portal danych Banku Światowego dostarcza przede wszystkim dane z wskaźników ekonomicznych z większości krajów na świecie, także z wielu lat przed.

who.int/gho/database/en/ – portal danych Światowej Organizacji Zdrowia.

Freebase – jest ogromną bazą wiedzy, składającą się z metadanych skomponowanych głównie przez jej użytkowników, miłośników open data.

Portal Otwartych Danych UE – Portal oferuje dostęp do stale rosnącej liczby danych z instytucji Unii Europejskiej oraz innych organów unijnych. Około 70 instytucji UE, organów lub departamentów (np. Eurostat, Europejskiej Agencji Ochrony Środowiska, Wspólne Centrum Badawcze i inne dyrekcje generalne Komisji Europejskiej oraz agencji UE) udostępniły swoje zbiory danych, co daje w sumie ponad 11700 zbiorów. Portal umożliwia dostęp do zbiorów danych oraz do szeregu aplikacji wizualizacyjnych wykorzystujących dane UE. Aplikacje te udostępniono nie tyle ze względu na ich wartość informacyjną, co aby pokazać, jakie aplikacje można stworzyć z wykorzystaniem otwartych danych unijnych.

Oprócz wymienionych portali, dedykowane serwisy otwartych danych prowadzą także niektóre polskie samorządy jak Gdańsk, Warszawa, Wrocław czy Poznań. poszukując danych publicznych z pewnością warto także zaglądać do stron BIP. Obecnie na BIPach w wielu miastach znajdziemy takie bazy jak np. rejestry umów zawartych przez daną instytucję publiczną. Warto także śledzić projekty realizowane przez Departament Otwartych Danych i Rozwoju Kompetencji – ww.gov.pl/web/cyfryzacja/otwarte-dane-publiczne. W najbliższym czasie w ramach projektów koordynowanych przez MC zostaną udostępnione kolejne bazy danych jak np. Centralnego Wykazu Obiektów Hotelarskich (CWOH), Centralnego Wykazu Przewodników Górskich (CWPG) czy Centralnego Wykazu Organizatorów Szkoleń dla Kandydatów na Przewodników Górskich (CWOS).

Sieć jako źródło danych

Podczas przeszukiwania sieci mamy także możliwość weryfikacji naszego źródła i wydobycia różnego rodzaju informacji z samego internetu.

Na stronie dns.pl/whois możemy znaleźć informacje o domenach zarejestrowanych w NASK (Naukowa i Akademicka Sieć Komputerowa), czyli wszelkie dane na temat właściciela domeny. Zgodnie z przepisami prawa o ochronie danych osobowych, nie są publikowane dane abonentów będących osobami fizycznymi. Poprzez aplikację cachedview.com/ możemy natomiast sprawdzić archiwalne wersji strony internetowej (np. takiej, która już nie istnieje). Zarchiwizowana wersja strony www (cached page), to kopia lub historyczna wersja strony internetowej zapisana w przeszłości i przechowywana na serwerach sieciowych jako kopia zapasowa strony. Dostępne publicznie kopie stron internetowych tworzą ogólnodostępne archiwum internetu.

Kolejną formą dogłębnego sprawdzenia strony internetowej jest wyświetlenie jej kodu źródłowego. Każda przeglądarka umożliwia wyświetlenie kodu źródłowego – to popularne narzędzie dla programistów. W przeglądarce Chrome można to zrobić klikając prawym przyciskiem myszki i wybierając “Wyświetl źródło strony”, możemy też wejść w menu w zakładkę “Widok”, wybierając “Programista” i kolejno “Wyświetl źródło”. Nieco więcej o samych stronach internetowych powiemy w dalszych częściach kursu, natomiast w tym momencie wystarczy, że będziemy mieć świadomość takiego narzędzia. Programiści czasami w kodzie strony zostawiają komentarze, które nie są widoczne na samej stronie. Mogą to być uwagi dotyczące praw autorskich lub wzmianki o nazwiskach autorów. Często takie informacje mogą stanowić ważne wskazówki dotyczące tworzenia i celu strony.

Zdarza się także, że chcemy poznać źródło pliku graficznego lub zdjęcia. Aplikacja TinEye oferuje wyspecjalizowany proces „odwrotnego wyszukiwania obrazów”, w którym po zamieszczeniu w niej danego obrazu, znajduje inne obrazy w Internecie, które wyglądają bardzo podobnie. Aplikacja działa nawet wtedy, gdy zdjęcie zostało przycięte, zniekształcone lub skompresowane. Narzędzie może okazać się niezwykle przydatne w sytuacji, gdy np. znajdujemy w sieci jakieś ciekawe zdjęcie, jednak nie jesteśmy pewni jego pochodzenia.

Nie wszyscy także zdają sobie sprawę, że korzystając z emaila, także możemy zdobyć dodatkowe informacje o nadawcy wiadomości. Poprzez odkrycie danych w nagłówku emaila możemy sprawdzić z jakiego IP pisze do nas nadawca. Aby to zrobić np. w Gmailu, w otrzymanej wiadomości należy kliknąć w ikonkę trzech kropek przy ikonce odpowiedzi i w rozwiniętej zakładce kliknąć w “Show original”. Wyświetlą się nam wówczas dodatkowe informacje wcześniej ukryte. Znajdziemy tam adres IP nadawcy. Poprzez aplikacje, jakich dużo znajdziemy w internecie, możemy sprawdzić z jakiego rejonu adres IP pochodzi. W ten sposób możemy oszacować czy np. dana wiadomość jest wiarygodna czy nie.

Dane na wniosek

Pomimo że coraz więcej instytucji dostrzega wartości w udostępnianiu swych danych w sposób otwarty, niestety daleko nam jeszcze do sytuacji, gdy większość potrzebnych danych znajdziemy online. Gdy danych czy informacji nie jesteśmy w stanie znaleźć w internecie, i jeżeli dane stanowią informację publiczną mamy prawo do wnioskowania o ich udostępnienie. Zanim jednak zwrócimy się do instytucji o udostępnienie nam danych, powinniśmy się upewnić, że dane te nie są już gdzieś opublikowane (przez samą instytucję lub inne podmioty, które wcześniej już wnioskowały o te same dane). Z pewnością zaoszczędzi to czas nasz i instytucji, do której mamy zamiar się zwrócić. Poniżej prezentujemy opis w jaki sposób wnioskować o informację publiczną pod względem prawnym, ale i praktycznym.

Bądź przygotowany na opóźnienie

Zdarza się, że nad jednym materiałem często pracujemy tygodniami. W trakcie pracy okazuje się, że potrzebujemy odpowiednich danych, zwracamy się wtedy do właściwej instytucji. Czekamy dnie i tygodnie, a deadline się zbliża nieubłaganie (pamiętać musimy, że uzyskanie danych to dopiero początek, musimy je jeszcze przeanalizować, oczyścić i zwizualizować). Aby uniknąć takich sytuacji, to jakich danych będziemy potrzebować do naszego materiału, powinniśmy wiedzieć już na początku przystąpienia do pracy. Pytania o dane do instytucji publicznych powinny zostać wysłane na samym początku naszej pracy. Musimy mieć na uwadze kilka czynników. Po pierwsze, jeżeli dane są w jakiś sposób wrażliwe dla polityków lub urzędników może się okazać, że raczej nie będą skorzy do ich udostępnienia. Wiele jest przykładów przesuwania terminów na udostępnienie informacji – dla polityków i urzędników nie jest też często problemem ciągnięcie sprawy udostępnienia danych w sądzie. Nasza sprawa może się wówczas przeciągać o miesiące, a kiedy dostaniemy w końcu nasze dane, okazuje się, że mogą być już nieaktualne. Po drugie, musimy mieć na uwadze fakt, że zasoby instytucji publicznych są ograniczone, a po drugiej stronie też znajduje się człowiek. Może się okazać, że zdobycie i przygotowanie dla nas bazy danych urzędnikowi może zająć np. tydzień.

Kiedy informacja jest publiczna?

Wnioskowanie o udostępnienie informacji publicznej odbywa się w trybie Ustawy z dnia 6 września 2001 r. o dostępie do informacji publicznej. Wnioskując, musimy być pewni czy mamy w ogóle do czynienia z informacją publiczną czy nie. Potocznie mówi się, że informacją publiczną jest każda informacja wytworzona przez instytucję publiczną lub też po prostu dotyczy spraw publicznych. Precyzując jednak to pojęcie, możemy posiłkować się uzasadnieniami orzecznictwa Wojewódzkich Sądów Administracyjnych, ponieważ zapadło już w tej materii wiele wyroków. Czym zatem jest informacja publiczna? “Jest nią treść dokumentów wytworzonych przez organy władzy publicznej i podmioty niebędące organami administracji publicznej, treść wystąpień, opinii i ocen przez nie dokonywanych, niezależnie do jakiego podmiotu są one kierowane i jakiej sprawy dotyczą. Informację publiczną stanowi więc treść wszelkiego rodzaju dokumentów odnoszących się do organu władzy publicznej lub podmiotu niebędącego organem administracji publicznej, związanych z nimi bądź w jakikolwiek sposób dotyczących ich. Są nią zarówno treści dokumentów bezpośrednio przez nie wytworzonych, jak i te, których używają przy realizacji przewidzianych prawem zadań (także te, które tylko w części ich dotyczą), nawet gdy nie pochodzą wprost od nich.” (II SAB/Wa 28/08 – Wyrok WSA w Warszawie). Jedynymi ograniczeniami są prywatność osób fizycznych i tajemnica przedsiębiorcy oraz dane o sprawach, w związku z którymi toczy się postępowanie przed organami państwowymi. Trzeba pamiętać również, że informacja publiczna dotyczy sfery faktów, dlatego każdy urzędnik może odmówić nam udostępnienia informacji opartej o opinie np. polityków.

Kto ma obowiązek udzielenia informacji

Zgodnie z treścią art. 4 ust. 1 ustawy o dostępie do informacji publicznej można wymienić katalog podmiotów obowiązanych do udostępniania obywatelom informacji publicznej. Obowiązane do udostępniania informacji publicznej są władze publiczne oraz inne podmioty wykonujące zadania publiczne, w szczególności:

1) organy władzy publicznej,

2) organy samorządów gospodarczych i zawodowych,

3) podmioty reprezentujące zgodnie z odrębnymi przepisami Skarb Państwa,

4) podmioty reprezentujące państwowe osoby prawne albo osoby prawne samorządu terytorialnego oraz podmioty reprezentujące inne państwowe jednostki organizacyjne albo jednostki organizacyjne samorządu terytorialnego,

5) podmioty reprezentujące inne osoby lub jednostki organizacyjne, które wykonują zadania publiczne lub dysponują majątkiem publicznym, oraz osoby prawne, w których Skarb Państwa, jednostki samorządu terytorialnego lub samorządu gospodarczego albo zawodowego mają pozycję dominującą w rozumieniu przepisów o ochronie konkurencji i konsumentów.

W ust. 2 art. 4 ustawodawca wylicza dodatkowo, że obowiązane do udostępnienia informacji publicznej są reprezentatywne organizacje związkowe i pracodawców, w rozumieniu ustawy z dnia 6 lipca 2001 r. o Trójstronnej Komisji do Spraw Społeczno-Gospodarczych i wojewódzkich komisjach dialogu społecznego (Dz. U. Nr 100, poz. 1080, z późn. zm.), oraz partie polityczne.

Trzeba też dodać, że w sytuacji, gdy jakiś dokument, który stanowi na gruncie ustawy informację publiczną, zostanie przekazany z jednej instytucji administracji publicznej do innej, wnioskodawca składając wniosek tylko w jednej z nich ma prawo dostępu do tego dokumentu obojętnie, do której wnioskuje.

Wnioskuj o dane przetwarzalne

Opracowując swój materiał, powinniśmy pracować na danych, a nie na informacjach. Istotę różnic pomiędzy tymi pojęciami omówiliśmy już wcześniej. W kategoriach prawnych pojęcie danych należy jednak zaliczyć do informacji publicznej. Dlatego mamy prawo wnosić o udostępnienie konkretnych danych publicznych. Wnosząc o udostępnienie informacji publicznej, wnośmy o udostępnienie plików i danych źródłowych. Zamiast zadawać pytania o liczby odnoszące się do jakiegoś tematu, powinniśmy wnosić o udostępnienie konkretnych plików, z których urzędnik takiej informacji by nam udzielił. Pamiętajmy, że informacja to nic innego jak interpretacja danych, dlatego udzielone w emailu informacje przez instytucję mogą się okazać zupełnie niewartościowe (nierzetelne). Może się zdarzyć, że wnosząc o konkretne zbiory danych otrzymamy je w niewłaściwym formacie, np. tabelę z liczbami w pliku pdf, który jest zupełnie nieprzetwarzalny maszynowo. Trzeba tutaj jasno powiedzieć, że mamy prawo wnioskować o udostępnienie danych we właściwym formacie, zwłaszcza, jeżeli możemy domniemywać, że plik pdf jest efektem konwersji jego treści z innego pliku, prawdopodobnie przetwarzalnego maszynowo (w końcu w jakimś arkuszu kalkulacyjnym ta tabela musiała zostać stworzona). W takim przypadku możemy się powołać na Art. 32 Konstytucji RP, który brzmi następująco:

“1. Wszyscy są wobec prawa równi. Wszyscy mają prawo do równego traktowania przez władze publiczne.

2. Nikt nie może być dyskryminowany w życiu politycznym, społecznym lub gospodarczym z jakiejkolwiek przyczyny.”

Udostępniając źródło naszych danych w materiale dziennikarskim, musimy mieć też na względzie osoby z różnym stopniem niepełnosprawności. Zwłaszcza osoby niewidome i niedowidzące nie są w stanie odczytać danych innych niż przetwarzalnych maszynowo. Skrajnym przykładem może być tutaj np. uchwała budżetowa gminy w formie pliku graficznego jpg.

Jak przygotować wniosek

Minęły już czasy wysyłania podpisanych pism z wnioskiem o udzielenie informacji drogą pocztową czy w kancelarii instytucji publicznej. Dzisiaj o udostępnienie danych, wnosimy przede wszystkim drogą emailową. W dalszej części skoncentrujemy się nad aspektami prawnymi i praktycznymi związanymi z przygotowaniem skutecznego wniosku o informację publiczną. Przede wszystkim nie trzeba w swoim wniosku tłumaczyć kim się jest i dlaczego potrzebujemy wskazanych przez nas danych. Nasz wniosek nie musi być zatem podpisany, wystarczy zwykły email. Instytucja publiczna ma 14 dni na udostępnienie nam danych. Pisząc zapytanie, warto wskazać podstawę prawną naszego wniosku. Pokaże to naszemu odbiorcy, że jesteśmy świadomi naszych praw i wiemy w jakim trybie się zwracamy do instytucji. Warto więc na początku napisać coś w rodzaju. “Na podstawie art. 2 ust. 1 ustawy o dostępie do informacji publicznej z dnia 6 września 2001 r. (Dz. U. Nr 112, poz. 1198) zwracam się z prośbą o udostępnienie informacji w następującym zakresie:”. Jeżeli informacja publiczna nie może być udostępniona w sposób lub w formie, którą określiliśmy we wniosku, instytucja obowiązana do udostępnienia musi powiadomić pisemnie wnioskodawcę o przyczynach braku możliwości udostępnienia informacji zgodnie z wnioskiem i wskazać, w jaki sposób lub w jakiej formie informacja może być udostępniona niezwłocznie. W takim przypadku mamy 14 dni na złożenie wniosku o udostępnienie informacji w sposób lub w formie wskazanej w powiadomieniu, po tym terminie postępowanie o udostępnienie informacji zostanie umorzone.

Bądź precyzyjny i cierpliwy

Zadając pytania bądź precyzyjny. Urzędnik, aby przygotować dla Ciebie dane lub informacje musi dokładnie wiedzieć czego oczekujesz, nikt nie chce tracić czasu na odpowiadanie pytaniem na pytanie. Zanim zadasz pytanie upewnij się, że używasz właściwych pojęć odpowiednich do danego tematu. Nikt nie wymaga od ciebie znajomości eksperckiej w każdej dziedzinie, jednak pytanie powinno być skonstruowane tak, aby osoba która daną dziedziną zajmuje się w instytucji publicznej, wiedziała dokładnie o co pytasz. Jeżeli wydaje ci się, że któreś z pytań może rodzić różne wątpliwości lub sprawiać, że trzeba się nim dłużej zajmować, wyodrębnij je w osobnym punkcie lub osobnym emailu. Staraj się pisać bezpośrednio do instytucji, która jest w posiadaniu danej informacji czy zbioru danych. Zgodnie z prawem, instytucje od siebie zależne powinny takie pytanie skierować do właściwej jednostki, jednak z pewnością wydłuży do czas oczekiwania na odpowiedź. Pamiętaj o formatach plików. Napisz we wniosku w jakiej formie chcesz uzyskać daną informację. Jeżeli wnioskujesz o zbiory danych i zależy ci na formacie pliku do odczytu maszynowego, napisz we wniosku, że wnosisz o takie formaty. Możesz po prostu napisać, że prosisz o przesłanie pliku w dowolnym formacie do odczytu maszynowego lub np. o przesłanie pliku w formatach xls, xlsx lub csv. Koniecznie dopisz, że dane chcesz otrzymać na odpowiedniego emaila. Jeżeli Twój email nie przyjmie więcej niż np. 25MB (tak jest w przypadku Gmaila) musisz napisać, że prosisz o przesłanie danych w plikach nieprzekraczających 25MB pojemności.

Zależy ci na konkretnym formacie danych? Najpierw dowiedz się w jakim formacie instytucja posiada zbiór danych. Spróbuj się skontaktować z osobą, która dla ciebie będzie te dane przygotowywać lub je przesyłać. Zanim będziesz się powoływać na przepisy prawa (UoDdIP, Konstytucja RP), spróbuj porozmawiać. Może się okazać, że dzięki “ludzkiemu” podejściu urzędnik zwróci się do odpowiedniego departamentu, wydziału zajmującego się danym zagadnieniem i uzyska potrzebny format. Pamiętaj, bądź cierpliwy i staraj się rozmawiać. Powoływanie się na przepisy prawne i ponaglanie instytucji lub odwoływanie się do Samorządowego Kolegium Odwoławczego czy WSA traktuj jako ostateczność. Nie zakładaj od razu złej woli po drugiej stronie.

Pytaj w różnych miejscach i testuj

Jeżeli zamierzasz wysłać podobne pytania do kilku podmiotów, wyślij najpierw jedno do jednej instytucji. Sprawdź co cię spotka, następne pytania będziesz mógł odpowiednio zmodyfikować lub zwrócić się do właściwej jednostki. Jeżeli otrzymasz niekompletne dane, potraktuj to jako informację. Oznacza to po prostu, że tego typu danych instytucja nie gromadzi. Możesz zadać sobie pytanie dlaczego. Zwróć uwagę, że o informację publiczną możesz wnioskować zarówno u rzecznika prasowego, ale także bezpośrednio w odpowiedniej instytucji. Druga droga często wydaje się właściwsza, ale często funkcją rzecznika prasowego jest właśnie pomaganie dziennikarzom (należy jednak być uważnym, ponieważ rzecznik prasowy funkcjonuje często jak swego rodzaju filtr, przez który nie wszystkie informacje i dane są w stanie przejść, tworząc przy tym własną narrację marketingu politycznego).

Odmowa i co dalej?

Podmiot obowiązany do udostępnienia informacji publicznej może udostępnić nam dane niezwłocznie lub maksymalnie do 14 dni. W tym czasie instytucja może także odmówić udzielenia informacji lub po prostu nie odpowiedzieć, wchodząc tym samym w stan bezczynności. Zgodnie z art. 16 ust. 1 UoDdIP, odmowa udostępnienia żądanej informacji powinna nastąpić w formie decyzji administracyjnej. Oznacza to, że organ, który otrzymał wniosek, powinien wydać formalną pisemną decyzję, adresowaną do osoby, która ten wniosek złożyła, zawierającą informację o odmowie udostępnienia informacji oraz uzasadnienie tej odmowy. Po uzyskaniu odmowy przysługuje nam odwołanie. Odwołanie adresuje się do organu wyższego stopnia nad tym, który odmówił udostępnienia informacji, a składa się je za pośrednictwem organu, który wydał decyzję odmowną (prawidłowo wydana decyzja powinna zresztą zawierać pouczenie o sposobie odwołania, często jednak zdarza się, że odmawiając informacji organy ani nie dokonują tego w formie decyzji administracyjnej, ani nie opatrują odmowy odpowiednim pouczeniem). Dla organów samorządowych (gminy, powiatu, urzędu marszałkowskiego) organem wyższego stopnia jest właściwe miejscowo samorządowe kolegium odwoławcze. Dla organów administracji rządowej – organy wskazane we właściwych przepisach szczególnych, np.: dla regionalnego dyrektora ochrony środowiska – Generalny Dyrektor Ochrony Środowiska, dla wojewódzkiego inspektora ochrony środowiska – Główny Inspektor Ochrony Środowiska, dla wojewody – właściwy w sprawie minister itp. Odwołanie należy złożyć w terminie 14 dni od dnia otrzymania odmowy (doręczenia jej przez listonosza, odbioru przesyłki poleconej z poczty itp.). Złożenie odwołania jest bezpłatne. W przypadku, gdy decyzja organu odwoławczego także będzie niekorzystna dla osoby żądającej informacji (tj. kiedy organ ten utrzyma w mocy odmowę udostępnienia informacji), żądającemu informacji przysługuje prawo złożenia skargi do wojewódzkiego sądu administracyjnego (WSA) właściwego ze względu na miejsce siedziby organu odwoławczego. Skargę do WSA należy złożyć w terminie 30 dni od dnia otrzymania decyzji organu odwoławczego (doręczenia jej przez listonosza, odbioru przesyłki poleconej z poczty itp.). Za złożenie skargi do WSA wymagane jest uiszczenie opłaty w wysokości 100 zł (na rachunek sądu lub gotówką w kasie sądu).

Z kolei jeżeli podmiot nie załatwił naszej sprawy w terminie (bezczynność) albo postępowanie jest prowadzone dłużej niż jest to niezbędne do załatwienia twojej sprawy (przewlekłość) to możemy złożyć ponaglenie. Ponaglenie wnosimy do organu wyższego stopnia (np. Samorządowe Kolegium Odwoławcze) za pośrednictwem organu, który prowadzi postępowanie (np. prezydenta miasta). Jeśli nie ma organu wyższego stopnia, wnosimy ponaglenie bezpośrednio do tego organu, który zajmuje się twoją sprawą. Ponaglenie należy uzasadnić. Ponaglenie urząd musi rozpatrzeć w ciągu 14 dni. Jeżeli ponaglenie nie przyniesie skutków, można wnieść skargę na bezczynność. Skargę na bezczynność lub przewlekłe prowadzenie postępowania można wnieść do wojewódzkiego sądu administracyjnego (WSA) w każdym czasie, po wcześniejszym wniesieniu ponaglenia do właściwego organu. Co ważne, skargi nie kieruje się bezpośrednio do sądu, ale za pośrednictwem organu, którego działanie jest przedmiotem skargi. Wnosi się ją w terminie 30 dni od dnia doręczenia skarżącemu rozstrzygnięcia w sprawie, a jeżeli organ nie udzielił odpowiedzi na wezwanie, w terminie 60 dni od dnia wniesienia wezwania o usunięcie naruszenia prawa.

Świat danych

Rodzaje, typy danych i formaty plików

Dane do odczytu maszynowego

Bazy danych

API

Wyszukiwanie danych

Skąd pobierać i jak pobierać?

Sieć jako źródło danych

Dane na wniosek

Bądź przygotowany na opóźnienie

Kiedy informacja jest publiczna?

Kto ma obowiązek udzielenia informacji

Wnioskuj o dane przetwarzalne

Jak przygotować wniosek

Bądź precyzyjny i cierpliwy

Pytaj w różnych miejscach i testuj

Odmowa i co dalej?

Sprawdź swą wiedzę:

#1 Dane do odczytu maszynowego to:

#2 Typy danych dzielimy na:

#3 Informacja publiczna powinna być udostępniona przez:

#4 Serwis, poprzez który można monitorować proces legislacyjny w Polsce to:

#5 W przypadku nie otrzymania informacji publicznej można złożyć skargę do:

Wynik