W erze cyfrowej rewolucji dane stają się nieodłączną częścią funkcjonowania organizacji, w tym również jednostek samorządowych, takich jak urzędy miast oraz urzędy gmin. Gromadzenie, przechowywanie i zarządzanie danymi stało się kluczowym elementem podejmowania decyzji opartych na faktach, planowania rozwoju oraz poprawy efektywności działań administracji publicznej. W tym kontekście pojęcia „jezioro danych” oraz „hurtownia danych” często przewijają się w rozmowach na temat strategii zarządzania danymi. W tym artykule przedstawiona zostanie koncepcja jeziora danych oraz roli jaką może ono pełnić w jednostkach samorządu terytorialnego.
Jezioro danych a hurtownia danych
Jezioro danych (ang. data lake) i hurtownia danych (ang. data warehouse) to dwa różne podejścia do zarządzania danymi, z różnicami w strukturze, elastyczności i możliwościach. Główną różnicą między nimi jest sposób, w jaki przechowują i przetwarzają dane.
Tradycyjna hurtownia danych jest jak starannie zaplanowany magazyn danych, w którym dane są dokładnie strukturyzowane i uprzednio przetwarzane, aby zapewnić jednolity format i sposób dostępu. Jest to przydatne w sytuacjach, gdzie dane są dobrze znane, pochodzą ze źródeł o kontrolowanej jakości i mają ściśle określoną strukturę. Hurtownie danych są znane z tego, że dostarczają gotowe zestawienia i predefiniowane raporty, co ułatwia szybkie i wiarygodne analizy.
Z kolei jezioro danych jest bardziej jak ogromne jezioro, w którym zanurzane są dane w ich naturalnym (natywnym) formacie. Nie ma więc konieczności transformacji wszystkich danych na jednolity format przed ich zeskładowaniem. To elastyczne podejście umożliwia gromadzenie różnorodnych typów danych, od danych uporządkowanych po nieustrukturyzowane a nawet binarne, co jest szczególnie przydatne w dzisiejszym świecie, w którym dane pochodzą z wielu heterogenicznych źródeł.
Warto zwrócić uwagę, że hurtownie danych oparte są na odpowiednio opracowanych relacyjnych modelach danych sprzyjających realizacji raportów agregujących czy przekrojowych. Jednak aby było możliwe zasilenie hurtowni danych danymi zgodnymi z opracowanym modelem, wymagane jest odpowiednie ich przygotowanie poprzez realizację takich procesów jak czyszczenie (ang. data cleaning), deduplikacja (ang. deduplication) czy łączenie (ang. data linkage) danych. Może to powodować utratę pewnych informacji, ale dzięki uzyskanej spójności danych ułatwia procesy raportowania biznesowego do tego stopnia, że bardziej wprawni analitycy zaznajomieni z modelem danych mogą realizować własne raporty (tzw. raporty ad-hoc) wychodzące na przeciw aktualnym potrzebom analitycznym. Przeciwnie ma się sytuacja w przypadku jeziora danych, gdzie dane składowane są w swoich źródłowych formatach i postaciach, co przenosi konieczność jednorazowego poniesienia wysiłku na integrację danych (w przypadku hurtowni danych) na wielorazowe działania konieczne do podjęcia każdorazowo w przypadku przetwarzania danych w jeziorze. Dzięki temu jednak zastosowania jeziora danych nie ograniczają się jedynie do funkcji raportowych, ale mogą być rozszerzane na zagadnienia uczenia maszynowego czy analizy predykcyjnej.
Jeziora danych w samorządach: kiedy i dlaczego mogą być użyteczne?
W jednostkach samorządowych, w tym urzędach miast i gmin, jak w innych organizacjach, jeziora danych stają się coraz bardziej atrakcyjnym rozwiązaniem ze względu na swoją elastyczność i zdolność do radzenia sobie z różnorodnymi wyzwaniami w dziedzinie zarządzania danymi. Oto kilka kluczowych sytuacji, w których jeziora danych mogą przynieść znaczącą wartość jednostkom samorządowym:
Różnorodność źródeł danych
Jednostki samorządowe gromadzą dane z różnych źródeł, takich jak bazy danych, formularze online, systemy płatności, monitoring urządzeń publicznych, media społecznościowe, a nawet sensory IoT. W takiej różnorodnej przestrzeni, jezioro danych jest w stanie przyjąć i przechowywać dane w ich pierwotnym formacie, co znacznie ułatwia zarządzanie danymi pochodzącymi z tak heterogenicznych źródeł.
Analiza danych w czasie rzeczywistym
W dzisiejszym świecie oczekuje się, że samorządy będą działać bardziej reaktywnie i proaktywnie. Jeziora danych pozwalają na analizę danych w czasie rzeczywistym, co umożliwia monitorowanie wydarzeń, przewidywanie potrzeb społeczności i podejmowanie szybszych decyzji, w tym i w sytuacjach kryzysowych.
Planowanie rozwoju miejskiego
W samorządach, szczególnie w dużych miastach, planowanie rozwoju urbanistycznego jest złożonym zadaniem. Jezioro danych może pomóc w analizie danych dotyczących ruchu ulicznego, zanieczyszczenia powietrza, zużycia energii i innych czynników, co przyczynia się do lepszego planowania i tworzenia bardziej zrównoważonych rozwiązań.
Obsługa mieszkańców
Jeziora danych pozwalają na lepszą obsługę obywateli. Samorządy mogą analizować dane dotyczące potrzeb społeczności, sugerować rozwiązania problemów i dostarczać bardziej spersonalizowane usługi publiczne.
Surowe dane źródłowe (ang. raw data)
Jeziora danych pozwalają na przechowywanie surowych danych źródłowych, co jest nieocenione przy prowadzeniu analizy w dłuższej perspektywie. Surowe dane pozostają dostępne dla analizy historycznej i przewidywania trendów.
Elastyczność w dostępie do danych
Zespoły ds. analizy danych w samorządach potrzebują elastyczności w dostępie do danych. Jeziora danych pozwalają na eksplorację danych i dostęp do informacji bez konieczności ograniczania się do wcześniej zdefiniowanych schematów.
Zatem hurtownie danych czy jeziora danych? – które rozwiązanie jest lepsze dla JST?
Na szczęście nie ma potrzeby wyboru tylko jednego z rozwiązań i warto podkreślić, że jezioro danych nie zawsze musi zastępować tradycyjne hurtownie danych, ale może stanowić uzupełnienie dla bardziej zaawansowanych potrzeb analitycznych. Jednak w wielu przypadkach, zwłaszcza tam, gdzie dane są zróżnicowane i zmienne, jeziora danych powinny stanowić element obowiązkowy.
Stosunkowo niedawno ukute zostało określenie będące połączeniem hurtowni danych (ang. data warehouse) oraz jeziora danych (ang. data lake) – tzw. lakehouse, którego tłumaczenie na język polski, choć jeszcze nie zakorzenione, mogłoby brzmieć „hurtownia nad jeziorem danych” lub „domy nad jeziorem”. Wyraża ono idee współistnienia, a nawet łączenia w sposób niewykluczający się technologii specyficznych dla każdego z tak różnych podejść w jednym rozwiązaniu IT.
Więcej na temat zagadnień związanych z procesami zasilania hurtowni danych i transformowania danych znaleźć można w naszym oddzielnym artykule pt. Podstawy projektowania i implementacji procesów ETL: Wprowadzenie do efektywnej analizy danych.
Chciałbyś wdrożyć rozwiązania klasy analizy biznesowej i hurtowni danych w Twojej jednostce samorządu terytorialnego? Koniecznie zapoznaj się z naszą ofertą!