Historia wizualizacji danych

Diagram nawiązujący do wizualizacji danych i historii. Źródło: ResearchGate

Historia wizualizacji danych

Wizualizacja danych ma długą i fascynującą historię, sięgającą głęboko w przeszłość. Od prymitywnych malowideł naskalnych po dzisiejsze zaawansowane narzędzia komputerowe, wizualizacja danych odegrała znaczącą rolę w rozwijaniu naszego zrozumienia informacji i przedstawianiu jej w sposób zarówno atrakcyjny, jak i efektywny. W pierwszym rozdziale tej książki przyjrzymy się początkom wizualizacji danych i dowiemy się, jak nasza zdolność do przedstawiania informacji wizualnie ewoluowała na przestrzeni wieków.

Nasza historia wizualizacji danych rozpoczyna się w odległej przeszłości, gdy ludzie odkrywali potrzebę przedstawiania danych w formie graficznej. Już tysiące lat temu nasi przodkowie stosowali prymitywne techniki, aby przekazać informacje wizualnie. Malowidła naskalne, hieroglify i piktogramy były pierwszymi krokami w procesie tworzenia graficznych reprezentacji danych. Te wczesne formy wizualizacji pomagały w komunikacji, dzieleniu się historiami i gromadzeniu wiedzy.

Wraz z upływem czasu ludzie doskonalili swoje umiejętności w tworzeniu coraz bardziej zaawansowanych form wizualizacji danych. W średniowieczu powstały mapy, które umożliwiały przedstawienie geograficznych informacji w sposób czytelny i intuicyjny. W renesansie naukowcy i matematycy opracowywali wykresy i diagramy, które pomagały w analizowaniu danych liczbowych i zrozumieniu złożonych zależności.

Jednak prawdziwa rewolucja w dziedzinie wizualizacji danych nastąpiła wraz z rozwojem technologii komputerowej. W drugiej połowie XX wieku powstały pierwsze programy komputerowe, które umożliwiły tworzenie interaktywnych grafik, wykresów i diagramów. Przy użyciu komputera, dane mogły być przedstawiane w sposób bardziej precyzyjny, elastyczny i efektywny niż kiedykolwiek wcześniej.

W pierwszym części naszej podróży po historii wizualizacji danych zgłębimy te fascynujące etapy rozwoju. Będziemy badać ewolucję od prymitywnych rysunków naskalnych do zaawansowanych narzędzi wizualizacyjnych dostępnych obecnie. Przyjrzymy się kluczowym postaciom i przełomowym momentom, które wpłynęły na rozwój tej dziedziny.


Początki wizualizacji danych

“Pierwsze próby wizualizacji danych sięgają czasów prehistorycznych” - to zdanie rozbudza moją ciekawość. Był to okres, kiedy ludzie używali malowideł naskalnych i rysunków do przedstawienia informacji. Fascynujące jest to, jak nasi przodkowie z epoki kamienia potrafili przekazywać skomplikowane koncepty za pomocą prostych form wyrazu.

Dla przykładu, jednym z najstarszych znanych dowodów na wizualizację danych jest malowidło naskalne odkryte w jaskini Lascaux we Francji. Te malunki, które datuje się na około 17 000 lat temu, przedstawiają różne zwierzęta, takie jak byki i konie, a także symboliczne znaki, które mogły reprezentować liczby czy zmiany pór roku. oficjalna strona jaskini Lascaux, na której znajdują się informacje na temat prehistorycznych malowideł.

Zauważalne jest, że ta prymitywna forma wizualizacji danych posiadała w sobie zarówno aspekt artystyczny, jak i informatyczny. Dzięki temu dzisiaj możemy dowiedzieć się więcej o życiu tych prehistorycznych ludzi - od ich codziennych zajęć, poprzez to, co jedli, aż do jakich zwierząt obawiali się najbardziej.

Ciekawostką jest również fakt, że niektóre z tych malowideł mogą być wcześniejszymi formami map. Np. malowidło naskalne w jaskini w Bedeilhac w południowej Francji, które ma około 14 000 lat, zawiera układ linii i kropek, który według niektórych badaczy może przedstawiać okoliczne tereny.

Jeśli chodzi o grafy z tego okresu, nie były one skomplikowane jak dzisiejsze wykresy słupkowe czy kołowe, ale z pewnością można zauważyć próbę przedstawienia pewnych wzorców i trendów. Na przykład, rysunki w jaskiniach często przedstawiały zwierzęta w różnych fazach ruchu, co mogło sugerować migracje tych gatunków w określonym czasie roku.

Choć metody wizualizacji danych z tamtych czasów mogą wydawać nam się dziś prymitywne, stanowiły one podstawę dla rozwoju tej dziedziny, jaki widzimy obecnie. Wzory, symbole i obrazy wykorzystywane przez naszych przodków nie tylko pomagały im przetrwać, ale również przekazywały ważne informacje przyszłym pokoleniom.


William Playfair: Ojciec współczesnej wizualizacji danych

Playfair, szkocki ekonomista i inżynier, to postać, której nie da się pominąć, mówiąc o historii wizualizacji danych. To on w XVIII wieku wprowadził wykresy liniowe, słupkowe i kołowe jako narzędzia do prezentacji danych statystycznych.

Jego dzieło “Commercial and Political Atlas” z 1786 roku jest uznawane za pierwsze znane zastosowanie wykresu liniowego do reprezentowania danych. Playfair zauważył, że wykresy mogą “przemawiać” do odbiorców bardziej bezpośrednio niż surowe liczby, pomagając im lepiej zrozumieć i zinterpretować dane.

Dzięki innowacjom Playfaira wizualizacja danych stała się bardziej dostępna i zrozumiała. Wykresy liniowe, słupkowe i kołowe stały się podstawą analizy danych, a ich wpływ jest widoczny nawet w dzisiejszych narzędziach do wizualizacji danych.

Poniżej znajduje się kilka przykładów wykresów, które Playfair stworzył w swojej książce “Commercial and Political Atlas”. Zauważ, jak wykresy te są podobne do tych, które tworzymy dzisiaj.

Na tym wykresie słupkowym przedstawiono import i eksport Szkocji z i do 17 krajów w 1781 roku. Źródło: Wikipedia
Wykres kołowy z Playfair's Statistical Breviary (1801), pokazujący proporcje imperium tureckiego znajdującego się w Azji, Europie i Afryce przed 1789 rokiem. Źródło: Wikipedia

Wizualizacja danych w służbie zdrowia

Wizualizacja danych jest obecnie szeroko stosowana w wielu dziedzinach, ale jedną z najbardziej obiecujących jest służba zdrowia. Wizualizacja danych może pomóc w analizie i interpretacji danych medycznych, co może prowadzić do lepszych decyzji klinicznych i poprawy opieki zdrowotnej.


Florence Nightingale

Najbardziej znane osiągnięcie Nightingale w dziedzinie wizualizacji danych to jej “diagram kołowy” (polar area diagram), który często nazywany jest “diagramem różycy”. Użyła go do ilustracji, jakie były przyczyny zgonów wśród żołnierzy podczas Wojny Krymskiej.

Jej diagram różycy przedstawiał, że większość zgonów nie wynikała bezpośrednio z obrażeń wojennych, ale z chorób zakaźnych. Ta wizualizacja miała ogromny wpływ na reformy sanitarno-higieniczne w obozach wojskowych.

Praca Nightingale była nie tylko innowacyjna pod kątem technicznym, ale miała również długotrwałe konsekwencje dla zdrowia publicznego. Dzięki jej wizualizacjom zwrócono uwagę na istotne kwestie higieny i opieki zdrowotnej, co przyczyniło się do poprawy warunków w obozach wojskowych, a później także w innych instytucjach zdrowotnych.

Diagram obszarowy biegunowy został wynaleziony przez Florence Nightingale, aby zobrazować skalę niepotrzebnych zgonów w brytyjskich szpitalach wojskowych podczas Wojny Krymskiej (1954-56). Źródło: Wikipedia

Obszar każdego kolorowego klinu, mierzony od środka, jest proporcjonalny do reprezentowanej statystyki. Niebieskie klasy reprezentują zgony z “zapobiegawczych lub łagodzących” chorób zakaźnych (chorób zakaźnych takich jak cholera czy tyfus), różowe klasy zgony z ran, a szare klasy zgony z wszystkich innych przyczyn. Śmiertelność osiągnęła szczyt w styczniu 1855 roku, kiedy zmarło 2761 osób na choroby zakaźne, 83 z ran i 324 z innych przyczyn.

Bazując na średniej sile armii wynoszącej 32393, Nightingale obliczyła roczną śmiertelność na poziomie 1174 na 1000. Diagram pochodzi od Bernarda Cohena, “Florence Nightingale,” Scientific American, marzec 1984. Oryginalnie pochodzi z książki Nightingale “Notes on Matters Affecting the Health, Efficiency and Hospital Administration of the British Army”, opublikowanej w 1858 roku.


John Snow

John Snow, angielski lekarz, jest znany z tego, że jako pierwszy zastosował wizualizację danych do badania epidemiologii. W 1854 roku, podczas epidemii cholery w Londynie, Snow stworzył mapę, która przedstawiała lokalizację przypadków zachorowań na cholerę w dzielnicy Soho.

Snow zidentyfikował źródło epidemii jako publiczną pompę wodną na Broad Street. Zrobił to, lokalizując przypadki choroby na mapie, co pozwoliło mu zobaczyć skupisko w okolicy tej pompy. Ta wizualizacja była kluczowa dla zrozumienia, jak cholera rozprzestrzenia się przez zanieczyszczoną wodę.

Praca Snowa pomogła zmienić podejście do zdrowia publicznego i zrozumieć, jak choroby zakaźne, takie jak cholera, mogą rozprzestrzeniać się w populacji. Jego metoda używania mapy do wizualizacji danych zdrowotnych jest nadal stosowana dzisiaj, na przykład w monitorowaniu rozprzestrzeniania się wirusa COVID-19.

Wykres pokazujący temperaturę i śmiertelność Londynu dla każdego tygodnia 11 lat, 1840-50 z Farr's Report on the 1849 epidemic. Numer WI L0039176, Wellcome Library Źródło: Wellcome Collection

Charles Minard: Wizualizacja danych wojennych

Charles Minard, francuski inżynier i ekonomista, jest sławny z powodu swojej niezwykłej umiejętności prezentowania skomplikowanych danych w prosty i zrozumiały sposób. Minard jest najbardziej znany z wyjątkowego diagramu przedstawiającego katastrofalną kampanię Napoleona w Rosji w 1812 roku. Ta innowacyjna wizualizacja, często uważana za “najlepszy wykres statystyczny wszech czasów”, jednocześnie ilustruje sześć różnych zmiennych: liczbę wojsk, odległość, temperaturę, datę, kierunek ruchu i lokalizację.

Minard użył szerokości linii, aby reprezentować liczbę pozostałych sił Napoleona w różnych etapach marszu. Wizualizacja jest nie tylko estetycznie przyjemna, ale również mocno oddziałuje na odbiorcę poprzez pokazanie ogromu strat poniesionych podczas kampanii. W dodatku, dołączony do wykresu wykres liniowy ilustruje temperatury podczas odwrotu armii francuskiej, dodając kolejny wymiar do tej opowieści.

Wizualizacja Minarda jest doskonałym przykładem tego, jak skomplikowane zestawy danych można przekształcić w intuicyjne obrazy, które pozwalają odbiorcy szybko zrozumieć kontekst i znaczenie prezentowanych informacji. Ta praca jest do dziś inspiracją dla specjalistów od wizualizacji danych na całym świecie.

Wykres przedstawiający liczbę wojsk Napoleona w czasie kampanii rosyjskiej w 1812 roku. Źródło: Wikimedia Commons

Ten mapa pokazuje ruch wojsk podczas kampanii rosyjskiej. Liczba żołnierzy, którzy rozpoczęli kampanię, wynosiła około 442 000 - pokazane po lewej stronie mapy na brązowo. Do Moskwy dotarło 100 000 żołnierzy - prawa strona mapy na brązowo. Na dolnym, prawym, czarnym pasku mapa pokazuje liczbę żołnierzy, którzy opuścili Moskwę - 100 000 - a po prawej stronie na czarno wskazuje, że do Francji wróciło tylko 10 000 żołnierzy. Dolna część wykresu pokazuje skalę temperatury na całej trasie.

Dzięki temu wykresowi mamy szczegółowy obraz tego, co zaszło w bitwie. Jeżeli przeanalizujesz wykres, łatwiej będzie zrozumieć i “zwizualizować” liczby niż na podstawie tekstu. Wyjaśnienie tekstowe utrudnia zrozumienie liczb w odpowiedniej kolejności wielkości. Spoglądając na wykres, możemy lepiej zrozumieć katastrofę, jaką była ta bitwa.


Początki współczesnej wizualizacji danych

Wizualizacja danych zaczęła się rozwijać wraz z rozwojem technologii komputerowych. W latach 60. XX wieku pojawiły się pierwsze komputery, które umożliwiły przetwarzanie i wizualizację dużych zbiorów danych. W tym samym czasie pojawiły się pierwsze narzędzia do wizualizacji danych, takie jak systemy graficzne, które umożliwiły użytkownikom tworzenie wykresów i diagramów bez konieczności pisania kodu.


Herman Hollerith: Maszyna do przetwarzania danych

Maszyna do sortowania i liczenia kart perforowanych zaprojektowana przez Hermana Holleritha. Źródło: National Museum of American History

Herman Hollerith, amerykański wynalazca i statystyk, jest postacią, która zasługuje na szczególne uznanie w dziedzinie przetwarzania i wizualizacji danych. To on zaprojektował i skonstruował pierwszą funkcjonalną maszynę do przetwarzania danych - maszynę do sortowania i liczenia kart perforowanych. Ta innowacyjna technologia zrewolucjonizowała sposób, w jaki dane były zbierane i analizowane, stanowiąc punkt zwrotny dla przyszłych generacji komputerów.

Dzięki swojemu wynalazkowi, Hollerith znacznie przyspieszył proces spisu powszechnego w Stanach Zjednoczonych w 1890 roku, co wcześniej zajmowało wiele lat. Jego maszyna potrafiła przetworzyć dane o populacji w ciągu zaledwie kilku miesięcy, co było wtedy niewyobrażalne.

W 1896 roku Hollerith założył Tabulating Machine Company, firmę, która później przekształciła się w giganta technologicznego, znanego dzisiaj jako IBM. Wykorzystanie kart perforowanych do przechowywania i przetwarzania danych, zapoczątkowane przez Holleritha, stało się fundamentem dla rozwoju technologii informacyjnej. Bez jego przyczynkowego wkładu, historia wizualizacji danych mogłaby wyglądać zupełnie inaczej. Praca Holleritha położyła podwaliny pod nowoczesne metody analizy i wizualizacji danych, które teraz są nieodłączną częścią naszego świata.


John Tukey: Ojciec eksploracyjnej analizy danych

John Tukey, wybitny amerykański matematyk i statystyk, jest powszechnie uznawany za “ojca eksploracyjnej analizy danych” (EDA - Exploratory Data Analysis). EDA to podejście do analizy danych, które polega na eksploracji i wizualizacji danych przed formalnym testowaniem statystycznym, pozwalając na zrozumienie ich struktury, wykrycie anomalii, sprawdzenie założeń czy identyfikację potencjalnych modeli.

Jednym z kluczowych wkładów Tukeya w dziedzinę wizualizacji danych jest wynalezienie box plotu (diagramu pudełkowego). Diagram ten to prosty, ale bardzo efektywny sposób prezentowania rozkładu danych. Dzięki box plotom, możemy łatwo zauważyć medianę, kwartyle i potencjalne wartości odstające, co daje nam podstawowe zrozumienie rozkładu danych.

Tukey zawsze podkreślał wagę wizualizacji w procesie analizy danych. W swojej pracy “Eksploracyjna Analiza Danych” z 1977 roku, wyjaśnił jak różne metody wizualizacji, takie jak histogramy, wykresy punktowe czy wykresy Q-Q, mogą pomóc w zrozumieniu danych. Ta praca jest do dziś fundamentalnym źródłem wiedzy na temat EDA.

Dziedzictwo Tukeya żyje w każdej analizie danych, która zaczyna się od dokładnego zrozumienia danych poprzez ich wizualizację. Jego wkład w dziedzinę statystyki i wizualizacji danych jest nieoceniony, a jego prace nadal inspirują kolejne generacje analityków danych.


Edward Tufte: Wizualizacja danych w XX wieku

Edward Tufte, amerykański teoretyk informacji, jest niezaprzeczalnie jednym z najbardziej wpływowych pionierów w dziedzinie wizualizacji danych w XX wieku. Zasłynął z tworzenia szczegółowych zasad dotyczących efektywnej prezentacji danych statystycznych, które znalazły odzwierciedlenie w jego licznych publikacjach.

Jego książka “The Visual Display of Quantitative Information”, jest kluczowym dziełem w tej dziedzinie, stanowiącym kanon dobrej praktyki wizualizacji danych. Tufte wprowadził tutaj takie pojęcia jak “lie factor” - czynnik kłamstwa, który mierzy stopień zniekształcenia danych prezentowanych na wykresie, czy “data-ink ratio” - stosunek “atramentu danych” do całkowitej ilości “atramentu” użytego do stworzenia wykresu.

Kolejne z jego znanych dzieł, “Envisioning Information”, koncentruje się na różnorodnych sposobach prezentacji informacji, wykorzystując przykłady z tak różnych dziedzin jak kartografia, sztuka, projektowanie interfejsów, czy nauki przyrodnicze.

Edward Tufte jest również znany z wprowadzenia koncepcji “sparklines” - małych, intensywnych, prostych, wykresów słupkowych, które pozwalają na skondensowane przedstawienie informacji. Wszystkie te idee i koncepcje przyczyniły się do kształtowania nowoczesnej wizualizacji danych, a wkład Tufta jest nieoceniony dla dzisiejszych projektantów i analityków danych.


Jacques Bertin: Semiotyka wizualizacji danych

Jacques Bertin, wybitny francuski kartograf i teoretyk informacji, jest postacią niezwykle istotną dla dziedziny wizualizacji danych. Jego wkład polegał na stworzeniu semiologii graficznej, czyli nauki o znakach graficznych, ich strukturze i sposobie działania na odbiorcę.

W swojej fundamentalnej książce “Semiology of Graphics”, opublikowanej po raz pierwszy w 1967 roku, Bertin przedstawił siedem fundamentalnych zmiennych wizualnych: położenie, kształt, kolor, orientację, wielkość, wartość i teksturę. Każda z tych zmiennych ma specyficzne właściwości i potrafi przekazywać określone informacje w sposób zrozumiały dla odbiorcy.

Bertin zwracał uwagę na to, że wizualizacja danych musi być przemyślana i zrozumiała dla odbiorcy. Podkreślał, że skuteczność wizualizacji danych zależy od prawidłowego wyboru i zastosowania zmiennych wizualnych.

Nauka Bertina dotycząca semiologii graficznej ma olbrzymie znaczenie dla dzisiejszych praktyk wizualizacji danych. Jego idee nadal inspirują i kształtują sposób, w jaki prezentujemy i interpretujemy informacje. “Semiology of Graphics” Jacques’a Bertina to absolutna klasyka w dziedzinie wizualizacji danych, która pomogła zdefiniować podstawy tej dyscypliny.


Początek ery komputerowej wizualizacji danych (koniec lat 60. XX wieku)

Koniec lat 60. XX wieku to ważny moment w historii wizualizacji danych, który zapoczątkował erę komputerowej wizualizacji danych. To właśnie w tym czasie, dzięki gwałtownemu rozwojowi technologii informatycznej, zaczęto stosować komputery do tworzenia i interpretowania wizualizacji danych.

Przełomem były innowacyjne programy takie jak Systat, SPSS i SAS. Te narzędzia, pierwotnie stworzone do analizy statystycznej, umożliwiły automatyczną wizualizację danych. Oferta tych narzędzi szybko się rozrastała, co umożliwiło tworzenie skomplikowanych wykresów i diagramów z dużych zbiorów danych w relatywnie krótkim czasie.

Wraz z upowszechnieniem komputerów osobistych i rozwojem technologii graficznych, możliwości wizualizacji danych stały się praktycznie nieograniczone. Rozpoczął się proces tworzenia coraz to nowszych narzędzi do analizy i prezentacji danych, które umożliwiły wizualizację informacji na skalę niewyobrażalną wcześniej.

Rozwój technologii komputerowych sprawił, że analiza i wizualizacja danych stała się szybsza, dokładniejsza i bardziej dostępna. To właśnie te lata dały początek nowoczesnej wizualizacji danych, której jesteśmy świadkami dzisiaj. Ewolucja narzędzi do wizualizacji danych, która rozpoczęła się w latach 60., jest nadal w toku, a możliwości jakie daje nam dzisiejsza technologia są niezwykle ekscytujące.


Ben Shneiderman: Interaktywna wizualizacji danych

Ben Shneiderman, wybitny amerykański informatyk i profesor na University of Maryland, jest uznawany za pioniera w dziedzinie interaktywnej wizualizacji danych. Jego prace wyznaczyły nowy kierunek w podejściu do prezentacji i interakcji z danymi.

Shneiderman jest twórcą koncepcji “direct manipulation”, czyli bezpośredniej manipulacji, co zrewolucjonizowało sposób, w jaki użytkownicy komputerów współdziałają z interfejsami użytkownika. Podkreślał znaczenie interaktywności i angażowania użytkowników w proces analizy danych.

Jego publikacja “The Eyes Have It: A Task by Data Type Taxonomy for Information Visualizations” jest fundamentalnym dziełem w tej dziedzinie. W tej pracy, Shneiderman wprowadził koncepcję “Mantra Wizualizacji”, składającą się z czterech zasad: “Przeglądaj pierwszy, zoom i filtruj, następnie szczegół na życzenie”. Ta koncepcja jest do dzisiaj stosowana w projektowaniu interaktywnych wizualizacji danych.

Shneiderman miał ogromny wpływ na rozwój interaktywnych wizualizacji danych, a jego koncepcje nadal są stosowane w nowoczesnym projektowaniu UX/UI. Dzięki jego wkładowi, dzisiaj możemy korzystać z narzędzi, które umożliwiają łatwe i intuicyjne poruszanie się po skomplikowanych zestawach danych. Jego prace są nieocenionym źródłem wiedzy dla każdego, kto interesuje się wizualizacją danych.


Podsumowanie

Podsumowując, historia wizualizacji danych to niezwykle interesujące i dynamiczne pole, które od starożytności do współczesności przeszło przez wiele faz ewolucji. Od prostych reprezentacji w formie map i wykresów, przez innowacyjne prace Minarda, aż do wynalazku maszyn do przetwarzania danych przez Holleritha, wizualizacja danych zawsze była nieodzownym elementem nauki i biznesu.

XX wiek to era ekspansji w dziedzinie wizualizacji danych, kiedy to tacy giganci jak Tukey, Tufte i Bertin zdefiniowali podstawy tej dziedziny. Z biegiem lat, z nadejściem komputerów, możliwości wizualizacji danych znacznie się poszerzyły, czemu przyczyniły się także prace Shneidermana.

Obecnie, w dobie cyfryzacji i rosnącej ilości dostępnych danych, wizualizacja danych odgrywa kluczową rolę w wielu dziedzinach życia. Służy do przekazywania skomplikowanych informacji w przystępnej formie, pomaga w podejmowaniu decyzji i jest nieodzowna w świecie nauki, technologii i biznesu.

Oczekuje się, że przyszłość przyniesie jeszcze więcej innowacji w dziedzinie wizualizacji danych, a jej znaczenie będzie dalej rosnąć. Jak pokazuje historia, potencjał tej dziedziny jest nieograniczony, a nasza zdolność do wykorzystania danych w celu zrozumienia świata wciąż się rozwija.