Das Wissensportal für IT-Professionals. Entdecke die Tiefe und Breite unseres IT-Contents in exklusiven Themenchannels und Magazinmarken.

SIGS DATACOM GmbH

Lindlaustraße 2c, 53842 Troisdorf

Tel: +49 (0)2241/2341-100

kundenservice@sigs-datacom.de

Der Bücherwurm zur Daten-Verarbeitung

Daten gelten gemeinhin als das neue Öl. Sie fallen in der IT überall an, egal ob in Geschäftssystemen oder Sensoren. Die Kunst besteht darin, sie zu entwerfen, zu extrahieren, zu analysieren, auf das Essenzielle zu reduzieren, zu sinnvollen Zusammenhängen zu kombinieren, zu übertragen, zu verschlüsseln und zu speichern. Gerade durch die Zusammenfassung von Daten aus verschiedenen Quellen lassen sich häufig wichtige Zusammenhänge erkennen, die sonst verborgen blieben.
Author Image
Michael Stal

Chefredakteur von JavaSPEKTRUM


  • 26.05.2023
  • Lesezeit: 20 Minuten
  • 21 Views

Auch Künstliche Intelligenz und dort speziell maschinelles Lernen lebt vom Input von Daten, aus denen es Vorhersagen und Muster ableitet. Daten sollten daher zu den Aktiva gehören, weil Informatiker durch Analytik aus Rohmaterial nützliche Informationen ableiten können. Daten, die unbenutzt auf einem Speichermedium lagern, können schließlich Mehrwert bereitstellen, wenn man sie beispielsweise für historische Analysen einsetzt.

Das Thema ist alles andere als neu, aber durch heutige Vernetzung, Integration von eingebetteten Systemen und KI ergeben sich ganz neue Möglichkeiten. Um dem Rechnung zu tragen, darf der Schwerpunkt datenintensiver Anwendungen sich nicht nur auf Ablaufstrukturen und Komponenten beziehen, sondern muss explizit der Wichtigkeit von Daten Rechnung tragen. Willkommen zu Themen wie Data Engineering, Data Science, Data Analytics, ML, Big Data, Zeitreihen, Datenströme, Datenbanken, Data Lakes, Business Intelligence, Data Meshes. Wo man hinschaut, sind Daten nicht weit, könnte man meinen.

Entwickler sollten daher stets auf dem neuesten Stand bleiben, was diese Themen betrifft. Wie immer gibt es zu diesem riesigen Gebiet Literatur in Hülle und Fülle. Wir haben uns deshalb auf den Weg gemacht, um das ein oder andere Schätzchen in gut sortierten Bücherregalen aufzustöbern.

Gehen wir also in medias res.

Gareth Eagar, Data Engineering with AWS: Learn how to design and build cloud-based data transformation pipelines using AWS, Packt Publishing, 2021

Speziell an Entwickler auf der Amazon-Cloud AWS richtet sich das Buch „Data Engineering with AWS”. Der Autor weist schon am Anfang darauf hin, dass sein Werk niemanden zum Data Engineer transformieren kann. Dennoch vermittelt es viele Kenntnisse und Erkenntnisse. Dazu betrachten wir die einzelnen Kapitel des Buchs:

Das erste Kapitel erörtert, warum sich Informatiker überhaupt mit Data Engineering beschäftigen sollten, wobei Gareth Eagar hauptsächlich das Arbeiten in und mit der Cloud adressiert. Welche fundamentalen Technologien und Konzepte hierfür eine Rolle spielen, folgt im zweiten Kapitel.

Im dritten Kapitel findet sich das Spektrum an Möglichkeiten, die AWS zur Verarbeitung von Daten offeriert. Dahingegen fokussiert sich das vierte Kapitel auf Sicherheit, Governance und das Katalogisieren von Daten. Das fünfte Kapitel veranschaulicht, wie sich eine geeignete Data Engineering Pipeline entwerfen lässt. Um Batch- und Streaming-Daten und deren Empfang geht es im sechsten Kapitel.

Im nachfolgenden Kapitel beleuchtet Gareth Eagar die Transformation und Optimierung von Daten für Datenanalytik. Für wen die Daten zur Verfügung gestellt werden, bildet den Schwerpunkt des achten Kapitels. Hier illustriert das Buch die Data Consumers, für deren Zweck die Daten schließlich passen müssen.

Von Data Marts und Data Warehouses handelt das neunte Kapitel. Hier geht es primär um die Abspeicherung von Daten und die Übertragung von Daten zwischen Data Lakes und Data Warehouses. Das zehnte Kapitel behandelt die Orchestrierung sogenannter Data Pipelines, die sich um Aufgaben zum Data Engineering und zur Datentransformation kümmern. Natürlich kommen auch die dafür vorhandenen Werkzeuge in AWS zur Sprache.

Speziell Amazon Athena steht im Fokus des nächsten Kapitels, das es erlaubt, SQL-Anfragen über die Daten in einer Data Lake ablaufen zu lassen. Zur Visualisierung von Daten gibt es Amazon QuickSight, das der Autor im zwölften Kapitel erläutert. Natürlich ist dem Thema KI und ML ein Kapitel gewidmet, mit diesen Techniken lassen sich neue Informationen aus Daten adressieren. Schlussendlich schließt das Buch mit einer Zusammenfassung und dem Big Picture im vierzehnten Kapitel. Den im Buch verwendeten Beispielcode stellt der Autor über GitHub zur Verfügung.

Gareth Eagar ist es gelungen, ein Buch zu schreiben, das gleichzeitig Breite und Tiefe vermittelt. Es eignet sich daher hervorragend für den Einstieg ins Data Engineering unter AWS.

Joe Reis, Matt Housley, Fundamentals of Data Engineering: Plan and Build Robust Data Systems, O‘Reilly, 2022

Wer sich weniger mit einer konkreten Technologieplattform beschäftigen möchte, sondern allgemein mit Data Engineering, für den empfiehlt sich „Fundamentals of Data Engineering: Plan and Build Robust Data Systems”. Natürlich adressiert auch dieses Buch Technologien, steigt aber die Leiter ein paar Stufen höher, um einen generellen Überblick zu geben. Es adressiert den Lebenszyklus von Data Engineering und verspricht „Du wirst verstehen, welche Konzepte sich anwenden lassen, um Datengenerierung, Verarbeitung, Orchestrierung, Transformation, Speicherung und Governance durchzuführen, die in allen Datenumgebungen eine wichtige Rolle spielen, egal welche Technologien dafür zum Einsatz kommen“.

Insgesamt ist das Buch in drei große Teile untergliedert:

  • Teil I, „Fundamentale Konzepte und Bausteine”
  • Teil II, „Der Data Engineering Lebenszyklus im Detail”
  • Teil III, „Sicherheit, Privatsphäre und die Zukunft des Data Engineerings“

Im Anhang finden sich technische Details über Kompression und Serialisierung sowie ein kurzer Abschnitt über das Cloud-Computing. Die Stärke von Joe Reis und Matt Housley besteht darin, dass sie systematisch die Landschaft des Data Engineering beschreiben. Für Entwickler ist die strukturierte Sammlung von Best Practices interessant, die sie in ihren Projekten nutzen können. Natürlich dürfen so wichtige Aspekte wie Sicherheit und Governance nicht fehlen.

Auf den 422 Seiten finden sich viele Aspekte und einige Technologien für Data Engineering. Das Buch hat nicht den Anspruch, alle Technologien bis ins letzte Detail auszureizen. Vielmehr liefert es fast schon ein Lehr- und Lernbuch zum Thema Data Engineering. Zumindest ist mir ein vergleichbares Buch noch nicht über den Weg gelaufen. Die gute Nachricht: Wer sich nicht scheut, eigene Daten wie Name, Position, Unternehmen, E-Mail preiszugeben, kann das Buch über die Webseite von Redpanda (https://tinyurl.com/5n94t56m) kostenlos herunterladen.

Martin Kleppmann, Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, O’Reilly (Buch), Upfront Books (Hörbuch), 2021

Martin Kleppmanns Buch hat zwar schon ein paar Jahre auf dem Buckel, aber es genießt einen sehr guten Ruf (Durchschnittsnote 4,8 von 5 bei 3626 Amazon-Bewertungen), weshalb es auch heute eine Empfehlung verdient. Aktuell ist Auflage 13 von 2021. Es existiert auch eine deutsche Übersetzung „Datenintensive Anwendungen designen” für diejenigen, die ungern englische Literatur lesen. Das Gute an der englischen Originalversion: Das Buch liegt seit 2021 auch als 21-stündiges Hörbuch vor, was es nicht nur für Pendler interessant macht.

Martin Kleppmann illustriert intensiv Themen wie Skalierbarkeit, Konsistenz, Zuverlässigkeit, Effizienz und Wartbarkeit, die in modernen Anwendungen eine entscheidende Rolle besitzen. Ebenso zur Sprache kommen Werkzeuge wie relationale Datenbanken, NoSQL-Werkzeuge, Stream und Batch Processing sowie Message Brokers.

Strukturiert ist es wie folgt:

  • Motivation: Fundamente von Datensystemen
  • Zuverlässige, skalierbare und wartbare Anwendungen
  • Datenmodell und Abfragesprachen
  • Relationales gegen dokumentenzentrisches Modell
  • Die Geburt von NoSQL
  • Abbildung zwischen objektorientierten und relationalen Modellen
  • Many-to-One- und One-to-Many-Beziehungen
  • Wiederholt sich bei Dokumentendatenbanken die Geschichte
  • Relationale Datenbanken gegenüber Dokumentendatenbanken heute
  • Abfragesprachen für Daten
  • Graphenbasierte Datenmodelle
  • Zusammenfassung

Martin Kleppmann zeichnet sich dadurch aus, die Zusammenhänge und Details detailliert und trotzdem verständlich näherzubringen. Es zeichnet sich des Weiteren durch gute Hilfestellung bei den täglichen, praktischen Problemen aus, auf die Softwareentwickler unweigerlich stoßen. Insbesondere für Entwickler verteilter Systeme sollte „Designing Data-Intensive Applications” zur Standardlektüre gehören, für alle anderen allerdings auch.

Das Hörbuch bietet eine gelungene Zugabe. Wer aber ein Nachschlagewerk für den täglichen Bedarf benötigt, ist mit der gedruckten oder elektronischen Version besser bedient.

Zhamak Dehghani, Data Mesh: Eine dezentrale Datenarchitektur entwerfen, O‘Reilly, 2023

Die Autorin Zhamak Dehghani ist bei dem bekannten Unternehmen Thoughtworks beschäftigt, wo sie als Director of Technology fungiert. Ihr Buch „Data Mesh - Eine dezentrale Datenarchitektur entwerfen” kommt in seiner deutschen Version geradezu druckfrisch aus der Presse. Wie der Titel schon suggeriert, thematisiert die Autorin dort dezentrale Datenarchitekturen mit Data Meshes. Unter Daten sind dort hauptsächlich analytische Daten zu verstehen.

Im ersten Teil gibt sie einen grundlegenden Überblick über Data Meshes, ebenso wie über die Prinzipien Domain Ownership, Data as a Product, Self-Serve Data Platform und Federated Computational Governance. Dass die deutschen Übersetzer es bei den englischen Fachwörtern belassen haben, ist für meinen Geschmack eine gute Entscheidung, zumal sich die Fachbegriffe nur bedingt adäquat übersetzen lassen und bei Suchen im Internet hilfreich sind. Nach dem einführenden Teil beleuchtet der zweite Teil des Buchs auch mittels historischer Rückblicke, warum und wann sich der Einsatz von Data Meshes überhaupt lohnt und wann nicht. Der dritte Teil steht unter dem Titel „Wie entsteht eine Data-Mesh-Architektur”. Dort geht es also mehr ums Eingemachte. Im Mittelpunkt dieses Teils stehen der Entwurf der logischen Architektur und die richtige Datenplattform.

Weiter in die Tiefe stößt das vierte Kapitel, das den Entwurf von Datenprodukten beschreibt, etwa die Nutzung von Affordances (Erschwinglichkeit) als Ausgangsstation, das Konsumieren, Transferieren und Bereitstellen von Daten, das Finden, Kombinieren und Verstehen derselben sowie das Verwalten, Regeln und Beobachten. Im abschließenden fünften Kapitel erläutert die Autorin, wie die Einführung von Data Meshes ablaufen sollte. Dazu kommt sie auf verschiedene Themen zu sprechen, insbesondere auf Strategie und Umsetzung und auf Organisation und Unternehmenskultur.

Insgesamt ist das Buch gut strukturiert und sehr lesbar. Es empfiehlt sich nicht nur für Softwareentwickler, sondern auch für technisch interessierte Entscheidungsträger, denen auch die nichttechnischen Implikationen von Data Meshes am Herzen liegen.

Steffen Herbold, Data Science Crashkurs: Eine interaktive und praktische Einführung, dpunkt.verlag, 2022

Laut Wikipedia bezeichnet Data Science „generell die Extraktion von Wissen aus Daten, um daraus zu lernen. Data Science ist ein interdisziplinäres Wissenschaftsfeld, welches wissenschaftlich fundierte Methoden, Prozesse, Algorithmen und Systeme zur Extraktion von Erkenntnissen, Mustern und Schlüssen sowohl aus strukturierten als auch unstrukturierten Daten ermöglicht.“

Schon in dieser Definition zeigt sich die Relevanz von Data Science in Zeiten von Cloud-Computing, Data Meshes, KI und Big Data. Wer also systematisch und strukturiert aus Datenquellen verschiedenster Art Informationen kombinieren und extrahieren möchte, kommt an Data Science nicht vorbei.

Steffen Herbold hat ein Buch zu dieser Thematik geschrieben, das sich an Softwareingenieure richtet. Schon der Titel zeigt, dass Praxisnähe und Interaktivität seine Treiber waren. Auf mehr als 300 Seiten bietet er tatsächlich einen Crashkurs, der aber alle relevanten Aspekte beleuchtet. Das Buch verspricht zwar nicht die Abdeckung aller Gebiete von Data Science, kümmert sich aber auf jeden Fall um alle relevanten Aspekte. „Data Science Crashkurs: Eine interaktive und praktische Einführung” startet mit einem Überblick über Data Science sowie den dafür erforderlichen Prozessen, bespricht danach das Erkunden, Bewerten sowie die Analyse von Daten. Es folgen wichtige Gebiete wie Clustering, Klassifizierung und Regression. Die abschließenden Kapitel widmen sich wichtigen Detailaspekten wie Zeitreihen, Text Mining, Statistik und Big Data.

Zwar kann der Autor nicht bei allen Themen in die volle Tiefe gehen, etwa bei der Vorverarbeitung oder Optimierung von Daten, gibt aber eine wertvolle Grundlage an die Hand, um interessante Themen später vertiefen zu können. Das Studium der Inhalte verlangt zumindest mathematische Grundkenntnisse, aber nicht mehr. Wer also Lust hat, sich einen gründlichen Überblick über Data Science zu verschaffen, ist mit dem Buch gut bedient.

Alexander Thamm, Michael Gramlich, Alexander Borek, The Ultimate Data and AI Guide: 150 FAQs About Artificial Intelligence, Machine Learning and Data, Data AI Press, 2020

Eines schon vorweg: Das E-Book „The Ultimate Data and AI Guide: 150 FAQs About Artificial Intelligence, Machine Learning and Data” können sich kindleunlimited-Kunden kostenlos ausleihen. Alle anderen müssen € 9,99 zahlen. Und die nützlichen Fallbeispiele im Buch sind ebenfalls kostenlos.

Der Titel suggeriert schon, dass die Lektüre aus Fragen/Antworten-Paaren besteht, insofern das Buch einiges Hintergrundwissen über KI und Data bereitstellt. Im Gegensatz zu echten FA-Qs haben die Autoren die Fragen sehr ausführlich beantwortet, kratzen also nicht nur an der Oberfläche. Das Buch lässt sich somit zum Schmökern oder zum Nachschlagen gleichermaßen nutzen. Untergliedert ist es in vier große Teile:

  • Warum wir uns darum kümmern sollten. Der Zug zur digitalen Transformation
  • Daten - der Treibstoff
  • Die Maschine - AI und maschinelles Lernen
  • Wohin fahren wir?

Natürlich lässt sich das Gebiet mit 150 FAQs weder in aller Tiefe noch in voller Breite behandeln. Das vorliegende Buch erweist sich aber als sehr nützlich im Vermitteln eines leicht verständlichen Überblicks und als Nachschlagewerk im Stile von „Wie erkläre ich es meinen Kollegen oder meinem Chef?” Zur Veranschaulichung ein paar Beispiele:

  • Welche Daten soll man sammeln und was sind die unterschiedlichen Arten der Datenanalytik?
  • Wie viel Datenqualität wird benötigt?
  • Was ist Big Data?
  • Was ist eine Korrelation und warum ist das wichtig für ML-Modelle?
  • Was bedeuten DevOps und DataOps?

Das ist natürlich nur ein minimales Exzerpt der über 150 Fragen im Buch. Insofern eignet es sich für Entwickler, aber auch für alle anderen technisch Interessierten, die auf einer Party oder einem Meeting mit Fachwissen glänzen wollen.

Rushdi Shams, Java Data Science Cookbook, Packt Publishing, 2017

Eines der wenigen Bücher, die sich der Programmiersprache Java widmen, ist „Java Data Science Cookbook” von Rushdi Shams. Der Autor hat einen Doktortitel (PhD) der Western University (Kanada) in ML und NLP, ist also prädestiniert, um das Themengebiet Data Science zu beackern. Sein Buch gehört des Weiteren zu den Fachbüchern mit Fokus auf Rezepte für alltägliche Probleme der Data Science.

Auch wenn der Anspruch “…to help an apprentice cook become a master chef in data science …” etwas dick aufgetragen ist, vermittelt der Autor Best Practices, die sich beim Umgang mit Daten gut nutzen lassen. Die Rezepte nutzen Bibliotheken wie MLlib, Univocity, Weka und DL4j zur Umsetzung. Als Basis für seine Beispiele verwendet der Autor die Eclipse IDE (unter Windows). Der Beispielcode läuft auf Java 8, müsste allerdings auch ohne Probleme in späteren Java-Versionen laufen.

Als Lernziele gibt Rushdi Shams an:

  • Finde heraus, wie sich Datensätze säubern und kreieren lassen, um aus ihnen nach dem Bereinigen von Außenseitern und Unreinheiten echte Einsichten gewinnen zu können.
  • Entwickle Fähigkeiten für moderne Techniken maschinellen Lernens, um Informationen zu gewinnen beziehungsweise zu extrahieren.
  • Ermittle Informationen aus großen Mengen von Daten im Textformat.
  • Erlerne essenzielle Techniken zur Speicherung und Suche in großen Mengen von Daten im Textformat.
  • Entwickle grundlegende Fähigkeiten, um Big Data und Deep Learning auf große Datenvolumina anwenden zu können.
  • Entwickle Fähigkeiten zur Datenvisualisierung und erhalte wertvolle Einsichten in deine Daten.
  • Lerne einen Schritt-für-Schritt-Ansatz kennen, um ein industrielles, großes, echtes Produkt zu entwickeln.
  • Erwerbe Fähigkeiten, um Daten zu visualisieren und um mit anderen Nutzern mittels Einsichten zu interagieren.

Dementsprechend ist das „Java Data Science Cookbook” untergliedert. Es startet mit dem Gewinnen und Säubern von Daten sowie dem Indizieren und Suchen von Daten. Danach folgen Kapitel zur statistischen Analyse, dem Lernen aus Daten, der Gewinnung von Information aus Textdaten sowie der Behandlung von Big Data. Am Schluss finden sich noch Kapitel zum Deep Learning aus Daten und zum Visualisieren von Daten.

Das Buch ist gut lesbar und praxisnah geschrieben. Den Code finden Leser auf GitHub unter https://github.com/PacktPublishing/Java-Data-Science-Cookbook. Wer sich also für die Art von Beispielen interessiert, die Shams verwendet, sollte dort einen ersten Eindruck gewinnen.

Christiana Klingenberg, Kristin Weber, Data Governance: Der Leitfaden für die Praxis, Hanser Verlag, 2020

Hören Technikliebhaber den Begriff Governance, suchen sie bisweilen das Weite. Allerdings liegt es oft am fehlenden Fokus auf dieses Thema, wenn Probleme bei datenintensiven Anwendungen entstehen. Zumindest sollte man die Problematik deshalb als notwendiges „Übel” begreifen.

„Data Governance” beinhaltet interne Vorgaben und Richtlinien, die sich auf alles beziehen, was mit Daten getan werden kann, also deren Erfassung, Persistierung, Übermittlung und natürlich deren Verarbeitung. Es gilt zu bestimmen, wer auf welche Daten wie zugreifen darf und welche Daten der Governance unterliegen sollen.

In ihrem Buch „Data Governance: Der Leitfaden für die Praxis” gehen Kristin Weber und Christiana Klingenberg detailliert auf Data Governance ein. Als Zielgruppe sieht das Buch Entscheidungsträger, Berater, Entwickler, Architekten, und überhaupt alle, die Verantwortung für Data Governance tragen.

So erläutern die Autorinnen gleich zu Beginn Data Governance Frameworks wie zum Beispiel das SAS Data Governance Framework, die dafür sorgen, nicht alles bei null beginnen zu müssen. Spannend ist auch die Diskussion zur Open Data Movement, deren Ziel darin besteht, Daten offen und frei zur Verfügung zu stellen. Wer schon einmal ML-Modelle trainiert hat, kennt die Thematik.

Das Buch illustriert notwendige Prozesse, Organisationsaspekte und Rollen. Auch Grundwissen zur Datenqualität darf dabei nicht fehlen. Abschließend geht es um fundamentale Methoden, Konzepte und Werkzeuge. Hier behandeln die Autorinnen verschiedene Werkzeuge und Praktiken: strategische Werkzeuge, Ursachen-Wirkungsdiagramme, Messungen der Datenqualität, RACI-Matrizen, Business Data Dictionaries, DSGVO oder DQ-Scorecards. Das aber nur als Ausschnitt der vorgestellten Möglichkeiten.

Was am Buch besonders gefällt, ist dessen Praxisnähe. Leser erfahren viel über Verfahren, Frameworks und Werkzeuge, die sie in der Praxis einsetzen können. Auch die strategische Sicht kommt dabei nicht zu kurz. Leider gibt es andere Bücher, die sich auf die High-Level-Sicht konzentrieren und dadurch Entwickler und Architekten im Regen stehen lassen. Aber auch, wer sich nur einen groben Überblick verschaffen will, kann von „Data Governance: Der Leitfaden für die Praxis” profitieren. Im Gegensatz zu englischen Pendants, die sich oft in verschnörkelten Sätzen verlieren, um Raum für Entertainment zu offerieren, handelt es sich hier ganz buchstäblich um ein Sachbuch.

Hadley Wickham, Garrett Grolemund, R for Data Science: Import, Tidy, Transform, Visualize, and Model Data, O’Reilly, 4. Aufl., 2020

Hinweis: Aktuellere Version ab Oktober 2023 erhältlich.

Gerade bei datenintensiven Anwendungen lohnt es sich auch für Java-Entwickler, gelegentlich fremdzugehen. Als potenzielle Kandidatinnen gelten insbesondere Python und R. Während Python den meisten Entwicklern vertraut sein dürfte, wissen nicht viele etwas mit R anzufangen. Daher ein weit ausschweifender Anfang.

R ist eine Programmiersprache, die für statistische Analysen und grafische Darstellungen entwickelt wurde. Die Open-Source-Sprache besitzt eine große Community und bietet eine Vielzahl von Paketen und Funktionen. Sie ist bekannt für ihre Fähigkeit, Daten schnell zu laden und zu manipulieren, komplexe Modelle zu erstellen und aussagekräftige Grafiken zu generieren.

Dank der umfangreichen Funktionalität von R setzen sie viele Fachdomänen ein, darunter Wissenschaft, Wirtschaft, Biologie, Medizin und Finanzwesen. Ein weiterer Vorteil von R ist die Möglichkeit, mit anderen Sprachen und Tools zu interagieren, wie Python, SQL, Tableau oder Excel. Insgesamt ist R eine leistungsstarke Programmiersprache für Datenanalyse, die sich durch ihre Flexibilität, Geschwindigkeit und ihre Fähigkeit auszeichnet, komplexe Aufgaben in kurzer Zeit zu bewältigen.

Hadley Wickham und Garrett Grolemund haben ein exzellentes Fachbuch zu R geschrieben, das sich um die Verwendung von R für Data Science kümmert. Wie schon der Titel „R for Data Science: Import, Tidy, Transform, Visualize, and Model Data” veranschaulicht, beschäftigen sie sich darin mit dem Importieren, Säubern, Transformieren, Visualisieren und Modellieren von Daten. Das Buch startet mit dem Thema Datenvisualisierung mit ggplot2, bespricht im Anschluss den grundlegenden Arbeitsablauf beim Umgang mit Daten, um danach auf Datentransformation mit dplyr und Skripts zu sprechen zu kommen sowie auf explorative Datenanalyse und Projekte. Danach geht es immer mehr ins Detail. Am Schluss kommen R Markdown und R Markdown-Formate zur Sprache. Die zahlreichen Beispiele verhelfen zu einem sehr anschaulichen Einstieg in die Merkmale und Pakete von R. Die Autoren nutzen RStudio als integrierte Entwicklungsumgebung, die sie für Leser ebenfalls empfehlen.

Das Buch gefällt durch seine Aufmachung und die gut verständlichen Erläuterungen. Wer also nicht davor zurückschreckt, das lieb gewordene Java-Terrain zu verlassen, ist bei diesem Buch gut aufgehoben.

Wolfgang Pietsch, Big Data (Elements in the Philosophy of Science), Cambridge University Press, 2021

Ein Buch der ganz anderen Art stammt von Wolfgang Pietsch, der am Lehrstuhl für Philosophie und Wissenschaftstheorie an der Technischen Universität München arbeitet. Es handelt sich hier um kein Sachbuch über Big Data, sondern um einen philosophischen Diskurs.

Big Data und die Analyse von großen Datensätzen haben die wissenschaftliche Praxis verändert. Trotzdem gibt es bislang noch wenig erkenntnistheoretische Abhandlungen dazu. Der Autor will dies ändern und führt gleich zu Anfang konzeptionell in den Datenbegriff ein und erläutert sodann die Dichotomie zwischen Induktivismus und hypothetischen Deduktivismus. Das Buch kommt auf verschiedene kontroverse Thesen für Big Data zu sprechen, etwa ob Korrelation auch zu einer Ursache-Wirkungsbeziehung führt. Ebenso ob die Grenzen der Technologie in Sicht sind und ob die Ansätze für Big Data eine neuartige wissenschaftliche Methodik bieten. Pietsch stellt sich in seinem Buch auf die Seite der Induktivisten und stellt einen Bezug zu Mills Methoden her.

Big Data ist in folgende Teile geordnet:

  • Einführung
  • Definition von Big Data
  • Induktivismus
  • Maschinelles Lernen als variantenzentrierte Induktion
  • Korrelation und Ursache-Wirkung
  • Die Rolle der Theorie
  • Eine neue wissenschaftliche Methode?
  • Schlussfolgerungen

Das Buch ist mit 84 Seiten nicht besonders lang, aber die Inhalte haben es intellektuell in sich. Es ist eine gute Lektüre für diejenigen, die sich bei Big Data einmal über den Tellerrand wagen wollen. Gerade wissenschaftlich und philosophisch Interessierte dürften davon profitieren. Es gibt zwar eine ganze Reihe oft mittelmäßiger Literatur zum Thema Big Data, aber keines, das so auf die Grundfesten von Big Data schaut wie das vorliegende.

Fazit

Natürlich erhebt der Beitrag weder einen Anspruch auf Vollständigkeit noch den, nur die besten Bücher herausgepickt zu haben. Zu unterschiedlich sind schließlich die Geschmäcker, Vorerfahrungen und Bedürfnisse. Wie bei allen trendigen Themen gibt es mittlerweile eine ganze Menge entsprechender Literatur. Bisweilen könnte man viele Bücherregale damit füllen. Besonders auffällig ist dies bei allen Themen zu Künstlicher Intelligenz. Es fällt daher nicht immer leicht, die richtigen und wichtigen Werke herauszufiltern, die in der aktuellen Situation wirklich weiterhelfen.

Eines ist jedoch gewiss. Wer das ein oder andere der hier vorgestellten Bücher liest, kann das eigene Wissen über Daten und ihre Verarbeitung gezielt erweitern. Und die Thematik dürfte uns noch sehr lange begleiten. Haben Sie noch ein paar Empfehlungen auf Lager? Weitere Buchtipps sind jederzeit willkommen. Viel Spaß bei der Lektüre!

. . .

Author Image

Michael Stal

Chefredakteur von JavaSPEKTRUM
Zu Inhalten

Prof. Dr. Michael Stal beschäftigt sich bei der Corporate Technology der Siemens AG mit Software- und Systemarchitekturen, Digitalisierung und KI. An der University of Groningen hält er Vorlesungen und betreut Doktoranden. Außerdem ist er Chefredakteur von JavaSPEKTRUM.


Artikel teilen