Zwei Welten zusammenbringen
Wir leben in einer Welt, die sich rasant verändert. Wie wir kommunizieren, uns informieren, einkaufen und produzieren – all das und noch viel mehr ist vom digitalen Wandel geprägt. Auch in der Forschung sind die Veränderungen durch neue Werkzeuge, Methoden und Möglichkeiten allgegenwärtig. Der Computerlinguist Prof. Dr.-Ing. Ernesto William De Luca arbeitet an den Schnittstellen von Informatik und Geisteswissenschaften. Er weiß: Die Chancen für neuen Erkenntnisgewinn sind enorm, aber viele Forschungsfelder müssen noch einen Zugang zur Digitalisierung und eine gemeinsame Sprache finden.
Seit 2019 ist Ernesto William De Luca Professor für Digital Transformation and Digital Humanities an der Otto-von-Guericke-Universität Magdeburg. Gleichzeitig leitet er die Abteilung Digitale Informations- und Forschungsinfrastrukturen am Georg-Eckert-Institut für internationale Schulbuchforschung (GEI) in Braunschweig und verbindet damit universitäre und außeruniversitäre Forschung. Die mehr als 180.000 Schulbücher und 74.000 wissenschaftlichen Bücher der Sammlung sind ein gutes Beispiel dafür, welche Möglichkeiten digitale Methoden in der Wissenschaft bieten und welche Hürden De Luca und seine Kolleginnen und Kollegen noch nehmen müssen, um die Sammlung digital zugänglich und wissenschaftlich verwertbar zu machen. Die Bücher sind ganz eigene Zeitdokumente, die viel über die politischen Ansichten ihrer Zeit, über gesellschaftliche oder ökonomische Entwicklungen verraten. Die großen Datenmengen, die sie liefern, können mit neuen Analysewerkzeugen besser zugänglich gemacht werden.
„Wir sprechen zwei unterschiedliche Sprachen“, erklärt De Luca und meint damit die Informatik und die Geisteswissenschaften. „Wie können wir uns trotzdem verstehen?“, fragt er sich und sucht im noch jungen Forschungsfeld der Digital Humanities nach Lösungen. Dafür untersucht er, wie computergestützte Verfahren und digitale Ressourcen Antworten auf geistes- und kulturwissenschaftliche Forschungsfragen liefern können. Und wie eine entsprechende digitale Infrastruktur aufgebaut werden kann. De Luca versteht sich als Brückenbauer, der seine Expertise nutzt, um beide Forschungsfelder miteinander zu verbinden.
Bücher erzählen mehr als Geschichten
Wenn es um Digitalisierung geht, ist das GEI, an dem 125 Mitarbeiter aus der Geschichte, der Kunstgeschichte und der Informatik zusammenarbeiten, Vorreiter. In einem langfristig angelegten Projekt bietet das Institut die Digitalisate, aller in den deutschen Bibliotheken noch vorhandenen, oft schwer zugänglichen Schulbücher seit dem 17. Jahrhundert bis 1920 an. Mehr als eine Million Schulbuchseiten sind bereits digital verfügbar. Für die historische und kulturwissenschaftliche Forschung ist diese digitalisierte Sammlung (GEI-Digital) ein enormer Wissensschatz, den sie gemeinsam mit der Informatik heben kann.
„Für eine komplette qualitative Analyse eines Schulbuchs benötigt ein Geisteswissenschaftler drei bis vier Monate“, sagt Ernesto William De Luca. Als „close reading“ bezeichnet die Fachwelt diese Methode, bei der die Texte sorgfältig gelesen, detailliert interpretiert und beispielsweise die Reihenfolge der Sätze und Wörter genau beachtet wird. Das Gegenstück dazu ist das sogenannte „distant reading“, mit dem mittels digitaler Instrumente große Textmengen quantitativ analysiert werden. Beide Methoden ergänzen sich und erlauben neue Einsichten in Texte. Beide Verfahren nutzen De Luca und seine Kolleginnen und Kollegen in einem aktuellen Forschungsprojekt zur Demokratiebildung in den Schulen.
Das Team von Prof. De Luca analysiert Bücher mit Hilfe von digitalen Tools. (Foto: Hannah Theile / Uni Magdeburg)
Dazu analysieren die Geisteswissenschaftler die Schulbücher auf klassischem Wege und werden dabei von Informatikern unterstützt, die digitale Instrumente beisteuern. Mit diesen neuen Werkzeugen sind plötzlich ganz andere Untersuchungen möglich. Die digitalisierten und mit Schlagworten versehenen Schulbücher können ganz gezielt nach Begriffen durchsucht werden:
- In welchen Büchern taucht etwa das Wort „Demokratie“ auf?
- Wie häufig wird es genannt?
- In welchen Sätzen und mit welchen anderen Wörtern steht der Begriff zusammen?
All das kann nun schnell und umfangreich ermittelt werden. Anschließend nutzen Geisteswissenschaftler die so erlangten Statistiken für eine tiefer gehende, qualitative Analyse, die deutlich über Wordclouds hinausgeht. „Mit der digitalen Ebene können neue Zusammenhänge sichtbar werden“, betont Ernesto William De Luca. Doch bevor es soweit ist, ist viel Forschungsarbeit nötig. Allein mit dem Scannen der Dokumente ist es bei weitem nicht getan.
„Die Digitalisierung findet auf drei unterschiedlichen Ebenen statt“, erklärt De Luca. Im Englischen gibt es dafür auch drei Begriffe, im Deutschen dagegen nur zwei. Die Umwandlung eines analogen Wertes – etwa eines Buches, eines Bildes oder einer Tonaufnahme – in ein digitales Format wird im Englischen beschrieben durch den Begriff „Digitisation“. „Digitalisation“ hingegen ist der Prozess, der diese digitalen Produkte zur Verfügung stellt. Etwa durch Datenbanken, über die Dokumente digital abgerufen werden können. Im Deutschen werden beide Begriffe zur „Digitalisierung“ zusammengefasst. „Wenn ich mit der Bibliotheksleiterin über Digitalisierung spreche, kann das durchaus zu Missverständnissen führen“, beschreibt Ernesto William De Luca den Nachteil dieser sprachlichen Ungenauigkeit. Die dritte Ebene ist schließlich die digitale Transformation – auch digitaler Wandel –, die weitreichende Veränderungsprozesse in der Gesellschaft beschreibt.
Unterricht für Künstliche Intelligenz
Um möglichst präzise Instrumente zu entwickeln, nutzen Ernesto William De Luca und sein Team auch Verfahren der Künstlichen Intelligenz. Über Lernalgorithmen schulen sie ihre Programme, die jedes Wort und jeden Satz fehlerfrei erkennen müssen. „Die Optic Character Recognition ist eine unserer größten Herausforderungen“, verrät der Forscher. Der Unterschied zwischen einer „8“ und einem „B“ kann beispielsweise schwierig zu erkennen sein. Die Programme müssen so trainiert werden, dass sie einzelne Buchstaben, Buchstabenreihenfolgen und Wörter aus den ihnen zur Verfügung stehenden Pixeln richtig identifizieren können.
Und es gibt noch eine weitere Hürde für die Entwickler der Werkzeuge zur Texterkennung. „Sprache entwickelt sich“, erklärt Ernesto William De Luca. „Ein Wort kann sich im Laufe der Jahre verändern.“ Ob Cäsar, Caesar oder César – die von Informatikern entwickelten digitalen Analysewerkzeuge müssen erkennen, dass alle drei Worte dieselbe Bedeutung haben. Nur dann können Historiker oder Sprachwissenschaftler die Texte mit ihrer Hilfe korrekt analysieren und deuten. Für die Computerwissenschaftler bedeutet das „jede Menge Arbeit“, wie De Luca sagt. Zumal sich nicht nur die Sprache, sondern auch die Schrift im Laufe der Zeit ändert. Ein digitales Werkzeug muss die Sütterlinschrift genauso exakt erkennen und einordnen können wie alle anderen Schreib- und Druckschriften. Das älteste Schulbuch am GEI stammt immerhin aus dem Jahr 1648.
Umfang und Schnelligkeit sind ohne Frage die großen Vorteile der neuen Methoden, die die Informatik in andere Bereiche der Wissenschaft trägt und Forschung damit verändert. Ernesto William De Luca fügt noch einen weiteren hinzu: „Ein Wissenschaftler aus Mexiko, der ein Buch aus dem GEI untersuchen möchte, muss nicht extra hierherfliegen und sich das Buch ausleihen. Er kann ganz bequem vom eigenen Computer darauf zugreifen. Digitalisierung macht Dokumente zugänglich – weltweit und zu jeder Zeit.“
Wussten Sie, dass...
- ...die Digitalisierung den weltweiten Stromverbrauch in die Höhe schnellen lässt? Die enormen Datenmengen, die in jeder Sekunde quer über den Globus schießen, lassen Server und Rechenzentren heiß laufen. Besonders viel Strom verbrauchen dabei Videostreaming-Angebote und Video-Konferenzdienste. Rund 200 Terrawattstunden Energie werden allein dafür jedes Jahr weltweit benötigt. Zum Vergleich: Alle privaten Haushalte in Deutschland verbrauchen jährlich rund 600 Terrawattstunden Strom. Es gibt aber bereits Ideen, wie sich der enorme Stromverbrauch in den Rechenzentren in nachhaltige Bahnen lenken lässt: In Schweden gibt es schon heute zahlreiche Rechenzentren, die ihre Abwärme ins Fernwärmenetz einspeisen. Das Ziel: Bis zum Jahr 2035 soll die so gewonnene Wärme ein Zehntel des Heizbedarfs von Stockholm decken.