KI für die Wissenschaft

Die Anwendungsmöglichkeiten und das Potential von KI in der Wissenschaft sind enorm. KI hilft nicht nur dabei, vorhandenes Wissen besser auffindbar und leichter verfügbar zu machen. KI ist auch von unschätzbarem Wert bei der Suche nach neuen Materialien, chemischen Verbindungen und biologischen Wirkstoffen, etwa um Solarenergie effizienter nutzen oder Medikamente gegen neu auftretende Krankheitserreger entwickeln zu können. Dabei stehen Wissenschaftler vor großen Herausforderungen: Sie haben chemisch und biologisch nahezu unendlich viele Möglichkeiten. Solche Entdeckungen erfordern eine durchgängige KI-gestützte Automatisierung – von der Versuchsplanung bis zur Durchführung und Analyse.

Die heutigen computergestützten Lernsysteme sind noch nicht in der Lage, das volle Potenzial der KI-gestützten Material-, Chemie-, Umwelt- und Biowissenschaften auszuschöpfen. Wir brauchen neue KI-Methoden, die sowohl komplexe Phänomene vorhersagen als auch Einblicke in die zugrundeliegenden Prozesse geben können. Solche Methoden werden die Grundlage sein, um maßgeschneiderte Systeme zu entwickeln, die in der Lage sind, die großen globalen Herausforderungen in den Bereichen Gesundheit und Umwelt zu bewältigen. Am L3S wird an den notwendigen KI-Methoden geforscht.

Agrarökologisches Wissen in maschinenlesbarer Form

Angesichts der Flut von Veröffentlichungen ist es für Agrarökologen schwierig, mit den neuesten Erkenntnissen Schritt zu halten. Der Open Research Knowledge Graph (ORKG) ist eine Initiative, die sich dieser Herausforderung stellt und Wissen in einem für Mensch und Maschine lesbaren Format zur Verfügung stellt. Ein Haupthindernis für eine breitere Nutzung ist jedoch, dass Daten, die im PDF-Format veröffentlicht werden, nicht automatisch in den ORKG eingespeist werden können. Um dieser Herausforderung zu begegnen, beschäftigt sich das Projekt “Wissenschaft im 21. Jahrhundert: Eine Fallstudie für maschinenverarbeitbare wissenschaftliche Literatur in der Agrarökologie” mit diesem Thema. Dazu wird ein Werkzeug entwickelt, das es Ökologen ermöglicht, ihre Daten von Anfang an in einem maschinenlesbaren Format zu publizieren.

Ausgangssituation

Forscher haben Schwierigkeiten, reproduzierbare wissenschaftliche Ergebnisse zu kommunizieren und sehen sich mit einer Flut neuer Publikationen konfrontiert. So hat sich die Zahl der agrarökologischen Publikationen zwischen 2000 (ca. 80 Publikationen/Jahr) und 2018 (über 750 Publikationen/Jahr) verneunfacht. Es besteht daher ein dringender Bedarf an neuen Werkzeugen und Datenstandards, die den Austausch, die Synthese und die Reproduktion wissenschaftlicher Erkenntnisse erleichtern.

Lösung / Vision

Die Initiative Open Research Knowledge Graph (ORKG), ein gemeinsamens Projekt vom L3S und des Leibniz-Informationszentrums Technik und Naturwissenschaften Universitätsbibliothek (TIB), verändert die wissenschaftliche Kommunikation durch fortschrittliche Digitalisierung. ORKG ist eine Online-Plattform, die wissenschaftliches Wissen für Menschen und Maschinen nutzbar macht und damit die automatisierte wissenschaftliche Wissensverarbeitung in allen Disziplinen verbessert. Wir haben eine neuartige, interdisziplinäre Zusammenarbeit zwischen Ökologen und Informatikern initiiert, um eine ORKG-Fallstudie mit existierenden agrarökologischen Daten als Proof-of-Concept zu entwickeln. Das Projekt wird eine Open-Access-Publikation hervorbringen, die 1) demonstriert, wie agrarökologisches Wissen in einem maschinenverarbeitbaren Format veröffentlicht werden kann, 2) die internationale Gemeinschaft der Agrarökologen ermutigt, diesen Ansatz zu übernehmen, und 3) die verbleibenden Herausforderungen aufzeigt, die angegangen werden müssen, um die Nutzung von ORKG auszuweiten. Durch die Entwicklung eines Arbeitsablaufs, der die automatische Speicherung und Strukturierung von Daten aus neuen Publikationen im ORKG ermöglicht, hat dieses Projekt das Potenzial, die Art und Weise, wie wir agrarökologisches und anderes wissenschaftliches Wissen austauschen, zu verändern.

Wissen wird maschinenlesbar

Etwa 2.5 Mio neue Forschungsbeiträge erscheinen jedes Jahr. Dennoch werden Erkenntnisse noch wie vor 300 Jahren geteilt – in wissenschaftlichen Artikeln. Um den Anforderungen moderner Forschung gerecht zu werden, müssen wir wissenschaftliche Kommunikation neu denken. Der Open Research Knowledge Graph nutzt das Potential der Digitalisierung für die Wissenschaft und ermöglicht somit völlig neue Arten, mit Wissen zu interagieren.

Ausgangssituation

Forschende ertrinken in einer Flut aus Publikationen, in der es immer schwerer fällt, den Überblick über relevante Beiträge zu behalten.

Lösung / Vision

Im Open Research Knowledge Graph (kurz: ORKG) werden die Inhalte wissenschaftlicher Publikationen menschen- und maschinenlesbar beschrieben, miteinander vernetzt und verglichen. Dadurch ergeben sich völlig neue Möglichkeiten der maschinellen Unterstützung zum automatischen Auffinden, Vernetzen und Vergleichen von Forschungsbeiträgen. So erhalten Forschende schnell einen Überblick über den aktuellen Stand zu konkreten wissenschaftlichen Fragestellungen, entdecken neue Verknüpfungen und können ihr Wissen sogar über verschiedene Disziplinen hinweg teilen.

Der ORKG richtet den Fokus auf Inhalte statt auf Dokumente und schafft ein System, das an die Bedürfnisse der Wissenschaft im 21. Jahrhundert angepasst ist.

Nicht ohne Mensch: automatisiertes maschinelles Lernen

Maschinelles Lernen als Schlüsseltechnologie für moderne KI revolutioniert Wissenschaft, Wirtschaft und unser soziales Miteinander zunehmend. Das ERC-Starting-Grant-Projekt ixAutoML unterstützt sowohl Wissenschaftler als auch Entwickler dabei, neue KI-Anwendungen schneller, besser und verständlicher zu entwickeln.

Ausgangssituation

Durch den Erfolg moderner KI steigt das Interesse an diesen Technologien kontinuierlich an. Das Potential dieses Wachstums kann aber aufgrund des weltweiten Fachkräftemangels nicht ausgeschöpft werden. Die automatisierte Entwicklung von KI-Anwendungen galt als eine mögliche Lösung, führte aber zu einem Vertrauensproblem bei Entwicklern und Anwendern.

Lösung / Vision

Automatisiertes Maschinelles Lernen (AutoML) verfolgt die Vision, die Entwicklung neuer KI-Anwendungen möglichst stark zu automatisieren – nicht nur, um Zeit und Geld zu sparen, sondern vor allem, um angesichts des Mangels an KI-Entwickern mit weniger Expertise auszukommen. So werden neue KI-Anwendungen schneller an den Start gebracht und gleichzeitig Ressourcen geschont.

Automatisierung heißt aber auch, dass der Mensch immer weniger in die Entwicklung neuer KI-Anwendungen eingebunden ist. Den generierten Anwendungen fehlt es dadurch an Vertrauen. Die Folge: Die Technologie wird trotz ihrer Vorteile bis heute nicht eingesetzt.

Mit dem ERC-Starting-Grant-Projekt ixAutoML entwickelt Prof. Dr. Marius Lindauer am L3S daher einen menschzentrierten Ansatz: Wissenschaftler und Entwickler können ihre Expertise und Präferenzen weiterhin in den Prozess einbringen und zugleich vom hocheffizienten AutoML lernen. Das schafft nachhaltiges Vertrauen und Erfolg für AutoML.

Wie entwickelt sich die Artenvielfalt?

Nach aktuellen Schätzungen sind fast eine Million Pflanzen- und Tierarten vom Aussterben bedroht. Im Projekt Digispecies entwickeln wir intelligente Methoden, um Daten über das Vorkommen von Pflanzenarten aus historischen Quellen zu extrahieren und analysieren, und somit ein genaueres Bild der Entwicklung der Biodiversität zu bekommen.

Ausgangssituation

Über die gegenwärtige Situation und Entwicklung der Biodiversität gibt es beunruhigende Schätzungen, aber es liegen keine genauen Statistiken vor. Um gezielte und effektive Gegenmaßnahmen ergreifen zu können, muss ein klareres Bild geschaffen werden.

Lösung / Vision

Die wissenschaftliche Gemeinschaft beschäftigt sich seit langer Zeit damit, das Vorkommen von Pflanzenarten in verschiedenen Regionen zu dokumentieren und in wissenschaftlichen Zeitschriften zu veröffentlichen. Diese Bemühungen reichen in einigen Fällen bis ins 15. Jahrhundert zurück. Im Projekt Digispecies digitalisieren wir solche wissenschaftlichen Artikel und extrahieren Tabellen, die das Vorkommen von Pflanzenarten an verschiedenen Orten und zu verschiedenen Zeitpunkten dokumentieren. Dabei gehen wir mehrere technische Herausforderungen an, zum Beispiel die Extraktion und Interpretation der vielfältigen Tabellen in solchen Artikeln, die Angleichung relevanter Tabellen und die Darstellung der extrahierten Daten in Wissensgraphen zur weiteren Verwendung und zum Abgleich mit bestehenden Bemühungen in der Botanik. Schließlich gehen wir Forschungsfragen nach, die das Vorkommen von Pflanzenarten und die entsprechenden Trends analysieren.

Schneller neue kristalline Materialien entdecken

Kristalline Materialien haben ein breites Anwendungsspektrum. Jeder Anwendungsbereich benötigt dabei einen speziellen Materialtyp. Die schnelle und genaue Vorhersage verschiedener Eigenschaften kristalliner Materialien ist eine anspruchsvolle Aufgabe, die für die Entwicklung neuer funktioneller Materialien unerlässlich ist.

Ausgangssituation

Um festzustellen, ob sie die gewünschten Eigenschaften aufweisen, werden ständig neue kristalline Festkörper getestet. Bisher ist es schwierig, kristalline Materialien im großen Rahmen zu testen und geeignete Materialien zu finden. Alle vorhandenen Methoden sind entweder besonders teuer oder besonders rechenintensiv.

Lösung / Vision

Um aus tausenden von Kristallen das für eine bestimmte Aufgabe am besten geeignete Material herauszufiltern, hat Prof. Niloy Ganguly das Deep-Learning-Verfahren CrysXPP entwickelt, das eine schnelle Vorhersage verschiedener Materialeigenschaften mit hoher Präzision ermöglicht. CrysXPP benötigt dazu keine gekennzeichneten Daten, die nicht ausreichend vorhanden sind. Stattdessen nutzt CrysXPP die einfachen strukturellen Informationen der Kristalle. Für die spezifischen Eigenschaften des Kristalls sind auch die einzelnen Atome und ihre Verflechtung in der Kristallstruktur verantwortlich. CrysXPP wandelt solche Kristall-3D-Strukturinformationen in 2D-Graphen um und erlernt zunächst deren strukturelle Eigenschaften. Dann wird es mit der geringen Menge an verfügbaren Daten mit Eigenschaftskennzeichnungen trainiert. Die erste Stufe hilft bei der Erfassung aller wichtigen strukturellen und chemischen Informationen, so dass nur eine kleine Menge an markierten Daten für die Eigenschaftsvorhersage ausreicht, um eine genaue Vorhersage zu treffen. Die Leistung ist so gut, dass sie den Nachteil, mit ungenauen Datensätzen trainiert zu werden, ausgleichen kann.