Große Datenmengen effizient auswerten

|   Aktuelle Meldungen

Die Deutsche Forschungsgemeinschaft fördert eine neue Forschungsgruppe mit RUB-Beteiligung.

Den Widerspruch zwischen Optimum und Rechenbarkeit bei der Auswertung von Big Data aufzulösen, ist Ziel der Forschungsgruppe 5381 „Mathematische Statistik im Informationszeitalter – Statistische Effizienz und rechentechnische Durchführbarkeit“. Sie wird ab 2022 für vier Jahre mit 2,1 Millionen Euro gefördert. Prof. Dr. Holger Dette von der Fakultät für Mathematik leitet mit der ehemaligen RUB-Professorin Dr. Angelika Rohde (jetzt Universität Freiburg) die Forschungsgruppe und arbeitet in zwei von fünf Teilprojekten. Sprecherhochschule ist die Albert-Ludwigs-Universität Freiburg, beteiligt sind außerdem die Universität Potsdam, die Universität Wien/Österreich, die Universität Rostock, die Georg-August-Universität Göttingen und die Humboldt-Universität zu Berlin.

Im Big-Data Zeitalter sind Daten allgegenwärtig und werden oft automatisch generiert, beispielsweise in der medizinischen Diagnostik, in dem Erdbeobachtungsprogramm Copernicus der EU oder in den sozialen Netzwerken. Ihre richtige Analyse liefert wichtige Informationen über medizinische, naturwissenschaftliche, ökologische oder ökonomische Zusammenhänge. Die mathematische Statistik hat effiziente Methoden für die Auswertung entwickelt. Diese, unter statistischen Gesichtspunkten optimalen Verfahren, sind bei sehr großen Datenmengen jedoch nicht einsetzbar, da sie selbst auf Hochleistungsrechnern zu viel Zeit benötigen, um in akzeptabler Zeit Ergebnisse zu liefern.

Neue statistische Methoden

Dafür zu sorgen, dass große Datenmengen in angemessener Zeit mit möglichst optimalen Methoden analysiert und die resultierenden Erkenntnisse zuverlässig und schnell genutzt werden können, ist Ziel der Forschungsgruppe. Dafür studiert das Team alle nacheinander ablaufenden Datenverarbeitungsschritte gleichzeitig, um eine bestmögliche statistische Evidenz in jedem Teilschritt zu ermöglichen.

Teilprojekte mit RUB-Beteiligung

Das Teilprojekt 1 „Praktisch berechenbare Bootstrap-Verfahren für hochdimensionale Daten“ beschäftigt sich mit der Quantifizierung von Unsicherheiten bei Schätzungen aus hochdimensionalen Daten, in die in der Regel das Verhältnis von Dimension und Stichprobenumfang eingeht. Die klassischen computergestützten Verfahren (Bootstrap) sind bei hoher Dimension weder im statistischen Sinne konsistent – das heißt sie liefern falsche Ergebnisse – noch rechentechnisch durchführbar. In diesem Projekt werden daher alternative und implementierbare Verfahren entwickelt, die eine valide Quantifizierung von Unsicherheiten, wie zum Beispiel durch Konfidenzintervalle, ermöglichen.

Das Teilprojekt 4 „Sublineare Methoden mit statistischen Garantien“ beschäftigt sich mit der Frage, ob in großen Datensätzen möglichst informative Teilstichproben identifiziert werden können, aus denen in akzeptabler Rechenzeit die relevanten statistischen Informationen mit annähernd derselben Genauigkeit bestimmt werden können wie aus der Gesamtstichprobe, die wegen zu langer Laufzeiten der Algorithmen nicht für die Datenanalyse verwendet werden kann. Ein weiterer Schwerpunkt des Teilprojekts sind neue effiziente Methoden, um Änderungen in Signalen schnell und zuverlässig zu erkennen.

 

Hier geht es zum Originalartikel in den RUB News.

Symbolbild Arbeitsspeicher
© RUB, Marquard
To Top