Computational Complex Systems
> Zum Inhalt

Methodenentwicklung

Mit der Entwicklung neuer Mess- und Kodierungsverfahren in der Chemie, Biologie, Medizin, Physik, Informatik, und in vielen weiteren Bereichen, sind Menge und Dimensionalität der resultierenden Daten enorm gestiegen, Stichwort „Big Data“. Während die Anzahl der Variablen in traditionellen Datensätzen noch im Zehnerbereich gelegen hat, ist heute ein Vielfaches dieser Dimensionalität erreicht worden.

Daraus ergibt sich der Bedarf von statistischen Analyseverfahren hochkomplexer Daten [ALF16, FIL13]. Nach wie vor ist man in der statistischen Modellierung aber vor das Problem gestellt, dass Modellvoraussetzungen (Verteilungsannahmen, Unabhängigkeit der Beobachtungen, etc.) oft verletzt sind. Robuste statistische Methoden erheben den Anspruch, auch bei gewissen Verletzungen strikter Annahmen zuverlässige Resultate zu ermöglichen. Die Gruppe Computational Statistics am Institut 105 hat hier hervorragendes Wissen und Erfahrung aus konkreten FWF Projekten ("Statistics in metabolomics for biomarker research in medicine" - 1910-N26, "Meteorite chemistry and comparison with Rosetta comet data" - P 26871-N20). Der Fokus liegt dabei auf Ausreißer Erkennung, Dimensionsreduktion, Regression und Klassifikation [CRO13, FIL11, FIL12]. Im Zentrum werden robuste Methoden erforscht, die auf hochdimensionale Daten anwendbar sind. Im COMET K-Projekt dexhelpp wurden diese Methoden bereits erfolgreich für Routinedaten aus dem Gesundheitsbereich getestet um nun in Zukunft Analysen weiterer komplexer Systeme voranzutreiben und die Parametrisierung von Modellen solcher Systeme zu unterstützen.

Das Zentrum wird auch Visual Data Analysis nutzen und weiterentwickeln um komplexe Daten zu analysieren und User Schnittstellen in den Prozess der Datenanalyse zu integrieren (Semiautomatisierte Datenanalyse). Der Forschungsbereich Computergraphik am Institut 188 beschäftigt sich seit Jahren mit solchen Konzepten, genannt werden kann etwa das COMET K1 Zentrum VRVis. Ein  Fokus in COCOS wird auf Parameter Space Analysis und Vergleichen [BER11, KEH13] in der Modellierungsphase liegen. Diese Arbeiten werden in Kooperation mit der Universität Wien vorangetrieben [SED14]. Die Forschungsgruppe beschäftigt sich darüber hinaus mit unterschiedlichsten Aspekten der generativen Computergraphik, wobei Schwerpunkte u. A. in den Bereichen wissenschaftliche Visualisierung und Informationsvisualisierung bestehen, die für die Darstellung komplexer Prozesse immer wichtiger wird. Die Methodenentwicklung wird darüber hinaus im Bereich der Unterstützung bei der Auswertung von Simulationslösungen [WAS10] liegen. Weiterst werden im Bereich konkreter Simulationslösungen die Kopplung visueller Ansätze der Fakultät Informatik (KON14) mit agentenbasierten Konzepten der Fakultät Mathematik & Geoinformation [BRU14] weiterentwickelt.

Neben klassisch strukturierten Daten stehen auch riesige heterogene Datenmengen zur Verfügung, etwa aus sozialen Netzwerken, dem Internet oder einer Vielzahl anderer Quellen. Quantitative und qualitative Informationen bieten Möglichkeiten, die Dynamiken menschlicher Interaktionen zu studieren, daraus zu lernen und komplexe Systeme besser zu verstehen [POB13, RÜM15, FEN12].  Basierend auf bisherigen Arbeiten im Bereich Text- und Webmining, Machine Learning oder Graph-Pattern Analysis [WER05, DEL05, WAL09, PAT10, POB14] sollen Methoden entwickelt werden um heterogene Datenquellen zu analysieren und so die Grundlagen für die beschriebenen Untersuchungen zu liefern. Dabei können aber auch nicht quantitative Informationen oder Bilder als Datenbasis genommen werden [KRA14a, KRA14b, NEI14a]. Die entwickelten Methoden dienen im Zentrum für alle Bereiche zur Erweiterung potentieller Systeminformation und zur Parametrisierung neuer Modelle.

Die Erweiterung der Ansätze Datenquellen nutzbar zu machen ist ein Anliegen des Zentrums. Ein weiteres die ebenso wichtige Spezialisierung im Data Processing. Im Bereich der Gesundheitssystemforschung haben sich die TU Wien Gruppen auf s.g. Routinedaten spezialisiert [EIN13]. Spezielle Aspekte wie die Integration von Daten auf Basis des medizinischen EHR-Standards (Electronic Health Record) und ihre standardisierte Repräsentation (zB IHE XDS Metadaten, oder HL7 CDA Dokumentinhalte) gewinnen enorm an Bedeutung und sollen im Zentrum in Kooperation mit der medizinischen Universität weiterentwickelt werden. Diese Daten müssen für Auswertungen und Integration wie etwa die Berechnung von Continuity of Care Metriken kritisch betrachtet und geeignet behandelt werden  [DUF13, DEU10]. Der Benefit, hierbei auf EHR-Standards aufzusetzen, liegt darin, dass der Ansatz dann für andere EHR-Systeme wiederverwendbar wäre, die auf demselben Standard aufsetzen und somit die Reproduzierbarkeit (und damit u. A. Effizienz und Qualität) erhöht.

Neben der wachsenden Komplexität der Daten, die wie oben beschrieben im Zentrum adressiert wird,  entsteht Komplexität methodisch dann, wenn Fragestellungen so erweitert werden, dass sie mit bisher eingesetzten Methoden nicht mehr modelliert werden können. Dabei kann der entstehenden Komplexität mit unterschiedlichen Ansätzen begegnet werden. Neben der Weiterentwicklung der Methodik besteht die Möglichkeit alternative Modellansätze einzusetzen, dazu ist die Weiterentwicklung und Formalisierung unterschiedlicher Methoden (z.B. Physical Modeling, Agent Based Modeling, Zelluläre Automaten, hybride Modelle u.v.m.) [BRE11, ZAU10, EIN14, SCH14, ZAU11], und die Weiterentwicklung von Implementierungskonzepten, wie numerische Analysen oder Entwicklung entsprechender Libraries [HAF12a, HAF13, HEI10] notwendig. Zu diesem Zweck müssen darüber hinaus Konzepte entwickelt werden um mögliche Ansätze vergleichen und verbinden zu können bzw. sind in Zusammenhang mit Parametrisierungen „Cross Model Validation“ Konzepte zu entwickeln [URA09, BIC13, POP14].  Basierend auf der Kategorisierung im Bereich der Simulator Kopplung nach [SAR94, SWI12] können zur Problemlösung darüber hinaus Simulationsmodelle in unterschiedlicher Art und Weise verknüpft werden, etwa als „Interfaced Coupling“ [KÖR15] (Wechsel des Simulationsmodells zu unterschiedlichen Systemzeiten auf Basis des jeweiligen Systemzustandes) oder als „Integrated Coupling“ [RÖß12, GLO15, HAF12b]. Die genannten Ansätze haben im Bereich der Modellierung von Smart Technology und komplexer Energie- oder Infrastrukturvorhaben enormes Potential und werden mit Partnern der Fakultäten Bauingenieurwesen, Architektur und Raumplanung sowie Maschinenwesen und Betriebswissenschaften entsprechend erweitert und umgesetzt werden (siehe unten).

Die Nachvollziehbarkeit und Validierbarkeit datenbasierter, wissenschaftlicher Prozesse und deren Ergebnisse, sowie die Identifikation von Fehlern wird immer schwieriger und zu einem zentralen Problem in vielen komplexen Fragestellungen der wissenschaftlichen Community [ECO13, MES10]. Reproduzierbarkeit und Validierbarkeit sind klarer Weise Eckpfeiler qualitativ hochwertiger Forschung. Im Bereich komplexer, datenbasierter Fragestellungen stellt dies eine besondere Herausforderung dar. [ASS15, COL14] Das Zentrum widmet sich diesem Aspekt deshalb mit besonderer Sorgfalt um neben dem innovativen Charakter, die Qualitätssicherung der wissenschaftlichen Weiterentwicklung zu adressieren [RAU15]. Speziell im Fokus wird die Entwicklung von Methoden zu Dokumentation, Monitoring und Evaluierung der Prozesse sein. Dabei wird die Auswahl von Datensets aus großen, heterogenen, hochdynamischen Datenquellen (siehe oben) zu deren Analyse und zur Modellparametrisierung und deren Dokumentation unterstützt werden z.B. zum Zweck der Risk Analysis, wobei Time-Stamping und Versionierung wichtige Aspekte darstellen. [PRO13, STR13, MIK14] Die Frage welche der durchgeführten Schritte und Zwischenergebnisse archiviert werden müssen, um Reproduzierbarkeit zu garantieren und sie mit geeigneten Metriken zu verknüpfen um Vergleichbarkeit zu ermöglichen wird ein weiterer Forschungsschwerpunkt sein. [MAY15]. Somit schließt sich hier der methodische Kreis, der mit der Datenanalyse begonnen hat.

Die Forschungsergebnisse werden in bestehenden (Smart Communities & Technology) und zu erschließende Forschungsbereichen genutzt werden, ein Beispiel ist hier der Bereich Data Driven Journalism, also die Aufbereitung und Auswertung komplexer Daten für journalistische Zwecke. Für dieses Vorhaben konnte bereits der österreichische Rundfunk (ORF) als Kooperationspartner gewonnen werden.