Research
Research
(1) Data analysis and clustering
Finding the structure of a data set means
- estimating an optimal number of clusters
- estimating the clusters themselves
- determining its outliers and their number
- dealing with variants of the objects
Variants appear in so-called ambiguous data sets.
These arise in pattern recognition when features are extracted
from an object that gives rise to ambiguous interpretations.
(2) Motif discovery in genetics and proteomics
Certain protein domains (factors) bind to target DNA or target proteins at recognition sites that are characterized by specific sequence patterns or motifs. Since the same factor acts at different target sites within the same organism, the same motif apears several times. This fact can be used to determine sites and motif by computational means (multiple local string alignment). We use variant analysis to approach these problems.
(3) Automatische Chromosomenklassifikation (DFG abgeschlossen)
Eine normale menschliche Zelle enthält 46 Chromosomen, die zu 24 Chromosomenklassen gehören und Träger der gesamten Erbanalagen des Individuums sind. Nach Schätzungen wird in absehbarer Zukunft an ca. 1% aller Menschen im Laufe ihres Lebens eine prä- oder postnatale genetische Analyse dieser Zellen vorgenommen. Umgerechnet bedeutet dies, daß pro Jahr eine Million Analysen weltweit vorgenommen werden. Soll eine Zelle auf mögliche genetische Defekte hin untersucht werden, so ist es zunächst nötig, diese Klassenstruktur in einem sogenannten Karyogramm darzustellen. (siehe Abbildungen)
Diese Aufgabe wird heute in der Regel noch von Spezialist(inn)en manuell erledigt. In den meisten Fällen handelt es sich um normale Zellen. Es liegt deshalb nahe, diese Routinearbeit zu automatisieren. Da es bei menschlichen Chromosomensätzen weit über 10 hoch 50 Klassenzuordnungen gibt, von denen nur eine richtig ist, arbeiten heute erhältliche kommerzielle Systeme noch mit einer erheblichen Fehlerrate von bis zu 30%. Es ist uns gelungen, durch Anwendung moderner statistischer und zum Teil selbst entwickelter Methoden die Fehlerrate der Klassifikation unter 1 % zu drücken.
Zur Lösung dieser Aufgabe wurden Methoden der Diskriminanzanalyse sowie deterministische und stochastische Verfahren der diskreten Optimierung eingesetzt. Dabei waren Probleme der hochdimensionalen Statistik und der dafür nötigen Optimierungstheorie zu bewältigen. Das verwendete Datenmaterial stammt von der MRC Human Genetics Unit, Edinburgh.
Das Projekt wurde von 1996 bis 2004 von der DFG gefördert.
(4) Analyse von Warteschlangensystemen (Kopie 1)
In einem Kommunikationsnetz werden Nachrichten hin- und hergesandt, in einem Rechensystem werden Programme und Daten verarbeitet, vor einer Ampel warten Fahrzeuge darauf, die Straßenkreuzung passieren zu können: All diese Situationen können mit stochastischen Wartschlangenmodellen analysiert werden. Diese werden durch einen Warteraum zur Pufferung der ankommenden Jobs (Nachrichten, Fahrzeuge), eine Bedienungsdisziplin (z.B. first come first served oder last come - first served) sowie eine Einteilung der Jobs in Jobklassen, um etwa Prioritäten zu regeln, spezifiziert. Interessiert ist man daran, aus diesen Spezifikationen Performanzgrößen zu bestimmen, wie z.B. die Verweilzeit der Jobs im System, die Anzahl der im System vorhandenen Jobs oder den Durchsatz des Systems. Meistens geschieht ihre Bestimmung mit Hilfe von Simulationsmethoden. Darüberhinaus kann man aber auch einige analytische Aussagen machen. Dazu wurden zwei Veröffentlichungen beigetragen. So wurde ein stationärer Prozeß von Zwischenankunftszeiten konstruiert der das folgende paradoxe Verhalten zeigt: Für jede arbeitserhaltende m-Bediener-Disziplin und jede noch so kleine, konstante Bearbeitungszeit Epsilon > 0 ist die mittlere Verweilzeit der Jobs im System unendlich. Dies bedeutet, daß es einen stationären Eingangsstrom mit minimaler Bedienungsanforderung jedes Jobs gibt, so daß zwar jeder Job irgendwann bedient wird, aber sehr lange darauf warten muß. Neben diesem pessimistischen Ergebnis gibt es aber auch optimistischere: Es wurde gezeigt, daß die erwartete Verweilzeit endlich ist, wenn der Eingangsstrom gewisse stochastische Voraussetzungen erfüllt.
(5) Diffusionsprozesse (DFG abgeschlossen)
Parabolische (partielle) Differentialgleichungen eignen sich um Evolutionsphänomene, wie z.B. die Verbreitung von Spezies in einem Lebensraum, das Räuber-Beuteverhalten in ökologischen Systemen oder die Konzentration von Reagenzien bei chemischen Reaktionen, zu beschreiben. Diese Gleichungen haben die Form
dy/dt=DLy+f(y)
mit dem Laplace-Operator L, einer Diffusionskonstanten D und einer in der Regel nichtlinearen Funktion f, die eine Reaktion oder Interaktion zwischen Spezies oder Reagenzien beschreibt. Man spricht deshalb von einer Reaktions-Diffusionsgleichung. Sie beschreibt ein oszillierendes Verhalten oder eine Ausbreitung in Wellenform, allerdings nur dann, wenn f nichtlinear ist, im Gegensatz zu hyperbolischen Gleichungen, wo dies bereits bei linearem f der Fall ist. Tritt im System eine zusätzliche Unsicherheit in der Form eines weißen Rauschens auf, so spricht man von einer stochastischen Reaktions-Diffusionsgleichung
dy/dt=DLy+f(y)+dW/dt.
Das Lösungsverhalten von derartigen Gleichungen wurde in Zusammenarbeit mit Prof. Gottlieb Leha und den auswärtigen Gästen Prof. Bohdan Maslowski und Prof. Anton Wakolbinger studiert.