862 lines
24 KiB
Markdown
862 lines
24 KiB
Markdown
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
SplitsTree and
|
||
Phylogenetic Networks
|
||
|
||
Betreuer:
|
||
Tobias Klöpper
|
||
|
||
- 1 -
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
Inhaltsverzeichnis
|
||
|
||
2.1
|
||
2.2
|
||
2.3
|
||
2.4
|
||
2.5
|
||
|
||
1. Einleitung ....................................................................................................... 3
|
||
2. Theorie............................................................................................................ 4
|
||
Evolutionäre Verbindungen in Netzwerken........................................................... 4
|
||
Die „Split De-composition“ Theorie...................................................................... 5
|
||
Buneman Bäume .................................................................................................... 6
|
||
Split decomposition................................................................................................ 7
|
||
Von schwach kompatiblen Splits zu Netzwerken .................................................. 9
|
||
3. Anwendung................................................................................................... 11
|
||
Das SplitsTree Programm .................................................................................... 11
|
||
Beispiel: mtDNA Datensatz ................................................................................. 11
|
||
Beispiel 2: HIV-1 Datensatz ................................................................................ 13
|
||
4. Quellenangaben: ........................................................................................... 15
|
||
|
||
3.1
|
||
3.2
|
||
3.3
|
||
|
||
- 2 -
|
||
|
||
|
||
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
1. Einleitung
|
||
|
||
In den vergangenen Jahrzehnten ist man, nach der Entdeckung der DNA, immer
|
||
mehr dazu übergegangen Organismen nicht nur anhand ihrer phänotypischen
|
||
Eigenschaften sondern auch anhand ihres Genotyps zu vergleichen. Mittlerweile
|
||
gibt es einige gute Verfahren die die Ähnlichkeit und den Verwandtschaftsgrad
|
||
zweier oder auch mehrerer Organismen bestimmen. So ist die Maus genetisch
|
||
dem Menschen sehr ähnlich und eignet sich damit auch als Forschungsobjekt.
|
||
Um diese komplexen Verwandtschaften nun auch graphisch übersichtlich
|
||
darzustellen, benötigt man ausgereifte mathematische Verfahren.
|
||
Ein Programm, das einige dieser Verfahren, die aus einem gegebenen Datensatz
|
||
einen graphisch übersichtlichen Zusammenhang liefern, ist SplitsTree (Huson
|
||
1998), welches, wie der Name schon sagt, aus einer gegebenen Datenmenge
|
||
einen Phylogenetischen Baum oder Netzwerk aufbaut. Diese Phylogenetischen
|
||
Netzwerke können zur visuellen Analyse der erhaltenen Daten genutzt werden.
|
||
SplitsTree bietet die Möglichkeit Bäume, ähnlich dem unten abgebildeteten
|
||
Beispiel, oder Netzwerke über eine beliebige Eingabe an Taxa und den damit
|
||
verbundenen Daten zu erstellen.
|
||
|
||
- 3 -
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
2. Theorie
|
||
|
||
dargestellt
|
||
|
||
2.1 Evolutionäre Verbindungen in Netzwerken
|
||
Der klassische Weg evolutionäre Zusammenhänge eines gegebenen Datensatzes
|
||
an Taxa zu veranschaulichen ist ein binärer Baum, hierbei sind interne Knoten
|
||
als mögliche Vorfahren dargestellt und die Blätter stellen die aktuell
|
||
existierenden Taxa dar.
|
||
Für den Fall, dass die verwandtschaftlichen Zusammenhänge gar keinen Baum
|
||
bilden bei dem es immer nur genau 2 Nachfahren gibt, wäre ein Baum mit einer
|
||
unbestimmten Anzahl Ästen je Knoten ein adäquates Mittel.
|
||
Aber selbst dieser Fall ist in der Biologie noch nicht allgemein genug. Als
|
||
Beispiel sei hier die Interaktion von Bakterien genannt bei denen es innerhalb
|
||
einer Generation zu Hybridisierungen und Rekombinationen kommen kann. Ein
|
||
Baum eignet sich hierbei nur bedingt um die vollständigen Beziehungen korrekt
|
||
darzustellen, da ein Baum unter der
|
||
Bedingung aufgebaut wird, dass
|
||
einmal getrennte Äste später nicht
|
||
mehr zusammen geführt werden oder
|
||
interagieren.
|
||
Dieser Fall kann, wie in Abb. 2.1,
|
||
vereinfacht
|
||
werden.
|
||
Hierbei werden die Knoten 1, 2, 3, 4
|
||
als Vorfahren und die Blätter 5, 6 und
|
||
7 als real existierende Taxa betrachtet.
|
||
Wie bei einem Baum mit einer
|
||
Wurzel geht man hierbei davon aus,
|
||
dass 1 den Ursprungsknoten darstellt. Der Unterschied zwischen diesem
|
||
Netzwerk und einem normalen Baum ist, dass es hier zu einem Ringschluss der
|
||
Knoten 1-4 kommt. Derartige Netzwerke eignen sich nicht nur für spezielle
|
||
Arten von Evolution, wie der im obigen Beispiel genannten Rekombination von
|
||
Bakterien, sondern können in all jenen Fällen verwendet werden wo es
|
||
unangebracht ist Daten in eine Baumstruktur zu zwingen. Es gibt zwar auch bei
|
||
anderen Programmen als SplitsTree die Möglichkeit sich Daten
|
||
in
|
||
verschiedenen Arten von Bäumen anzeigen zu lassen aber dennoch kann es
|
||
vorkommen, dass keiner dieser Bäume die Zusammenhänge korrekt wiedergibt.
|
||
Es mag sogar soweit kommen, dass erst in einem Netzwerk in dem Ringschlüsse
|
||
erlaubt sind die eigentliche Struktur der Evolution anschaubar und begreifbar
|
||
wird. Ein Beispiel hierfür wäre der Gebrauch von Netzwerken zur
|
||
„Phylogenetischen Analyse“ der Canterbury Tales (Barrbook et. Al. 1998.)
|
||
Die Frage die sich nun stellt ist, welche Netzwerke es gibt und für welche Arten
|
||
von Daten sie geeignet sind. So werden zum Beispiel für die Darstellung der
|
||
Evolution von mtDNA häufig median Netzwerke benutzt. Wir konzentrieren uns
|
||
hier jedoch auf eine spezielle Art des Zugangs zur Phylogenetischen Analyse,
|
||
|
||
(Abb. 2.1)
|
||
|
||
- 4 -
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
dem SplitsTree Programm (Huson 1998). Die hierbei erzeugten SplitGraphen
|
||
basieren hauptsächlich auf Distanzen die mit der Split-decomposition Theorie
|
||
errechnet wurden (Bandelt, Dress 1992/1993). Dieser Theorie widmen wir uns
|
||
nun im folgenden Kapitel.
|
||
Weitere Beschreibungen hierzu findet man auch in Dress, Huson, Multon
|
||
(1996), Page, Holmes (1998), und Swafford et. Al. (1996).
|
||
|
||
2.2 Die „Split De-composition“ Theorie
|
||
Der wichtigste Punkt der Split de-composition Theorie ist, dass ein Netzwerk in
|
||
sogenannte Splits zerlegt werden kann. Würde man z.B in dem in Abb. 2.2
|
||
dargestellten Baum (TX) eine beliebige Kante entfernen, so erhielte man 2
|
||
disjunkte Teilbäume A und B. Entfernte man beispielsweise die Kante f so
|
||
erhielte man
|
||
Bipartitionen
|
||
A={1,2,3) und B={4,5}.Wie man sieht
|
||
jede Kante genau
|
||
induziert hierbei
|
||
einen Split. Die Menge aller durch die
|
||
Kanten erzeugten Splits wird Σ(X)
|
||
|Σ| genau die
|
||
ist
|
||
genannt, hierbei
|
||
Anzahl der Kanten des Baumes.
|
||
|
||
die
|
||
|
||
Zwei Splits U={A,B} und V={K,L) heißen kompatibel falls gilt:
|
||
|
||
(Abb. 2.2)
|
||
|
||
{
|
||
!
|
||
U∈∅∃
|
||
|
||
LBKBLAKA
|
||
,
|
||
|
||
,
|
||
|
||
,
|
||
|
||
U
|
||
|
||
U
|
||
|
||
U
|
||
|
||
}
|
||
|
||
U
|
||
|
||
Es muss also genau eine der Schnittmengen aus U V leer sein. Andernfalls
|
||
heißen die beiden Splits „nicht kompatibel“.
|
||
Ein Split bei dem min. eine der beiden Partitionen genau 1 Element enthält
|
||
bezeichnet man als trivialen Split.
|
||
Einen maßgeblichen Beitrag leistete 1971 Bunman indem er bewies, dass die
|
||
Vereinigung aller Splits genau dann mit der Vereinigung aller Kanten eines
|
||
Phylogenetischen Baumes übereinstimmte wenn alle Splits paarweise
|
||
kompatibel sind.
|
||
|
||
Die Vereinigung aller paarweiser kompatibler Splits stimmt genau mit der
|
||
Vereinigung aller Kanten eines Phylogenetischen Baumes überein.
|
||
|
||
Man kann um einen Baum, der die evolutionäre Entwicklung eines gegebenen
|
||
Datensatzes an Taxa darstellt, zu erstellen nach kompatiblen Splits dieser Taxa
|
||
suchen.
|
||
Zu beachten sei hier, dass es für z.B. 5 Taxa 15 mögliche Splits und für n Taxa
|
||
mögliche Splits gibt. Um einen vollständigen binären Baum
|
||
2
|
||
aufzubauen, muss man hierzu nach 2n-3 kompatiblen aus den oben genannten
|
||
|
||
−−n
|
||
)1
|
||
|
||
1
|
||
|
||
(
|
||
|
||
- 5 -
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
(
|
||
|
||
1
|
||
|
||
−−n
|
||
)1
|
||
|
||
möglichen Splits heraussuchen. So gibt es zu 15 Taxa 27 kompatible
|
||
2
|
||
Splits von 16.383 möglichen. Man muss also nun eine Möglichkeit finden
|
||
möglichst einfach zu einem optimalen Ergebnis zu kommen. Am effizientesten
|
||
ist es hierbei nach auffälligen Splits zu suchen, und, obwohl es auch hierzu
|
||
mehrere Wege gibt wird im Folgenden nur auf den von Buneman (1971) weiter
|
||
eingegangen, da dieser auch gleichzeitig eine gute Basis liefert um die „Split-
|
||
decomposition“ Theorie zu verstehen.
|
||
|
||
2.3 Buneman Bäume
|
||
Um überhaupt einen derartigen Baum aufbauen zu können, benötig man eine
|
||
vollständige Distanzmatrix die jedem Paar an Taxa einen Wert zuordnet:
|
||
|
||
R →× XXd :
|
||
|
||
Man definiert β(uv|xy) über den Split S={A,B} wobei u,v ∈A und x,y ∈B als:
|
||
|
||
(
|
||
uv
|
||
β
|
||
|
||
|
|
||
|
||
xy
|
||
|
||
)
|
||
=
|
||
|
||
min(
|
||
|
||
uxd
|
||
,(
|
||
|
||
)
|
||
|
||
+
|
||
|
||
vxdvyd
|
||
),
|
||
),(
|
||
|
||
,(
|
||
|
||
+
|
||
|
||
uyd
|
||
,(
|
||
|
||
))
|
||
|
||
−
|
||
|
||
yxd
|
||
,((
|
||
|
||
)
|
||
|
||
+
|
||
|
||
vud
|
||
,(
|
||
|
||
))
|
||
|
||
Der Buneman Index
|
||
|
||
Sβ des Splits S ist definiert als:
|
||
|
||
2/1
|
||
|
||
min
|
||
|
||
uvβ
|
||
(
|
||
|
||
|
|
||
|
||
xy
|
||
|
||
)
|
||
|
||
über alle u,v ∈A und x,y ∈B
|
||
|
||
Beispiel:
|
||
|
||
Td
|
||
|
||
Betrachtet man den in Abb. 2.2 dargestellten Baum so ist die Distanz zweier
|
||
Taxa definiert als die Summe der Gewichtungen auf dem Weg zwischen
|
||
(2,5) = 2+3+3+1 = 9.
|
||
beiden. So ist die Distanz
|
||
Will man nun β für alle möglichen Paare eines Splits S={{1,2},{3,4,5}}
|
||
berechnen so ergibt sich
|
||
β(12,34) = 6;
|
||
β(12,35) = 6 und
|
||
β(12,45) = 12.
|
||
Somit ist der Buneman Index βS = ½ * 6 = 3.
|
||
|
||
Der wichtigste Fakt aber den Buneman hierbei herausfand ist:
|
||
|
||
Für einen Satz an Taxa für den die Distanzmatrix bestimmt ist gilt:
|
||
Die Vereinigung aller Splits für die βS > 0 gilt, sind kompatibel und lassen
|
||
sich somit als Baum repräsentieren.
|
||
|
||
Somit ist βS ein wichtiges Kriterium um zu entscheiden welche Splits wesentlich
|
||
sind und somit einen Baum konstruieren lassen.
|
||
Ein derartiger Baum, dessen Äste jeweils dem Gewicht βS der durch sie
|
||
erzeugten Splits entsprechen, wird Buneman Baum genannt. Die Entfernungen
|
||
der gewichteten Äste entsprichen hierbei den errechneten Distanzen der
|
||
Matrix d.
|
||
|
||
- 6 -
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
Jede Methode die einen Baum aus genetischen Distanzen errechnet, sollte
|
||
folgenden Kriterien entsprechen:
|
||
|
||
1. Die Methode angewandt auf die genetischen Distanzen eines
|
||
|
||
gewichteten Baumes T sollte den Baum T ausgeben.
|
||
|
||
2. Die Methode angewandt auf genetische Distanzen sollte von diesen
|
||
„kontinuierlich“ abhängen. Das heißt kleine Änderungen an d sollten
|
||
auch nur kleine Änderungen an T zur Folge haben und nicht das
|
||
komplette Erscheinungsbild des Baumes ändern.
|
||
|
||
3. Es sollte möglich sein die Methode effizient zu implementieren.
|
||
4. Der ausgegebene Baum T sollte unabhängig von der Reihenfolge der
|
||
|
||
Eingabe der Taxa sein.
|
||
|
||
Dies sind zwar gute Kriterien, jedoch entsprechen selbst einige der gängigsten
|
||
Methoden zur Rekonstruktion eines Baumes aus gegebenen genetischen
|
||
Distanzen nicht diesen Bedingungen. UPGMA beispielsweise entspricht nicht
|
||
immer Kriterium 1 und Neighbour Joining (NJ) entspricht nicht immer den
|
||
Kriterien 2 und 4. Genauer beschrieben wird dies in Moulton, Steel (1999).
|
||
Obwohl der Aufbau eines Buneman Baumes allen diesen Kriterien entspricht
|
||
sind die erzeugten Bäume nicht immer vollständig aufgelöst, da, wegen der
|
||
Sortierung nach den Minima der vorkommenden β , oft zu viele Splits verworfen
|
||
werden, so dass der Baum aufgelöster erscheint als er nach den vorliegenden
|
||
Daten tatsächlich ist. Das folgende Kapitel befasst sich nun mit genau einer
|
||
solchen Möglichkeit dieses Problem zu beheben, der Split decomposition.
|
||
|
||
2.4 Split decomposition
|
||
Im Gegensatz zu der Methode von Buneman wird bei der Split decomposition
|
||
nun durch eine Änderung ein neuer Index definiert. Hierbei ist: α(uv|xy)
|
||
mit Split S={A,B} wobei u,v ∈A und x,y ∈B definiert als:
|
||
|
||
(
|
||
α
|
||
|
||
xy
|
||
|
||
|
|
||
|
||
uv
|
||
|
||
)
|
||
|
||
=
|
||
|
||
max{
|
||
|
||
uxd
|
||
,(
|
||
|
||
)
|
||
|
||
+
|
||
|
||
vxdvyd
|
||
),
|
||
),(
|
||
|
||
,(
|
||
|
||
+
|
||
|
||
uyd
|
||
,(
|
||
|
||
))
|
||
|
||
−
|
||
|
||
yxd
|
||
,((
|
||
|
||
)
|
||
|
||
+
|
||
|
||
vud
|
||
,(
|
||
|
||
))
|
||
|
||
Der Isolation Index
|
||
|
||
Sα ist definiert als:
|
||
|
||
2/1
|
||
|
||
min
|
||
|
||
uvα
|
||
(
|
||
|
||
|
|
||
|
||
xy
|
||
|
||
)
|
||
|
||
über alle u,v ∈A und x,y ∈B
|
||
|
||
Beispiel:
|
||
|
||
Betrachtet man den in Abb. 2.3 dargestellten Netzwerk N mit den Taxa 1,2,3,4
|
||
so ist auch hier die geringste Entfernung zweier Taxa zueinander die geringste
|
||
Summe der gewichteten Kanten des Netzwerks. Es kann allerdings, im
|
||
Gegensatz zu Bäumen, wie auch in diesem Beispiel vorkommen, dass zwei
|
||
unterschiedliche Pfade von Kanten beide die geringste Gewichtung haben.
|
||
|
||
- 7 -
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
So ist beispielsweise die Entfernung d N (1,3)=1+3+4+5=13. Um zu diesem
|
||
Ergebnis zu gelangen kann man aber 2 verschiedenen Pfaden folgen, nämlich
|
||
zuerst dem senkrechten und dann dem waagerechten oder umgekehrt. Will
|
||
man nun für den Split S={{1,4}{2,3}} den Isolation Index
|
||
Sα von S berechnen
|
||
Sα = 3. Und für den Split T={{1,2}{3,4}} ist
|
||
so ergibt sich aus α(14|23) = 6 ⇒
|
||
Tα = 4. Hierbei fällt auf, dass die berechneten Indizes genau den Gewichtungen
|
||
der parallel verlaufenden Kanten entspricht.
|
||
|
||
(Abb. 2. 3)
|
||
|
||
Isolation
|
||
|
||
Aus diesem Beispiel lassen sich nun 2
|
||
wichtige Dinge erkennen. Erstens, führt
|
||
die Entfernung parallel verlaufender
|
||
Kanten zu einer Splittung des Netzwerks,
|
||
Index genau dem
|
||
dessen
|
||
Gewicht der jeweils entfernten Kanten
|
||
entspricht. Und zweitens sieht man, dass
|
||
die Splits S und T nicht mehr kompatibel
|
||
sind und somit auch nicht zu einem Baum
|
||
gehören können. Das bedeutet nun, dass
|
||
Splits mit positivem Isolation Index im Gegensatz zu Splits mit positivem
|
||
Buneman Index nicht mehr unbedingt kompatibel sein müssen. Da kein Vorteil
|
||
darin liegt mehr Splits als notwenig zu behalten wird nun allen verbleibenden
|
||
Splits mit Hilfe der spectral analyse ein Wert über ihre Wichtigkeit
|
||
zugewiesen.
|
||
Berechnet man hier z.B, wie in Abb. 2.3 zu sehen, den Isolation Index eines
|
||
Splits U={{1,3}{2,4}} so ergibt sich αU=0. Da αU hiermit kein positiver Index
|
||
aus der Menge der Taxa {1,2,3,4} ist gehört es auch nicht dazu. Geht man nun
|
||
weiter und berechnet die Isolation Indizes und die Buneman Indizes der in Abb.
|
||
2.4 dargestellten A, B und C so sieht man, dass man mit dem Isolation Index
|
||
sowohl A als auch B behalten würde und nur C verworfen würde, beim
|
||
Buneman Index hingegen würden C und auch B verworfen und nur A behalten.
|
||
Kombiniert man nun A und B miteinander erhält man wieder das in Abb.2.3
|
||
dargestellte Netzwerk welches eine Mischung aus A und B darstellt und keinem
|
||
von beiden eine Priorität einräumt.
|
||
|
||
- 8 -
|
||
|
||
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
(Abb2.4)
|
||
|
||
Aus dieser Dissonanz zwischen den immer kompatiblen Splits eines postiven
|
||
Buneman Indexes und den nicht gezwungenermaßen kompatiblen Splits eines
|
||
positiven Isolation Indexes erklärt sich nun die neue Definition einer schwachen
|
||
Kompatibilität.
|
||
|
||
Drei Splits sind schwach kompatibel, falls mindestens eine Schnittmenge
|
||
aus der Splits S={A,B}, T={C,D} und U={E,F} leer ist:
|
||
|
||
1
|
||
|
||
{
|
||
II∈∅≤
|
||
|
||
EDBFCBFDAECA
|
||
,
|
||
}
|
||
|
||
,
|
||
|
||
,
|
||
|
||
II
|
||
|
||
II
|
||
|
||
II
|
||
|
||
Die wichtigsten Schlüsse die man nun aus dieser schwachen Kompatibilität
|
||
ziehen kann sind folgende:
|
||
|
||
• Hat X n Elemente so ist die Anzahl der Splits mit positivem Isolation
|
||
|
||
Index maximal n(n-1)/2.
|
||
|
||
• Diese können effizient berechnet werden.
|
||
• Alle 4 der oben geforderten Ansprüche an ein derartiges Verfahren wird
|
||
|
||
genüge getan.
|
||
|
||
2.5 Von schwach kompatiblen Splits zu Netzwerken
|
||
Nachdem man nun zu einem solchen Satz an schwach kompatiblen Splits den
|
||
jeweiligen Isolation Index berechnet hat muss man eine Möglichkeit finden
|
||
diese in einem gewichteten Netzwerk darzustellen. Im Allgemeinen kann dies
|
||
immer unter der Verwendung von Median Netzwerken erreicht werden, bei
|
||
diesen besteht aber das Problem, dass sie nicht immer auch planar sind und
|
||
somit schwer zu zeichnen. Sofern die berechneten Spilts aber zyklisch sind
|
||
|
||
- 9 -
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
besteht die Möglichkeit diese in einem sogenannten äußeren Planaren
|
||
Netzwerk darzustellen. Diese Netzwerke sind es auch, die im Allgemeinen von
|
||
dem Programm SplitsTree erzeugt werden.
|
||
|
||
Die Menge der Splits eines gegebenen Sets an Taxa ist zyklisch, falls diese
|
||
auf einem Kreis so angeordnet werden können, dass sich jeder Split durch
|
||
eine Linie darstellen lässt
|
||
|
||
(Abb. 2.5)
|
||
|
||
Betrachtet man nun das in Abb. 2.5. dargestellt Beispiel so sieht man, dass jede
|
||
gepunktete Linien einen Split darstellt. Fügt man nun jedem, der in Teil A durch
|
||
eine gepunktete Linie eingegrenzten Bereiche, einen Knoten hinzu und
|
||
verbindet diese so kommt man zu Abb2.5B. Man sieht, dass Teil C nun schon
|
||
dem originalen Netzwerk das in Teil C abgebildet ist ähnelt, man erreicht dies
|
||
indem man die Ecken nun leicht anpasst, so dass diese parallel zueinander
|
||
verlaufen. Die Methode die hier in diesem Beispiel verwendet wurde basiert auf
|
||
dem Prinzip der De Bruijn dualisation.
|
||
Ordnet man nun jeder Kante den Wert des ihres Splits entsprechenden Isolation
|
||
Indexes zu so lässt sich aus diesem Gewichteten Netzwerk ein repräsentativer
|
||
Wert der Distanz dN errechnen. Ist das mit Hilfe eines positiven Isolation Index
|
||
der Splits erzeugte Netzwerk zyklisch, so stellt dN einen Näherungswert der
|
||
wirklichen Distanz d dar. Die verbleibende Differenz zwischen d und dN wird
|
||
als split-prime-residue (d- dN) bezeichnet und ist genau dann 0 falls die
|
||
erzeugten dN der eigentlich errechneten d entsprechen.
|
||
Das Maß für die Genauigkeit diese Näherung der dN an d wird definiert als
|
||
Fit Index:
|
||
|
||
fi
|
||
|
||
=
|
||
|
||
)(
|
||
|
||
∑ −
|
||
(
|
||
dd
|
||
∑
|
||
|
||
N
|
||
,(
|
||
yxd
|
||
|
||
,
|
||
yx
|
||
|
||
)
|
||
|
||
)
|
||
|
||
%100*
|
||
|
||
für alle x,y aus X
|
||
|
||
- 10 -
|
||
|
||
|
||
|
||
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
3. Anwendung
|
||
|
||
3.1 Das SplitsTree Programm
|
||
Erhältlich sind mehrere Versionen von SplitsTree, die aktuellste Release
|
||
Version 3.2 ist verfügbar für Win32 und Unix. Für MacOS ist die Version 2
|
||
verfügbar. Eine Java basierte Version 4 Namens Jsplits ist im Betastadium. Alle
|
||
Versionen sind verfügbar unter:
|
||
|
||
http://www-ab.informatik.uni-tuebingen.de/software/splits/
|
||
|
||
Für die Version 3.2 für Win32 wird zudem noch die TCL/TK Erweiterung
|
||
TCL805.exe benötigt. Diese ist zu finden unter http://www.scriptics.com.
|
||
Zudem müssen noch die Dateien TCL80.dll und TK80.dll in den SplitsTree
|
||
Ordner kopiert werden.
|
||
|
||
3.2 Beispiel: mtDNA Datensatz
|
||
|
||
(Abb. 3.1)
|
||
|
||
- 11 -
|
||
|
||
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
Abb. 3.1 stellt einen mit SplitsTree erstellten Split Graphen dar, dessen Fit Index
|
||
wie in der Statusleiste angegeben bei 79,2% liegt. D.h. 80% der angegebenen
|
||
Distanzen sind noch korrekt und 20% der Distanzen weichen von ihrer
|
||
eigentlich errechneten Distanz ab. Man kann nun leider nicht generell sagen
|
||
welcher Fit Index für einen SplitGraphen gut ist. Erfahrungsgemäss werden
|
||
Netzwerke die bei über 80% liegen als akzeptabel betrachtet. Bei Fit Indizes von
|
||
70% und weniger kann man davon ausgehen, dass zu viele verworfen wurden
|
||
um noch ein Netzwerk darstellen zu können, als dass man das Netzwerk noch
|
||
verwenden könnte.
|
||
Man darf davon ausgehen, dass bei einem hohen Fit Index die Ergebnisse
|
||
anderer Methoden die auf Entfernungen basieren, wie z.B. NJ, sehr ähnlich
|
||
aussehen würden. Im Folgenden sieht man in Abb3.2 den gleichen Datensatz an
|
||
Taxa, diesmal allerdings als Buneman Baum aufgebaut.
|
||
|
||
(Abb. 3.2)
|
||
|
||
- 12 -
|
||
|
||
|
||
|
||
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
3.3 Beispiel 2: HIV-1 Datensatz
|
||
|
||
(Abb. 3.3)
|
||
|
||
In Abb. 3.3 nun dargestellt sieht man das Netzwerk der aus einem HIV Set
|
||
erstellt wurde. Das Netzwerk ist zwar zum größten Teil baumartig und der Fit
|
||
Index von 88,2% bestätigt die Korrektheit der Darstellung. Im Gegensatz zum
|
||
ersten Beispielt tritt hier jedoch eine Ungenauigkeit im Netzwerk vor den Taxa
|
||
U27399 und U43368 auf. Des Weiteren ist der Zentrale Knoten mit einem Grad
|
||
von 6 auffällig. Dies lässt auf einen Konflikt der Daten schließen, so dass sich
|
||
dieser Knoten nicht weiter auflösen lässt.
|
||
Bei den bisherigen beiden Beispielen wurde nun die Distanz schlicht mit der
|
||
Hamming Methode berechnet welche die Anzahl der Unterschiede zwischen
|
||
zwei Sequenzen als deren Entfernung ausgibt.
|
||
Es ist nun aber auch möglich schon im Voraus mit einer Methode berechneten
|
||
Distanzmatrizen in SplitsTree einzubinden und zu verwenden. Dazu müssen die
|
||
zu importierenden Daten lediglich im Nexus Dateiformat bereitgestellt werden.
|
||
|
||
- 13 -
|
||
|
||
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
Wie man in Abb. 3.4 leicht erkennt wurde diese nicht aus einem baumartigen
|
||
Datenset erzeugt sondern aus HCV Daten (Allain et al. 2000) einer Studie über
|
||
die Immunantwort auf Hepatitis C. Eine baumartige Darstellung dieses
|
||
Netzwerkes wäre, im Gegensatz zur dieser Abbildung, nur unzureichend. Zumal
|
||
der Split Index von 96,3% auf eine nahezu korrekte Darstellung der errechneten
|
||
Distanzen hinweist. Man kann nun das dargestellte Netzwerk grob in drei
|
||
Einheiten aufteilen. Hierbei wurde die mit 603 gekennzeichneten Taxa aus
|
||
einem Donor entnommen und die mit 163 und 31 gekennzeichneten aus zwei
|
||
unterschiedlichen Rezipienten. Des Weiteren beachte man den Knoten der mit
|
||
in zweierlei Weise
|
||
31/7,31/13 gekennzeichnet
|
||
beachtenswert. Die doppelte Kennzeichnung weist darauf hin, dass kein
|
||
Splitindex eines Splits gefunden wurde der diese zwei Taxa trennen würde. Die
|
||
Tatsache, dass dieser Knoten ein interner Knoten und kein Blatt ist deutet darauf
|
||
hin, dass es sich hierbei um einen Vorfahr der an den Blättern dieses
|
||
Teilnetzwerks vorhandenen Taxa handelt.-
|
||
|
||
ist. Dieser
|
||
|
||
ist gleich
|
||
|
||
Weitere Beispiele
|
||
zur Analyse von
|
||
Daten findet man
|
||
in Dopaz et al.
|
||
(1993)
|
||
und
|
||
Nielst-
|
||
Plikat,
|
||
und
|
||
Struwe
|
||
Meyerhans(1997)
|
||
.
|
||
|
||
(Abb 3.4)
|
||
|
||
- 14 -
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
Proseminar: Grundlagen der Bioinformatik
|
||
Thema: SplitsTree and Phylogenetic Networks
|
||
|
||
Christoph Schwörer
|
||
|
||
Quellenangaben:
|
||
|
||
Verwendete Abbildungen:
|
||
|
||
The Phylogenetic Handbook, M.Salemi,
|
||
A-M. Vandamme, Cambridge University Press, 2003
|
||
|
||
Verwendete Literatur:
|
||
|
||
The Phylogenetic Handbook, M.Salemi,
|
||
A-M. Vandamme, Cambridge University Press, 2003
|
||
|
||
Studienarbeit zum Vergleich prokaryotischer Gnome,
|
||
A. Auch, Uni Tübingen , 2003
|
||
|
||
- 15 -
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|