Masterarbeit/StilVorlagen/Splitstree.md

Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

SplitsTree and
Phylogenetic Networks

Betreuer:
Tobias Klöpper

- 1 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

Inhaltsverzeichnis

2.1
2.2
2.3
2.4
2.5

1.  Einleitung ....................................................................................................... 3
2.  Theorie............................................................................................................ 4
Evolutionäre Verbindungen in Netzwerken........................................................... 4
Die „Split De-composition“ Theorie...................................................................... 5
Buneman Bäume .................................................................................................... 6
Split decomposition................................................................................................ 7
Von schwach kompatiblen Splits zu Netzwerken .................................................. 9
3.  Anwendung................................................................................................... 11
Das SplitsTree Programm .................................................................................... 11
Beispiel: mtDNA Datensatz ................................................................................. 11
Beispiel 2: HIV-1 Datensatz ................................................................................ 13
4.  Quellenangaben: ........................................................................................... 15

3.1
3.2
3.3

- 2 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

1. Einleitung

In den vergangenen Jahrzehnten ist man, nach der Entdeckung der DNA, immer
mehr  dazu  übergegangen  Organismen  nicht  nur  anhand  ihrer  phänotypischen
Eigenschaften sondern auch anhand ihres Genotyps zu vergleichen. Mittlerweile
gibt es einige gute Verfahren die die Ähnlichkeit und den Verwandtschaftsgrad
zweier  oder  auch  mehrerer  Organismen  bestimmen.  So  ist  die  Maus  genetisch
dem Menschen sehr ähnlich und eignet sich damit auch  als Forschungsobjekt.
Um  diese  komplexen  Verwandtschaften  nun  auch  graphisch  übersichtlich
darzustellen, benötigt man ausgereifte mathematische Verfahren.
Ein Programm, das einige dieser Verfahren, die aus einem gegebenen Datensatz
einen  graphisch  übersichtlichen  Zusammenhang  liefern,  ist  SplitsTree  (Huson
1998),  welches,  wie  der  Name  schon  sagt,  aus  einer  gegebenen  Datenmenge
einen  Phylogenetischen  Baum  oder  Netzwerk  aufbaut.  Diese  Phylogenetischen
Netzwerke können zur visuellen Analyse der erhaltenen Daten genutzt werden.
SplitsTree  bietet  die  Möglichkeit  Bäume,  ähnlich  dem  unten  abgebildeteten
Beispiel,  oder  Netzwerke  über  eine  beliebige  Eingabe  an  Taxa  und  den  damit
verbundenen Daten zu erstellen.

- 3 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

2. Theorie

dargestellt

2.1  Evolutionäre Verbindungen in Netzwerken
Der klassische Weg evolutionäre Zusammenhänge eines gegebenen Datensatzes
an Taxa zu veranschaulichen ist ein binärer Baum, hierbei sind interne Knoten
als  mögliche  Vorfahren  dargestellt  und  die  Blätter  stellen  die  aktuell
existierenden Taxa dar.
Für den Fall, dass die verwandtschaftlichen Zusammenhänge gar keinen Baum
bilden bei dem es immer nur genau 2 Nachfahren gibt, wäre ein Baum mit einer
unbestimmten Anzahl Ästen je Knoten ein adäquates Mittel.
Aber  selbst  dieser  Fall  ist  in  der  Biologie  noch  nicht  allgemein  genug.  Als
Beispiel  sei  hier  die  Interaktion  von  Bakterien  genannt  bei  denen  es  innerhalb
einer Generation zu Hybridisierungen und Rekombinationen kommen kann. Ein
Baum eignet sich hierbei nur bedingt um die vollständigen Beziehungen korrekt
darzustellen,  da  ein  Baum  unter  der
Bedingung  aufgebaut  wird,  dass
einmal  getrennte  Äste  später  nicht
mehr  zusammen  geführt  werden  oder
interagieren.
Dieser  Fall  kann,  wie  in  Abb.  2.1,
vereinfacht
werden.
Hierbei  werden  die  Knoten  1,  2,  3,  4
als Vorfahren und die Blätter 5, 6 und
7 als real existierende Taxa betrachtet.
Wie  bei  einem  Baum  mit  einer
Wurzel geht man hierbei davon aus,
dass  1  den  Ursprungsknoten  darstellt.  Der  Unterschied  zwischen  diesem
Netzwerk und einem normalen Baum ist, dass es hier zu einem Ringschluss der
Knoten  1-4  kommt.  Derartige  Netzwerke  eignen  sich  nicht  nur  für  spezielle
Arten von Evolution, wie der im obigen Beispiel genannten Rekombination von
Bakterien,  sondern  können  in  all  jenen  Fällen  verwendet  werden  wo  es
unangebracht ist Daten in eine Baumstruktur zu zwingen. Es gibt zwar auch bei
anderen  Programmen  als  SplitsTree  die  Möglichkeit  sich  Daten
in
verschiedenen  Arten  von  Bäumen  anzeigen  zu  lassen  aber  dennoch  kann  es
vorkommen, dass keiner dieser Bäume die Zusammenhänge korrekt wiedergibt.
Es mag sogar soweit kommen, dass erst in einem Netzwerk in dem Ringschlüsse
erlaubt  sind  die  eigentliche  Struktur  der  Evolution  anschaubar  und  begreifbar
wird.  Ein  Beispiel  hierfür  wäre  der  Gebrauch  von  Netzwerken  zur
„Phylogenetischen Analyse“ der Canterbury Tales (Barrbook et. Al. 1998.)
Die Frage die sich nun stellt ist, welche Netzwerke es gibt und für welche Arten
von  Daten  sie  geeignet  sind.  So  werden  zum  Beispiel  für  die  Darstellung  der
Evolution von mtDNA häufig median Netzwerke benutzt. Wir konzentrieren uns
hier  jedoch  auf  eine  spezielle  Art  des  Zugangs  zur  Phylogenetischen  Analyse,

(Abb. 2.1)

- 4 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

dem  SplitsTree  Programm  (Huson  1998).  Die  hierbei  erzeugten  SplitGraphen
basieren  hauptsächlich  auf  Distanzen  die  mit  der  Split-decomposition  Theorie
errechnet  wurden  (Bandelt,  Dress  1992/1993).  Dieser  Theorie  widmen  wir  uns
nun im folgenden Kapitel.
Weitere  Beschreibungen  hierzu  findet  man  auch  in  Dress,  Huson,  Multon
(1996), Page, Holmes (1998), und Swafford et. Al. (1996).

2.2  Die „Split De-composition“ Theorie
Der wichtigste Punkt der Split de-composition Theorie ist, dass ein Netzwerk in
sogenannte  Splits  zerlegt  werden  kann.  Würde  man  z.B  in  dem  in  Abb.  2.2
dargestellten  Baum  (TX)  eine  beliebige  Kante  entfernen,  so  erhielte  man  2
disjunkte  Teilbäume  A  und  B.  Entfernte  man  beispielsweise  die  Kante  f  so
erhielte  man
Bipartitionen
A={1,2,3)  und  B={4,5}.Wie  man  sieht
jede  Kante  genau
induziert  hierbei
einen  Split.  Die  Menge  aller  durch  die
Kanten  erzeugten  Splits  wird  Σ(X)
|Σ|  genau  die
ist
genannt,  hierbei
Anzahl der Kanten des Baumes.

die

Zwei Splits U={A,B} und V={K,L) heißen kompatibel falls gilt:

(Abb. 2.2)

{
!
U∈∅∃

LBKBLAKA
,

,

,

U

U

U

 }

U

Es  muss  also  genau  eine  der  Schnittmengen  aus  U V  leer  sein.  Andernfalls
heißen die beiden Splits „nicht kompatibel“.
Ein  Split  bei  dem  min.  eine  der  beiden  Partitionen  genau  1  Element  enthält
bezeichnet man als trivialen Split.
Einen  maßgeblichen  Beitrag  leistete  1971  Bunman  indem  er  bewies,  dass  die
Vereinigung  aller  Splits  genau  dann  mit  der  Vereinigung  aller  Kanten  eines
Phylogenetischen  Baumes  übereinstimmte  wenn  alle  Splits  paarweise
kompatibel sind.

Die Vereinigung aller paarweiser kompatibler Splits stimmt genau mit der
Vereinigung aller Kanten eines Phylogenetischen Baumes überein.

Man  kann  um  einen  Baum,  der  die  evolutionäre  Entwicklung  eines  gegebenen
Datensatzes an Taxa darstellt, zu erstellen nach kompatiblen Splits dieser Taxa
suchen.
Zu beachten sei hier, dass es für z.B. 5 Taxa 15 mögliche Splits und für n Taxa
  mögliche  Splits  gibt.  Um  einen  vollständigen  binären  Baum
2
aufzubauen,  muss  man  hierzu  nach  2n-3  kompatiblen  aus  den  oben  genannten

−−n
)1

1

(

- 5 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

(

1

−−n
)1

  möglichen  Splits  heraussuchen.  So  gibt  es  zu  15  Taxa  27  kompatible
2
Splits  von  16.383  möglichen.  Man  muss  also  nun  eine  Möglichkeit  finden
möglichst einfach zu einem optimalen Ergebnis zu kommen. Am effizientesten
ist  es  hierbei  nach  auffälligen  Splits  zu  suchen,  und,  obwohl  es  auch  hierzu
mehrere Wege gibt wird im Folgenden nur auf den von Buneman (1971) weiter
eingegangen,  da  dieser  auch  gleichzeitig  eine  gute  Basis  liefert  um  die  „Split-
decomposition“ Theorie zu verstehen.

2.3  Buneman Bäume
Um überhaupt einen derartigen Baum aufbauen zu können, benötig man eine
vollständige Distanzmatrix die jedem Paar an Taxa einen Wert zuordnet:

R →× XXd :

Man definiert β(uv|xy) über den Split S={A,B} wobei u,v ∈A und x,y ∈B als:

(
uv
β

|

xy

)
=

min(

uxd
,(

)

+

vxdvyd
),
),(

,(

+

uyd
,(

))

−

yxd
,((

)

+

vud
,(

))

Der Buneman Index

Sβ  des Splits S ist definiert als:

2/1

min

uvβ
(

|

xy

)

 über alle u,v ∈A und x,y ∈B

Beispiel:

Td

Betrachtet  man  den  in  Abb.  2.2  dargestellten  Baum  so  ist  die  Distanz  zweier
Taxa  definiert  als  die  Summe  der  Gewichtungen  auf  dem  Weg  zwischen
(2,5) = 2+3+3+1 = 9.
beiden. So ist die Distanz
Will man nun β für alle möglichen Paare eines Splits S={{1,2},{3,4,5}}
berechnen so ergibt sich
β(12,34) = 6;
β(12,35) = 6 und
β(12,45) = 12.
Somit ist der Buneman Index βS = ½ * 6 = 3.

Der wichtigste Fakt aber den Buneman hierbei herausfand ist:

Für einen Satz an Taxa für den die Distanzmatrix bestimmt ist gilt:
Die Vereinigung aller Splits für die βS > 0 gilt, sind kompatibel und lassen
sich somit als Baum repräsentieren.

Somit ist βS ein wichtiges Kriterium um zu entscheiden welche Splits wesentlich
sind und somit einen Baum konstruieren lassen.
Ein  derartiger  Baum,  dessen  Äste  jeweils  dem  Gewicht  βS    der  durch  sie
erzeugten Splits entsprechen, wird Buneman Baum genannt. Die Entfernungen
der  gewichteten  Äste  entsprichen  hierbei  den  errechneten  Distanzen  der
Matrix d.

- 6 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

Jede Methode die einen Baum aus genetischen Distanzen errechnet, sollte
folgenden Kriterien entsprechen:

1.  Die  Methode  angewandt  auf  die  genetischen  Distanzen  eines

gewichteten Baumes T sollte den Baum T ausgeben.

2.  Die  Methode  angewandt  auf  genetische  Distanzen  sollte  von  diesen
„kontinuierlich“  abhängen.  Das  heißt  kleine  Änderungen  an  d  sollten
auch  nur  kleine  Änderungen  an  T  zur  Folge  haben  und  nicht  das
komplette Erscheinungsbild des Baumes ändern.

3.  Es sollte möglich sein die Methode effizient zu implementieren.
4.  Der ausgegebene Baum T sollte unabhängig von der Reihenfolge der

Eingabe der Taxa sein.

Dies  sind  zwar  gute  Kriterien,  jedoch  entsprechen  selbst  einige  der  gängigsten
Methoden  zur  Rekonstruktion  eines  Baumes  aus  gegebenen  genetischen
Distanzen  nicht  diesen  Bedingungen.  UPGMA  beispielsweise  entspricht  nicht
immer  Kriterium  1  und  Neighbour  Joining  (NJ)  entspricht  nicht  immer  den
Kriterien 2 und 4. Genauer beschrieben wird dies in Moulton, Steel (1999).
Obwohl  der  Aufbau  eines  Buneman  Baumes  allen  diesen  Kriterien  entspricht
sind  die  erzeugten  Bäume  nicht  immer  vollständig  aufgelöst,  da,  wegen  der
Sortierung nach den Minima der vorkommenden β , oft zu viele Splits verworfen
werden,  so  dass  der  Baum  aufgelöster  erscheint  als  er  nach  den  vorliegenden
Daten  tatsächlich  ist.  Das  folgende  Kapitel  befasst  sich  nun  mit  genau  einer
solchen Möglichkeit dieses Problem zu beheben, der Split decomposition.

2.4  Split decomposition
Im  Gegensatz  zu  der  Methode  von  Buneman  wird  bei  der  Split  decomposition
nun durch eine Änderung ein neuer Index definiert. Hierbei ist: α(uv|xy)
mit Split S={A,B} wobei u,v ∈A und x,y ∈B definiert als:

(
α

xy

|

uv

)

=

max{

uxd
,(

)

+

vxdvyd
),
),(

,(

+

uyd
,(

))

−

yxd
,((

)

+

vud
,(

))

Der Isolation Index

Sα  ist definiert als:

2/1

min

uvα
(

|

xy

)

 über alle u,v ∈A und x,y ∈B

Beispiel:

Betrachtet man den in Abb. 2.3 dargestellten Netzwerk N mit den Taxa 1,2,3,4
so ist auch hier die geringste Entfernung zweier Taxa zueinander die geringste
Summe  der  gewichteten  Kanten  des  Netzwerks.  Es  kann  allerdings,  im
Gegensatz  zu  Bäumen,  wie  auch  in  diesem  Beispiel  vorkommen,  dass  zwei
unterschiedliche Pfade von Kanten beide die geringste Gewichtung haben.

- 7 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

So  ist  beispielsweise  die  Entfernung  d  N  (1,3)=1+3+4+5=13.  Um  zu  diesem
Ergebnis zu gelangen kann man aber 2 verschiedenen Pfaden folgen, nämlich
zuerst  dem  senkrechten  und  dann  dem  waagerechten  oder  umgekehrt.  Will
man nun für den Split S={{1,4}{2,3}} den Isolation Index
Sα  von S berechnen
Sα = 3. Und für den Split T={{1,2}{3,4}} ist
so ergibt sich aus α(14|23) = 6 ⇒
Tα = 4. Hierbei fällt auf, dass die berechneten Indizes genau den Gewichtungen
der parallel verlaufenden Kanten entspricht.

(Abb. 2. 3)

Isolation

Aus  diesem  Beispiel  lassen  sich  nun  2
wichtige  Dinge  erkennen.  Erstens,  führt
die  Entfernung  parallel  verlaufender
Kanten zu einer Splittung des Netzwerks,
Index  genau  dem
dessen
Gewicht  der  jeweils  entfernten  Kanten
entspricht.  Und  zweitens  sieht  man,  dass
die Splits S und T nicht mehr kompatibel
sind und somit auch nicht zu einem Baum
gehören  können.  Das  bedeutet  nun,  dass
Splits  mit  positivem  Isolation  Index  im  Gegensatz  zu  Splits  mit  positivem
Buneman Index nicht mehr unbedingt kompatibel sein müssen. Da kein Vorteil
darin  liegt  mehr  Splits  als  notwenig  zu  behalten  wird  nun  allen  verbleibenden
Splits  mit  Hilfe  der  spectral  analyse  ein  Wert  über  ihre  Wichtigkeit
zugewiesen.
Berechnet  man  hier  z.B,  wie  in  Abb.  2.3  zu  sehen,  den  Isolation  Index  eines
Splits U={{1,3}{2,4}} so ergibt sich αU=0. Da αU hiermit kein positiver Index
aus der Menge der Taxa {1,2,3,4} ist gehört es auch nicht dazu. Geht man nun
weiter und berechnet die Isolation Indizes und die Buneman Indizes der in Abb.
2.4  dargestellten  A,  B  und  C  so  sieht  man,  dass  man  mit  dem  Isolation  Index
sowohl  A  als  auch  B  behalten  würde  und  nur  C  verworfen  würde,  beim
Buneman Index hingegen würden C und auch B verworfen und nur A behalten.
Kombiniert  man  nun  A  und  B  miteinander  erhält  man  wieder  das  in  Abb.2.3
dargestellte Netzwerk welches eine Mischung aus A und B darstellt und keinem
von beiden eine Priorität einräumt.

- 8 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

(Abb2.4)

Aus  dieser  Dissonanz  zwischen  den  immer  kompatiblen  Splits  eines  postiven
Buneman  Indexes  und  den  nicht  gezwungenermaßen  kompatiblen  Splits  eines
positiven Isolation Indexes erklärt sich nun die neue Definition einer schwachen
Kompatibilität.

Drei  Splits  sind  schwach  kompatibel,  falls  mindestens  eine  Schnittmenge
aus der Splits S={A,B}, T={C,D} und U={E,F} leer ist:

1

{
II∈∅≤

EDBFCBFDAECA
,
}

,

,

II

II

II

Die wichtigsten Schlüsse die man nun aus dieser schwachen Kompatibilität
ziehen kann sind folgende:

•  Hat X n Elemente so ist die Anzahl der Splits mit positivem Isolation

Index maximal n(n-1)/2.

•  Diese können effizient berechnet werden.
•  Alle 4 der oben geforderten Ansprüche an ein derartiges Verfahren wird

genüge getan.

2.5  Von schwach kompatiblen Splits zu Netzwerken
Nachdem  man  nun  zu  einem  solchen  Satz  an  schwach  kompatiblen  Splits  den
jeweiligen  Isolation  Index  berechnet  hat  muss  man  eine  Möglichkeit  finden
diese  in  einem  gewichteten  Netzwerk  darzustellen.  Im  Allgemeinen  kann  dies
immer  unter  der  Verwendung  von  Median  Netzwerken  erreicht  werden,  bei
diesen  besteht  aber  das  Problem,  dass  sie  nicht  immer  auch  planar  sind  und
somit  schwer  zu  zeichnen.  Sofern  die  berechneten  Spilts  aber  zyklisch  sind

- 9 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

besteht  die  Möglichkeit  diese  in  einem  sogenannten  äußeren  Planaren
Netzwerk darzustellen. Diese Netzwerke sind es auch, die im Allgemeinen von
dem Programm SplitsTree erzeugt werden.

Die Menge der Splits eines gegebenen Sets an Taxa ist zyklisch, falls diese
auf einem Kreis so angeordnet werden können, dass sich jeder Split durch
eine Linie darstellen lässt

(Abb. 2.5)

Betrachtet man nun das in Abb. 2.5. dargestellt Beispiel so sieht man, dass jede
gepunktete Linien einen Split darstellt. Fügt man nun jedem, der in Teil A durch
eine  gepunktete  Linie  eingegrenzten  Bereiche,  einen  Knoten  hinzu  und
verbindet diese so kommt man zu Abb2.5B. Man sieht, dass Teil C nun schon
dem originalen Netzwerk das in Teil C abgebildet ist ähnelt, man erreicht dies
indem  man  die  Ecken  nun  leicht  anpasst,  so  dass  diese  parallel  zueinander
verlaufen. Die Methode die hier in diesem Beispiel verwendet wurde basiert auf
dem Prinzip der De Bruijn dualisation.
Ordnet man nun jeder Kante den Wert des ihres Splits entsprechenden Isolation
Indexes  zu  so  lässt  sich  aus  diesem  Gewichteten  Netzwerk  ein  repräsentativer
Wert der Distanz dN errechnen. Ist das mit Hilfe eines positiven Isolation Index
der  Splits  erzeugte  Netzwerk  zyklisch,  so  stellt  dN  einen  Näherungswert  der
wirklichen  Distanz  d  dar.  Die  verbleibende  Differenz  zwischen  d  und  dN  wird
als  split-prime-residue  (d-  dN)  bezeichnet  und  ist  genau  dann  0  falls  die
erzeugten dN der eigentlich errechneten d entsprechen.
Das  Maß  für  die  Genauigkeit  diese  Näherung  der  dN  an  d  wird  definiert  als
Fit Index:

fi

=

)(

∑ −
(
dd
∑

N
,(
yxd

,
yx

)

)

%100*

 für alle x,y aus X

- 10 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

3. Anwendung

3.1  Das SplitsTree Programm
Erhältlich  sind  mehrere  Versionen  von  SplitsTree,  die  aktuellste  Release
Version  3.2  ist  verfügbar  für  Win32  und  Unix.  Für  MacOS  ist  die  Version  2
verfügbar. Eine Java basierte Version 4 Namens Jsplits ist im Betastadium. Alle
Versionen sind verfügbar unter:

http://www-ab.informatik.uni-tuebingen.de/software/splits/

Für  die  Version  3.2  für  Win32  wird  zudem  noch  die  TCL/TK  Erweiterung
TCL805.exe  benötigt.  Diese  ist  zu  finden  unter  http://www.scriptics.com.
Zudem  müssen  noch  die  Dateien  TCL80.dll  und  TK80.dll  in  den  SplitsTree
Ordner kopiert werden.

3.2  Beispiel: mtDNA Datensatz

(Abb. 3.1)

- 11 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

Abb. 3.1 stellt einen mit SplitsTree erstellten Split Graphen dar, dessen Fit Index
wie  in  der  Statusleiste  angegeben  bei  79,2%  liegt.  D.h.  80%  der  angegebenen
Distanzen  sind  noch  korrekt  und  20%  der  Distanzen  weichen  von  ihrer
eigentlich  errechneten  Distanz  ab.  Man  kann  nun  leider  nicht  generell  sagen
welcher  Fit  Index  für  einen  SplitGraphen  gut  ist.  Erfahrungsgemäss  werden
Netzwerke die bei über 80% liegen als akzeptabel betrachtet. Bei Fit Indizes von
70%  und  weniger  kann  man  davon  ausgehen,  dass  zu  viele  verworfen  wurden
um  noch  ein  Netzwerk  darstellen  zu  können,  als  dass  man  das  Netzwerk  noch
verwenden könnte.
Man  darf  davon  ausgehen,  dass  bei  einem  hohen  Fit  Index  die  Ergebnisse
anderer  Methoden  die  auf  Entfernungen  basieren,  wie  z.B.  NJ,  sehr  ähnlich
aussehen würden. Im Folgenden sieht man in Abb3.2 den gleichen Datensatz an
Taxa, diesmal allerdings als Buneman Baum aufgebaut.

(Abb. 3.2)

- 12 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

3.3  Beispiel 2: HIV-1 Datensatz

(Abb. 3.3)

In  Abb.  3.3  nun  dargestellt  sieht  man  das  Netzwerk  der  aus  einem  HIV  Set
erstellt  wurde.  Das  Netzwerk  ist  zwar  zum  größten  Teil  baumartig  und  der  Fit
Index  von  88,2%  bestätigt  die  Korrektheit  der  Darstellung.  Im  Gegensatz  zum
ersten Beispielt tritt hier jedoch eine Ungenauigkeit im Netzwerk vor den Taxa
U27399 und U43368 auf. Des Weiteren ist der Zentrale Knoten mit einem Grad
von 6 auffällig. Dies lässt auf einen Konflikt der Daten schließen, so dass sich
dieser Knoten nicht weiter auflösen lässt.
Bei  den  bisherigen  beiden  Beispielen  wurde  nun  die  Distanz  schlicht  mit  der
Hamming  Methode  berechnet  welche  die  Anzahl  der  Unterschiede  zwischen
zwei Sequenzen als deren Entfernung ausgibt.
Es ist nun aber auch möglich schon im Voraus mit einer Methode berechneten
Distanzmatrizen in SplitsTree einzubinden und zu verwenden. Dazu müssen die
zu importierenden Daten lediglich im Nexus Dateiformat bereitgestellt werden.

- 13 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

Wie  man  in  Abb.  3.4  leicht  erkennt  wurde  diese  nicht  aus  einem  baumartigen
Datenset erzeugt sondern aus HCV Daten (Allain et al. 2000) einer Studie über
die  Immunantwort  auf  Hepatitis  C.  Eine  baumartige  Darstellung  dieses
Netzwerkes wäre, im Gegensatz zur dieser Abbildung, nur unzureichend. Zumal
der Split Index von 96,3% auf eine nahezu korrekte Darstellung der errechneten
Distanzen  hinweist.  Man  kann  nun  das  dargestellte  Netzwerk  grob  in  drei
Einheiten  aufteilen.  Hierbei  wurde  die  mit  603  gekennzeichneten  Taxa  aus
einem  Donor  entnommen  und  die  mit  163  und  31  gekennzeichneten  aus  zwei
unterschiedlichen  Rezipienten.  Des  Weiteren  beachte  man  den  Knoten  der  mit
in  zweierlei  Weise
31/7,31/13  gekennzeichnet
beachtenswert.  Die  doppelte  Kennzeichnung  weist  darauf  hin,  dass  kein
Splitindex eines Splits gefunden wurde der diese zwei Taxa trennen würde. Die
Tatsache, dass dieser Knoten ein interner Knoten und kein Blatt ist deutet darauf
hin,  dass  es  sich  hierbei  um  einen  Vorfahr  der  an  den  Blättern  dieses
Teilnetzwerks vorhandenen Taxa handelt.-

ist.  Dieser

ist  gleich

Weitere Beispiele
zur  Analyse  von
Daten  findet  man
in  Dopaz  et  al.
(1993)
und
Nielst-
Plikat,
und
Struwe
Meyerhans(1997)
.

(Abb 3.4)

- 14 -


Proseminar: Grundlagen der Bioinformatik
Thema: SplitsTree and Phylogenetic Networks

Christoph Schwörer

Quellenangaben:

Verwendete Abbildungen:

The Phylogenetic Handbook, M.Salemi,
A-M. Vandamme, Cambridge University Press, 2003

Verwendete Literatur:

The Phylogenetic Handbook, M.Salemi,
A-M. Vandamme, Cambridge University Press, 2003

Studienarbeit zum Vergleich prokaryotischer Gnome,
A. Auch, Uni Tübingen , 2003

- 15 -