Styleguide V1

2025-11-08 20:36:02 +01:00
parent e4dcfbd6ff
commit af1797496e
21 changed files with 11450 additions and 19 deletions
--- a/StilVorlagen/Splitstree.md
+++ b/StilVorlagen/Splitstree.md
@@ -0,0 +1,862 @@
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+SplitsTree and  
+Phylogenetic Networks 
+
+Betreuer: 
+Tobias Klöpper 
+
+- 1 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+Inhaltsverzeichnis 
+
+2.1 
+2.2 
+2.3 
+2.4 
+2.5 
+
+1.  Einleitung ....................................................................................................... 3 
+2.  Theorie............................................................................................................ 4 
+Evolutionäre Verbindungen in Netzwerken........................................................... 4 
+Die „Split De-composition“ Theorie...................................................................... 5 
+Buneman Bäume .................................................................................................... 6 
+Split decomposition................................................................................................ 7 
+Von schwach kompatiblen Splits zu Netzwerken .................................................. 9 
+3.  Anwendung................................................................................................... 11 
+Das SplitsTree Programm .................................................................................... 11 
+Beispiel: mtDNA Datensatz ................................................................................. 11 
+Beispiel 2: HIV-1 Datensatz ................................................................................ 13 
+4.  Quellenangaben: ........................................................................................... 15 
+
+3.1 
+3.2 
+3.3 
+
+- 2 - 
+
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+1. Einleitung 
+
+In den vergangenen Jahrzehnten ist man, nach der Entdeckung der DNA, immer 
+mehr  dazu  übergegangen  Organismen  nicht  nur  anhand  ihrer  phänotypischen 
+Eigenschaften sondern auch anhand ihres Genotyps zu vergleichen. Mittlerweile 
+gibt es einige gute Verfahren die die Ähnlichkeit und den Verwandtschaftsgrad 
+zweier  oder  auch  mehrerer  Organismen  bestimmen.  So  ist  die  Maus  genetisch 
+dem Menschen sehr ähnlich und eignet sich damit auch  als Forschungsobjekt. 
+Um  diese  komplexen  Verwandtschaften  nun  auch  graphisch  übersichtlich 
+darzustellen, benötigt man ausgereifte mathematische Verfahren. 
+Ein Programm, das einige dieser Verfahren, die aus einem gegebenen Datensatz 
+einen  graphisch  übersichtlichen  Zusammenhang  liefern,  ist  SplitsTree  (Huson 
+1998),  welches,  wie  der  Name  schon  sagt,  aus  einer  gegebenen  Datenmenge 
+einen  Phylogenetischen  Baum  oder  Netzwerk  aufbaut.  Diese  Phylogenetischen 
+Netzwerke können zur visuellen Analyse der erhaltenen Daten genutzt werden. 
+SplitsTree  bietet  die  Möglichkeit  Bäume,  ähnlich  dem  unten  abgebildeteten 
+Beispiel,  oder  Netzwerke  über  eine  beliebige  Eingabe  an  Taxa  und  den  damit 
+verbundenen Daten zu erstellen. 
+
+- 3 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+2. Theorie 
+
+dargestellt 
+
+2.1  Evolutionäre Verbindungen in Netzwerken 
+Der klassische Weg evolutionäre Zusammenhänge eines gegebenen Datensatzes 
+an Taxa zu veranschaulichen ist ein binärer Baum, hierbei sind interne Knoten 
+als  mögliche  Vorfahren  dargestellt  und  die  Blätter  stellen  die  aktuell 
+existierenden Taxa dar. 
+Für den Fall, dass die verwandtschaftlichen Zusammenhänge gar keinen Baum 
+bilden bei dem es immer nur genau 2 Nachfahren gibt, wäre ein Baum mit einer 
+unbestimmten Anzahl Ästen je Knoten ein adäquates Mittel. 
+Aber  selbst  dieser  Fall  ist  in  der  Biologie  noch  nicht  allgemein  genug.  Als 
+Beispiel  sei  hier  die  Interaktion  von  Bakterien  genannt  bei  denen  es  innerhalb 
+einer Generation zu Hybridisierungen und Rekombinationen kommen kann. Ein 
+Baum eignet sich hierbei nur bedingt um die vollständigen Beziehungen korrekt 
+darzustellen,  da  ein  Baum  unter  der 
+Bedingung  aufgebaut  wird,  dass 
+einmal  getrennte  Äste  später  nicht 
+mehr  zusammen  geführt  werden  oder 
+interagieren. 
+Dieser  Fall  kann,  wie  in  Abb.  2.1, 
+vereinfacht 
+werden. 
+Hierbei  werden  die  Knoten  1,  2,  3,  4 
+als Vorfahren und die Blätter 5, 6 und 
+7 als real existierende Taxa betrachtet. 
+Wie  bei  einem  Baum  mit  einer 
+Wurzel geht man hierbei davon aus,  
+dass  1  den  Ursprungsknoten  darstellt.  Der  Unterschied  zwischen  diesem 
+Netzwerk und einem normalen Baum ist, dass es hier zu einem Ringschluss der 
+Knoten  1-4  kommt.  Derartige  Netzwerke  eignen  sich  nicht  nur  für  spezielle 
+Arten von Evolution, wie der im obigen Beispiel genannten Rekombination von 
+Bakterien,  sondern  können  in  all  jenen  Fällen  verwendet  werden  wo  es 
+unangebracht ist Daten in eine Baumstruktur zu zwingen. Es gibt zwar auch bei 
+anderen  Programmen  als  SplitsTree  die  Möglichkeit  sich  Daten 
+in 
+verschiedenen  Arten  von  Bäumen  anzeigen  zu  lassen  aber  dennoch  kann  es 
+vorkommen, dass keiner dieser Bäume die Zusammenhänge korrekt wiedergibt. 
+Es mag sogar soweit kommen, dass erst in einem Netzwerk in dem Ringschlüsse 
+erlaubt  sind  die  eigentliche  Struktur  der  Evolution  anschaubar  und  begreifbar 
+wird.  Ein  Beispiel  hierfür  wäre  der  Gebrauch  von  Netzwerken  zur 
+„Phylogenetischen Analyse“ der Canterbury Tales (Barrbook et. Al. 1998.) 
+Die Frage die sich nun stellt ist, welche Netzwerke es gibt und für welche Arten 
+von  Daten  sie  geeignet  sind.  So  werden  zum  Beispiel  für  die  Darstellung  der 
+Evolution von mtDNA häufig median Netzwerke benutzt. Wir konzentrieren uns 
+hier  jedoch  auf  eine  spezielle  Art  des  Zugangs  zur  Phylogenetischen  Analyse, 
+
+(Abb. 2.1) 
+
+- 4 - 
+
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+dem  SplitsTree  Programm  (Huson  1998).  Die  hierbei  erzeugten  SplitGraphen 
+basieren  hauptsächlich  auf  Distanzen  die  mit  der  Split-decomposition  Theorie 
+errechnet  wurden  (Bandelt,  Dress  1992/1993).  Dieser  Theorie  widmen  wir  uns 
+nun im folgenden Kapitel. 
+Weitere  Beschreibungen  hierzu  findet  man  auch  in  Dress,  Huson,  Multon 
+(1996), Page, Holmes (1998), und Swafford et. Al. (1996). 
+
+2.2  Die „Split De-composition“ Theorie 
+Der wichtigste Punkt der Split de-composition Theorie ist, dass ein Netzwerk in 
+sogenannte  Splits  zerlegt  werden  kann.  Würde  man  z.B  in  dem  in  Abb.  2.2 
+dargestellten  Baum  (TX)  eine  beliebige  Kante  entfernen,  so  erhielte  man  2 
+disjunkte  Teilbäume  A  und  B.  Entfernte  man  beispielsweise  die  Kante  f  so 
+erhielte  man 
+Bipartitionen 
+A={1,2,3)  und  B={4,5}.Wie  man  sieht 
+jede  Kante  genau 
+induziert  hierbei 
+einen  Split.  Die  Menge  aller  durch  die 
+Kanten  erzeugten  Splits  wird  Σ(X) 
+|Σ|  genau  die 
+ist 
+genannt,  hierbei 
+Anzahl der Kanten des Baumes. 
+
+die 
+
+Zwei Splits U={A,B} und V={K,L) heißen kompatibel falls gilt: 
+
+(Abb. 2.2) 
+
+{
+!
+U∈∅∃
+
+LBKBLAKA
+,
+
+,
+
+,
+
+U
+
+U
+
+U
+
+ }
+
+U
+
+Es  muss  also  genau  eine  der  Schnittmengen  aus  U V  leer  sein.  Andernfalls 
+heißen die beiden Splits „nicht kompatibel“.  
+Ein  Split  bei  dem  min.  eine  der  beiden  Partitionen  genau  1  Element  enthält 
+bezeichnet man als trivialen Split. 
+Einen  maßgeblichen  Beitrag  leistete  1971  Bunman  indem  er  bewies,  dass  die 
+Vereinigung  aller  Splits  genau  dann  mit  der  Vereinigung  aller  Kanten  eines 
+Phylogenetischen  Baumes  übereinstimmte  wenn  alle  Splits  paarweise 
+kompatibel sind.  
+
+Die Vereinigung aller paarweiser kompatibler Splits stimmt genau mit der 
+Vereinigung aller Kanten eines Phylogenetischen Baumes überein. 
+
+Man  kann  um  einen  Baum,  der  die  evolutionäre  Entwicklung  eines  gegebenen 
+Datensatzes an Taxa darstellt, zu erstellen nach kompatiblen Splits dieser Taxa 
+suchen. 
+Zu beachten sei hier, dass es für z.B. 5 Taxa 15 mögliche Splits und für n Taxa 
+  mögliche  Splits  gibt.  Um  einen  vollständigen  binären  Baum 
+2
+aufzubauen,  muss  man  hierzu  nach  2n-3  kompatiblen  aus  den  oben  genannten 
+
+−−n
+)1
+
+1
+
+(
+
+- 5 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+(
+
+1
+
+−−n
+)1
+
+  möglichen  Splits  heraussuchen.  So  gibt  es  zu  15  Taxa  27  kompatible 
+2
+Splits  von  16.383  möglichen.  Man  muss  also  nun  eine  Möglichkeit  finden 
+möglichst einfach zu einem optimalen Ergebnis zu kommen. Am effizientesten 
+ist  es  hierbei  nach  auffälligen  Splits  zu  suchen,  und,  obwohl  es  auch  hierzu 
+mehrere Wege gibt wird im Folgenden nur auf den von Buneman (1971) weiter 
+eingegangen,  da  dieser  auch  gleichzeitig  eine  gute  Basis  liefert  um  die  „Split-
+decomposition“ Theorie zu verstehen. 
+
+2.3  Buneman Bäume 
+Um überhaupt einen derartigen Baum aufbauen zu können, benötig man eine 
+vollständige Distanzmatrix die jedem Paar an Taxa einen Wert zuordnet: 
+
+R →× XXd :
+
+Man definiert β(uv|xy) über den Split S={A,B} wobei u,v ∈A und x,y ∈B als: 
+
+(
+uv
+β
+
+|
+
+xy
+
+)
+=
+
+min(
+
+uxd
+,(
+
+)
+
+
+
+vxdvyd
+),
+),(
+
+,(
+
+
+
+uyd
+,(
+
+))
+
+−
+
+yxd
+,((
+
+)
+
+
+
+vud
+,(
+
+))
+
+Der Buneman Index 
+
+Sβ  des Splits S ist definiert als: 
+
+2/1
+
+min
+
+uvβ
+(
+
+|
+
+xy
+
+)
+
+ über alle u,v ∈A und x,y ∈B 
+
+Beispiel: 
+
+Td
+
+Betrachtet  man  den  in  Abb.  2.2  dargestellten  Baum  so  ist  die  Distanz  zweier 
+Taxa  definiert  als  die  Summe  der  Gewichtungen  auf  dem  Weg  zwischen 
+(2,5) = 2+3+3+1 = 9. 
+beiden. So ist die Distanz 
+Will man nun β für alle möglichen Paare eines Splits S={{1,2},{3,4,5}} 
+berechnen so ergibt sich  
+β(12,34) = 6; 
+β(12,35) = 6 und  
+β(12,45) = 12. 
+Somit ist der Buneman Index βS = ½ * 6 = 3. 
+
+Der wichtigste Fakt aber den Buneman hierbei herausfand ist: 
+
+Für einen Satz an Taxa für den die Distanzmatrix bestimmt ist gilt:  
+Die Vereinigung aller Splits für die βS > 0 gilt, sind kompatibel und lassen 
+sich somit als Baum repräsentieren. 
+
+Somit ist βS ein wichtiges Kriterium um zu entscheiden welche Splits wesentlich 
+sind und somit einen Baum konstruieren lassen. 
+Ein  derartiger  Baum,  dessen  Äste  jeweils  dem  Gewicht  βS    der  durch  sie 
+erzeugten Splits entsprechen, wird Buneman Baum genannt. Die Entfernungen 
+der  gewichteten  Äste  entsprichen  hierbei  den  errechneten  Distanzen  der  
+Matrix d. 
+
+- 6 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+Jede Methode die einen Baum aus genetischen Distanzen errechnet, sollte 
+folgenden Kriterien entsprechen: 
+
+1.  Die  Methode  angewandt  auf  die  genetischen  Distanzen  eines
+
+gewichteten Baumes T sollte den Baum T ausgeben. 
+
+2.  Die  Methode  angewandt  auf  genetische  Distanzen  sollte  von  diesen
+„kontinuierlich“  abhängen.  Das  heißt  kleine  Änderungen  an  d  sollten
+auch  nur  kleine  Änderungen  an  T  zur  Folge  haben  und  nicht  das
+komplette Erscheinungsbild des Baumes ändern. 
+
+3.  Es sollte möglich sein die Methode effizient zu implementieren. 
+4.  Der ausgegebene Baum T sollte unabhängig von der Reihenfolge der
+
+Eingabe der Taxa sein. 
+
+Dies  sind  zwar  gute  Kriterien,  jedoch  entsprechen  selbst  einige  der  gängigsten 
+Methoden  zur  Rekonstruktion  eines  Baumes  aus  gegebenen  genetischen 
+Distanzen  nicht  diesen  Bedingungen.  UPGMA  beispielsweise  entspricht  nicht 
+immer  Kriterium  1  und  Neighbour  Joining  (NJ)  entspricht  nicht  immer  den 
+Kriterien 2 und 4. Genauer beschrieben wird dies in Moulton, Steel (1999).  
+Obwohl  der  Aufbau  eines  Buneman  Baumes  allen  diesen  Kriterien  entspricht 
+sind  die  erzeugten  Bäume  nicht  immer  vollständig  aufgelöst,  da,  wegen  der 
+Sortierung nach den Minima der vorkommenden β , oft zu viele Splits verworfen 
+werden,  so  dass  der  Baum  aufgelöster  erscheint  als  er  nach  den  vorliegenden 
+Daten  tatsächlich  ist.  Das  folgende  Kapitel  befasst  sich  nun  mit  genau  einer 
+solchen Möglichkeit dieses Problem zu beheben, der Split decomposition. 
+
+2.4  Split decomposition 
+Im  Gegensatz  zu  der  Methode  von  Buneman  wird  bei  der  Split  decomposition 
+nun durch eine Änderung ein neuer Index definiert. Hierbei ist: α(uv|xy)  
+mit Split S={A,B} wobei u,v ∈A und x,y ∈B definiert als: 
+
+(
+α
+
+xy
+
+|
+
+uv
+
+)
+
+=
+
+max{
+
+uxd
+,(
+
+)
+
+
+
+vxdvyd
+),
+),(
+
+,(
+
+
+
+uyd
+,(
+
+))
+
+−
+
+yxd
+,((
+
+)
+
+
+
+vud
+,(
+
+))
+
+Der Isolation Index 
+
+Sα  ist definiert als: 
+
+2/1
+
+min
+
+uvα
+(
+
+|
+
+xy
+
+)
+
+ über alle u,v ∈A und x,y ∈B 
+
+Beispiel: 
+
+Betrachtet man den in Abb. 2.3 dargestellten Netzwerk N mit den Taxa 1,2,3,4 
+so ist auch hier die geringste Entfernung zweier Taxa zueinander die geringste 
+Summe  der  gewichteten  Kanten  des  Netzwerks.  Es  kann  allerdings,  im 
+Gegensatz  zu  Bäumen,  wie  auch  in  diesem  Beispiel  vorkommen,  dass  zwei 
+unterschiedliche Pfade von Kanten beide die geringste Gewichtung haben. 
+
+- 7 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+So  ist  beispielsweise  die  Entfernung  d  N  (1,3)=1+3+4+5=13.  Um  zu  diesem 
+Ergebnis zu gelangen kann man aber 2 verschiedenen Pfaden folgen, nämlich 
+zuerst  dem  senkrechten  und  dann  dem  waagerechten  oder  umgekehrt.  Will 
+man nun für den Split S={{1,4}{2,3}} den Isolation Index 
+Sα  von S berechnen 
+Sα = 3. Und für den Split T={{1,2}{3,4}} ist 
+so ergibt sich aus α(14|23) = 6 ⇒ 
+Tα = 4. Hierbei fällt auf, dass die berechneten Indizes genau den Gewichtungen 
+der parallel verlaufenden Kanten entspricht. 
+
+(Abb. 2. 3) 
+
+Isolation 
+
+Aus  diesem  Beispiel  lassen  sich  nun  2 
+wichtige  Dinge  erkennen.  Erstens,  führt 
+die  Entfernung  parallel  verlaufender 
+Kanten zu einer Splittung des Netzwerks, 
+Index  genau  dem 
+dessen 
+Gewicht  der  jeweils  entfernten  Kanten 
+entspricht.  Und  zweitens  sieht  man,  dass 
+die Splits S und T nicht mehr kompatibel 
+sind und somit auch nicht zu einem Baum 
+gehören  können.  Das  bedeutet  nun,  dass 
+Splits  mit  positivem  Isolation  Index  im  Gegensatz  zu  Splits  mit  positivem 
+Buneman Index nicht mehr unbedingt kompatibel sein müssen. Da kein Vorteil 
+darin  liegt  mehr  Splits  als  notwenig  zu  behalten  wird  nun  allen  verbleibenden 
+Splits  mit  Hilfe  der  spectral  analyse  ein  Wert  über  ihre  Wichtigkeit 
+zugewiesen. 
+Berechnet  man  hier  z.B,  wie  in  Abb.  2.3  zu  sehen,  den  Isolation  Index  eines 
+Splits U={{1,3}{2,4}} so ergibt sich αU=0. Da αU hiermit kein positiver Index 
+aus der Menge der Taxa {1,2,3,4} ist gehört es auch nicht dazu. Geht man nun 
+weiter und berechnet die Isolation Indizes und die Buneman Indizes der in Abb. 
+2.4  dargestellten  A,  B  und  C  so  sieht  man,  dass  man  mit  dem  Isolation  Index 
+sowohl  A  als  auch  B  behalten  würde  und  nur  C  verworfen  würde,  beim 
+Buneman Index hingegen würden C und auch B verworfen und nur A behalten. 
+Kombiniert  man  nun  A  und  B  miteinander  erhält  man  wieder  das  in  Abb.2.3 
+dargestellte Netzwerk welches eine Mischung aus A und B darstellt und keinem 
+von beiden eine Priorität einräumt. 
+
+- 8 - 
+
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+(Abb2.4) 
+
+Aus  dieser  Dissonanz  zwischen  den  immer  kompatiblen  Splits  eines  postiven 
+Buneman  Indexes  und  den  nicht  gezwungenermaßen  kompatiblen  Splits  eines 
+positiven Isolation Indexes erklärt sich nun die neue Definition einer schwachen 
+Kompatibilität. 
+
+Drei  Splits  sind  schwach  kompatibel,  falls  mindestens  eine  Schnittmenge 
+aus der Splits S={A,B}, T={C,D} und U={E,F} leer ist: 
+
+1
+
+{
+II∈∅≤
+
+EDBFCBFDAECA
+,
+}
+
+,
+
+,
+
+II
+
+II
+
+II
+
+Die wichtigsten Schlüsse die man nun aus dieser schwachen Kompatibilität  
+ziehen kann sind folgende: 
+
+•  Hat X n Elemente so ist die Anzahl der Splits mit positivem Isolation 
+
+Index maximal n(n-1)/2. 
+
+•  Diese können effizient berechnet werden. 
+•  Alle 4 der oben geforderten Ansprüche an ein derartiges Verfahren wird 
+
+genüge getan. 
+
+2.5  Von schwach kompatiblen Splits zu Netzwerken 
+Nachdem  man  nun  zu  einem  solchen  Satz  an  schwach  kompatiblen  Splits  den 
+jeweiligen  Isolation  Index  berechnet  hat  muss  man  eine  Möglichkeit  finden 
+diese  in  einem  gewichteten  Netzwerk  darzustellen.  Im  Allgemeinen  kann  dies 
+immer  unter  der  Verwendung  von  Median  Netzwerken  erreicht  werden,  bei 
+diesen  besteht  aber  das  Problem,  dass  sie  nicht  immer  auch  planar  sind  und 
+somit  schwer  zu  zeichnen.  Sofern  die  berechneten  Spilts  aber  zyklisch  sind 
+
+- 9 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+besteht  die  Möglichkeit  diese  in  einem  sogenannten  äußeren  Planaren 
+Netzwerk darzustellen. Diese Netzwerke sind es auch, die im Allgemeinen von 
+dem Programm SplitsTree erzeugt werden.  
+
+Die Menge der Splits eines gegebenen Sets an Taxa ist zyklisch, falls diese 
+auf einem Kreis so angeordnet werden können, dass sich jeder Split durch 
+eine Linie darstellen lässt 
+
+(Abb. 2.5) 
+
+Betrachtet man nun das in Abb. 2.5. dargestellt Beispiel so sieht man, dass jede 
+gepunktete Linien einen Split darstellt. Fügt man nun jedem, der in Teil A durch 
+eine  gepunktete  Linie  eingegrenzten  Bereiche,  einen  Knoten  hinzu  und 
+verbindet diese so kommt man zu Abb2.5B. Man sieht, dass Teil C nun schon 
+dem originalen Netzwerk das in Teil C abgebildet ist ähnelt, man erreicht dies 
+indem  man  die  Ecken  nun  leicht  anpasst,  so  dass  diese  parallel  zueinander 
+verlaufen. Die Methode die hier in diesem Beispiel verwendet wurde basiert auf 
+dem Prinzip der De Bruijn dualisation. 
+Ordnet man nun jeder Kante den Wert des ihres Splits entsprechenden Isolation 
+Indexes  zu  so  lässt  sich  aus  diesem  Gewichteten  Netzwerk  ein  repräsentativer 
+Wert der Distanz dN errechnen. Ist das mit Hilfe eines positiven Isolation Index 
+der  Splits  erzeugte  Netzwerk  zyklisch,  so  stellt  dN  einen  Näherungswert  der 
+wirklichen  Distanz  d  dar.  Die  verbleibende  Differenz  zwischen  d  und  dN  wird 
+als  split-prime-residue  (d-  dN)  bezeichnet  und  ist  genau  dann  0  falls  die 
+erzeugten dN der eigentlich errechneten d entsprechen. 
+Das  Maß  für  die  Genauigkeit  diese  Näherung  der  dN  an  d  wird  definiert  als  
+Fit Index: 
+
+fi
+
+=
+
+)(
+
+∑ −
+(
+dd
+∑
+
+N
+,(
+yxd
+
+,
+yx
+
+)
+
+)
+
+%100*
+
+ für alle x,y aus X 
+
+- 10 - 
+
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+3. Anwendung 
+
+3.1  Das SplitsTree Programm 
+Erhältlich  sind  mehrere  Versionen  von  SplitsTree,  die  aktuellste  Release 
+Version  3.2  ist  verfügbar  für  Win32  und  Unix.  Für  MacOS  ist  die  Version  2 
+verfügbar. Eine Java basierte Version 4 Namens Jsplits ist im Betastadium. Alle 
+Versionen sind verfügbar unter: 
+
+http://www-ab.informatik.uni-tuebingen.de/software/splits/ 
+
+Für  die  Version  3.2  für  Win32  wird  zudem  noch  die  TCL/TK  Erweiterung 
+TCL805.exe  benötigt.  Diese  ist  zu  finden  unter  http://www.scriptics.com. 
+Zudem  müssen  noch  die  Dateien  TCL80.dll  und  TK80.dll  in  den  SplitsTree 
+Ordner kopiert werden. 
+
+3.2  Beispiel: mtDNA Datensatz 
+
+(Abb. 3.1) 
+
+- 11 - 
+
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+Abb. 3.1 stellt einen mit SplitsTree erstellten Split Graphen dar, dessen Fit Index 
+wie  in  der  Statusleiste  angegeben  bei  79,2%  liegt.  D.h.  80%  der  angegebenen 
+Distanzen  sind  noch  korrekt  und  20%  der  Distanzen  weichen  von  ihrer 
+eigentlich  errechneten  Distanz  ab.  Man  kann  nun  leider  nicht  generell  sagen 
+welcher  Fit  Index  für  einen  SplitGraphen  gut  ist.  Erfahrungsgemäss  werden 
+Netzwerke die bei über 80% liegen als akzeptabel betrachtet. Bei Fit Indizes von 
+70%  und  weniger  kann  man  davon  ausgehen,  dass  zu  viele  verworfen  wurden 
+um  noch  ein  Netzwerk  darstellen  zu  können,  als  dass  man  das  Netzwerk  noch 
+verwenden könnte. 
+Man  darf  davon  ausgehen,  dass  bei  einem  hohen  Fit  Index  die  Ergebnisse 
+anderer  Methoden  die  auf  Entfernungen  basieren,  wie  z.B.  NJ,  sehr  ähnlich 
+aussehen würden. Im Folgenden sieht man in Abb3.2 den gleichen Datensatz an 
+Taxa, diesmal allerdings als Buneman Baum aufgebaut.  
+
+(Abb. 3.2) 
+
+- 12 - 
+
+ 
+ 
+  
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+3.3  Beispiel 2: HIV-1 Datensatz 
+
+(Abb. 3.3) 
+
+In  Abb.  3.3  nun  dargestellt  sieht  man  das  Netzwerk  der  aus  einem  HIV  Set 
+erstellt  wurde.  Das  Netzwerk  ist  zwar  zum  größten  Teil  baumartig  und  der  Fit 
+Index  von  88,2%  bestätigt  die  Korrektheit  der  Darstellung.  Im  Gegensatz  zum 
+ersten Beispielt tritt hier jedoch eine Ungenauigkeit im Netzwerk vor den Taxa 
+U27399 und U43368 auf. Des Weiteren ist der Zentrale Knoten mit einem Grad 
+von 6 auffällig. Dies lässt auf einen Konflikt der Daten schließen, so dass sich 
+dieser Knoten nicht weiter auflösen lässt. 
+Bei  den  bisherigen  beiden  Beispielen  wurde  nun  die  Distanz  schlicht  mit  der 
+Hamming  Methode  berechnet  welche  die  Anzahl  der  Unterschiede  zwischen 
+zwei Sequenzen als deren Entfernung ausgibt. 
+Es ist nun aber auch möglich schon im Voraus mit einer Methode berechneten 
+Distanzmatrizen in SplitsTree einzubinden und zu verwenden. Dazu müssen die 
+zu importierenden Daten lediglich im Nexus Dateiformat bereitgestellt werden.  
+
+- 13 - 
+
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+Wie  man  in  Abb.  3.4  leicht  erkennt  wurde  diese  nicht  aus  einem  baumartigen 
+Datenset erzeugt sondern aus HCV Daten (Allain et al. 2000) einer Studie über 
+die  Immunantwort  auf  Hepatitis  C.  Eine  baumartige  Darstellung  dieses 
+Netzwerkes wäre, im Gegensatz zur dieser Abbildung, nur unzureichend. Zumal 
+der Split Index von 96,3% auf eine nahezu korrekte Darstellung der errechneten 
+Distanzen  hinweist.  Man  kann  nun  das  dargestellte  Netzwerk  grob  in  drei 
+Einheiten  aufteilen.  Hierbei  wurde  die  mit  603  gekennzeichneten  Taxa  aus 
+einem  Donor  entnommen  und  die  mit  163  und  31  gekennzeichneten  aus  zwei 
+unterschiedlichen  Rezipienten.  Des  Weiteren  beachte  man  den  Knoten  der  mit 
+in  zweierlei  Weise 
+31/7,31/13  gekennzeichnet 
+beachtenswert.  Die  doppelte  Kennzeichnung  weist  darauf  hin,  dass  kein 
+Splitindex eines Splits gefunden wurde der diese zwei Taxa trennen würde. Die 
+Tatsache, dass dieser Knoten ein interner Knoten und kein Blatt ist deutet darauf 
+hin,  dass  es  sich  hierbei  um  einen  Vorfahr  der  an  den  Blättern  dieses 
+Teilnetzwerks vorhandenen Taxa handelt.- 
+
+ist.  Dieser 
+
+ist  gleich 
+
+Weitere Beispiele 
+zur  Analyse  von 
+Daten  findet  man 
+in  Dopaz  et  al. 
+(1993) 
+und 
+Nielst-
+Plikat, 
+und 
+Struwe 
+Meyerhans(1997)
+. 
+
+(Abb 3.4) 
+
+- 14 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+Quellenangaben: 
+
+Verwendete Abbildungen: 
+
+The Phylogenetic Handbook, M.Salemi, 
+A-M. Vandamme, Cambridge University Press, 2003 
+
+Verwendete Literatur: 
+
+The Phylogenetic Handbook, M.Salemi, 
+A-M. Vandamme, Cambridge University Press, 2003 
+
+Studienarbeit zum Vergleich prokaryotischer Gnome, 
+A. Auch, Uni Tübingen , 2003 
+
+- 15 - 
+
+ 
+ 
+ 
+ 
+ 
+