diff --git a/Masterarbeit_draft.typ b/Masterarbeit_draft.typ
index 00ed5f9..78490a4 100644
--- a/Masterarbeit_draft.typ
+++ b/Masterarbeit_draft.typ
@@ -2,7 +2,7 @@
 
 #let meta = (thesis.meta)(
   "KI-gestütztes Reverse Requirements Engineering bei Legacy-Software",
-  subtitle: "Masterarbeit an der Hochschule Neu-Ulm",
+  "Masterarbeit an der Hochschule Neu-Ulm",
   "Christoph Musterfrau",
   "Master of Science",
   "Prof. Dr. Daniel Schallmo",
@@ -24,18 +24,17 @@
 
 #pagebreak()
 
+#set heading(numbering: "1.1.1")
+
 #(thesis.body_show)()
 
 #(thesis.body_content)([
-  #set page(numbering: "roman")
-  #counter(page).update(1)
-  #heading(level: 1)[Inhaltsverzeichnis]
-  #outline(depth: 3)
+  #set page(numbering: "1")
+  #counter(page).update(1)  
+  #outline(depth: 2, title: "Inhaltsverzeichnis")
 
   #pagebreak()
-  #set page(numbering: "arabic")
-  #counter(page).update(1)
-
+  
   #heading(level: 1)[Einleitung]
   #heading(level: 2)[Motivation und Ausgangssituation]
   Beschreibe die Relevanz der Migration der c-entron ERP-Software.
diff --git a/Protokoll Reaktionskinetic.md b/Protokoll Reaktionskinetic.md
new file mode 100644
index 0000000..aa7e83d
--- /dev/null
+++ b/Protokoll Reaktionskinetic.md	
@@ -0,0 +1,92 @@
+# Protokoll des Versuchs Gaschromatographie
+
+## Reaktionskinetik
+
+### Versuchsdurchführung
+
+Vor dem Versuch wurde vom Betreuer die **Referenzlösung** bestehend aus  
+2650 µl Puffer, 100 µl Semicarbazid-HCl, 200 µl NAD und 10 µl GSH  
+in die Referenzküvette pipettiert und der Nullabgleich des Spektrometers durchgeführt.
+
+Wir führten **11 Enzymtests** durch.  
+Zunächst wurden 2500 µl Puffer, 100 µl Semicarbazid-HCl, 200 µl NAD, 10 µl GSH und 100 µl Ethanol-Testlösung gemischt und im Spektrometer temperiert. Danach wurde die entsprechende Menge Ethanol hinzugegeben — im ersten Versuch 0 µl und in den weiteren Versuchen jeweils 10 µl mehr. Das Gemisch wurde dann 240 s lang im Spektrometer gemessen.
+
+---
+
+## Auswertung 1
+
+| Ethanol [µl] | n [µmol] | Vges [ml] | cs [mmol/l] | 1/cs [l/mmol] |
+|---------------|-----------|------------|--------------|---------------|
+| 0 | 0,00 | 2,96 | 0,00 | ∞ |
+| 10 | 173,28 | 2,96 | 58,54 | 0,0171 |
+| 20 | 346,56 | 2,96 | 117,08 | 0,0085 |
+| 30 | 519,84 | 2,96 | 175,62 | 0,0057 |
+| 40 | 693,12 | 2,96 | 234,16 | 0,0043 |
+| 50 | 866,40 | 2,96 | 292,70 | 0,0034 |
+| 60 | 1039,68 | 2,96 | 351,24 | 0,0028 |
+| 70 | 1212,96 | 2,96 | 409,78 | 0,0024 |
+| 80 | 1386,24 | 2,96 | 468,32 | 0,0021 |
+| 90 | 1559,52 | 2,96 | 526,86 | 0,0019 |
+| 100 | 1732,80 | 2,96 | 585,40 | 0,0017 |
+
+*Tabelle 1: Messprotokoll I*
+
+---
+
+| Ethanol [µl] | ΔE/Δt (min⁻¹) | v₀ (µmol l⁻¹ min⁻¹) | 1/v₀ (l min µmol⁻¹) | v₀/cs (10⁻³ min⁻¹) |
+|---------------|----------------|---------------------|---------------------|--------------------|
+| 0 | 0,0084 | 0,00026 | 3846,15 | ∞ |
+| 10 | 0,0101 | 0,00034 | 1515,15 | 0,000002 |
+| 20 | 0,1926 | 0,00554 | 180,50 | 0,000019 |
+| 30 | 0,4092 | 0,01148 | 87,10 | 0,000027 |
+| 40 | 0,4385 | 0,01196 | 83,61 | 0,000022 |
+| 50 | 0,6109 | 0,01683 | 59,41 | 0,000024 |
+| 60 | 0,6084 | 0,01665 | 60,06 | 0,000020 |
+| 70 | 0,6593 | 0,01817 | 55,03 | 0,000018 |
+| 80 | 0,6354 | 0,01738 | 57,53 | 0,000016 |
+| 90 | 0,7997 | 0,02272 | 44,01 | 0,000017 |
+| 100 | 0,8794 | 0,02440 | 40,98 | 0,000017 |
+
+*Tabelle 2: Messprotokoll II (ΔE/Δt durch lineare Regression bestimmt)*
+
+---
+
+## Auswertung 2 – Lineweaver-Burk
+
+- Steigung: m = 0,00000965 × 10⁻³ min⁻¹  
+- Achsenabschnitt: b = 0,00288 µmol/l  
+- KM = 0,0033 mmol/l  
+- v₀,max = 347,22 l min/µmol  
+
+---
+
+## Auswertung 3 – Eadie-Hofstee
+
+- Steigung: m = −861,76 × 10⁻³ min⁻¹  
+- Achsenabschnitt: b = 0,37 µmol l⁻¹ min⁻¹  
+- KM = 861,76 mmol l⁻¹  
+- v₀,max = b  
+
+---
+
+## Auswertung 4 – Michaelis-Menten
+
+- KM = 0,015  
+- v₀,max = 0,03  
+
+Die Michaelis-Menten-Auftragung ist sehr einfach, da die maximale Geschwindigkeit und die Konstante direkt aus der Formel abgelesen werden können. Diese Methode ist genauer und erfordert kaum Rechenzeit.
+
+Bei Lineweaver-Burk und Eadie-Hofstee werden die Werte mithilfe von Ausgleichsgeraden bestimmt. Da die Geraden unterschiedlich (linear oder logarithmisch) aufgetragen werden können, ergeben sich abweichende Werte. Zudem können durch ungenaues Ablesen Rundungsfehler entstehen.
+
+---
+
+## Auswertung 5 – Temperaturabhängigkeit
+
+Die Geschwindigkeitskonstante *k* hängt exponentiell von der Umgebungstemperatur *T* ab:
+
+\[
+k = k_0 \, e^{-\frac{E_A}{RT}}
+\]
+
+Diese Konstante beeinflusst die Michaelis-Menten-Gleichung, welche wiederum die Reaktionsgeschwindigkeit bestimmt. Eine Temperaturänderung führt also zu einer Änderung der Reaktionsgeschwindigkeit.  
+Damit die Temperatur während des Versuchs konstant bleibt, wird die Lösung **vor Beginn temperiert**. So hängt die Reaktionsgeschwindigkeit nur noch von der Änderung der Stoffmenge ab.
diff --git a/StilVorlagen/Ausarbeitung.md b/StilVorlagen/Ausarbeitung.md
new file mode 100644
index 0000000..ae83a3c
--- /dev/null
+++ b/StilVorlagen/Ausarbeitung.md
@@ -0,0 +1,29 @@
+Einleitung
+
+Unsere Aufgabe bestand darin Die beiden Protein 1HVR und 1AZM mit ihren Liganden mit Hilfe von Autodock 3.0 zu docken und die Ergebnisse mit den vorhandenen Kristallstrukturanalysen zu vergleichen. Hierzu haben wir die entsprechenden pdb Files von www.pdb.org verwendet. Diese mussten um korrekte Ergebnisse zu erzielen vor dem docken vorbereitet werden. Dazu zählt das Entfernen von freien Wassermolekülen um das Protein und die Entfernung der apolaren Wasserstoffe; die polaren dienen zur Berechnung der WBB. (genaueres siehe einzelne Proteine). 
+Über Autodock
+Für die einzelnen Dockingläufe wurde Autodock 3.0  von 1998 verwendet. Die Energiefunktion von Autodock 3.0 lautet:
+
+
+Hierin sind Berücksichtigt:
+* H-Brücken
+* vdW-Wechselwirkungen
+* Elektrostatik
+* Entropie aus internen FG des Liganden
+* Solvatationsbeiträge
+
+Das besondere an Autodock ist nun dass diese Energiefunktion nicht zur Laufzeit des Dockings sondern schon im Voraus berechnet wird. Um die Berechnung zu beschleunigen wird zudem ein diskretes Gitter Über die Bindungsstelle gelegt und die Energien nun für die Einzelnen Gitterpunkte berechnet. Zum docken liegen nun schon alle Energien berechnet vor so dass diese nur noch ausgelesen werden müssen. Der größte Nachteil hierbei ist ein großer Speicherverbrauch da pro Atomtyp/Wechselwirkung Ein Gitter angelegt wird.
+Das eigentliche Docking erfolg nun über einen Lamarckschen genetischen Algorithmus bei dem die Ligandenkonformation als Chromosome kodiert sind. Jedes Individuum besitzt hierbei 3 Gene für Translation 4für Rotation und je ein Gen pro interner Torsion.
+Docking von 1HVR
+Über 1HVR
+1HVR ist eine Protease des HIV-1 die eine große Rolle in der Reifung neuer Viren spielt. Die Inhibierung dieser Protease führt zur Bildung nichtinfektiöser Viren. Daher ist 1HVR ein attraktives Ziel zur Bekämpfung von AIDS.
+
+Vorbereitung 
+Wie in der Einleitung bereits erwähnt liegt der Enzym-Substrakt-Komplex bereits durch Röntgenstrukturanalyse als pdb Datei vor. Diese Datei musste nun vor dem Docking von freien Wassermolekülen bereinigt werden um keine Verzerrung der Ergebnisse zu erzielen. Des weiten mussten alle unpolaren Wasserstoffe entfernt und alle noch fehlenden polaren Wasserstoffe hinzugefügt werden um eine korrekte Berechnung der Wasserstoffbrücke zu erreichen. Anschließen musste noch die Größe und Auflösung des Gittes um die Bindungsstelle angegeben werden 
+
+Docking
+Erster Schritt des Dockings mit Autodock 3.0 ist die Berechnung der Energiegitter mit Hilfe der Energiefunktion. Anschließen wird auf Grundlage dieser Energiegitter gedockt. Ein kompletter durchlauf mit 20 Wiederholungen dauerte ca. 5 Minuten.
+
+Ergebnis
+Der beste dieser Läufe lag mir einem rmsd von 0.42 sehr nahe an der schon vorliegenden Struktur.(Siehe Abb.)
+
diff --git a/StilVorlagen/Ausarbeitung.zip b/StilVorlagen/Ausarbeitung.zip
new file mode 100644
index 0000000..5e185a7
Binary files /dev/null and b/StilVorlagen/Ausarbeitung.zip differ
diff --git a/StilVorlagen/DIL_M4_Study Paper_Schwörer_Führung und Schlüsselqualifikation.md b/StilVorlagen/DIL_M4_Study Paper_Schwörer_Führung und Schlüsselqualifikation.md
new file mode 100644
index 0000000..e3e8fdd
--- /dev/null
+++ b/StilVorlagen/DIL_M4_Study Paper_Schwörer_Führung und Schlüsselqualifikation.md	
@@ -0,0 +1,838 @@
+Self Leadership: 
+Wer bin ich - und wenn ja, wieviele? 
+
+Autor: Christoph Schwörer 
+
+Datum 17.05.2024 Title 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Inhalt 
+
+Einleitung .................................................................................................................... 3 
+
+Theoretischer Hintergrund .......................................................................................... 4 
+
+Messinstrumente ..................................................................................................... 4 
+
+Merkmale Psychologischer Tests ........................................................................ 4 
+
+Die „Big 5“ ........................................................................................................... 5 
+
+Motive .................................................................................................................. 6 
+
+Das „Emotional Intelligence Inventar“ (EI4) ......................................................... 8 
+
+Methodik und Testdurchführung ............................................................................... 10 
+
+Testergebnisse ......................................................................................................... 12 
+
+Diskussion ................................................................................................................ 15 
+
+Fazit und Ausblick ..................................................................................................... 16 
+
+Literaturverzeichnis .................................................................................................. 17 
+
+Ehrenwörtliche Erklärung .......................................................................................... 18 
+
+2/18 
+
+ 
+ 
+ 
+ 
+ 
+Einleitung 
+
+„Wer  bin  ich  –  Und  wenn  ja,  wie  viele?“  Diese  Frage  stellt  der  deutsche  Philosoph 
+
+David Rupert Precht in seinem gleichnamigen Buch. Um diese Frage eingehend zu 
+
+klären, müssen wir uns selbst beobachten und damit in Einklang bringen wie andere 
+
+uns Wahrnehmen uns Bewerten. Je besser wir darin sind diese zwei Perspektiven in 
+
+Einklang zu bringen, desto erfolgreicher sind wir im privaten und auch im beruflichen 
+
+Leben. Die wissenschaftliche Disziplin, die sich mit diesem Thema beschäftigt nennt 
+
+sich Self-Leadership oder im deutschen Selbstführung und setzt sich zusammen aus 
+
+Konzepten des Managements und der Psychologie. Sie beschreibt unsere Fähigkeit 
+
+sich selbst zu bewerten, zu führen, sich Ziele zu setzen und sich selbst zu motivieren. 
+
+Seit der Prägung des Begriffs Self Leadership im Jahr 1983 durch Charles C. Manz in 
+
+seinem Buch "The Art of Self-Leadership: Strategies for Personal Effectiveness in your 
+
+Life and Work" wurde er stetig weiterentwickelt.  
+
+Wie  aber  bewertet  man  sich  selbst  richtig.  Hierbei  ist  es  wichtig  zu  wissen  nach 
+
+welchen  Kriterien  und  Merkmalen  man  sich  selbst  bewertet.  Bereits  in  den  1930er 
+
+Jahren  begannen  Gordon  Allport  und  Henry  Odbert  mit  der  Forschung  zur 
+
+Klassifizierung  von  Persönlichkeitsmerkmalen.  Diese  Forschung  setzte  sich  fort,  bis 
+
+sie  in  den  1980er  Jahren  im  Big5  Modell  mündete.  Dieses  Modell  beschreibt  5 
+
+Kernelemente  eine  Persönlichkeit:  Offenheit  für  Erfahrungen,  Gewissenhaftigkeit, 
+
+Extraversion, Verträglichkeit und Neurotizismus. Den Eigenschaften gemein ist, dass 
+
+sie gut messbar und sehr stabil sind. Das heißt sie schwanken nicht mit der Tagesform 
+
+und bleiben in ihrer Ausprägung über lange Jahre gleich beständig. 
+
+Eine  weitere  Möglichkeit  einen  Charakter  zu  bewerten  ist  über  seine  Emotionale 
+
+Intelligenz. In seinem Buch "Emotional Intelligence: Why It Can Matter More Than IQ" 
+
+(1995)  beschreibt  Daniel  Goleman  die  fünf  Hauptkomponenten  der  Emotionalen 
+
+Intelligenz:  Selbstwahrnehmung,  Selbstregulation,  Selbstmotivation,  Empathie  und 
+
+soziale Fähigkeiten. 
+
+Um sich selbst zu bewerten, genügt somit ein standardisierter Test jeweils für die Big 
+
+5 und zur emotionalen Intelligenz. Die Beantwortung der eingehenden Frage „Wer bin 
+
+ich – Und wenn ja, wie viele?“ bleibt aber noch aus. Denn vor allem die Frage „Wie 
+
+viele?“ zielt nach Ansicht des Autors auf eine weiter greifende Frage. Zeigt eine Person 
+
+in  verschiedenen  sozialen  Umfeldern  oder  Rollen  auch  unterschiedlich  starke 
+
+3/18 
+
+ 
+ 
+Ausprägungen von Charaktereigenschaften. Und wie stark variieren hierbei die Selbst- 
+
+und die Fremdwahrnehmung voneinander. Um diese Frage zu beantworten, stellt sich 
+
+der Autor dem Selbstexperiment und bewertet sich selbst in seiner privaten Rolle als 
+
+Familienvater  aber  auch  in  seiner  beruflichen  Rolle  als  Führungskraft.  Ergänz  wird 
+
+diese Selbstbewertung um eine Fremdbewertung jeweils aus der Familie und aus dem 
+
+Arbeitsumfeld. 
+
+Theoretischer Hintergrund 
+
+Messinstrumente 
+
+Psychologische  Tests  sind  standardisierte  wissenschaftliche 
+
+Instrumente,  die 
+
+verwendet  werden,  um  verschiedene  psychologische  Merkmale,  wie  Fähigkeiten, 
+
+Persönlichkeitseigenschaften, Einstellungen und Verhaltensweisen, zu messen. Diese 
+
+Tests  sind  so  konzipiert,  dass  sie  valide  und  reliable  Ergebnisse  liefern,  die  es 
+
+ermöglichen, objektive und vergleichbare Daten zu erheben.  
+
+Merkmale Psychologischer Tests 
+
+Um aussagekräftige und zuverlässige Ergebnisse zu liefern, müssen psychologische 
+
+Tests bestimmte Merkmale aufweisen [Leong, Bartram (2016); The ITC International 
+
+Handbook of Testing and Assessment] 
+
+Standardisierung 
+
+Die Durchführung der Tests erfolgt unter einheitlichen Bedingungen, um Verzerrungen 
+
+zu  minimieren  und  die  Vergleichbarkeit  der  Ergebnisse  zu  gewährleisten.  Dies 
+
+beinhaltet  gleiche 
+
+Instruktionen,  Testmaterialien  und  Zeitvorgaben 
+
+für  alle 
+
+Testpersonen. 
+
+Validität 
+
+Ein Test ist valide, wenn er tatsächlich das misst, was er zu messen vorgibt. Arten der 
+
+Validität  umfassen  Inhaltsvalidität  (umfasst  das Testmaterial das  gesamte  Spektrum 
+
+des  zu  messenden  Konstrukts?),  Konstruktvalidität 
+
+(misst  der  Test  das 
+
+4/18 
+
+ 
+ 
+ 
+ 
+zugrundeliegende theoretische Konstrukt?) und Kriteriumsvalidität (sagt der Test ein 
+
+relevantes externes Kriterium vorher?). 
+
+Reliabilität 
+
+Die Reliabilität eines Tests bezieht sich auf seine Zuverlässigkeit und Konsistenz. Ein 
+
+reliabler  Test  liefert  bei  wiederholter  Durchführung  unter  gleichen  Bedingungen 
+
+ähnliche Ergebnisse. Dies umfasst interne Konsistenz (wie gut die einzelnen Testitems 
+
+zusammenhängen), Retest-Reliabilität (Stabilität der Testergebnisse über die Zeit) und 
+
+Interrater-Reliabilität (Übereinstimmung zwischen verschiedenen Beurteilern). 
+
+Objektivität 
+
+Ein  Test  ist  objektiv,  wenn  seine  Durchführung,  Auswertung  und  Interpretation 
+
+unabhängig  vom  Testleiter  sind.  Dies  stellt  sicher,  dass  die  Ergebnisse  nicht  durch 
+
+subjektive Einflüsse verzerrt werden. 
+
+Die „Big 5“ 
+
+Auch Ocean Model genannt. Im Folgenden werden die 5 Zentralen Dimensionen der 
+
+Persönlichkeitsforschung (Offenheit, Gewissenhaftigkeit, Extraversion, Verträglichkeit 
+
+und Neurotizismus), auch Faktoren genannt, genauer erklärt. 
+
+Offenheit für Erfahrungen (engl. Openness) 
+
+Dieser  Faktor  beschreibt  die  Neigung  einer  Person  offen  gegenüber  neuen 
+
+Erfahrungen  und 
+
+Ideen  zu  sein  und  kreative  Lösungen  zu  erarbeiten.  
+
+Personen  mit  einem  hohen  Wert  an  Offenheit  werden  häufig  als  wissbegierig, 
+
+intellektuell, fantasievoll, neugierig oder aufgeschlossen beschrieben. Eine Vorliebe für 
+
+Kunst,  Literatur  und  Musik  wird 
+
+in 
+
+(Schwaba  et  al,  2018)  beschrieben.  
+
+Personen  mit  einem  niedrigen  Wert  an  Offenheit  neigen  dagegen  zu  konservativen 
+
+Einstellungen und werden oft als pragmatisch oder engstirnig beschrieben. 
+
+Gewissenhaftigkeit (engl. Conscientiousness) 
+
+Dieser  Faktor  beschreibt  die  Tendenz  einer  Person  selbst-diszipliniert,  selbst-
+
+organisiert zu sein. Er beschreibt den Grad an Selbstkontrolle und Zielstrebigkeit einer 
+
+Person.  Personen  mit  hohen  Werten  an  Gewissenhaftigkeit  werden  häufig  als 
+
+organisiert,  zuverlässig,  sorgfältig  und  effektiv  beschrieben.  Personen  mit  niedrigen 
+
+5/18 
+
+ 
+ 
+ 
+Werten  an  Gewissenhaftigkeit  fallen  häufig  durch  spontanes  Verhalten  auf  können 
+
+aber auch flexibler sein. 
+
+Extraversion (engl. Extraversion) 
+
+Dieser Faktor beschreibt die Fähigkeit von Personen aktiv auf andere zuzugehen mit 
+
+ihnen zu kommunizieren und sich durchsetzen zu können. Personen mit einem hohen 
+
+Wert  an  Extraversion  werden  als  kontaktfreudig,  gesellig,  heiter,  aber  auch 
+
+durchsetzungsstark  beschrieben.  Das  Gegenteil  der  Extraversion  ist  hierbei  die 
+
+Intraversion.  Personen  mit  einem  niedrigen Wert an  Extraversion  (respektive hohen 
+
+Wert  an 
+
+Introversion)  wirken  daher  eher  nachdenklich,  verschlossen  und 
+
+zurückhaltend. 
+
+Verträglichkeit (engl. Agreeableness) 
+
+Dieser Faktor beschreibt, wie gut sich eine Person in einem sozialen Umfeld bewegen 
+
+und eingliedern kann. Personen mit hohen Werten an Personen mit einem Hohen Wert 
+
+an  Verträglichkeit  werden  häufig  als  anerkennen,  verständnisvoll,  kooperativ  und 
+
+wertschätzend beschrieben. Sie sind allgemein gute Team-Player. Personen mit einem 
+
+niedrigen Wert an Verträglichkeit sind häufig kritisch, unfreundlich oder streitsüchtig. 
+
+Neurotizismus (engl. Neuroticism) 
+
+Das Gegenteil dieses Faktors wir im deutschen auch Emotionale Stabilität genannt. Er 
+
+beschreibt, wie stark ein negatives Ereignis eine Person emotional beeinflussen kann. 
+
+Personen  mit  einem  hohen  Wert  an  Neurotizismus  sind  oft  angespannt,  nervös, 
+
+unsicher  und  haben  Schwierigkeiten  in  Stresssituationen.  Personen  mit  einem 
+
+niedrigen  Wert  an  Neurotizismus  sind  ich  sich  selbst  gefestigt  und  wirken  ruhig, 
+
+zufrieden und sicher. 
+
+Motive 
+
+Die Motivationspsychologie versucht die unterschiedlichen Bedürfnisse und Antriebe 
+
+von Individuen erklären. Diese Motive beeinflussen, wie Menschen ihre Ziele setzen 
+
+und  verfolgen  sowie  wie  sie  in  verschiedenen  sozialen  und  beruflichen  Kontexten 
+
+handeln. Im Folgenden werden die 3 wesentlichen Motive näher beschrieben. 
+
+Machtmotiv  
+
+Das Machtmotiv bezieht sich auf das Bedürfnis eines Individuums, Einfluss auf andere 
+
+auszuüben, Kontrolle über Ressourcen zu haben und eine dominante Rolle in sozialen 
+
+oder beruflichen Beziehungen zu spielen. (McClelland, 1987) 
+
+6/18 
+
+ 
+ 
+Merkmale des Machtmotivs sind: 
+
+•  Der Wunsch nach Einfluss und Kontrolle über andere 
+
+•  Das Streben nach Führungspositionen und Entscheidungsbefugnissen 
+
+•  Die Suche nach Anerkennung und Status 
+
+•  Die Tendenz, Herausforderungen und Wettbewerb zu suchen 
+
+Leistungsmotiv 
+
+Das Leistungsmotiv bezieht sich auf das Bedürfnis eines Individuums, hohe Standards 
+
+zu  erreichen,  Exzellenz  in Tätigkeiten  zu  zeigen  und  durch  persönliche  Fähigkeiten 
+
+und Anstrengungen erfolgreich zu sein. (Murray, 1938) 
+
+•  Merkmale des Leistungsmotivs sind: 
+
+•  Das Streben nach Exzellenz und Perfektion 
+
+•  Der Wunsch, anspruchsvolle Ziele zu setzen und zu erreichen 
+
+•  Die Freude an der Bewältigung von Herausforderungen 
+
+•  Die  Präferenz  für Aufgaben,  die durch persönliches  Wissen  oder Fähigkeiten 
+
+erfüllt werden können 
+
+Sicherheitsmotiv 
+
+Das Anschlussmotiv bezieht sich auf das Bedürfnis eines Individuums nach sozialen 
+
+Beziehungen, Zugehörigkeit und positiver sozialer Interaktion. (McClelland, 1987) 
+
+•  Merkmale des Sicherheitsmotivs sind: 
+
+•  Der Wunsch nach freundschaftlichen und harmonischen Beziehungen 
+
+•  Das Bedürfnis nach sozialer Anerkennung und Akzeptanz 
+
+•  Die Freude an gemeinschaftlichen Aktivitäten und Zusammenarbeit 
+
+•  Die Tendenz, Konflikte zu vermeiden und Kooperation zu fördern 
+
+7/18 
+
+ 
+ 
+ 
+ 
+ 
+Das „Emotional Intelligence Inventar“ (EI4) 
+
+In  seinem  Buch  "Emotional  Intelligence:  Why  It  Can  Matter  More  Than  IQ"  (1995) 
+
+beschreibt Daniel Goleman die fünf Hauptkomponenten der Emotionalen Intelligenz: 
+
+Selbstwahrnehmung,  Selbstregulation,  Selbstmotivation,  Empathie  und  soziale 
+
+Fähigkeiten. Basierend auf diesen Eigenschaften entwickelt Lars Satow in einem Test 
+
+Emotional Intelligence Inventar (EI4) die folgenden 4 testbaren Bereiche Emotionaler 
+
+Intelligenz. 
+
+Einfühlungsvermögen 
+
+Einfühlungsvermögen  oder  Empathie  ist  ein  zentraler  Bestandteil  der  emotionalen 
+
+Intelligenz  und  umfasst  die  Fähigkeit,  die  Emotionen  und  Perspektiven  anderer 
+
+Menschen zu verstehen und sich in diese hineinzuversetzen. Damit einhergehend ist 
+
+die Fähigkeit angemessen darauf zu reagieren und so die Kommunikation zu fördern 
+
+und Konfliktlösung und Zusammenarbeit zu fördern. Eine der grundlegenden Quellen 
+
+zur Erforschung der emotionalen Intelligenz, einschließlich Empathie, ist das Buch von 
+
+Daniel Goleman, „Emotional Intelligence: Why It Can Matter More Than IQ“ (1995). 
+
+Menschenkenntnis 
+
+Menschenkenntnis  ist  die  Operationalisierung  des  Einfühlungsvermögens  auf  der 
+
+kognitiven Ebene. Es beschreibt die Fähigkeit die Charaktereigenschaften, Motive und 
+
+Ziele anderer Menschen richtig zu verstehen und daraus ihre Handlungen abzuleiten 
+
+oder  vorherzusagen.  Menschenkenntnis  ist  keine  inhärent  angeborene  Fähigkeit, 
+
+sondern wird im Laufe des Lebens erlernt und verbessert. 
+
+Überzeugungskraft 
+
+Überzeugungskraft bezieht sich auf die Fähigkeit, andere Menschen durch effektive 
+
+Kommunikation,  Charisma  und  emotionale  Interaktion  zu  beeinflussen  und  zu 
+
+überzeugen. Diese Fähigkeit ermöglicht es einer Person, ihre Ideen und Standpunkte 
+
+klar  und  überzeugend  darzulegen  und  andere  zu  motivieren,  ihre  Sichtweise  zu 
+
+akzeptieren oder bestimmten Handlungen zu folgen. 
+
+Emotionale Selbstkontrolle 
+
+Emotionale Selbstkontrolle beschriebt sich auf die Fähigkeit, die eigenen Emotionen 
+
+bewusst  zu  regulieren  und  zu  steuern,  um  angemessen  und  konstruktiv  auf 
+
+verschiedene  Situationen  zu  reagieren.  Diese  Fähigkeit  ermöglicht  es,  impulsive 
+
+8/18 
+
+ 
+ 
+Reaktionen  zu  vermeiden,  stressige  Situationen  zu  bewältigen  und  nach  außen  hin 
+
+ruhig zu wirken, um die eigenen Ziele zu verfolgen. 
+
+9/18 
+
+ 
+ 
+ 
+ 
+Methodik und Testdurchführung 
+
+In  diesem  Kapitel  wird  die  Methodik  und  Durchführung  der  Big  Five 
+
+Persönlichkeitsmerkmale und des Emotional Intelligence Inventory (EI4) Tests sowohl 
+
+aus  Eigenperspektive  als  auch  aus  Fremdperspektive  beschrieben.  Ziel  ist  es,  ein 
+
+umfassendes  Verständnis  der  Vorgehensweise  bei  der  Erhebung  dieser 
+
+psychologischen Maße zu vermitteln. 
+
+Zur Durchführung der Big 5 und IE4 Tests sollen allgemein anerkannte Tests mit einer 
+
+großen Gesamtstichprobe verwendet werden. Die Auswahl fällt hierbei auf die Tests 
+
+von Dr. Lars Satow (2011) 
+
+Testumfang 
+
+Der „Big 5“-Test von Dr. Satow beinhaltet einen Fragebogen mit 72 Fragen die mit 4 
+
+möglichen Antworten auf einer Skala von 1 (Trifft gar nicht zu) bis 4 (trifft genau zu) 
+
+beantwortet werden können. Es kann jeweils nur eine Antwort angekreuzt werden. Das 
+
+Ergebnis  des  Tests  sind  Werte  für  die  Big  5  (Neurotizismus,  Extraversion, 
+
+Gewissenhaftigkeit,  Offenheit,  und  Verträglichkeit)  sowie  den  damit  verbundenen 
+
+Motiven (Leistungsmotiv, Machtmotiv und Anschlussmotiv). Zudem wird ein Wert für 
+
+die  Ehrlichkeit  bei  der  Beantwortung  und  eine  die  damit  verbundene  Plausibilität 
+
+ausgegeben.  
+
+Für den IE4 Test stehen 28 Fragen zu Auswahl die jeweils auf einer Skala von 1 – 4 
+
+beantwortet  werden.  Als  Ergebnis  werden  Werte 
+
+für  Einfühlungsvermögen, 
+
+Menschenkenntnis, Überzeugungskraft und Emotionale Selbstkontrolle ausgegeben., 
+
+Zur Durchführung beider Tests gelten folgende Kriterien: 
+
+•  Die  Tests  dürfen  nur  von  Erwachsenen  Personen  älter  als  16  Jahren 
+
+durchgeführt werden. 
+
+•  Die  Teilnehmer  sollten  ausgeruht  sein  und  dürfen  nicht  unter  Einfluss 
+
+Bewusstseinsverändernder Drogen oder Medikamente stehen. 
+
+•  Zur Durchführung der Tests werden die Testbögen in 10-20 Minuten durch den 
+
+Testteilnehmer möglichst spontan beantwortet. 
+
+•  Die  Teilnehmer  sollten  ungestört  und  ohne  äußeren  Einfluss  die  Fragen 
+
+beantworten. 
+
+10/18 
+
+ 
+ 
+Testdurchführung 
+
+Um  der  Frage  nachzugehen,  ob  sich  Selbst-  und  Fremdwahrnehmung  sowie  die 
+
+Bewertung im Kontext verschiedener sozialer Rollen sich voneinander unterscheiden 
+
+werden 4 Tests durchgeführt. 
+
+1.  Selbstwahrnehmung  
+
+2.  Fremdwahrnehmung aus Sicht eines Familienmitglieds 
+
+3.  Fremdwahrnehmung aus Sicht eines weiteren Familienmitglieds 
+
+4.  Fremdwahrnehmung aus Sicht des Vorgesetzen auf der Arbeitsstelle 
+
+Alle Tests wurden nach den im vorigen Absatz beschriebenen Kriterien durchgeführt, 
+
+um  ein  möglichst  genaues  Ergebnis  zu  erhalten  und  eine  Einflussnahme  des 
+
+Testsubjekts bei der Fremdwahrnehmung auszuschließen.  
+
+11/18 
+
+ 
+ 
+ 
+ 
+ 
+Testergebnisse  
+In diesem Kapitel werden die Ergebnisse zu den „Big 5“ und „EI4“ – Test dargestellt 
+
+und  beschrieben.  Zur  kompakteren  Darstellung  wurden  die  Ergebnisse  kumuliert 
+
+untereinander in einer Tabelle dargestellt. 
+
+Big 5 
+
+In Abb. 1 sind die Testergebnisse aller durchgeführten Tests zu den Big 5 dargestellt. 
+
+Wie man erkennt, liegen die Ergebnisse der Fremdwahrnehmung je Merkmal jeweils 
+
+in  einem  Cluster  mit  einer  maximalen  Abweichung  von  2  Graden  zur 
+
+Selbstwahrnehmung. Lediglich beim Merkmal „Extraversion“ gibt es eine Abweichung 
+
+von 3 Graden. 
+
+Die Mittlere Abweichung von der Selbstwahrnehmung stellt sich wie folgt dar: 
+
+N 
+0,67 
+
+E 
+1,67 
+
+C 
+1,00 
+
+O 
+0,67 
+
+A 
+0,33 
+
+LM 
+0,67 
+
+MM 
+0,67 
+
+SM 
+0,67 
+
+Ø 
+0,79 
+
+Eigenschaft / Motiv 
+Mittlere Abweichung 
+Selbstwahrnehmung 
+
+EI4 
+
+In Abb. 2 sind die Testergebnisse aller durchgeführten Tests zum EI4 dargestellt. Auch 
+
+hier  liegen  die  Ergebnisse  der  Selbstwahrnehmung  und  der  Fremdwahrnehmung 
+
+innerhalb  eines  Intervalls  von  2  Graden  um  die  Selbstwahrnehmung.  Die  einzige 
+
+Abweichung ist im Bereich „Überzeugungskraft“ mit einer Abweichung von 3 Graden 
+
+zu sehen. 
+
+Die Mittlere Abweichung von der Selbstwahrnehmung stellt sich wie folgt dar: 
+
+Eigenschaft / Motiv 
+Mittlere Abweichung 
+Selbstwahrnehmung 
+
+EM 
+0,67 
+
+Mk 
+0,33 
+
+Ue 
+1,00 
+
+eS 
+1,00 
+
+Ø 
+0,75 
+
+12/18 
+
+ 
+ 
+ 
+ 
+ 
+Abbildung 1: Ergebnisse Big 5 Tests 
+
+13/18 
+
+ 
+ 
+ 
+Abbildung 2: Ergebnisse EI4 Tests 
+
+14/18 
+
+ 
+ 
+ 
+ 
+ 
+Diskussion 
+
+In  diesem Abschnitt  werden  die  Ergebnisse  des  Big  Five  Persönlichkeitsmerkmale-
+
+Tests  und  des  Emotional  Intelligence  Inventory  (EI4)  Tests  ausgewertet  und 
+
+interpretiert. Der Fokus liegt dabei auf den durchschnittlichen Abweichungen zwischen 
+
+Selbst- und Fremdwahrnehmung sowie deren Implikationen. 
+
+Die  beim  Big  5  Test  Ausgewerteten  Ergebnisse  liegen  bei  der  Durchschnittlichen 
+
+Abweichungen  zwischen  Selbst-  und  Fremdwahrnehmung  unter  1  Punkt  und  somit 
+
+sehr  nahe  beieinander.  Daraus  lassen  sich  zwei  Aussagen  treffen.  Erstens,  Die 
+
+bewertete  Person  hat  eine  starke Ausprägung  der  „Öffentlichen  Person“  nach  dem 
+
+JoHari-Fenster  [Luft,  Ingram  (1955)].  Das  heißt  die  verfügbaren  Informationen  im 
+
+„öffentlichen Raum“ sind allen Testteilnehmern so gut bekannt, dass die Fragen alle 
+
+weitestgehend gleich beantwortet werden konnten. Die zweite Aussage ist, dass die 
+
+getestete Person auch in verschiedenen sozialen Umfeldern (Arbeit / zu Hause) gleich 
+
+bewertet  wird.  Die  getestete  Person  zeigt  also  in  den  verschiedenen  Umfeldern 
+
+dennoch immer die gleichen Charaktereigenschaften. Die eingängliche These, dass 
+
+eine Person in verschiedenen Sozialen Umfeldern unterschiedliche Ausprägungen der 
+
+einzelnen  Charaktereigenschaften  zeigt,  konnte  mit  diesem  Test  also  nicht 
+
+nachgewiesen  werden.  Es  zeigt  sich  sogar,  dass  die  Charaktereigenschaften  sehr 
+
+stabil sind und nicht schwanken. 
+
+Auch die Ergebnisse des Emotional Inventory 4 bestätigen dieses Bild, Denn auch hier 
+
+liegen 
+
+die 
+
+durchschnittlichen 
+
+Abweichungen 
+
+zwischen 
+
+Selbst- 
+
+und 
+
+Fremdwahrnehmung unter 1 Punkt. Dies deutet auf eine stabile Emotionale Basis die 
+
+die  Selbstwahrnehmung  bestimmt  sowie  eine  gute  Kommunikation  der  Emotionen 
+
+nach außen so, dass sich die Fremdwahrnehmung mit den tatsächlich empfundenen 
+
+Emotionen deckt. 
+
+15/18 
+
+ 
+ 
+ 
+ 
+Fazit und Ausblick 
+
+Die Frage „Wer bin ich, und wenn ja wie viele?“ die darauf hinauszielen soll, dass man 
+
+sich als Person in verschiedenen Umfeldern auch unterschiedlich verhält kann nach 
+
+dieser Studie  nur mit  „Man  ist,  wer  man  ist“ beantwortet  werden.  Konkret  zeigt  sich 
+
+dies in der sehr geringen Schwankung der Ergebnisse bei der Charaktereigenschaft 
+
+der Big5 oder auch der Emotionalen Komponenten im Emotional Inventory 4 zwischen 
+
+privatem und beruflichem Umfeld.  
+
+Bezogen auf das Thema „Self-Leadership“ sollte man sich also darüber im Klaren sein, 
+
+dass man ein Charaktereigenschafts-bedingtes Verhalten in allen Situationen an den 
+
+Tag legt. Möchte man sich also selbst führen und nachhaltig verbessern ist es dabei 
+
+wichtig dies auf alle Situationen anzuwenden und nicht nur Umfeldbezogen.  
+
+Kritik an der Methodik dieser Studie kann man daran üben, dass bei der Auswertung 
+
+der Antworten nicht nach spezifischen Kriterien der befragten Personen unterschieden 
+
+wurde.  Es  wurde  also  bei  der  Auswertung  keine  Rücksicht  auf  das  alter,  das 
+
+Geschlecht oder den Bildungsstand der Antwortenden genommen. Der Vorschlag für 
+
+eine Folgestudie zur Ermittlung relevanter Faktoren bei der Fremdwahrnehmung liegt 
+
+daher nahe. Die Frage, die sich hierbei stellt, ist, ob die Bewertung von bestimmten 
+
+Kriterien und deren Gewichtung abhängig von persönlichen Faktoren sind. So  wäre 
+
+zum  Beispiel  zu  klären  ob  Frauen  bestimmte  Fragen  in  der  Fremdwahrnehmung 
+
+anders gewichten als die selbstwahrnehmende Männliche Person. 
+
+16/18 
+
+ 
+ 
+ 
+ 
+Literaturverzeichnis 
+
+Precht, R.D. (2007) Wer bin ich – und wenn ja, wie viele? 
+
+Allport,  G.  W.,  &  Odbert,  H.  S.  (1936).  "Trait-names:  A  psycho-lexical  study." 
+
+Psychological Monographs, 47(1), i-171. 
+
+Michael G. Goldsby, Elizabeth A. Goldsby, Christopher B. Neck, Christopher P. 
+
+Neck and  Rob Mathews  „Self-Leadership: A  Four Decade  Review  of the  Literature 
+
+and Trainings 
+
+Goldberg,  L.  R.  (1981).  "Language  and  individual  differences:  The  search  for 
+
+universals  in  personality  lexicons."  Review  of  Personality  and  Social  Psychology,  2, 
+
+141-165. 
+
+Daniel Goleman (1995). „Emotional Intelligence: Why It Can Matter More Than IQ“  
+
+Leong, Bartram (2016). „The ITC International Handbook of Testing and Assessment“ 
+
+Luft,  J.;  Ingham,  H.  (1955).  "The  Johari  window,  a  graphic  model  of  interpersonal 
+
+awareness". Proceedings of the Western Training Laboratory in Group Development. 
+
+Los Angeles: University of California, Los Angeles. 
+
+17/18 
+
+ 
+ 
+ 
+ 
+Ehrenwörtliche Erklärung 
+
+Hiermit erkläre ich, Christoph Schwörer, dass ich die vorliegende Arbeit mit dem Titel 
+
+„Self  Leadership:  Wer  bin  ich  -  und  wenn  ja,  wieviele?“  selbstständig  und  ohne 
+
+unerlaubte  Hilfe  angefertigt  habe.  Ich  habe  keine  anderen  als  die  angegebenen 
+
+Hilfsmittel verwendet und alle Quellen, die ich wörtlich oder sinngemäß übernommen 
+
+habe, sind als solche kenntlich gemacht. 
+
+Ich  versichere,  dass  ich  die Arbeit  noch  keiner  anderen  Prüfungsbehörde  vorgelegt 
+
+und mich auch noch keinem anderen Prüfungsverfahren mit dieser Arbeit unterzogen 
+
+habe. 
+
+Falls  die Arbeit  personenbezogene  Daten  enthält,  erkläre  ich  hiermit,  dass  ich  die 
+
+Datenschutzbestimmungen  eingehalten  und  die  Daten  nur  mit  ausdrücklicher 
+
+Zustimmung der Betroffenen verwendet habe. 
+
+Biberach, 26.06.2024 
+
+Christoph Schwörer 
+
+18/18 
+
+ 
+ 
+ 
+
\ No newline at end of file
diff --git a/StilVorlagen/Diplomarbeit.md b/StilVorlagen/Diplomarbeit.md
new file mode 100644
index 0000000..fb54286
--- /dev/null
+++ b/StilVorlagen/Diplomarbeit.md
@@ -0,0 +1,4184 @@
+EBERHARD-KARLS-UNIVERSIT ¨AT T ¨UBINGEN
+Wilhelm-Schickard-Institut f¨ur Informatik
+Lehrstuhl Rechnerarchitektur
+
+Diplomarbeit
+
+Active Structure Learning using Genetic
+Algorithms and Kernel Functions
+
+Christoph Schw¨orer
+
+Betreuer:
+
+Prof. Dr. rer. nat. Andreas Zell
+Wilhelm-Schickard-Institut f¨ur Informatik
+
+Prof. Dr. rer. nat. Karl-Heinz Wiesm¨uller
+EMC Microcollections GmbH
+
+Begonnen am:
+
+13th January 2010
+
+Beendet am:
+
+12th July 2010
+
+Erkl¨arung
+
+Hiermit versichere ich, diese Arbeit selbstst¨andig
+verfasst und nur die angegebenen Quellen benutzt
+zu haben.
+
+T¨ubingen am 12th July 2010
+
+Christoph Schw¨orer
+
+Kurzfassung.
+Current 3D QSAR approaches attempt to build models base not only on 1D or 2D descriptors
+of molecules like weight, charge or molecular graphs, but also on 3D sensitive information
+like the conformation or information about the molecules surface. A basic assumption on
+building these 3D QSAR models is that the best results are attained by using the best available
+(i.e., the obtained active structure) data. In this work I tried to ﬁnd such a best achievable 3D
+QSAR model by the means of optimizing a model over a set of conformations using a genetic
+algorithm and three different kernel methods. The intent was to see if these resulting models
+would include the active structures. For the generation of the sets of conformations I used
+two different approaches. The ﬁrst being a precomputation of the conformations the second
+an implicit generation concurrent to the optimization. The results will show that the model
+with the best generalization and prediction accuracy in most cases do not include the active
+conformation but conformations with a minimal average pairwise distance to all other possible
+conformations of the respective molecules.
+
+Contents
+
+1
+
+Introduction
+
+1
+
+.
+
+.
+
+.
+
+4
+2 Background Information
+4
+2.1 Kernel Functions
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
+.
+4
+2.2 Support Vector Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . .
+7
+2.3 Rotation with quaternions . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
+7
+. . . . . . . . . . . . . . . . . . . . . . .
+2.4 RMSD calculation with quaternions
+2.5 Genetic Algorithm .
+9
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
+2.6 Quantitative Structure-Activity Relationship . . . . . . . . . . . . . . . . . . . 11
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+13
+3 Materials and Methods
+3.1 Overall process .
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
+3.2 Radial Distribution Function . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
+3.3 Kernel .
+Probability Product Kernel . . . . . . . . . . . . . . . . . . . . . . . . 17
+3.3.1
+3.3.2 Radial Basis Function Kernel
+. . . . . . . . . . . . . . . . . . . . . . 18
+3.3.3 Atom Pair Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
+.
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
+Precomputed Conformation Sampling . . . . . . . . . . . . . . . . . . 21
+Implicit Conformation Sampling . . . . . . . . . . . . . . . . . . . . . 24
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
+. .
+
+3.4 Dataset
+.
+.
+3.5 Conformation Sampling .
+
+3.6 SVR .
+
+3.5.1
+3.5.2
+
+. .
+
+. .
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+.
+
+4 Results
+
+.
+
+.
+
+Initial Runs .
+
+28
+4.1 Precomputed Conformation Sampling . . . . . . . . . . . . . . . . . . . . . . 28
+4.1.1
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
+4.1.2 Reduced Dataset with PPK and RBF Kernel . . . . . . . . . . . . . . . 33
+4.1.3 Reduced Dataset with Atom Pair Kernel . . . . . . . . . . . . . . . . . 35
+4.1.4 Alternative Parameters for the Product Probability Kernel
+. . . . . . . 37
+4.1.5 Alternative Parameters for APK . . . . . . . . . . . . . . . . . . . . . 39
+Increased Mutation Rate . . . . . . . . . . . . . . . . . . . . . . . . . 41
+4.1.6
+4.1.7 Alternative Conformation Sampling . . . . . . . . . . . . . . . . . . . 42
+4.1.8 Alternative Mutation Operator . . . . . . . . . . . . . . . . . . . . . . 45
+4.1.9 Reruns
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
+Implicit Conformation Sampling . . . . . . . . . . . . . . . . . . . . . . . . . 47
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
+4.2.1
+.
+. . . . . . . . . . . . . . . 51
+4.2.2 Reduced Dataset and Fixed Conformation
+
+Initial Runs .
+
+4.2
+
+. .
+
+. .
+
+.
+
+5 Discussion
+
+6 Prospects
+
+iv
+
+52
+
+54
+
+Bibliography
+
+Contents
+
+55
+
+v
+
+Contents
+
+vi
+
+1 Introduction
+
+In drug design one of the major goals is to ﬁnd new lead structures. Lead structures already
+show a certain afﬁnity towards the intended target but express unwanted side effects or lack
+certain properties. For example they may be toxic or have a low bioavailability. Without a
+detailed understanding of the biochemical processes responsible for the activity the search for
+such a new lead structure is non-trivial.
+
+The usual process is to simply try a huge combination of different chemical compounds in
+vitro and observe their activity. But the combinatorial possibilities of this strategy can explode
+even for small systems. For instance the number of compounds needed to place 10 substituents
+on the four open positions of an asymmetrically disubstituted benzene ring system is approxi-
+mately 10,000.
+
+Therefore this classical screening process was automatized and combinatorially optimized
+in the last decades to high throughput screening (HTS) which allowed for a systematical search
+in greater databanks with hundreds of thousands of entries. But still this process makes up a
+large amount of the development-costs and -time. Further the chemical compounds needed for
+the synthesis are often rare and hard to come by in the purity needed for reliable results.
+
+One way to optimize this exhaustive search and give an indication of the right direction is
+to develop a model that quantitatively relates variations in biological activity to changes in
+molecular properties which can be easily obtained for each compound. One of the ﬁrst to build
+such a model was Corvin Hansch correlating lipophilicity and polarity with biological activity
+in his Hansch method [Han69]. But there exist many other approaches to this Quantitative
+Structure-Activity Relationship (QSAR) principle, which mostly differ in their use of molecular
+descriptors and mathematic models such as Partial Least Squares or Principal Component
+Analysis. The QSAR models developed in this work are based on kernels which are evaluated
+by Support Vector Regression.
+
+In the recent years several models have been developed using 3D descriptors of molecules.
+These 3D descriptors are important, because to build a model and gain understanding for the
+binding process it is not enough to know of the single component and values of a molecule but
+also to know their 3D dimensional arrangement. As one can see for example on ﬁg 1.1 where a
+single molecule can take on several conformations. To know which of these conformation is the
+active conformation can improve the modeling process and the understanding of the chemical
+processes leading to the activity.
+
+One thing all QSAR methods have in common is the basic assumption that the biological
+activity is an additive function of the molecular properties (2D or 3D) of the substituents and
+groups of the respective structure. Not only the mere presence of those groups is essential but
+also their three dimensional arrangement.
+
+This leads to the expectation that on using 3D descriptors only good and correct training data
+including 3D information of the molecules leads to a good model of the activity. But, what if
+this doesn’t hold true? What if a better model can be created not using the actually correct
+physical data? The question is if the reverse of this expectation is always valid, thus if the
+model quality is bijective to the training data quality.
+
+1
+
+1 Introduction
+
+Figure 1.1: This ﬁgure shows an overlay of six conformations of the same thrombin inhibitor.
+
+One can see the high ﬂexibility of the lower ring system.
+
+(a) This ﬁgure shows the standard process for building a
+QSAR model.
+
+(b) This ﬁgure shows the reverse process of optimizing a
+QSAR model with respect to the training data quality
+
+Figure 1.2: These ﬁgures show the standart and the process used in this work to build a QSAR
+model. To optimize the model quality with respect to the varying training data the
+process has been reversed.
+
+To test, whether one can ﬁnd such a model I will reverse the QSAR approach (see ﬁgure 1.2 .
+Therefore optimizing the QSAR model to predict activity by the means of altering the training
+dataset, where for each data point several values are given including the actual physical ones.
+While the input data points vary (i.e. their molecular descriptors) their target function value
+
+2
+
+(i.e. the activity) stays the same.
+
+The intention of this experiment is to see if the best attainable model includes the actual
+active structure or the artiﬁcially created one. To this end I compiled a data set and created a set
+of conformers for each molecule. Then I concurrently optimized the activity prediction over
+the whole training dataset not to favor one molecule over the other by successively optimizing
+one after the other. A good way to handle multidimensional optimization with several datasets
+is to use a genetic algorithm which I did in this case.
+
+In this work I will show the methods used for the generation of the the dataset, the optimization
+and the evaluation. Further I will present the results and discuss their signiﬁcance. Finally I
+will give a perspective of further work which can be done on this topic.
+
+3
+
+2 Background Information
+
+2.1 Kernel Functions
+
+Detecting linear relations has been the focus of much research in statistics and machine learning
+for the last few decades and the resulting algorithms are well understood, well developed and
+efﬁcient [Sew07].However, many models of natural processes aren’t linear. So, if a problem
+is non-linear, instead of trying to ﬁt a non-linear model, one can map the problem from the
+inputspace X to a new higher-dimensional space called the f eaturespace F and then use
+a linear model in the feature space. This mapping can be achieved by doing a non-linear
+transformation. For example the function φ can be given as
+
+φ : R2 → R3 with φ (x1, x2) = (x2
+1,
+
+(cid:112)
+
+2x1x2, x2
+2)
+
+(2.1)
+
+While this function is a very simple one, other functions can easily become computationally
+impracticable for both polynomial features and higher dimensionality. This is grounded on the
+(cid:17)
+, with d = dim X
+fact that the number of different monomial features of degree p is
+[Vap95] (e.g. p = 7, d = 28 · 28 = 748, corresponds to a total of approximately 3, 7 · 1016
+features).
+
+(cid:16) d+p−1
+p
+
+The key to an efﬁcient computation is the observation made by [BGV92] that
+
+(cid:68)(cid:16)
+
+x2
+1,
+
+(cid:112)
+
+2x1x2, x2
+2
+
+(cid:17)
+
+(cid:16)
+x(cid:48)2
+1,
+
+,
+
+(cid:112)
+
+2x(cid:48)
+
+1x(cid:48)
+
+2, x(cid:48)2
+2
+
+(cid:17)(cid:69)
+
+= (cid:104)x, x(cid:48)(cid:105)2
+
+(2.2)
+
+which allows the use of kernel f unctions where φ must not be explicitly known as long as the
+function corresponds to a dot product in the FeaturespaceF
+
+k(x, x(cid:48)) := (cid:104)φ (x), φ (x(cid:48))(cid:105)
+
+(2.3)
+
+2.2 Support Vector Regression
+
+Many multi variant systems assume that there is a linear relation between X and Y which holds
+for all samples. In chemoinformatics this assumption does not hold true and causes a variety of
+problems on the prediction of unknown data points. One way to solve these occurring problems
+is to use non-linear learning methods such as support vector regression (SVR). The support
+vector algorithm is a non-linear generalization of the Generalized Portrait algorithm developed
+in Russia in the 1960’s [VL63] [VC64]. Its groundwork, the statistical learning theory, or VC
+theory, has been developed over the last half century by Vapnik and Chervonenkis [VC74]
+[Vap82] [Vap95]. The VC theory deﬁnes properties of learning machines, enabling them to
+generalize to unseen data.
+
+Given a set of training data {(x1, y1), ..., (yn, yn)} ⊂ χ × R with χ denoting the space of input
+patterns (e.g. χ = Rd) the goal of ε − SV regression is to ﬁnd a function f (x) with a maximum
+
+4
+
+2.2 Support Vector Regression
+
+deviation of ε from the actually received targets yi for all the training data. In addition f should
+be as ﬂat as possible. The form of a linear function f is given as
+
+f (x) = (cid:104)w, x(cid:105) + b with w ∈ χ, b ∈ R
+
+(2.4)
+
+with (cid:104)·, ·(cid:105) denoting the dot product in χ and ﬂatness meaning a small w. To attain this we
+2 (cid:107)w(cid:107)2 which can be formally written as a convex optimization
+minimize the euclidean norm 1
+problem:
+
+minimize
+
+subject to
+
+1
+
+2(cid:107)w(cid:107)2
+(cid:40)
+
+yi − (cid:104)w, xi(cid:105) − b ≤ ε
+(cid:104)w, xi(cid:105) + b − yi ≤ ε
+
+(2.5)
+
+The above formula is viable for all problems where a function f actually exists that approx-
+imates all pairs (xi, yi) with precision ε. If this is not the case, or if we want to allow some
+errors, according to [CV95] one can introduce slack variables ξi, ξ ∗
+i
+
+leading to the formula:
+
+minimize
+
+subject to
+
+i=1(ξi + ξ ∗
+i )
+
+1
+
+2 (cid:107)w(cid:107)2 +C ∑n
+
+
+
+yi − (cid:104)w, xi(cid:105) − b ≤ ε + ξi
+(cid:104)w, xi(cid:105) + b − yi ≤ ε + ξ ∗
+i
+ξi, ξ ∗
+
+i ≥ 0
+
+
+
+(2.6)
+
+Where the constant C > 0 deﬁnes the trade off between the ﬂatness of f and the amount up to
+which deviations larger than ε are tolerated. This is the same as dealing with a ε-intensive loss
+function |ξ |ε denoted by:
+
+(cid:40)
+
+|ξ |ε :=
+
+0
+|ξ | − ε
+
+if|ξ | ≤ ε
+else
+
+(2.7)
+
+Figure 2.1 depicts the use of ξ and ε. Extending support vector machines to solve non linear
+problems is possible by using a standard dualization approach utilizing Lagrange multipliers as
+described in [Fle89] leading to the following formula:
+
+L := 1
+
+2 (cid:107)w(cid:107)2 +C ∑n
+
+i=1(ξi + ξ ∗
+
+i ) − ∑n
+
+i=1(ηiξi + η ∗
+
+i ξ ∗
+i )
+
+− ∑n
+
+i=1 αi(ε + ξi − yi + (cid:104)w, xi(cid:105) + b)
+
+(2.8)
+
+− ∑n
+
+i=1 α ∗
+
+i (ε + ξ ∗
+
+i + yi − (cid:104)w, xi(cid:105) − b)
+
+With L being the Lagrangian and ηi, η ∗
+satisfy the constraints
+
+i , αi, α ∗
+i
+
+the Lagrangian multipliers. Thus they have to
+
+ηi, η ∗
+
+i , αi, α ∗
+
+i ≥ 0
+
+(2.9)
+
+To gain an optimal result one can infer from the saddle point condition that the partial deriva-
+
+5
+
+2 Background Information
+
+Figure 2.1: The image shows the use of ξ and ε in a support vector regression. Data points
+with a distance smaller than ε are not considered an error. For data points with a
+distance larger than ε the parameter ξ decides wether they are tollerated or not.
+
+tives of L have to vanish
+
+∂ L
+∑n
+∂ b =
+∂ L
+∂ w = w − ∑n
+∂ L
+∂ ξi
+∂ L
+∂ ξ ∗
+i
+
+i=1(α ∗
+i − αi)
+i=1(αi − α ∗
+C − αi − ηi
+i − η ∗
+C − α ∗
+i
+
+=
+
+=
+
+= 0
+i )xi = 0
+= 0
+= 0
+
+Substituting eq 2.7 into eq. 2.6 leads to the dual optimization problem:
+
+(cid:40)
+
+maximize
+
+subject to ∑n
+
+i, j=1(αi − α ∗
+i=1(αi + α ∗
+
+2 ∑n
+− 1
+i )(α j − α ∗
+−ε ∑n
+i ) + ∑n
+i=1(αi − α ∗
+i ) = 0 and αi, α ∗
+i we can further reformulate (7) to η (∗)
+
+j )(cid:104)xi, x j(cid:105)
+i=1 yi(αi − α ∗
+i )
+i ∈ [0,C]
+
+i = C − α (∗)
+
+i
+
+Having already eliminated ηi, η ∗
+follows
+
+w =
+
+n
+∑
+i=1
+
+(αi − α ∗
+
+i )xi, thus f (x) =
+
+n
+∑
+i=1
+
+(αi − α ∗
+
+i )(cid:104)xi, x(cid:105) + b.
+
+(2.10)
+
+(2.11)
+
+so that
+
+(2.12)
+
+The fact that the dataxi only contributes in form of the dot product allows the introduction of
+kernel functions in such a way that
+
+This allows the prediction of unknown data points via
+
+k(xi, x j) = (cid:104)φ (xi), φ (x j)(cid:105)
+
+n
+∑
+i=1
+
+(αi − α ∗
+
+i )k(x, x j) + b
+
+f (x) =
+
+6
+
+(2.13)
+
+(2.14)
+
+2.3 Rotation with quaternions
+
+2.3 Rotation with quaternions
+
+Quaternions are an extension of the complex numbers invented by William Rowan Hamilton in
+1843[Ham66] and formally introduced to computer graphics by the publication of Shoemaker
+[Sho85] [Har94]
+
+Quaternions encode rotations by a set of 4 real numbers (or 2 complex numbers), while a
+linear representation of a rotation requires a 3 × 3 Matrix, thus 9 numbers. Further Quaternions
+occupy a smooth, seamless isotropic space which is the generalization of the surface of a sphere.
+This means that one doesn’t need to take special care in avoiding singularities (e.g., the gimbal
+lock, where two rotation axes collapse into one making the interpolation irreversible).
+
+The four-dimensional space H is spanned by the real axis and three additional orthogonal
+axes, spanned by the vectors i, j, k called the principal imaginaries, which obey Hamilton’s
+rule
+
+Where the three dimensional vectors i, j, k signify
+
+i2 = j2 = k2 = ijk = − 1
+
+i = (1,0,0)
+j = (0,1,0)
+k = (0,0,1).
+
+(2.15)
+
+(2.16)
+
+A quaternion q = r + xi + yj + zk consists of a real part r and a pure part xi + yj + zk and can
+be written as a three dimensional vector an a scalar
+
+The sum of two quaternions is given as
+
+q = (a, b)
+
+q1 + q2 = (a1 + a2) + (v1 + v2)
+
+and their product as
+
+(2.17)
+
+(2.18)
+
+q1q2 = a1a2 − b1 · b2 + a1b2 + a2b1 + b1 × b2
+
+(2.19)
+
+where the multiplication of two quaternions q1q2 with unit length (i.e. absolute value = 1) and
+q2 being a pure quaternion (i.e. with a = 0) causes a rotation of b2 around the axis described
+by b1 for cos−1 2φ degrees. Where φ is the desired rotation angle.
+
+2.4 RMSD calculation with quaternions
+
+In various cheminformatic situations the problem arises of ﬁnding the best superposition of on
+rigid object onto another. For example to give a similartiy measure for two proteins or in case
+of this work two conformations of the same molecule. One method is ﬁnding the best rotation
+and translation to minimize the root mean square deviation (RMSD) [Kab76] with examples
+are given by [Dia76] and [McL72]. A prerequisite for this method is a given assignment of the
+points matched on each other. Usually such an assignment is already given (e.g., the canonical
+atom numbering of two different conformations).
+
+The mathematical problem can the be stated as follows: [Cou04]
+
+7
+
+2 Background Information
+
+“given a ordered set of vetors yk (target) and a second set xk (model), 1 ≤ k ≤ N, ﬁnd a
+
+orthogonal transformation U and a translation r such that the residual E (weighted by wk)
+
+E :=
+
+1
+N
+
+N
+∑
+k=1
+
+wk|U xk + r − yk|2
+
+(2.20)
+
+is minimized. ”Where the weight factor wk allows to lay the emphasis on certain parts of the
+structure in question.
+
+While Kabsch’s method uses Lagrange multipliers, Mackay proposed a method in 1984
+[Mac84] using quaternions to calculate the rotation matrix. One disadvantage of Mackay’s
+method was that, using a linear form of the least square errors, the results could be false where
+objects had different relative orientations in space. In 1989 Kearsley developed a method, solv-
+ing the non-linear least square error problem with an eigenvalue determination through the use
+of quaternions [Kea89]. The proof that both, Kabschs and Kearsleys methods lead to the same
+result was brought by Coutsias et al. in 2005 [Cou05].
+
+If xk and yk are considered as pure quaternions, with xk := (0, xk) and xc
+
+k = −xk the rotation
+
+U (q) can be written as
+
+And the residual function is transformed using quaternions to
+
+(0, U (q)xk) = qxkqc
+
+Eq =
+
+1
+N
+
+N
+∑
+k=1
+
+(qxqc − yk)(qxqc − yk)c
+
+An expansion and a multiplication by N leads to
+
+NEq = ∑N
+
+k=1(qxkqc)(qxkqc)c + ykyc
+
+k(qxkqc)yc
+
+k − yk(qxkqc)c
+
+(2.21)
+
+(2.22)
+
+(2.23)
+
+= ∑N
+
+k=1(xkxc
+
+k + ykyc
+
+k + (qxkqc)yk + yk(qxkqc))
+
+where the normalization qqc = 1 and the property of pure quaternions xc = −x has been used.
+qxkqc and yk being pure quaternions and with a, b pure ab + ba = 2(−a · b, 0) = 2([ab]0, 0) the
+last two terms in eq. 2.23 can be combined as follows
+
+(qxkqc)yk + yk(qxkqc) = 2([yk(qxkqc)]0, 0)
+
+(2.24)
+
+This means that only the 0th component is non-zero. Because of the associativity of the quater-
+nions one can write yk(qxkqc) = (ykqxk)qc and deﬁne xk := ykqxk wich leads to the 4-vector
+form of zk, Zk with Zk = AL(yk)AR(xk)Q with AL, AR deﬁned as follows
+
+AR(p) =
+
+
+
+
+
+
+
+p0 −p1 −p2 −p3
+p3 −p2
+p1
+p0
+p1
+p2 −p3
+p0
+p0
+p2 −p1
+p3
+
+
+
+
+
+
+
+, AL(p) =
+
+
+
+
+
+
+
+p0 −p1 −p2 −p3
+p2
+p0 −p3
+p1
+p0 −p1
+p2
+p3
+p0
+p1
+p3 −p2
+
+
+
+
+
+
+
+(2.25)
+
+8
+
+All together we can write
+
+followed by the residue
+
+with
+
+−2yT
+k
+
+U (q)xk = 2[yk(qxkqc)0
+
+= 2[zkqc]0
+= 2(zk0q0 + zk · q)
+= 2QT Zk
+= 2Z T Al(yk)R(xk)Q
+
+NEq =
+
+N
+∑
+k=1
+
+(|xk|2 + |yk|2) − 2QT F Q
+
+F := −
+
+N
+∑
+k=1
+
+AL(yk)AR(xk)
+
+2.5 Genetic Algorithm
+
+(2.26)
+
+(2.27)
+
+(2.28)
+
+leading to the full form of the matrix F in terms of the correlation matrix R
+
+F =
+
+
+
+
+
+
+
+R11 + R22 + R33
+R23 − R32
+R31 − R13
+R12 − R21
+
+R23 − R32
+R11 − R22 − R33
+R12 + R21
+R13 + R31
+
+R31 − R13
+R12 + R21
+−R11 + R22 − R33
+R23 + R32
+
+R12 − R21
+R13 + R31
+R23 + R32
+−R11 − R22 + R33
+
+
+
+
+
+
+
+(2.29)
+
+In this way the problem can be reduced to ﬁnding the extreme of a quadratic form QT F Q
+for the four variables qi, i ∈ {0, 1, 2, 3} subject to the constraint QTQ = 1. Here QT F Q is the
+standard Rayleigh quotient for a symmetric matrix F , where the maximum value of QT F Q
+is equal to its larges eigenvalue which leads to the following problem
+
+which in turn leads to the following expression for the best RMSD Value
+
+F Q = λ Q
+
+(cid:115)
+
+eq =
+
+(cid:114)
+
+min
+(cid:107)q(cid:107)=1
+
+Eq =
+
+∑N
+
+k=1(|xk|2 + |yk|2) − 2λmax
+N
+
+(2.30)
+
+(2.31)
+
+2.5 Genetic Algorithm
+
+In cheminformatics one often encounters optimization problems with several variable param-
+eters. Traditional optimization methods such as steepest decent often fail at this task because
+they often run into a local optimum. To get around this problem Prof. John Holland developed
+the class of Genetic Algorithms (GA’s) at the University of Michigan during the 60’s and 70’s
+[Hol75].
+
+Genetic algorithms belong to the class of stochastic search methods. Their distinctive feature
+is, that instead of operating on a single solution like most other stochastic search methods, they
+operate on a whole set of solutions. The term Genetic Algorithm is a tribute to their basic
+operations which derive from natural evolutionary processes, such as inheritance, mutation,
+selection, and crossover.
+
+9
+
+2 Background Information
+
+Given a problem P with parameters x1, ..., xn the ﬁrst step is to initialize a ﬁrst set of solutions,
+called population M(0). Each single solution is called individual m and is represented by a bit
+string called chromosome (see ﬁg x). The initial value of each parameter is chosen at random
+within its predeﬁned range.
+
+Figure 2.2: This ﬁgure shows two individuals with parameters x1, .., x4 encoded as a series of
+
+binary representations of different length.
+
+The second step is to evaluate each individual (i.e. solution) in the current population M(t)
+for its ﬁtness. This is done by and applying the individuals parameter values to a ﬁtness function
+(which in most cases is the initial problem function) and assigning the function result as ﬁtness
+value u(m). This means that the parameters of individuals with higher ﬁtness values lead to a
+better result of the problem function.
+
+The third step is to assign each of the current individuals a selection probability p(m) which
+depends on the individuals ﬁtness value u(m). This selection probability determines if a in-
+dividual is chosen for mating. There are several methods of assigning selection probabilities
+like roulette wheel selection (the likelihood of picking an individual is proportional to the indi-
+vidual’s score), tournament selection (a number of individuals are picked using roulette wheel
+selection, then the best of these are chosen for mating), and rank selection (pick the best in-
+dividual every time). Moreover it is important not to use a method which always picks the
+individuals with the best ﬁtness because then the population will quickly converge to these
+individuals narrowing the search space.
+
+The fourth step is to generate a new population M(t + 1) using the individuals selected in
+step three to produce offspring applying the already mentioned genetic operators mutation and
+crossover with a predeﬁned probability (see ﬁgure 2.3(a) and 2.3(b) for genetic operators).
+
+10
+
+2.6 Quantitative Structure-Activity Relationship
+
+(a) Mutation of the ﬁfth bit from 0 to 1
+
+(b) Crossover after the third bit
+
+Figure 2.3: This ﬁgure shows the two genetic operators mutation and crossover. These allow
+to generate new individuals from already existing ones and to introduce new sets of
+parameters with possible better ﬁtness values.
+
+Steps two to four are then repeated until one of three possibilities occur. The best ﬁtness
+in the current population reaches a given limit, the best ﬁtness does not increase over several,
+predeﬁned generations, or the steps two to four are repeated for a speciﬁc number of times.
+
+2.6 Quantitative Structure-Activity Relationship
+
+For the development of a new drug it is important not only to know its chemical formula but
+also its conformation. The underlying principle for that is the so called lock and key principle
+postulated by Emil Fischer in 1894 [Fis94] stating that an active compound has to be spacial
+complementary to its target to form a complex. But as we know today there are several other
+factors that inﬂuence the building of an active complex. Those can be direct features of the
+molecules, like hydrophobicity, partial atomic charge, binding sites etc., or there can be inﬂu-
+ences from the surrounding solution (e.g., water) so that a ligand changes its conformation in
+the binding process. These considerations lead to the expansion of the lock and key principle
+to the induced ﬁt theory in 1958 [Kos58][Kos94]
+
+11
+
+2 Background Information
+
+Figure 2.4: This ﬁgure shows a Thrombin-Hirudin complex. The Hirudin(magenta) being the
+
+key to the Thrombin(blue) lock.
+
+Also new to this theory was the introduction of ﬂexible binding sites which can account for
+differences in speciﬁcity and afﬁnity. This leads to the conclusion that the biological activity
+is a direct function of the ligands three dimensional structure which in turn is the fundamental
+premise for the quantitative structure-activity relationship (QSAR) [SOW04]. QSAR Meth-
+ods attempt to represent the relationship between structural attributes of molecules and their
+biological activity. In the beginning QSAR models where used to retrospectively analyze the
+activity modulation of molecules in a speciﬁc subset. But in the last decade QSAR models have
+been increasingly used for predictions on novel derivatives of well known ligands [Eki04]. To
+be applicable to such a use the applied QSAR models must be able to generalize and predict
+activities correctly beyond the chemical space deﬁned by the given training data.
+
+To that end a large number of methods has been described in the literature since the begin-
+ning of the research on QSAR. The early methods implemented only 2D features of molecules
+(e.g. the connection table of a molecule), while newer ones often include 3D features like the
+chemical properties of molecules in their bioactive conformation [SJ93] [OW91].
+
+12
+
+3 Materials and Methods
+
+In this chapter the two main strategies applied to the problem and the overall process will
+be explained in detail and their function will be exempliﬁed. The parameters used for the
+experiments and their progress will be given. The implementation of the algorithms or the use
+of external programs or code will be described. All algorithms were written in Java.
+
+3.1 Overall process
+
+Because this work consist of a concatenation of different machine learning and chemoinformat-
+ical methods I will ﬁrst give an overview of the whole process and then explain the appointed
+methods in depth.
+
+The aim was to see if the best models for an activity prediction included the actual active
+
+structures of the given molecules or if a better model could be found without them.
+
+In this work I used two different approaches. The ﬁrst was to precompile a set of conformers
+for each molecule maximizing the coverage of the conformer space and the second was to
+create random new conformers during the optimization process. From the set of precompiled
+conformers 100 (or the maximum available if lower then 100) were chosen equally distributed
+over the calculated relative energy range for each molecule and used as the training set. In both
+approaches the optimization was done by a genetic algorithm. The deciding facts for using a
+heuristic (in this case the genetic algorithm) were that both a full search of the optimization
+space isn’t feasible for 100 molecules each with at least 100 conformation and that the solution
+hyperplane is very jagged and there was no information about a starting point.
+The information about the molecules conformation were encoded in the GA’s genes, either as a
+direct reference to the whole conformation (in the precomputed approach) or as single dihedral
+angles for each rotatable bond in each molecule (in the implicit approach).
+
+After each generation of the GA the ﬁtness of it’s individuals was calculated. In this case
+each individual corresponded to a set of conformers for which a kernel matrix using one of the
+following kernel methods were used.
+
+• Probability Product Kernel (PPK)
+
+• radial basis function(RBF)
+
+• Atom Pair Kernel (APK)
+
+The ﬁrst two of which were working on the RDF of a given molecule and the third one working
+directly on 3D model of the conformation. Each kernel matrix therefore consisted of similar-
+ity measures between the molecules. And for each molecule pKi value was known. These
+informations were used to build a SVR model to predict the activity of an unknown molecule
+in relation to it’s similarity to the molecule in the training set. For each model a set of best
+
+13
+
+3 Materials and Methods
+
+parameters was searched using 5 repetitions of leave-one-out convoluted with a 5-fold cross-
+validation. These best parameters were used to compute the MSE of the model which in turn
+served as the ﬁtness value for each individual.
+
+The next generation of individuals in the GA was then generated using standard GA opera-
+tors such as mutation and cross over. The individual selected to mate for the next generation
+according to their ﬁtness value.
+
+(a) In the ﬁrst approach the conformer sampling was
+done before the optimization process
+
+(b) In the second approach the conformer sampling
+was done implicitly as part of the optimization process
+by mutating the conformers
+
+Figure 3.1: These two ﬁgures show the different procedures of the two approaches. Both con-
+sist of four frameworks indicated by the different colors. The conformer gener-
+ation(either with MacroModel or implicit), the GA (with JavaEva2) which runs
+the optimization loop, the kernel matrix computation and the SVR modeling (with
+libsvm).
+
+The process of generating new generations, the calculation of each kernel matrix and the
+evaluation via the SVR was then repeated 200 times. The development of the MSE for each
+individual and the RMSD between the conformations of the individual and the known active
+structure was calculated.
+
+14
+
+ConformergenerationGAinitializationGA individualgenerationKernelcalculationSVR modelgenerationIndividualevaluationResult outputConformergenerationGAinitializationGA individualgenerationKernelcalculationSVR modelgenerationIndividualevaluationResult output3.2 Radial Distribution Function
+
+3.2 Radial Distribution Function
+
+An important prerequisite for the computation of active structures with respect to the different
+conformations is keeping some kind of knowledge about the 3D structure of the molecules
+throughout the whole process. Therefor a molecular representation is needed that guarantees
+3D sensitivity. To do so there are some prerequisites for a structure code
+
+• independence form the numbers of atoms, i.e. the size of the molecule,
+
+• unambiguity regarding the three-dimensional arrangement of the atoms and
+
+• invariance against translation and rotation of the entire molecule
+
+(a) Overlay of three different conformations of the
+same molecule
+
+(b) The RDF for the three molecules shown on the left
+
+Figure 3.2: These ﬁgures show an overlay of three conformations of the same Thrombin in-
+hibitor and their RDF. While the internal distances of the ring systems stay the
+same (i.e. the peeks representing the ring systems at r ≈ 1.5 and r ≈ 2.6 overlap for
+all three molecules) their relative spacial position vary (i.e. the peeks representing
+the distances of the ring systems among themselves at r ≈ 6 to r ≈ 12 are set off)
+
+One method that meets all of the above requirements and which I used in this work is
+a derivation of the 3D-Molecule Representation based on Electron diffraction (3D-MoRSE)
+[Sch96] [Sel97], the radial distribution funtion [Gas96] [Gas97]. In general this function gives
+the probability to ﬁnd a pair of atoms in the given molecule with similar properties in the
+distance r to each other.
+
+g(r) = f
+
+N−1
+∑
+i
+
+N
+∑
+j>i
+
+AiA je−B(r−ri j)2
+
+(3.1)
+
+15
+
+3 Materials and Methods
+
+where f is the scaling factor and N is the number of atoms. The exponential therm consists
+of the distance ri j between two atoms i, j and the smoothing factor B for the probability dis-
+tribution which will be explained later. Ai and A j are the characteristic Atom properties. The
+properties used in this work are standard properties of the JoeLib2 framework, for example:
+
+• Electro-topological state
+
+• Electronegativity (Pauling)
+
+• Partial charge
+
+• Atom mass
+
+• Electron afﬁnity
+
+• Intrinsic state
+
+• Free electron count
+
+• Hybridisation
+
+• Van-der-Waals volume
+
+• Heavy atom valence
+
+• Electrogometrical state
+
+• Implicit valence
+
+This distribution function allows to embed a lot of additional information, e.g. bond dis-
+tances, ring types, planar and non-planar systems and atom types, all of which are important in
+calculating the similarity of two molecules or as in this case the similarity of two conformers
+of the same molecule.
+
+An important factor in using the radial distribution function is the resolution of the 3D model
+of the molecule on which the formula is applied. Using exact distances stands in contrast
+to physical reality and further restricts the application of any ability to interpolate for better
+results. Even though if one wants to compute the similarity of two conformers using paired
+atomic distances a certain amount of fuzziness is necessary to account for ﬂexibility and errors
+in the initial measurement. Therefor the width of the peaks in the radial distribution function
+is determined by the factor B. As an approximation the value of B can be given as a relation
+between B and the chosen step size ∆r [Hem99] by
+
+B (cid:117) (∆r)−2
+
+(3.2)
+
+In this work I started with a value of B = 1000 for my computations. But on realizing that
+even slight changes had a large effect on similarity values I successively lowered it up to a value
+of B = 10 where only rotations of whole ring systems had a noticeable effect on similarity. The
+step size ∆r was always set to value of ∆r = 0.1 ˚A.
+
+Implementation
+
+In this implementation the function was internally represented by a vector of double values
+each representing the value of the RDF at point g(r) with r ∈ 0.1N. The length of the vector,
+and therefore the range of the function with y values ≥ 0 was predetermined by measuring the
+longest distance of atom pairs in a molecule over all molecules in the dataset and adding 2 ˚A as
+security margin. The preceding scaling factor f was not used (i.e. always set to f = 1).
+
+16
+
+3.3 Kernel
+
+Figure 3.3: This ﬁgure shows the overlay of three RDF diagrams of the same molecule with
+three different values for B: 10, 100, 100. One can see that with increasing B the
+smoothness decreases but the information value increases.
+
+3.3 Kernel
+
+3.3.1 Probability Product Kernel
+
+One of the two methods used in this work to give a 3D sensitive representation of a molecule
+was the radial basis function (RBF). This function can be regarded as a distinct distribution of
+atom pairs in the given molecule.
+
+Typical kernels compute a generalize inner product between two input objects χ and χ (cid:48)
+which is equivalent to applying a mapping function φ to each object and then computing a dot
+product between φ (χ) and φ (χ (cid:48)) in a Hilbert space [Jeb04]. This kernel considers the case of a
+mapping φ (χ) being a probability distribution p(x|χ), restricting the Hilbert space to the space
+of distributions embedded in the Hilbert space.
+
+In this work the probability distribution φ (x|χ) is given as the RDF function which leads to
+
+the deﬁnition of the probability product kernel as follows
+
+Deﬁnition Let p and p’ be probability distributions on a space X and ρ be a positive con-
+stant. Assume that pρ , p(cid:48)ρ ∈ L2(X), i.e. that (cid:82)
+X p(cid:48)(x)2ρ dx are well deﬁned (not
+inﬁnity).
+The probability product kernel (PPK) between distributions p and p’ is deﬁned as
+
+X p(x)2ρ dx and (cid:82)
+
+kprob(p, p(cid:48)) =
+
+(cid:90)
+
+X
+
+p(x)ρ p(cid:48)(x)ρ dx = (cid:104)pρ , p(cid:48)ρ (cid:105)L2.
+
+(3.3)
+
+Furthermore it is well known that L2(X) is a Hilbert space.Hence the deﬁned kernel is positive
+deﬁnite for any set of P of probability distributions over X such that (cid:82)
+X p(x)2ρ is ﬁnite for any
+
+17
+
+3 Materials and Methods
+
+p ∈ P.
+
+Implementation
+
+The ﬁrst idea was to implement the computation of the probability product kernel with the
+numerical integration of the given RDF functions via Simson’s rule (see ﬁgure 3.4)
+
+(cid:90) b
+
+a
+
+f (x)dx ≈
+
+(cid:20)
+
+a − b
+6
+
+f (a) + 4 f
+
+(cid:19)
+
+(cid:18)a + b
+2
+
+(cid:21)
+
++ f (b)
+
+.
+
+(3.4)
+
+Figure 3.4: This ﬁgure shows the approximation of a function f (x) by a quadratic interpolation
+
+P(x).
+
+The RDF was interpolated by Simpson’s rule in steps of 0.01 which led to an exact calcula-
+tion of the integral up to the 6th decimal place and also allowed to freely choose the factor ρ in
+the PPK formula.
+
+But the ﬁrst tests on this implementation showed that the computation of a single kernel
+value could take up to 10 seconds resulting in maximum total of 1.5 hours per kernel matrix.
+Being unfeasible due to the enormous amount of need computational power I decided to ﬁx
+the parameter ρ with ρ = 1. With this the kernel takes the form of the expectation of one
+distribution under the other:
+
+(cid:90)
+
+k(p, p(cid:48)) =
+
+p(x)p(cid:48)(x)dx = Ep[p(cid:48)(x)] = Ep(cid:48)[p(x)]
+
+(3.5)
+
+This is also called the expected likelihood kernel.
+
+3.3.2 Radial Basis Function Kernel
+
+Another method of measuring similarity between the two result vectors A and B of the RDF
+is the use of a radial basis function. A radial basis function (RBF) kernel, also known as an
+isotropic stationary kernel [HG04], is deﬁned by a function ψ : [0, inf) → R such that
+
+k(x, x(cid:48)) = ψ((cid:107)x − x(cid:48)(cid:107))
+
+(3.6)
+
+18
+
+where x, x(cid:48) ∈ X and (cid:107) · (cid:107) denotes the Euclidean norm. The use of a special RBF kernel, the
+Gaussian RBF kernel has been suggested in [Guy93] with
+
+3.3 Kernel
+
+k(x, x(cid:48)) = exp
+
+(cid:18)
+
+−
+
+∑n
+
+1 (cid:107)xi − x(cid:48)
+2σ 2
+
+i(cid:107)2
+
+(cid:19)
+
+(3.7)
+
+where xi and x(cid:48)
+width of the sphere surrounding the corresponding training pattern [Cha05].
+
+i are the single data points in the result vectors of the RDF. And σ deﬁning the
+
+The issue on implementing this kernel was to ﬁnd a viable value for the σ parameter in the
+above formula. On choosing σ to low the patterns will tend to be very similar over-ﬁtting
+the model and taking away its ability to generalize outside its bounds. While choosing σ to
+high will have opposite effect letting the patterns appear very dissimilar and under-ﬁtting the
+model. So ﬁnding a optimal value for σ is more about ﬁnding an acceptable trade-off between
+over-ﬁtting in dense areas and under-ﬁtting in sparse areas.
+
+3.3.3 Atom Pair Kernel
+
+While the preceeding kernel were based on a RDF representation another method to compare
+the 3D structure of two molecules or the different conformations of the same molecule is to
+represent the molecule as a trie data. For that I use a derivate of the optimal assignment of atom
+pairs [Jah09].
+This method is based on a matrix D =
+of binned geometrical distances between the three-
+dimensional coordinates of atoms i, j. Where di j are the atomic distances and b is the binning
+factor. The matrix D is used a a lookup table for the information needed to build a trie con-
+taining all the geometrical information for all atom pairs from a ﬁxed atom i to any other atom.
+Where a trie is a preﬁx based search tree that can be applied to any symbolic pattern with a
+reading direction.
+At the beginning the trie of atom i only consists of the root labeled with the hash code of the
+atomic symbol i. To ﬁll the trie patterns of the form
+
+(cid:106) di j
+b
+
+(cid:107)
+
+hash(symbol(i)), di j, hash(symbol( j))
+
+(3.8)
+
+are inserted successively as ordered triplets. An example of a local atom pair environment and
+the corresponding trie is shown in ﬁgure 3.5.
+
+19
+
+3 Materials and Methods
+
+Figure 3.5: Binned geometrical distances, spheres and trie. The upper left ﬁgure shows
+the spheres of the binned geometrical distances 1.0, 2.0 and 3.0 ˚A for the centered
+carbon atom. The sphere of the binned geometrical distance of 0.0 ˚A (distances in
+the range [0.0; 1.0)) is not visualized as individual sphere because it contains no
+atoms. The upper right ﬁgure illustrates the resulting local atom pair environment
+of binned geometrical distances. For simplicity, only the distances to non-carbon
+atoms are displayed. The lower ﬁgure visualizes the corresponding trie of geometric
+atomic distances of the annotated atom in the upper ﬁgures. The root and leaves are
+labeled with the corresponding atom type. The leaves contain additionally the total
+number of occurrences in the local atom pair environment.[JZ10]
+
+The representation of a local atom environment as tries allows the comparison of two local
+atom environments by comparing the tries. This can be achieved by applying a well known
+similarity measurement like the Tanimoto coefﬁcient
+
+T (A, B) =
+
+A · B
+(cid:107)A(cid:107)2 + (cid:107)B(cid:107)2 − A · B
+
+(3.9)
+
+In this case let LA, LB be two sets of local atom pair environments of two molecular graphs A, B
+and lAi ∈ LA, lB j ∈ LB the tries i, j of the nominal features (atom pair environments of atoms i, j.
+
+20
+
+Then the Tanimoto coefﬁcient can be deﬁned as
+
+Sim(lAi, lB j) =
+
+(cid:12)
+(cid:12)lAi ∩ lB j
+(cid:12)
+(cid:12)lAi ∪ lB j
+
+(cid:12)
+(cid:12)
+(cid:12)
+(cid:12)
+
+3.4 Dataset
+
+(3.10)
+
+Implementation
+
+The implementation used in this work was based on the Chemistry Development Kit (CDK)
+[Ste03] [Ste06]an implemented by [Jah09].
+
+The single arbitrary parameter b was initially set to b = 0.1 and subsequently set to b = 0.2
+
+to account for errors in measurement of the crystal structure.
+
+3.4 Dataset
+
+The dataset used in the experiments consisted of two parts. A precompiled set of 88 molecules
+taken from [Boe99] and a smaller set of 12 molecules compiled for this work. All of the
+molecules in the dataset were thrombin inhibitors with a known pKi value. However only
+the 12 molecules in the compiled dataset had crystallographic determined active structures.
+The active structures were gained by taking the crystal structure analysis of thrombin with the
+respective ligand and extract the bound ligand from the whole structure.
+
+The ﬁst step therefore was to search for all potential thrombin inhibitors in the scBDP 1
+
+[Kel06]
+
+The second step was to ﬁnd an entry with the identical structural formula in the Binding
+
+Database 2 [XG02] for information about pKi Values and publications.
+
+The third an ﬁnal step was to download the crystallographic analysis given by the PDB
+ID from the Protein Data Bank 3 [Ber77] and to extract the bound ligand with Schr¨odinger’s
+Maestro program. Thus these 12 ligands will from now on be referenced by their originating
+PDB ID. They are depicted in ﬁgure 3.6 and their data and publications is shown in table 3.1.
+The 88 precompiled structures were only available as structural formulas so they had to be
+converted into a valid 3D conformation. To achieve this they were converted with the CORINA
+program [Sad94].
+
+Trombin inhibitors were chosen both for their high ﬂexibility and the fact that the interactions
+of inhibitors and Thrombin are well investigated and there are several well documented studies
+including crystal structures.
+
+3.5 Conformation Sampling
+
+3.5.1 Precomputed Conformation Sampling
+
+The ﬁrst strategy to be pursued was to precompute a set of conformers for all molecules, pick
+a subset of 100 of these conformers per molecule (or less, if less then 100 were available)
+and use the genes in the GA as indices for the molecules to chose from. Therefor a mutation
+operation in the GA lead not only to a single change in the conformation but could lead to a
+whole different one.
+
+1http://bioinfo-pharma.u-strasbg.fr/scPDB/
+2http://www.bindingdb.org
+3http://www.rcsb.org/pdb
+
+21
+
+3 Materials and Methods
+
+(a) 1a4w
+
+(b) 1c5n
+
+(c) 1ghy
+
+(d) 1gj4
+
+(e) 1gj5
+
+(f) 1o2g
+
+(g) 1o5g
+
+(h) 2zc9
+
+(i) 2zda
+
+(j) 2zgx
+
+(k) 2zo3
+
+(l) 3dhk
+
+Figure 3.6: These ﬁgures show the 12 molecules with known active structure used in this work.
+
+They are labeled with the PDB ID they were extracted from.
+
+22
+
+3.5 Conformation Sampling
+
+PDB ID pKi value
+
+resolution (in ˚A) ﬁrst published in
+
+1a4w
+1c5n
+1ghy
+1gj4
+1gj5
+1o2g
+1o5g
+2zc9
+2zda
+2zgx
+2zo3
+3dhk
+
+7.796
+4.699
+5.071
+4.222
+6.347
+6.495
+4.957
+7.327
+8.398
+6.745
+10
+6.744
+
+1.80
+1.50
+1.85
+1.81
+1.73
+1.58
+1.75
+1.58
+1.73
+1.80
+1.70
+1.73
+
+[Mat96]
+[Kat00]
+[Kat01a]
+[Kat01b]
+[Kat01b]
+[Kat03]
+[Kat04]
+[Bau09]
+[Bau09]
+[Bau09]
+[Bau09]
+[Bau09]
+
+Table 3.1: This table gives information of all used molecules for which the crystal structure was
+
+known
+
+The conformations themselves were generated with the ConfGen program [WS10] which is
+
+based on the molecular modeling Program MacroModel [SI08b].
+
+The ﬁrst step the program takes is to identify variable features which are rotatable bonds,
+ﬂexible ring systems and invertible nitrogens. ConfGen generally identiﬁes a bond as rotatable
+if the following criteria are met:
+
+• It is a single bond
+
+• It doesn’t lie within a ring
+
+• Neither of the atoms connected by the bond is terminal (i.e. has no other bonds to it)
+
+• Neither end of the bond is a CH3, NH2 or NH+
+
+3 group
+
+• Neither atom in the bond is bonded to two or three atoms that are all equivalent and are
+
+arranged with two- or three-fold rotational symmetry.
+
+Ring conformers are generated using the same template based facility available in LigPrep
+[SI08a], Glide [Fri04], MacroModel [SI08b], or Phase [Dix06].
+It is designed to generate
+a complete set of accurate, low energy ring conformation identifying individual rings with a
+smallest set of smallest rings (SSSR) method [Zam76]. When a ring system is identiﬁed it is
+compared to a set of 1252 templates to ﬁnd the most similar template. This template is then used
+to calculate the relative energies of the ring within the molecule. There are Nri combinations of
+ring conformations for a whole molecule:
+
+Nri = 2Ni ∏
+
+r
+
+Ncr
+
+(3.11)
+
+where Ni is the number of invertible nitrogen atoms, r runs over all ﬂexible ring systems and
+Ncr is the number of templates selected to use for each individual ring system.
+
+Each of the generated set of ring conformers is then processed as follows. First the potential
+of each rotatable bonds connecting the ring systems are calculated using a derivative of OPLS
+[Jor88] [Jor96] including a quick check of Lennard-Jones potentials of all atoms on one side
+of the bond to all on the other side to avoid local Van-der-Waals clashes. Then the potential
+
+23
+
+3 Materials and Methods
+
+parameter
+maximum number of seach steps
+search steps per rotatable bond
+minimum heavy atom RMSD ( ˚A) for
+distinct conformer
+minimum dihedral angle difference
+for polar hydrogens (◦)
+maximum relative energy for ﬂexible
+rings (kcal/mol)
+maximum number of ring conforma-
+tions per ligand
+maximum number of ring conforma-
+tions per ring
+maximum relative ConfGen energy
+(kcal/mol)
+energy threshold for periodic torsions
+(kcal/mol)
+restraint potentials for weak torsions
+in MacroModel (kcal/mol)
+restraint potential half width (◦)
+suppress hydrogen-bond electrostat-
+ics in MacroModel
+maximum relative energy all-atom en-
+ergy in MacroModel (kcal/mol)
+
+intermediate
+1000
+75
+1
+
+comprehensive
+1000
+75
+0.5
+
+60
+
+2.39
+
+16
+
+8
+
+25
+
+5.74
+
+239
+
+10
+Yes
+
+25
+
+60
+
+23.9
+
+128
+
+64
+
+119.5
+
+5.74
+
+239
+
+10
+Yes
+
+119.5
+
+Table 3.2: This table shows the parameters used to generate the two datasets. The intermediate
+parameter set is more restrictive and almost certainly only picks energetic minima
+while the comprehensive parameter set allows for the algorithm to pick a conforma-
+tion lying between two optima.
+
+minima are computed and used to create sets of rotational bonds surrounding the molecular
+core (i.e. the part of the molecule remaining if every outer rotational bond is severed).
+
+For each combination of ring system conformation, invertible nitrogen atom geometry and
+minima of rotatable bond dihedral angle all molecule conformations are compiled and, if the
+sum of all relative potential (to the one with the least energy) energies doesn’t exceed a preset
+limit, the conformation is added to the resulting set of conformers.
+
+In this work I used two sets of parameters for the algorithm described above. One restrictive
+and one permissive. While the restrictive parameter set only generated conformers where the
+rotatable bonds took up a local minimum energetic state the permissive one allowed more
+freedom. Thus conformations were pickes lying in between local optima and allowing the GA
+to successively change more easily from one conformation to another. For the exact parameters
+used in the conformer sampling see table 3.2
+
+3.5.2 Implicit Conformation Sampling
+
+The second strategy to be pursued was to not use the precomputed conformation sampling but
+to generate a new set of conformations from generation to generation in the genetic algorithm.
+Therefor the encoding of the single individuals in the GA had to be different. In contrast to the
+
+24
+
+3.5 Conformation Sampling
+
+optimization of the precomputed conformation set, where each ‘gene’represented the confor-
+mation ID of a whole molecule, here a ‘gene’ only represented a single rotatable bond within
+a molecule. While a mutation on one gene in the GA meant to pick a whole new conformation
+of the concerned molecule with possibly every rotatable bond affected, the mutation of a gene
+in the implicit conformation sampling only meant the alteration of a single rotatable bond. In
+addition it had to be ensured that the crossover operator didn’t cut in the middle of the encoding
+of a molecule but only at the end of one and the beginning of the other. Doing a crossover in the
+middle of a molecule could lead to an invalid conformation because it couldn’t be guaranteed
+that the molecule wouldn’t fold back on itself overlapping one or more atoms.
+
+Figure 3.7: The ﬁgure shows an example of a molecule with nine rotatble bonds an the corre-
+sponding encoding as a gene for the GA. The denoted angles are the dihedral angles
+for a unique set of deterministically calculated atoms ‘surrounding’the bond
+
+But before encoding a molecule in the GA one had to know the exact number of rotatable
+bonds. For that each bond was inspected and had to meet a list of criteria to count as rotatable.
+The criteria used were the ones already implemented in the JoeLib2 framework:
+
+• The atom at the beginning of the bond has to have a heavy atom valence of > 1
+
+• The atom at the end of the bond has to have a heavy atom valence of > 1
+
+• The bond order has to be 1
+
+• The bond mustn’t lie in a ring system
+
+• The the atom at the beginning of the bond mustn’t have a hybridization of 1
+
+• The the atom at the end of the bond mustn’t have a hybridization of 1
+
+If these criteria were met, the bond was added to the molecules rotatable bond list.
+
+The unit with which the rotations where encoded was 1◦ (i.e. degree) where degree refers to
+
+the dihedral angle. An angle of 0◦ refers to the original crystallographic conformation.
+
+For the ﬁrst generation of the GA a initial set of conformations was computed picking a
+random value for the dihedral angle of each rotatabel bond of each molecule in the dataset.
+
+25
+
+3 Materials and Methods
+
+After each occurring mutation in the GA the according molecule was computed again with the
+new degree value. Where the new value was in reference to the original 0◦ value and not to the
+currently applied one.
+
+To compute a rotation around a rotatable bond one has to rotate each atom belonging to one
+of either of the two bipartite graphs formed by splitting the molecular graph at the designated
+bond. The bipartite graph was calculated using a stack, adding the beginning atom of the bond
+and then recursively adding every atom bound to the ones already on the stack (except for the
+atom at the end of the designated rotatable bond) until no new atoms could be found. This was
+possible because no bond were allowed to be rotatable if they were in a ring system and no
+molecules with macrocyles were in the dataset.
+
+The actual rotation was achieved by applying a quaternion to each of the atoms in the bi-
+partite graph with the center of the coordinate system being the atom at the beginning of the
+bond.
+
+(a) molecule in basic conformation
+
+(b) molecule with bond Nr. 9 rotated by 90◦
+
+Figure 3.8: These two ﬁgures show an example of a rotation around one rotatable bond.
+
+Both, at the initial random initialization of the conformations and at every mutation event it
+has to be ensured that the generated conformation is valid (i.e. no atoms or bonds overlap or
+lie to close to each other). Therefore for every new conformation all pairwise atom distances
+have to be calculated. The chosen value for a lower bound (gathered by calculating the average
+minimal distance for non-bound atoms over the whole original dataset) was 2 ˚A while distances
+of covalent bonds were ignored.
+
+26
+
+3.6 SVR
+
+3.6 SVR
+
+In this work I used the libSVM implementation by Chang and Lin [CL01] 4. To compute
+the MSE a leave-one-out approach was applied. A model of the dataset (i.e represented by the
+kernel matrix) was built n times (with n beeing the size of the dataset) always with one different
+data point left out. For these datasets a ﬁve-fold cross-validation (inner fold) was run 5 times
+(inner runs). The inner fold was used to determine the best parameters of the regression (i.e
+values of parameters ε and c yielding the best performance on the validation dataset). The inner
+runs were used to the best model, with the just computed best parameters. The best model was
+then used to predict the currently left out data point. The set of parameters can be seen in table
+3.3.
+
+computation method
+inner folds
+inner repetitions
+c begin
+c end
+ε begin
+ε end
+
+leave one out
+5
+5
+-1
+5
+-7
+-2
+
+Table 3.3: This table shows the parameters used to calculate the MSE for the regression on the
+
+datasets.
+
+4http://www.csie.ntu.edu.tw/ cjlin/libsvm/
+
+27
+
+4 Results
+
+In this chapter I will present the results, interpret and discuss them. The results are divided
+by precomputed and implicit conformation sampling. Each of those two parts is further split
+by the used kernel methods and parameters. The results are mostly presented in chronological
+order to try and replicate my line of thought.
+
+Evaluation Method
+
+To explain the values shown in the following diagrams I will give a short explanation for each
+of them. The meaning of the values remains the same for every ‘run’-diagram in this work.
+
+MSE
+
+The ‘avg MSE’value shown in each diagram is the average MSE value for one generation
+(i.e. 100 individuals). Where MSE is the best found Mean Square Error for each regression.
+In the corresponding table I will show the respective numerical values. The ‘Best individual
+MSE’ relates to the absolute minimum found by at least one individual.
+
+RMSD
+
+The ‘avg RMSD’ value is the average RMSD value for the conformation of the 12 molecules
+with known active structure encoded by the current individual to their respective active struc-
+ture. The ‘Best individual RMSD’ relates to the individual with the lowest RMSD averaged
+over the 12 molecules in my dataset to their respective active structure.
+
+5% Quantile
+
+The 5% quantile demarks the value where every point below this line lies in the lowest 5% of all
+possible values for the average RMSD. It’s value is exactly 1.629. This was computed picking
+20000 random combinations from the conformer sets of each molecule and building the average
+RMSD to their respective active structures. From this normal distribution the p−Quantile
+with p = 0.05 was calculated using the standard formula x(p) = µ + σ · z(p) where µ is the
+expectation and σ 2 the variance and z(0.05) was looked up in the normal distribution table.
+
+4.1 Precomputed Conformation Sampling
+
+For the ﬁrst experiment, the optimization of the QSAR model I used the dataset described ear-
+lier. The dataset ﬁrst included all conformers produced with ConfGen where every molecule
+had a different amount of conformers created. To reduce the extent of the combinatorial size
+I picked the lower of either 100 or the number of conformers originally created. The selec-
+tion method was to pick the conformers equally distributed over their relative energy to the
+
+28
+
+4.1 Precomputed Conformation Sampling
+
+conformer with the absolute lowest energy to guarantee an equal distribution over the con-
+formational space of each molecule. Because the output sets for each individual conformer
+where already sorted by their relative energy I simply had to pick every n-th conformer. Where
+n = number of conformers available/100.
+
+29
+
+4 Results
+
+(a) This ﬁgure shows the avg. MSE, avg RMSD, best
+MSE and best RMSD for Run 01 where the PPK Kernel
+was used with parameter B = 1000
+
+(b) This ﬁgure shows the avg. MSE, avg RMSD, best
+MSE and best RMSD for Run 02 where the RBF Kernel
+was used with parameters B = 1000; sigma = 100
+
+(c) [This ﬁgure shows the avg. MSE, avg RMSD, best
+MSE and best RMSD for Run 02 where the RBF Kernel
+was used with smoothing factor = 0.1
+
+Figure 4.1: These ﬁgures show the results of the ﬁrst three runs. One can see that the optimiza-
+tion works ﬁne due to the MSE declining while the average RMSD only declines in
+Run03 using the APK but still doesn’t reach the 5% quantile.
+
+30
+
+4.1 Precomputed Conformation Sampling
+
+Paramter / Run Nr.
+Kernel method
+RDF B factor
+RBF Sigma factor
+Smoothing factor
+Mutation Probability
+Mutate ﬁrst 12 only
+Conformation Sampling
+Start avg. MSE
+End avg. MSE
+Diff. Start/End
+Best avg. MSE
+Best individual MSE
+Start avg. RMSD
+End avg. RMSD
+Diff. Start/End
+Best avg. RMSD
+Best individual RMSD
+
+01
+PPK
+1000
+-
+-
+0.1
+no
+intermediate
+1.256
+0.118
+1.138
+0.109
+0.117
+1.893
+1.878
+0.015
+1.822
+1.525
+
+02
+RBF
+1000
+100
+-
+0.1
+no
+intermediate
+1.191
+0.536
+0.655
+0.536
+0.526
+1.915
+1.900
+0.015
+1.808
+1.505
+
+03
+APK
+-
+-
+0.1
+0.1
+no
+intermediate
+1.039
+0.337
+0.702
+0.337
+0.335
+1.907
+1.790
+1.117
+1.724
+1.465
+
+Table 4.1: This table shows the parameters and the results for Run01,Run02 and Run 03. Pa-
+
+rameters denoted by ‘- ’are not available for the chosen kernel method
+
+4.1.1 Initial Runs
+
+In the ﬁrst runs (run 01-03) of the experiment I used the PPK and the RBF Kernel on the RDF
+of the molecules and the APK to generate the kernel matrix. The parameters were set to their
+default values to check the overall function of the optimization. (see table 4.1)
+
+The results of these three runs are depicted on the left side in ﬁgure (4.1). One can see that
+the basic optimization is functional. The average MSE declines from the values of 1.256, 1.191
+and 1.039 to values of 0.109, 0.536 and 0.337. But, while the average RMSD declines slightly
+in Run03 with the use of the APK it remains at the same level with the use of the PPK and
+RBF. Although some isolated individuals get below the 5% quantil mark they are dismissed in
+the next generation implying that the individuals with a higher average RMSD result in better
+models with lower MSEs.
+
+My ﬁrst consideration on evaluating these results where twofold. Either the use of the large
+dataset of molecules with unknown active structures impeded the decline of the ones with
+known active structures because their weight in the model building process was to large, or the
+parameters used were not ﬁt for this kind of optimization.
+
+Therefore I consecutively lowered the size of the dataset to 56, 41 and 34 molecules, al-
+ways including the 12 known active structures, and changed the parameters of the kernels used.
+Which are the B parameter for the RDF resulting in a smoother RDF function and the smooth-
+ing factor for the APK, both in the hope of a better generalization. These changes are shown in
+the next sections.
+
+31
+
+4 Results
+
+(a) This ﬁgure shows the results for the PPK with B =
+1000 on the dataset with 56 molecules
+
+(b) This ﬁgure shows the results for the PPK with B =
+1000 on the dataset with 41 molecules
+
+(c) This ﬁgure shows the results for the PPK with B =
+1000 on the dataset with 34 molecules
+
+(d) This ﬁgure shows the results for the RBF Kernel
+with sigma = 100 on the dataset with 56 molecules
+
+(e) This ﬁgure shows the results for the RBF Kernel
+with sigma = 100 on the dataset with 41 molecules
+
+(f) This ﬁgure shows the results for the RBF Kernel with
+sigma = 100 on the dataset with 34 moleculesl
+
+Figure 4.2: These ﬁgures show the results of the runs with reduced datasets for the PPK and
+
+RBF Kernel.
+
+32
+
+4.1 Precomputed Conformation Sampling
+
+Parameter / Run Nr.
+Kernel method
+RDF B factor
+RBF Sigma factor
+Mutation Probability
+Mutate ﬁrst 12 only
+Conformation Sampling
+Dataset size
+Start avg. MSE
+End avg. MSE
+Diff. Start/End MSE
+Best avg. MSE
+Best individual MSE
+Start avg. RMSD
+End avg. RMSD
+Diff. Start/End RMSD
+Best avg. RMSD
+Best individual RMSD
+
+04
+PPK
+1000
+-
+0.1
+no
+interm.
+56
+1.3470
+0.1184
+1.2286
+0.1128
+0.1091
+1.8626
+1.7738
+0.0888
+1.5744
+1.4630
+
+05
+PPK
+1000
+-
+0.1
+no
+interm.
+41
+1.4283
+0.0917
+1.3366
+0.0885
+0.0856
+1.8348
+1.6095
+0.2253
+1.5977
+1.2913
+
+06
+PPK
+1000
+-
+0.1
+no
+interm.
+34
+1.5836
+0.1366
+1.447
+0.1343
+0.1334
+1.8924
+1.9664
+-0.074
+1.5805
+1.5148
+
+07
+RBF
+1000
+100
+0.1
+no
+interm.
+56
+1.3432
+0.3663
+0.9769
+0.3663
+0.3578
+1.8239
+1.7765
+0.0474
+1.7443
+1.2660
+
+08
+RBF
+1000
+100
+0.1
+no
+interm.
+41
+1.4391
+0.3422
+1.0969
+0.3422
+0.3393
+1.8206
+1.8151
+0.0109
+1.8120
+1.3552
+
+09
+RBF
+1000
+100
+0.1
+no
+interm.
+34
+1.5611
+0.4955
+1.0656
+0.4897
+0.4862
+1.8717
+1.9408
+-0.0691
+1.8688
+1.2588
+
+Table 4.2: This table shows the parameters and the results for Run 04 through Run 09. Param-
+
+eters denoted by ‘- ’are not available for the chosen kernel method
+
+4.1.2 Reduced Dataset with PPK and RBF Kernel
+
+To see if reducing the dataset size would yield models with a lower average RMSD I ran the
+PPK and the RBF on datasets where the only every 2nd, 3rd and 4th molecule with unknown
+active structure where included. The hypothesis was that due to the fact that the overall inﬂu-
+ence of the known active structures on the model is higher and if the general assumption of
+good models consisting of good data (i.e. the active structure) the RMSD would be lower.
+
+The results of these runs are shown in ﬁgure 4.1.1 and table 4.2. With the use of the PPK
+(runs 04-06) the average RMSD gets below the 5% quantile at some point. In run 04 and run 05
+the average RMSD gets below the 5% quantile within the ﬁrst 50 generations but returns to its
+starting level shortly after and stagnates. In run 05 however the average RMS stays at a relative
+high value in comparison to run 04 and 06 but declines to a value below the 5% quantile mark
+after 50 generations. In addition the MSE of the best model found for run 05 was the lowest of
+all three runs with ﬁnal value of 0.0917 in contrast to 0.1184 and 0.1366 for runs 04 and 06.
+
+With the use of RBF kernel (run 07, run 08 and run 09) the average RMSD didn’t get below
+the 5% quantile in any of the 3 runs. Although run 08 on the dataset with 41 molecules showed
+a steady decline of the average RMSD which is similar to the results of run 05. It is noticeable
+that the initial generation of all three runs consisted of at least one individual with a very
+low average RMSD and considering the low starting RMSD more than one. These indivduals
+however were dismissed in the ﬁrst 25 generations resulting in a average RMSD. Furthermore
+the best models found by using the RBF kernel had MSE values of 0.3578, 0.3393 and 0.4852
+which is for each more then three times the MSE value of the best model for the PPK with
+corresponding dataset size where the values are 0.1091, 0.0856 and 0.1334.
+
+Considering this direct comparison of the PPK and the RBF kernel the PPK shows better
+
+results, both for the modeling and for the use of the actual active structure.
+
+33
+
+4 Results
+
+(a) This ﬁgure shows the results for the APK with
+smoothing f actor = 0.1 on the dataset with 56 molecule
+
+(b) This ﬁgure shows the results for the APK with
+smoothing f actor = 0.1 on the dataset with 41 molecule
+
+(c) This ﬁgure shows the results for the APK with
+smoothing f actor = 0.1 on the dataset with 34 moleculel
+
+Figure 4.3: These ﬁgures show the results of the runs with reduced datasets for the APK. Run
+
+12 is the model with lowest ﬁnal average RMSD of all runs.
+
+34
+
+4.1 Precomputed Conformation Sampling
+
+Parameter / Run Nr.
+Kernel method
+RDF B factor
+RBF Sigma factor
+Smoothing factor
+Mutation Probability
+Mutate ﬁrst 12 only
+Conformation Sampling
+Dataset size
+Start avg. MSE
+End avg. MSE
+Diff. Start/End MSE
+Best avg. MSE
+Best individual MSE
+Start avg. RMSD
+End avg. RMSD
+Diff. Start/End RMSD
+Best avg. RMSD
+Best individual RMSD
+
+10
+APK
+-
+-
+0.1
+0.1
+no
+intermediate
+56
+1.0026
+0.3420
+0.6606
+0.3420
+0.3390
+1.8399
+1.6799
+0.16
+1.5922
+1.4729
+
+11
+APK
+-
+-
+0.1
+0.1
+no
+intermediate
+41
+1.2949
+0.5053
+0.7896
+0.5051
+0.5028
+1.8381
+2.0098
+-0.1717
+1.7233
+1.3699
+
+12
+APK
+-
+-
+0.1
+0.1
+no
+intermediate
+34
+1.2255
+0.5067
+0.7188
+0.5023
+0.5012
+1.9241
+1.3813
+0.5428
+1.2618
+1.1870
+
+Table 4.3: This table shows the parameters and the results for Ru10, Run11 and Run 12. Pa-
+rameters denoted by ‘-’ are not available for the chosen kernel method
+
+4.1.3 Reduced Dataset with Atom Pair Kernel
+
+The reduction of the dataset had a similar effect on the use of the APK as id had on the RPK.
+The starting average RMSD was 1.8399, 1.18381 and 1.9241 and while run 10 and 12 had a
+considerably lower end RMSD with 1.699 and 1.3913 the ﬁnal RMSD of run 11 was 2.0098.
+Which is 0.1717 higher then the start RMSD.
+
+The ﬁrst and third run, 10 and 12 show a similar development as the earlier runs 04, 05 and
+06 with the average RMSD dropping by several percent around generation 50. But in contrast
+to all other previous runs the RMSD of run 12 declines further giving an indication that the
+optimization reaches a point where it can drop into several minima one of them beeing a model
+that included structures more likely to be near the conformation of the active structure.
+
+Further one can see that for all three kernel methods the overall end MSE value rises with
+descending dataset size. This can be lead back to loss of information with decreased data set
+size. But both the APK and especially the PPK mostly lead to better models then the RBF dies
+with the full dataset of 100 molecules. Where the APK and PPK differ in the way that using
+the APK leads to models which have a lower RMSD to the active structures but a higher MSE
+while the use of the PPK leads to very good models with the lowest MSE of all all models
+created but with higher RMSD values.
+
+Because most of the resulting models using the APK and PPK with the reduced datasets
+where as good as the the ones using the full dataset due to their equal or lower MSE, I decided
+to use the reduced dataset for future runs. Since the SVR is contained in O(n3) and the GA is
+contained in O(n) this measure cut the computation time for a complete run by at least 50%.
+
+35
+
+4 Results
+
+(a) This ﬁgure shows the results for the PPK with B = 10
+on the dataset with 34 molecules
+
+(b) This ﬁgure shows the results for the PPK with B =
+10 on the dataset with 56 molecules
+
+(c) This ﬁgure shows the results for the PPK with B =
+100 on the dataset with 56 molecules
+
+(d) This ﬁgure shows the results for the PPK with B =
+500 on the dataset with 34 molecules
+
+Figure 4.4: These ﬁgures show the results of the runs with reduced datasets and altered param-
+
+eters for the PPK.
+
+36
+
+4.1 Precomputed Conformation Sampling
+
+Parameter / Run Nr.
+Kernel method
+RDF B factor
+RBF Sigma factor
+Smoothing factor
+Mutation Probability
+Mutate ﬁrst 12 only
+Conformation Sampling
+Dataset size
+Start avg. MSE
+End avg. MSE
+Diff. Start/End MSE
+Best avg. MSE
+Best individual MSE
+Start avg. RMSD
+End avg. RMSD
+Diff. Start/End RMSD
+Best avg. RMSD
+Best individual RMSD
+
+13
+PPK
+10
+-
+-
+0.1
+no
+intermediate
+34
+1.5727
+0.1701
+1.4026
+0.1645
+0.1595
+1.8585
+1.8107
+0.0478
+1.6172
+1.4992
+
+14
+PPK
+10
+-
+-
+0.1
+no
+intermediate
+56
+1.3344
+0.0853
+1.2491
+0.0838
+0.0814
+1.8323
+1.8826
+-0.0503
+1.7662
+1.3194
+
+15
+PPK
+100
+-
+-
+0.1
+no
+intermediate
+56
+1.3834
+0.0813
+1.3021
+0.0777
+0.0763
+1.8402
+1.7181
+0.1221
+1.7118
+1.0926
+
+16
+PPK
+500
+-
+-
+0.1
+no
+intermediate
+34
+1.5559
+0.1387
+1.4172
+0.1306
+0.1285
+1.9009
+2.0711
+-0.1702
+1.6644
+1.6265
+
+Table 4.4: This table shows the parameters and the results for run 13, run 14, run 15 and run
+
+16. Parameters denoted by ‘- ’are not available for the chosen kernel method
+
+4.1.4 Alternative Parameters for the Product Probability Kernel
+
+In addition to reducing the dataset I changed the parameters of the PPK and APK. The results
+for the PPK with the B parameter of the RBF set to 10, 100 and 500 in relation to 1000 at the
+previous runs are shown in ﬁgure 4.4 and table 4.4. One can see that run 16 still shows the low
+RMSD values around generation 50 with a strong increase and stagnation afterwards. The runs
+13, 14 and 15 also show the decrease of the RMSD around generation 50 but not as strong as
+runs with a higher parameter.
+
+The average RMSD values of runs 13 and 15 only decrease slightly by 0.0478 and 0.1221
+from 1.8585 and 1.8107 to 1.8107 and 1.7181. While the average RMSD values of runs 14
+and 16 even increase by 0.0503 and 0.1702 from 1.8323 and 1.9009 to 1.8826 and 2.0711. The
+MSE though reaches the lowest values of all runs with run 15 at a value of 0.777 and the second
+lowest at run 14 with 0.0838.
+
+The fact that a run with parameter B = 10 renders the best resulting model can be lead
+back to the fact that the B parameter describes the ‘smoothness’ and distinctness of a RDF.
+With declining B the RDF becomes more of a general description of the respective molecule
+and its conformation instead of an exact characterization. In this case the presence of distinct
+chemical groups or pharmacophores and their arrangement to each other is more important then
+their individual orientation. This leads to a better generalization of the model at the cost of a
+better discrimination of the conformations for each molecule.
+
+37
+
+4 Results
+
+(a) This ﬁgure shows the results for the APK with
+smoothing f actor = 0.2 on the dataset with 34 molecules
+
+(b) This ﬁgure shows the results for the APK with
+smoothing f actor = 0.2 on the dataset with 41 molecules
+
+the APK
+(c) This ﬁgure shows
+with smoothing f actor = 0.2 on the dataset with 56
+moleculesl
+
+the results
+
+for
+
+(d) This ﬁgure shows the results for the APK with
+smoothing f actor = 0.2 on the dataset with 100
+molecules
+
+Figure 4.5: These ﬁgures show the results of the runs with reduced datasets and altered param-
+
+eters for the APK.
+
+38
+
+4.1 Precomputed Conformation Sampling
+
+Parameter / Run Nr.
+Kernel method
+RDF B factor
+RBF Sigma factor
+Smoothing factor
+Mutation Probability
+Mutate ﬁrst 12 only
+Conformation Sampling
+Dataset size
+Start avg. MSE
+End avg. MSE
+Diff. Start/End RMSD
+Best avg. MSE
+Best individual MSE
+Start avg. RMSD
+End avg. RMSD
+Diff. Start/End RMSD
+Best avg. RMSD
+Best individual RMSD
+
+17
+APK
+-
+-
+0.2
+0.1
+no
+intermediate
+34
+1.1934
+0.3901
+0.8033
+0.3857
+0.3830
+1.9084
+1.8879
+0.0205
+1.7840
+1.4992
+
+18
+APK
+-
+-
+0.2
+0.1
+no
+intermediate
+41
+1.3013
+0.3813
+0.92
+0.3813
+0.3807
+1.8337
+1.7185
+0.1152
+1.5997
+1.3194
+
+19
+APK
+-
+-
+0.2
+0.1
+no
+intermediate
+56
+0.9636
+0.2805
+0.6831
+0.2796
+0.2774
+1.8434
+1.6696
+0.1738
+1.6470
+1.0926
+
+20
+APK
+-
+-
+0.2
+0.1
+no
+intermediate
+100
+1.0234
+0.2878
+0.7356
+0.2878
+0.2864
+1.9025
+1.9787
+-0.0762
+1.8900
+1.6265
+
+Table 4.5: This table shows the parameters and the results for run 17, run 18 and run 19 and run
+
+20. Parameters denoted by ‘-’ are not available for the chosen kernel method
+
+4.1.5 Alternative Parameters for APK
+
+Figure 4.5 and table 4.5 show the results for the runs 17, 18, 19 and 20 using the APK with the
+full and the reduced datasets and a smoothing factor of 0.2. Runs 18 and 19 show the ﬁrst deep
+decline of the RMSD at 50 generations to a global minimum of an average RMSD of 1.5997
+and 1.6470 while run 17 shows a steady decline and run 20 an overall stagnation at a RMSD of
+approximately 2.0.
+
+As with the alternation of the B parameter of the PPK, setting the smoothing factor to a
+value of 0.2 for the APK changes the generalization of the model resulting in lower MSE
+values than previous runs with the use of the APK for all four runs. While the APK only
+encodes atom types, distances and binding modes, doubling the smoothing factor still holds
+enough information to ﬁt the model. It allows further for the GA to hold more individuals with
+a wider RMSD range. This can be seen in ﬁgure 4.5 with the best individual RMSD values
+being distinctively low than the average RMSD values over several generations in all four runs.
+The average MSE values of the ﬁnal models was 0.3901, 0.3813, 0.2805 and 0.2878, which
+is approximately 0.15 below previous runs. But in change for the better generalization and
+lower MSE values the overall RMSD stagnated with only run 19 showing a decline to a ﬁnale
+value of 1.7185 which is still above the 5% quantile.
+
+39
+
+4 Results
+
+(a) This ﬁgure shows the results for the PPK with B = 10
+on 56 molecules and a mutation probability of 0.2
+
+(b) This ﬁgure shows the results for the PPK with B =
+10 on 56 molecules and a mutation probability of 0.2
+
+(c) This ﬁgure shows the results for the PPK with B = 10
+on 56 molecules and a mutation probability of 0.2
+
+Figure 4.6: These ﬁgures show the results of the runs with reduced datasets and increased mu-
+
+tation probability for the PPK and APK.
+
+40
+
+4.1 Precomputed Conformation Sampling
+
+Parameter / Run Nr.
+Kernel method
+RDF B factor
+RBF Sigma factor
+Smoothing factor
+Mutation Probability
+Mutate ﬁrst 12 only
+Conformation Sampling
+Dataset size
+Start avg. MSE
+End avg. MSE
+Diff. Start/End MSE
+Best avg. MSE
+Best individual MSE
+Start avg. RMSD
+End avg. RMSD
+Diff. Start/End RMSD
+Best avg. RMSD
+Best individual RMSD
+
+21
+PPK
+10
+-
+-
+0.5
+no
+intermediate
+34
+1.5839
+0.1584
+1.4255
+0.132
+0.1148
+1.8889
+1.8699
+0.0190
+1.7506
+1.4206
+
+22
+PPK
+10
+-
+-
+0.5
+no
+intermediate
+56
+1.3608
+0.1012
+1.2596
+0.0909
+0.0736
+1.8520
+1.9711
+-0.1191
+1.6712
+1.3559
+
+23
+APK
+-
+-
+0.1
+0.5
+no
+intermediate
+34
+1.2421
+0.4708
+0.7713
+0.4651
+0.4497
+1.8823
+2.0111
+-0.1288
+1.7752
+1.4107
+
+Table 4.6: This table shows the parameters and the results for Run 21, Run 22 and Run 23.
+Parameters denoted by ‘- ’are not available for the chosen kernel method
+
+4.1.6 Increased Mutation Rate
+
+Studying the results of the changes in decreasing the dataset and altering the kernel parameter
+the next step was to change the parameters and overall process of the GA. The easier of both was
+to set the mutation probability to 0.5 instead of the standard 0.1 value. The mutation probability
+deﬁnes the rate at which mutations occur during the mating process from one generation to the
+next.
+Increasing the mutation probability allows the GA to search in a broader range and
+increases the chance of the optimization to jump out of a local minimum, but it also decreases
+the optimization rate and may lead to more diverse results.
+
+As one can see in all three runs depicted in ﬁgure 4.6 the increased mutation probability
+leads to at least one individual in each generation with a signiﬁcantly lower RMSD as the
+average. Further noticeable is the fact the the progression of the average and especially the best
+individual RMSD include more peaks.
+
+While changing the mutation probability still leads to good models with an average MSE of
+0.1584, 0.1012 and 0.4708, in two of the runs the average end RMSD was even 0.1191 and
+0.1288 higher then their start RMSD with 1.8520 and 1.8823.
+
+41
+
+4 Results
+
+(a) This ﬁgure shows the results for the APK with
+smoothing f actor = 0.2 on 56 molecules with alterna-
+tive conformation sampling and a mutation probability
+of 0.1
+
+(b) This ﬁgure shows the results for the APK with
+smoothing f actor = 0.2 on 56 molecules with alterna-
+tive conformation sampling and a mutation probability
+of 0.1
+
+(c) This ﬁgure shows the results for the PPK with B = 10
+on 56 molecules with alternative conformation sampling
+and a mutation probability of 0.5
+
+(d) This ﬁgure shows the results for the PPK with B =
+10 on 56 molecules with alternative conformation sam-
+pling and a mutation probability of 0.1
+
+Figure 4.7: These ﬁgures show the results of the runs with reduced datasets of the alternative
+conformation sampling and increased mutation probability for the PPK.
+
+4.1.7 Alternative Conformation Sampling
+
+A second way of increasing the chance of the optimization to jump out of a local minimum
+was to change the conformation sampling of the dataset. While the intermediate parameters for
+the ConfGen algorithm only allows local minima of relative molecular energy the comprehen-
+sive parameters allowed GonfGen to output molecules with dihedral angles and ﬂexible ring
+energies not being in a local minimum.
+
+42
+
+4.1 Precomputed Conformation Sampling
+
+Parameter / Run Nr.
+Kernel method
+RDF B factor
+RBF Sigma factor
+Smoothing factor
+Mutation Probability
+Mutate ﬁrst 12 only
+Dataset size
+Conformation Sampling
+Start avg. MSE
+End avg. MSE
+Diff. Start/End MSE
+Best avg. MSE
+Best individual MSE
+Start avg. RMSD
+End avg. RMSD
+Diff. Start/End RMSD
+Best avg. RMSD
+Best individual RMSD
+
+24
+APK
+-
+-
+0.2
+0.1
+no
+56
+comprehensive
+0.9265
+0.3775
+0.549
+0.3775
+0.3756
+1.7999
+1.7873
+0.0126
+1.7175
+1.376
+
+25
+APK
+-
+-
+0.2
+0.1
+no
+56
+comprehensive
+0.9252
+0.3192
+0.606
+0.3192
+0.3169
+1.8047
+1.7608
+0.0439
+1.7385
+1.3512
+
+26
+PPK
+10
+-
+-
+0.5
+no
+56
+comprehensive
+1.3531
+0.1084
+1.2447
+0.1025
+0.0816
+1.794
+1.6181
+0.1759
+1.5084
+1.2488
+
+27
+PPK
+10
+-
+-
+0.5
+no
+56
+comprehensive
+1.3671
+0.1191
+1.248
+0.1059
+0.0934
+1.7862
+1.7728
+0.0134
+1.6867
+1.3333
+
+Table 4.7: This table shows the parameters and the results for Run 24, Run 25, Run 26 and Run
+
+27. Parameters denoted by ‘- ’are not available for the chosen kernel method
+
+The thought was to allow the GA to successively get out of local minima due to the differ-
+ences in relative molecular energies not being as great as with the intermediate conformation
+sampling. Therefore the error of a change from one conformation to the one with the nearest
+relative energy would not be as great for the comprehensive conformation sampling as for the
+intermediate.
+
+Another reason for using the comprehensive conformation sampling was that the relative
+energy of an active structure is not necessarily a local minimum due to the interaction of the
+molecule with its target and the solvent. So by allowing non-minima structures in the dataset I
+reduced the minimal RMSD between the conformers in the dataset and the active structures.
+
+The results for the experiments with the dataset produced by conformation sampling with
+comprehensive parameters are shown in ﬁgure 4.7 and table 4.7. As one can see in run 24
+and run 25 which used the APK and a smoothing factor of 0.2 the ﬁrst decline of the average
+RMSD with its concurrent increase between generation 35 and 50 still occurs. But instead of
+stagnating at the same average level as in most previous runs the average RMSD declines again
+in later generations. The ﬁnal average RMSD, however, was only 0.0126 and 0.0439 lower than
+the starting average RMSD with 1,783 and 1.7608 while the ﬁnal average MSE with 0.3775
+and 0.3192 was better than most of the previous runs with the APK. Therefore the ﬁnal models
+were more precise but still did not include conformations near the active structure.
+
+The results for run 26 and run 27 are also shown in ﬁgure 4.1.6 and table 4.7. Both runs
+used the PPK and a mutation probability of 0.5. In run 26 the average RMSD almost always
+lies within the 5% quantile. In run 27 the average RMSD declines to a value of approximately
+1.7 and stagnates for the second half of the optimization. The runs have ﬁnal average RMSD
+values of 1.6181 and 1.7728 and ﬁnal average MSE values of 0.1084 and 0.1191.
+
+43
+
+4 Results
+
+(a) This ﬁgure shows the results for the APK with
+smoothing f actor = 0.1 on 56 molecules with alternative
+conformation sampling and a the mutation only allowed
+on the 12 known active structures
+
+(b) This ﬁgure shows the results for the APK with
+smoothing f actor = 0.1 on 34 molecules with alternative
+conformation sampling and a the mutation only allowed
+on the 12 known active structures
+
+(c) This ﬁgure shows the results for the PPK with B = 10
+on 56 molecules with alternative conformation sampling
+and a the mutation only allowed on the 12 known active
+structures
+
+(d) This ﬁgure shows the results for the PPK with B =
+10 on 34 molecules with alternative conformation sam-
+pling and a the mutation only allowed on the 12 known
+active structures
+
+Figure 4.8: These ﬁgures show the results of the runs with reduced datasets of the alternative
+conformation sampling and altered mutation operator to allow mutation only on the
+conformers of the molecules with known active structure.
+
+44
+
+4.1 Precomputed Conformation Sampling
+
+Parameter / Run Nr.
+Kernel method
+RDF B factor
+RBF Sigma factor
+Smoothing factor
+Mutation Probability
+Mutate ﬁrst 12 only
+Dataset size
+Conformation Sampling
+Start avg. MSE
+End avg. MSE
+Diff. Start/End MSE
+Best avg. MSE
+Best individual MSE
+Start avg. RMSD
+End avg. RMSD
+Diff. Start/End RMSD
+Best avg. RMSD
+Best individual RMSD
+
+28
+APK
+-
+-
+0.1
+0.1
+yes
+56
+comprehensive
+0.856
+0.682
+0.174
+0.6815
+0.6815
+1.7972
+1.7187
+0.0785
+1.5975
+1.3621
+
+29
+APK
+-
+-
+0.1
+0.1
+yes
+34
+comprehensive
+1.1405
+0.9029
+0.2376
+0.9022
+0.9022
+1.7881
+1.8774
+-0.0893
+1.727
+1.5028
+
+30
+PPK
+10
+-
+-
+0.1
+yes
+56
+comprehensive
+1.311
+0.7738
+0.5372
+0.7706
+0.7656
+1.7808
+1.7369
+0.0439
+1.7098
+1.3915
+
+31
+PPK
+10
+-
+-
+0.1
+yes
+34
+comprehensive
+1.5813
+0.7589
+0.8224
+0.7255
+0.7207
+1.7808
+1.8078
+-0.027
+1.7052
+1.3247
+
+Table 4.8: This table shows the parameters and the results for Run 28, Run 29, Run 30 and Run
+
+31. Parameters denoted by ‘- ’are not available for the chosen kernel method
+
+4.1.8 Alternative Mutation Operator
+
+The ﬁnal change to the mutation was to change the mutation operator in that way that it only
+allowed the conformers of the molecules with known active structures to be mutated during the
+mating process at the end of a generation. For the rest of the molecules, which are the ones with
+unknown active structures, the conformation with the minimal relative energy was ﬁxed. The
+reason for this change was to reduce the search space for the optimization to the conformations
+of the molecules with known active structure. Therefore increasing the chance of ﬁnding a
+model with low MSE which included conformations similar to the active structures resulting in
+a lower RMSD.
+
+The results of the four runs, 28, 29, 30 and 31 with altered mutation operator are shown in
+ﬁgure 4.8 and table 4.8. One can see that, while the average MSE rapidly declines in the ﬁrst
+25 generations the average RMSD remains a the same level throught the whole run for all four
+runs. Futher the average MSE only reaches values of 0.684 to 0.9029 which is signiﬁcantly
+higher than in previous runs due to the fact that the remaining ﬁxed molecules do not allow a
+better model.
+
+This means that, while only optimizing over the generated conformers of the known active
+structures, the best models found still do not include conformations similar (i.e with a low
+RMSD) to those structures. Possible reasons for that are manifold and will be discussed in the
+next chapter.
+
+45
+
+4 Results
+
+(a) This ﬁgure shows the average results for four runs
+with the APK with smoothing f actor = 0.1 on conform-
+ers of 34 molecules created with the intermediate param-
+eter set
+
+(b) This ﬁgure shows the average results for four runs
+with the APK with smoothing f actor = 0.1 on conform-
+ers of 34 molecules created with the comprehensive pa-
+rameter set
+
+Figure 4.9: These ﬁgures show the average results of four runs with the APK and reduced
+
+datasets of both conformation sampling parameter sets.
+
+46
+
+4.2 Implicit Conformation Sampling
+
+Parameter / Run Nr.
+Kernel method
+RDF B factor
+RBF Sigma factor
+Smoothing factor
+Mutation Probability
+Mutate ﬁrst 12 only
+Dataset size
+Conformation Sampling
+Start avg. MSE
+End avg. MSE
+Diff. Start/End MSE
+Best avg. MSE
+Best individual MSE
+Start avg. RMSD
+End avg. RMSD
+Diff. Start/End RMSD
+Best avg. RMSD
+Best individual RMSD
+
+avg. of run 32-35
+APK
+-
+-
+0.1
+0.1
+no
+34
+intermediate
+1.2388
+0.5018
+0.7370
+0.4999
+0.4965
+1.8967
+1.8979
+-0.0012
+1.8294
+1.5099
+
+avg. of run 36-39
+APK
+-
+-
+0.1
+0.1
+no
+34
+comprehensive
+1.2199
+0.5338
+0.6862
+0.5338
+0.5316
+1.8022
+1.8070
+-0.0048
+1.6579
+1.3405
+
+Table 4.9: This table shows the parameters and the results for the average of runs 32-35 and
+
+36-39. Parameters denoted by ‘- ’are not available for the chosen kernel method
+
+4.1.9 Reruns
+
+The only run resulting in an considerably lower average RMSD then all other runs was run
+12 with a ﬁnal average RMSD of 1.3813 (see ﬁgure 4.3 and table 4.3). To check if this was
+a random result or if the constellation of kernel, dataset and parameters lead to models us-
+ing conformations with a low RMSD to the active structure I reran the speciﬁc parameter set
+of run 12 four times with either of both conformation sampling parameters intermediate and
+comprehensive. The averaged results of these runs are shown in ﬁgure 4.9 and table 4.9
+
+As one can see the average RMSD stagnates at 1.8 which is also the mean value for the
+RMSD of all possible combinations of conformers. The decline and immediate return to the
+mean RMSD between generation 25 and 50 is also visible for both results.
+
+This proves that run 12 was a random result with the GA ﬁnding a local minimum. With a
+value of 0.567 the MSE of run 12 is even higher then the average MSE for both of the 4 runs
+with 0.5018 and 0.5338.
+
+4.2 Implicit Conformation Sampling
+
+The runs of the optimization with the implicit conformation sampling were done parallel to the
+runs with precomputed conformation sampling. Therefore the results of the runs with precom-
+puted conformation sampling inﬂuenced the decisions made for the parameters and dataset size
+for the runs with implicit conformation sampling. One run with implicit conformation sam-
+pling on the full dataset took up to two weeks on a Xeon quadcore server. This is why there are
+fewer results for the implicit conformation sampling.
+
+47
+
+4 Results
+
+(a) This ﬁgure shows the results for the RBF kernel with
+B = 1000 and sigma = 100 on the full dataset with im-
+plicit conformation sampling
+
+(b) This ﬁgure shows the results for the RBF with B =
+1000 on the full dataset with implicit conformation sam-
+pling
+
+(c) This ﬁgure shows the results for the PPK with B = 10
+on the full dataset with implicit conformation sampling
+
+(d) This ﬁgure shows the results for the PPK with B =
+10 on the full dataset with implicit conformation sam-
+pling
+
+Figure 4.10: These ﬁgures show the results of the runs with implicit conformation sampling on
+
+the full dataset and the use of the PPK and RBF kernel.
+
+48
+
+4.2 Implicit Conformation Sampling
+
+Parameter / Run Nr.
+Kernel method
+RDF B factor
+RBF Sigma factor
+Smoothing factor
+Mutation Probability
+Mutate ﬁrst 12 only
+Conformation Sampling
+Dataset size
+Start avg. MSE
+End avg. MSE
+Diff. Start/End MSE
+Best avg. MSE
+Best individual MSE
+Start avg. RMSD
+End avg. RMSD
+Diff Start/End RMSD
+Best avg. RMSD
+Best individual RMSD
+
+01i
+RBF
+1000
+100
+-
+0.1
+no
+implicit
+100
+1.1411
+0.5331
+0.608
+0.5311
+0.5285
+1.8724
+1.7978
+0.0746
+1.6873
+1.5876
+
+02i
+PPK
+10
+-
+-
+0.1
+no
+implicit
+100
+1.0375
+0.171
+0.8665
+0.171
+0.1638
+1.8826
+1.9955
+-0.1129
+1.8246
+1.5268
+
+03i
+PPK
+10
+-
+-
+0.1
+no
+implicit
+100
+1.1491
+0.519
+0.6301
+0.519
+0.5142
+1.9039
+1.8523
+0.0516
+1.8425
+1.4942
+
+04i
+PPK
+10
+-
+-
+0.1
+no
+implicit
+100
+1.0389
+0.3874
+0.6515
+0.3874
+0.3808
+1.8894
+1.8909
+-0.0015
+1.8498
+1.6142
+
+Table 4.10: This table shows the parameters and the results for run 01i, run 02i, run 03i and run
+
+04i. Parameters denoted by ‘- ’are not available for the chosen kernel method
+
+4.2.1 Initial Runs
+
+The results for the initial runs, 01i and 02i, are shown in ﬁgure 4.10 and table 4.10 . Run 03i
+and run 04i are later runs with the same parameters as run 02i. As one can see the average MSE
+is decreasing. This shows that the optimization is functional. But in comparison to the runs
+with precomputed conformation sampling shown in the preceding section the average MSE
+decreases more slowly and is has not reached a minimum at the end of the run. This can be
+assumed due to the average MSE still decreasing in generation 150 to 200 and not reaching an
+even level. The ﬁnal average MSE of the runs was 0.5331, 0.1710, 0.5190 and 0.3874. This
+is the range of the results for the average MSE from the runs with precomputed conformation
+sampling.
+
+Further noticeable is the fact that the average RMSD shows almost no change after genera-
+tion 50 in all four runs stagnating for many generations. The mean RMSD over all generations
+of all four runs is 1.859, which is near the overall mean of 1.81 of all possible conformations. In
+addition to the best individual RMSD this can be explained by the small chance of a mutation
+occurring at the rotatable bonds of the molecules with known active structure.This low chance
+of a mutation is a result of the molecules with known active structure having fewer rotational
+bonds then the molecules without known active structure. Therefore the chance of a mutation
+occurring on a molecule without known active structure is increased in relation to the runs with
+precomputed conformation sampling where the mutation chances were equally distributed.
+
+In addition all four runs lack the initial decrease of the average RMSD between generation
+
+25 and 50 seen in the runs with precomputed conformation sampling.
+
+49
+
+4 Results
+
+(a) This ﬁgure shows the results for the ﬁrst run with the
+PPK and B = 10 on the reduced dataset of 34 molecules
+with implicit conformation sampling
+
+(b) This ﬁgure shows the results for the second run
+with the PPK and B = 10 on the reduced dataset of 34
+molecules with implicit conformation sampling
+
+(c) This ﬁgure shows the results for the ﬁrst run with the
+PPK and B = 10 on the reduced dataset of 56 molecules
+with implicit conformation sampling
+
+(d) This ﬁgure shows the results for the secondt run
+with the PPK and B = 10 on the reduced dataset of 56
+molecules with implicit conformation sampling
+
+Figure 4.11: These ﬁgures show the results of the runs with reduced datasets, implicit confor-
+
+mation sampling an the use of the PPK.
+
+50
+
+4.2 Implicit Conformation Sampling
+
+Parameter / Run Nr.
+Kernel method
+RDF B factor
+RBF Sigma factor
+Smoothing factor
+Mutation Probability
+Mutate ﬁrst 12 only
+Conformation Sampling
+Dataset size
+Start avg. MSE
+End avg. MSE
+Diff. Start/End MSE
+Best avg. MSE
+Best individual MSE
+Start avg. RMSD
+End avg. RMSD
+Diff Start/End RMSD
+Best avg. RMSD
+Best individual RMSD
+
+05i
+PPK
+10
+-
+-
+0.1
+yes
+implicit
+100
+1,687
+0,6932
+0,9938
+0,673
+0,6693
+1,8592
+2,0149
+-0,1557
+1,8592
+1,5489
+
+06i
+PPK
+10
+-
+-
+0.1
+yes
+implicit
+100
+1,73
+0,7425
+0,9875
+0,7398
+0,7352
+1,8605
+2,0571
+-0,1966
+1,8605
+1,5543
+
+07i
+PPK
+10
+-
+-
+0.1
+yes
+implicit
+100
+1,5033
+0,9929
+0,5104
+0,989
+0,9827
+1,8487
+1,9715
+-0,1228
+1,8487
+1,5698
+
+08i
+PPK
+10
+-
+-
+0.1
+yes
+implicit
+100
+1,5079
+0,9555
+0,5524
+0,9475
+0,9459
+1,8546
+1,8685
+-0,0139
+1,7359
+1,5687
+
+Table 4.11: This table shows the parameters and the results for Run 04 through Run 09. Param-
+
+eters denoted by ‘- ’are not available for the chosen kernel method
+
+4.2.2 Reduced Dataset and Fixed Conformation
+
+In run 05 to run 08 I combined the several changes. First I reduced the dataset to 56 and 34
+molecules including the 12 with known active structure. The second change was to ﬁx the
+conformation of the molecules with unknown active structure to the conformation with the
+lowest relative energy and allowing mutation only at rotational bonds of the molecules with
+known active conformation. Run 07 was interrupted at generation 116 due to a server crash an
+could not be resumed.
+
+The results for the four runs with this conﬁguration are shown in ﬁgure 4.11 and table 4.11.
+One can see that the average MSE declines faster (within the ﬁrt 50 generation) than in the
+previous runs with implicit conformation sampling to a ﬁnal value of 0.6932, 0.7425, 0.9938
+and 0.9555. These higher average MSE values can be explained by the ﬁxed conformations
+and the resulting missing possibility for optimization.
+
+One can see the effect of allowing mutation only on the 12 molecules with known conforma-
+tion. The best individual RMSD is lower then the average RMSD for almost every generation
+in all four runs. This can be explained by the higher mutation rate resulting in individuals with
+conformations with a lower RMSD to the active structures.
+
+51
+
+5 Discussion
+
+The hypothesis that the best achievable models to predict activity include the active structures
+of the training molecules, can not be conﬁrmed in this work. The average RMSD over all
+runs is almost exactly the average RMSD over all possible sets of conformations to the active
+structure(See ﬁgure 5.1). While some runs show a RMSD below the 5% quantile they still
+are within the normal distribution and are countered by the runs with a RMSD above average.
+Though models were found with a a low average RMSD the optimization in most cases returned
+to models with an RMSD near the average value. The reasons for these results can come from
+two directions. They can be either chemically or mathematically qualiﬁed.
+
+One possible reason is, that to many factors determining the active structure are missing
+from the models I created. For example the solvent of the molecules, in this case water, is not
+included in the model at all. But as studies have shown the solvent often has a great inﬂuence
+on the activity and the active structure of a molecule. It can change the molecules conformation
+to a more ﬁtting one or even be part of the active site itself by ﬁlling the space not occupied
+by the ligand. Therefore disregarding the solvent may lead to a model with a feature space not
+having enough information about the active complex.
+
+Figure 5.1: This ﬁgure shows the diagram for the mean values over all runs. One can clearly see
+the average RMSD stagnating at 1.81 over the whole run while the MSE declines
+to a value of about 0.4
+
+A second reason may be that only part of the molecules conformations are critical for the
+activity while another, possibly larger part can take up a random, probably energetically min-
+imal, conformation. However this would only account for a part of the normal distribution
+of the RMSD values. The ‘active’ part of the molecule conformations chosen for the model
+would have a distinctly lower average RMSD to the active conformation resulting in the overall
+RMSD being lower than mean of the normal distribution. For the dataset used in this work, this
+can be ruled out because all 12 molecules with known active structure are entirely integrated in
+the active process and have no parts which can take on free conformations.
+
+52
+
+Another reason for the model consisting of conformations with an average RMSD to the
+active structure may come from the used kernel methods in combination with the molecules in
+the dataset. Regardless of the chemical properties the molecules in the dataset often consisted
+of several ring systems. These ring systems contribute the same partial results to all kernel
+values for all different combinations of conformations due to the fact that they are rigid and do
+not change partial results between different conformations. To rule this out one would have to
+repeat the experiments with a dataset of molecules with less rigid parts or with a kernel method
+that prioritizes longer distances within the conformations.
+
+The most important and apparent reason though is based on the principle of the SVR. On
+optimizing over the activity prediction with the activity value being the same for each con-
+former of a given molecule, it is clear that to achieve a maximal generalization the process will
+pick that conformation with the best representation of the whole conformational space of the
+molecule. In the conformational hypersphere this will be a conformation near the center of the
+sphere. Which in this case means a conformation with a maximal ‘similarity’ to all other con-
+formations of that molecule. Or in other words, a conformation with a minimal average RMSD
+to all other conformers. In most cases this would not be the active conformation. For the 12
+molecules with known active structure I used in this work, the average distance (i.e. RMSD)
+from the active conformation to the center of the conformational hypersphere was 1.81 ˚A.
+
+Not regarding the resulting average RMSD values, the PPK kernel yielded the best MSE
+with values as low to 0.01 in contrast to the RDF kernel with MSE values only in range of
+0.5 and the APK with MSE values in the range of 0.3. Furthermore the PPK had the steepes
+decent of the MSE values reaching an almost even level at generation 25-50, whereas the APK
+needed more generations. The resulting models of the implicit conformation sampling were
+less signiﬁcant because in most runs the optimization process was not ﬁnished. This can be
+explained by the mutation probability only being set to 0.1 and the number of points being
+about 10 times as much as with the precomputed conformation sampling. One can see that by
+reducing the possible mutations as in the ﬁnal runs with implicit conformation sampling and
+ﬁxed conformers the MSE also decreases more rapidly.
+
+53
+
+6 Prospects
+
+Following the results of this work models for activity prediction provide the best results not
+by using the active structures but a conformation with minimal distance to all possible confor-
+mations of the respective molecules. To conﬁrm these results one would have to run further
+experiments with other kernels and data sets. In these experiments one would have to calculate
+the distances of the best resulting conformations for activity prediction not only to the active
+conformation but to all possible conformation, or at least an equally distributed set over the
+conformational space. These new model would be expected to provide the best results if they
+were based on these ‘average’ conformations and not on the active structures.
+
+If proven correct one would have to rethink the use of active conformations in 3D QSAR
+models in favor of more generalized conformations. Further this would suggest a method of
+ﬁnding a conformation near the center of the conformational hypersphere without calculating
+all pairwise distances of all possible conformations.
+
+If proven wrong one would have to revise the results of this work and further investigate
+the reasons for the average RMSD of the best achievable models constantly being the exact
+RMSD of the active conformations to the middle of the proposed conformational hypersphere.
+Therefore one would have to copile a new set of molecules with known active structures. Where
+the set would include more and diverse active conformations to cover a wider range of the
+chemspace.
+
+54
+
+Bibliography
+
+[Bau09] L.; Heine-A.; Smolinski M.; Hangauer D.; Klebe G. Baum, B.; Muley. Think
+twice: understanding the high potency of bis(phenyl)methane inhibitors of throm-
+bin. J.Biol.Mol, 391:552–564, 2009.
+
+[Ber77]
+
+T.F.; Williams-G.J. Meyer E.E. Jr.; Brice M.D.; Rodgers J.R.; Kennard O.; Shi-
+manouchi T.; Tasumi M. Bernstein, F.C.; Koetzle. The protein data bank: A
+J. of Mol. Biol.,
+computer-based archival ﬁle for macromolecular structures.
+112:535, 1977.
+
+[BGV92] B.E. Boser, I.M. Guyon, and Vapnik V.N. Annual Workshop on Computational
+Learning Theory, chapter Proceedings of the ﬁfth annual workshop on Computa-
+tional learning theory, pages 144–152. ACM, 1992.
+
+[Boe99]
+
+J.; Klebe G Boehm, M.;Stuerzebecher. Three-dimensional qantitive structure activ-
+ity relationship analyses using comparative molecular ﬁle analysis and comparative
+molecular similarity indices analysis to elucidate selectivity differences of inhibitors
+binding to trypsin, thrombin, and factor xa. Journal of Medical Chemistry, 42:458–
+477, 1999.
+
+[Cha05] Q Chang. Scaling gaussian rbf kernel width to improve svm classiﬁcation. Neural
+Networks and Brain, 2005. ICNN&B ’05. International Conference on, pages 19–
+22, 2005.
+
+[CL01]
+
+Chih-Chung Chang and Chih-Jen Lin. LIBSVM: a library for support vector
+machines, 2001. Software available at http://www.csie.ntu.edu.tw/
+˜cjlin/libsvm.
+
+[Cou04] Chaok; Dill Ken A. Coutsias, Evangelos A.; Seok. Using quaternions usings rmsd.
+
+J.Comput. Chem, 25:1849–1857, 2004.
+
+[Cou05] Chaok; Dill Ken A. Coutsias, Evangelos A.; Seok. Rotational superposition and
+least sequares: the svd and quaternions approach yield identical results. reply to the
+preceeding comment by g. kneller. J. Comput. Chem., 26:1663–1665, 2005.
+
+[CV95] C. Cortes and V. Vapnik. Support-vector networks. Machine Learning, 20:273–297,
+
+1995.
+
+[Dia76] R. Diamond. On the comparison of conformations using linear and quadratic trans-
+
+formations. Acta Cryst, 32:1–10, 1976.
+
+[Dix06] A.; Knoll E.; Rao S.; Schaw D. Friesner R.A. Dixon, S.; Smondyrev. Phase: a new
+engine for pharmacophore perception, 3d qsar model developement and 3d database
+screening. J. Comput.-Aided Mol. Design, 20(10):647–671, 2006.
+
+55
+
+Bibliography
+
+[Eki04]
+
+S. Ekins. Predicting undesirable drug interactions with promisscuous proteins in
+silico. Drug Dicovery Today, 9:276–285, 2004.
+
+[Fis94]
+
+E. Fischer. Einﬂuss der konﬁguration auf die wirkung der enzyme. Berichte der
+deutschen chemischen Gesellschaft, 27:2985–2993, 1894.
+
+[Fle89]
+
+R. Fletcher. Practical Mehods of Optimization. John Wiley and Sons, New York,
+1989.
+
+[Fri04]
+
+J.L.; Murphy R.B.; Halgren T.A.; Klicic J.J.; Mainz D.T.; Repasky M.P.; Knoll E.H.
+Shelley M.; Perry J.K.; shaw D.E.; Francis P.; Shenkin P.S. Friesner, R.A.; Banks.
+Glide: a new approach for rapid, accurate doachin and coring. 1- method and as-
+sessment of doching accuracy. J.Med.Chem, 47(7):1739–49, 2004.
+
+[Gas96]
+
+J.; Schuur J.; Selzer P.; Steinhauer L.; Steinhauer V. Gasteiger, J.; Sadowski. Chem-
+ical information in 3d space. J. Chem. Inf. Comput. Sci ., 36:1030–1037, 1996.
+
+[Gas97]
+
+J.; Selzer P.; Steinhauer L.; Steinhauer V. Gasteiger, J.; Schuur. Finding the 3d
+structure of a molecule in its ir spectrum. Fresenius J. Anal. Chem., 359:50–55,
+1997.
+
+[Guy93] B.; Vapnik V.N. Guyon, I.; Boser. Advances in Neural Information Processing
+Systems, chapter Automtic capactiy tuning of very large VC-dimension classiﬁers,
+pages 147–155. Morgan Kaufmann, San Mateo, CA, 1993.
+
+[Ham66] Sir. Hamilton, William Rowan. Elements of Quaternions. Longmans, Green & Co.,
+
+London, 1866.
+
+[Han69] C. Hansch. A quantitative approach to biochemical structure-activity relationships.
+
+Acc. Chem. Res., 2:232–239, 1969.
+
+[Har94] George K.; Kauffman Louis H. Hart, John C.; Francis. Visualizing quaternion rota-
+
+tion. Transactions on Graphics, 13:256–276, 1994.
+
+[Hem99] Markus C.; Steinhauer V.; Gasteiger J. Hemmer. Deriving the 3d structure of organic
+molecules from their infrared spectra. Vibrational Spectroscopy, 19:151–164, 1999.
+
+[HG04] H.Z. Hao and M. Genton. Compactly supported radial basis function kernels. 2004.
+
+[Hol75]
+
+John H. Holland. Adaptation in Natural and Artiﬁcial Systems. Univ. Michigan
+Press., 1975.
+
+[Jah09] G.; Fechner N.; Zell A. Jahn, A.; Hinselmann. Optimal assignment methods for
+ligand-based virtual screening. Journal of Chemoinformatics, 1:14, 2009.
+
+[Jeb04]
+
+R.; Howard A. Jebara, T.; Kondor. Probability product kernels. Journal of Machine
+Learning Research, 5:819–844, 2004.
+
+[Jor88]
+
+J.T. Jorgensen, T.L.; Tirado-Rives. The opls potential functions for proteins. energy
+minimization for crystals of cyclic peptides and crambin. J.Am.Chem.Soc., 110:165,
+1988.
+
+56
+
+Bibliography
+
+[Jor96]
+
+[JZ10]
+
+D.S.; Tirado-Rives J. Jorgensen, W.L.; Maxwell. Development and testing of the
+opls all-atom force ﬁeld on cornformational energetcs and properties of organic liq-
+uids. J.Am.Chem.Soc., 118:11225–11235, 1996.
+
+G.; Fechner-N.; Henneges C. Jahn, A.; Hinselmann and A. Zell. Probabilistic model-
+ing of conformational space for 3d machine learning approaches. Mol. Inf., 29:441–
+455, 2010.
+
+[Kab76] Wolfgang Kabsch. A solution for the best rotation to relate two sets of vectors. Acta
+
+Crystallographica, 32(5)A:922–923, 1976.
+
+[Kat00] R.; Luong-C.; Radika K.; Martelli A.; Sprengeler P.A.; Wang J.; Chan H.;
+Wong L Katz, B.A.; Mackman.
+Structural basis for selectivity of a small
+molecule, s1-binding, submicromolar inhibitor of urokinase-type plasminogen ac-
+tivator. Chem.Biol., 7:299–312, 2000.
+
+[Kat01a] K.; Luong-C.; Rice M.J.; Mackman R.L.; Sprengeler P.A.; Spencer J.; Hataye J.;
+Janc J.; Link J.; Litvak J.; Rai R.; Rice K.; Sideris S.; Verner E.; Young W. Katz,
+B.A.; Elrod. A novel serine protease inhibition motif involving a multi-centered
+short hydrogen bonding network at the active site. J.Biol.Mol, 307:1451–1486,
+2001.
+
+[Kat01b] P.A.; Luong-C.; Verner E.; Elrod K.; Kirtley M.; Janc J.; Spencer J.R.; Breit-
+enbucher J.G.; Hui H.; McGee D.; Allen D.; Martelli A.; Mackman R.L. Katz,
+B.A.; Sprengeler. Engineering inhibitors highly selective for the s1 sites of ser190
+trypsin-like serine protease drug targets. Chem.Biol., 8:1107–1121, 2001.
+
+[Kat03] K.; Verner-E.; Mackman R.L.; Luong C.; Shrader W.D.; Sendzik M.; Spencer J.R.;
+Sprengeler P.A.; Kolesnikov A.; Tai V.W.-F.; Hui H.C.; Breitenbucher J.G.; Allen
+D.; Janc J.W. Katz, B.A.; Elrod. Elaborate manifold of short hydrogen bond ar-
+rays mediating binding of active site-directed serine protease inhibitors. J.Biol.Mol,
+329:93–120, 2003.
+
+[Kat04] C.; Ho-J.D.; Somoza J.R.; Gjerstad E.; Tang J.; Williams S.R.; Verner E.; Mackman
+R.L.; Young W.B.; Sprengeler P.A.; Chan H.; Mortara K.; Janc J.W.; McGrath M.E.
+Katz, B.A.; Luong. Dissecting and designing inhibitor selectivity determinants at
+the s1 site using an artiﬁcial ala190 protease (ala190 upa). J.Biol.Mol, 344:527–
+547, 2004.
+
+[Kea89] Simon K. Kearsley. On the orthogonal transformation used for structural compari-
+
+son. Acta Crystallographica, 45(2)A:208–210, 1989.
+
+[Kel06]
+
+P.; Schalon-C.; Bret G.; Foata N.; Rognan D. Kellenberg, E.; Muller. sc-pdb: an
+annotated database of druggable binding sites from the protein data bank. Journal
+of Chemical Information and Modeling, 46(2):717–727, 2006.
+
+[Kos58]
+
+Jr. Koshland, D. E. Application of a theory of enzyme speciﬁcity to protein synthe-
+sis. Proc. Natl. Acad. Sci. U.S.A., 44:98–104, 1958.
+
+[Kos94]
+
+Jr. Koshland, D. E.
+Angew.Chem.Int.Ed.Engl, 33:2375–2378, 1994.
+
+The key and lock theory and the induced ﬁt
+
+theory.
+
+57
+
+Bibliography
+
+[Mac84] A. L. Mackay. Quaternion transformation of molecular orientation. Acta Crystallo-
+
+graphica Section A, 40(2):165–166, Mar 1984.
+
+[Mat96] R.; Costanzo-M.J.; Maryanoff B.E.; Tulinsky A Matthews, J.H.; Krishnan. Crystal
+structures of thrombin with thiazole-containing inhibitors: probes of the s1’ binding
+site. Biophys.J,, 71:2830–2839, 1996.
+
+[McL72] A.D. McLachlan. A mathematical procedure for superimposing atomic coordinates
+
+of proteins. ActaCryst, 28:656–657, 1972.
+
+[OW91] T.I. Oprea and C.L. Walter. Reviews in Computational Chemistry, chapter Theoreti-
+cal and practical aspects of thee-dimensional quantitative structure-activity relation-
+ships, pages 127–182. Wiley-VCH: New York, 1991.
+
+[Sad94]
+
+[Sch96]
+
+[Sel97]
+
+J. Sadowski, J.; Wagener M.; Gasteiger. Corina: Automatic generation of high-
+quality 3d-molecular models for application in qsar. In 10th European Symposium
+on Structure-Activity Relationships: QSAR and Molecular Modelling, 1994.
+
+P.; Gasteiger J Schuur, J.H.; Selzer. The coding of the three-dimensional structure
+of molecules by molecular transforms and its application to structure - spectra cor-
+relations and studies of biological activity. J. Chem. Inf. Comput. Sci., 36:334–344,
+1996.
+
+J.H.; Gasteiger Selzer, P.; Schuur. Software Development in Chemistry 10, vol-
+ume 10, chapter Simulation of IR Spectra with Neural Networks Using the 3D-
+MoRSE Code, page 293. Gesellschaft Deutscher Chemiker: Frankfurt am Main,
+1997.
+
+[Sew07] Martin Sewell. Kernel methods. Technical report, Department of Computer Science
+
+University College London, 2007.
+
+[Sho85] K. Shoemaker. Animating rotation with quaternion curves. Comput. Graph.,
+
+19:245–254, 1985.
+
+[SI08a] New York Schroedinger Inc. LigPrep, V2.1. 2008.
+
+[SI08b] New York Schroedinger Inc. MacroModel, V9.6. 2008.
+
+[SJ93] M. Stone and P. Jonathan. Statistical thinking and techniques for qsar related studies.
+
+1 general theory. J. Chemom., 7:455–475, 1993.
+
+[SOW04] Jeffrey J. Sutherland, Lee A. O’Brian, and Donald F. Weaver. A comparison of
+methods for modeling quantitative structure-activity relationship. J. Med. Chem.,
+47:5541–5554, 2004.
+
+[Ste03] Y.; Kuhn S.; Horlacher O.; Luttmann E.; Willighagen E. Steinbeck, C.; Han. The
+chemistry development kit (cdk): an open source java library for chemo- and bioin-
+formatics. J Chem Inf Comput Sci, 43(2):493–500, 2003.
+
+[Ste06]
+
+C.; Kuhn S.; Floris M.; Guha R. Steinbeck, C.; Hoppe. Recent development of the
+chemistry development kit (cdk) - an open source library for chemo- and bioinfor-
+matics. Curr Pharm Des, 12(17):2111–2120, 2006.
+
+58
+
+Bibliography
+
+[Vap82] V. Vapnik. Estimation of dependencies bade on empirical data. Springer Verlag,
+
+1982.
+
+[Vap95] V. Vapnik. The Nature of Statistical Learning Theroy. Springer Verlag, 1995.
+
+[VC64] V. Vapnik and A. Chervenonkis. A note on one class perceptrons. Automation and
+
+Remote Control, 25, 1964.
+
+[VC74] V. Vapnik and A. Chervonenkis. Theory of Pattern Recognition. Nauka (Russia),
+
+1974.
+
+[VL63] V. Vapnik and A. Lerner. Pattern recognition using generalized portrait method.
+
+Automation and Remote Control, 24, 1963.
+
+[WS10]
+
+P.; Murphy R.B.; Sherman W.; Friesner R.A. Watts, K.S.; Dalal and J.C. Shelley.
+Confgen: A conformational search method for efﬁcient gerneration of bioactive con-
+formers. J.Chem.Inf.Model., 50:534–546, 2010.
+
+[XG02] Y.; Ming L. Xi, C.;Lin and K. Gilson. The binding database: data management and
+
+interface design. Bioinformatics, 18(1):130–139, 2002.
+
+[Zam76] A. Zamora.
+
+An algorithm for ﬁnding the smallest set of smalles rings.
+
+J.Chem.Inf.Comput.Sci., 16(1):40–43, 1976.
+
+59
+
+List of Figures
+
+1.1 Overlay of Thrombin inhibitors . . . . . . . . . . . . . . . . . . . . . . . . . .
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
+1.2 QSAR process .
+
+.
+
+.
+
+.
+
+.
+
+.
+
+2
+2
+
+. .
+
+6
+.
+.
+. .
+2.1 SVR .
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
+2.2 GA individuals
+.
+2.3 GA mutation operators .
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
+2.4 Thrombin-Hirudin complex . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
+
+. . . . . . . . . . . . . . . . . . . . . . . . . . . .
+
+. .
+.
+
+.
+.
+
+.
+.
+
+.
+.
+
+.
+
+.
+
+.
+
+examples for RDF .
+overlay of RDF functions .
+curve approximation .
+.
+
+3.1 ﬂowchart of the overall process . . . . . . . . . . . . . . . . . . . . . . . . . . 14
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
+3.2
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
+3.3
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
+3.4
+3.5 Atom Pair Kernel
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
+12 structures with known active conformation . . . . . . . . . . . . . . . . . . 22
+3.6
+example for implicit conformation sampling encoding . . . . . . . . . . . . . . 25
+3.7
+exapmle of rotatable bonds . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
+3.8
+
+.
+.
+
+.
+
+.
+
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
+results of the initial runs
+4.1
+results of reduced dataset with ppk and rbf . . . . . . . . . . . . . . . . . . . . 32
+4.2
+results of reduced dataset with APK . . . . . . . . . . . . . . . . . . . . . . . 34
+4.3
+results for alternative parameters for the PPK . . . . . . . . . . . . . . . . . . 36
+4.4
+results for alternative parameters for the APK . . . . . . . . . . . . . . . . . . 38
+4.5
+results of increased mutation rate . . . . . . . . . . . . . . . . . . . . . . . . . 40
+4.6
+results of alternative conformation sampling . . . . . . . . . . . . . . . . . . . 42
+4.7
+results of alternative mutation operator . . . . . . . . . . . . . . . . . . . . . . 44
+4.8
+4.9
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
+results for the reruns
+4.10 results for initial runs with implicit conformation sampling . . . . . . . . . . . 48
+4.11 results for runs with implicit conformation sampling, reduced dataset and ﬁxed
+
+.
+
+.
+
+conformation . .
+
+. .
+
+. .
+
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
+
+5.1 mean over all runs .
+
+.
+
+.
+
+.
+
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
+
+60
+
+List of Tables
+
+3.1
+3.2
+3.3
+
+table of compiled structures . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
+table of parameters for conformer generation . . . . . . . . . . . . . . . . . . 24
+table of parameters for the SVR . . . . . . . . . . . . . . . . . . . . . . . . . 27
+
+results of the initial runs
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
+4.1
+results of reduced dataset with ppk and rbf . . . . . . . . . . . . . . . . . . . . 33
+4.2
+results of reduced dataset with APK . . . . . . . . . . . . . . . . . . . . . . . 35
+4.3
+results for alternative parameters for the PPK . . . . . . . . . . . . . . . . . . 37
+4.4
+results for alternative parameters for the APK . . . . . . . . . . . . . . . . . . 39
+4.5
+results of increased mutation rate . . . . . . . . . . . . . . . . . . . . . . . . . 41
+4.6
+results of alternative conformation sampling . . . . . . . . . . . . . . . . . . . 43
+4.7
+results of alternative mutation operator . . . . . . . . . . . . . . . . . . . . . . 45
+4.8
+4.9
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
+results for the reruns
+4.10 results for initial runs with implicit conformation sampling . . . . . . . . . . . 49
+4.11 results for runs with implicit conformation sampling, reduced dataset and ﬁxed
+
+.
+
+.
+
+conformation . .
+
+. .
+
+. .
+
+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
+
+61
+
+
\ No newline at end of file
diff --git a/StilVorlagen/Protokoll Genetik Praktikum I.md b/StilVorlagen/Protokoll Genetik Praktikum I.md
new file mode 100644
index 0000000..1b5d300
--- /dev/null
+++ b/StilVorlagen/Protokoll Genetik Praktikum I.md	
@@ -0,0 +1,1472 @@
+Protokoll 
+
+Spezialpraktikum Genetik 
+
+04.05.09 – 18.05.09 
+
+Christoph Schwörer 
+
+ 
+ 
+ 
+ 
+ 
+Inhaltsverszeichnis 
+
+Inhalt 
+1. 
+
+Einleitung ......................................................................................................................................... 3 
+
+1.2 
+
+1.3 
+
+Allgemein ................................................................................................................................. 3 
+
+Beschreibung der Versuche ..................................................................................................... 3 
+
+1.2.1 
+
+Versuch  1: Phänotypisierung von GBF1 knock-out Pflanzen.......................................... 3 
+
+1.2.2 
+
+Versuch 2: Promotor CAT2: GUS Reportergenanalysen .................................................. 3 
+
+1.2.3 
+
+Versuch 3: Expressionsanalysen in gbf1 KO Pflanzen ..................................................... 3 
+
+1.2.4 
+
+Versuch 4: Klonierung ..................................................................................................... 4 
+
+2.  Materialien und Methoden ............................................................................................................. 5 
+
+2.1 
+
+Versuch 1: gbf1 knock out Pflanzen Typisierung ..................................................................... 5 
+
+2.1.1 
+
+Versuchsdurchführung .................................................................................................... 5 
+
+2.2 
+
+Versuch 2: Promotor CAT2: GUS Reportergenanalysen .......................................................... 5 
+
+2.2.1 
+
+Versuchsdurchführung .................................................................................................... 5 
+
+2.2.2 
+
+Verwendete Mittel .......................................................................................................... 7 
+
+2.3 
+
+Versuch 3 Expressionsanalyse in gbf1 KO Pflanzen ................................................................. 8 
+
+2.3.1 
+
+Versuchsdurchführung .................................................................................................... 8 
+
+2.3.2 
+
+Verwendete Materialien ................................................................................................. 9 
+
+2.4 
+
+Versuch 4: Klonierung ........................................................................................................... 10 
+
+2.4.1 
+
+Versuchsdurchführung .................................................................................................. 10 
+
+2.4.2 
+
+Verwendete Materialien ............................................................................................... 10 
+
+3 
+
+Ergebnisse...................................................................................................................................... 12 
+
+3.1 
+
+3.2 
+
+3.3 
+
+3.4 
+
+Versuch 1: gbf1 knock out Pflanzen Typisierung ................................................................... 12 
+
+Versuch 2: Promotor CAT2: GUS Reportergenanalysen ........................................................ 25 
+
+Versuch 3: Expressionsanalyse in gbf1 KO Pflanzen ............................................................. 28 
+
+Klonierung ............................................................................................................................. 34 
+
+4 
+
+Diskussion ...................................................................................................................................... 35 
+
+4.1 
+
+4.2 
+
+4.3 
+
+4.4 
+
+GBP1 Pflanzen KO Typisierung .............................................................................................. 35 
+
+Versuch 2: Promotor CAT2: GUS Reportergenanalysen ........................................................ 35 
+
+Versuch 3: Expressionsanalyse in gbf1 KO Pflanzen ............................................................. 35 
+
+Versuch 4: Klonierung ........................................................................................................... 35 
+
+Seite 2 
+
+ 
+ 
+ 
+ 
+1. Einleitung 
+
+1.2  Allgemein 
+Das  Thema  des  Spezialpraktikums  Genetik  war  die  Seneszenz  bei  Pflanzen.  Also  die 
+Alterserscheinungen  wie  das  Absterben  alter  Blätter  und  das  Bilden  von  Knospen  und 
+Früchten.  Gesteuert  werden  diese  Prozesse  genetisch  aber  auch  in  Abhängigkeit  von  der 
+Energiebilanz  der  Pflanze.  Sie  sind  zudem  stark  abhängig  von  Umweltfaktoren  wie  Hitze, 
+Wassermangel  etc.  Untersuchungen besagen,  dass  beim  einsetzen  der Seneszenz  auch der 
+Spiegel  der  Radikale,  in  diesem  Fall  H2O2  stark  ansteigt.  Eine  der  Katalasen  welche  für  den 
+Abbau  von  Radikalen  zuständig  ist,  ist  CAT2,  welches  durch  ein  Auftreten  von  GBF1(G-box 
+binding factor 1) nach unten reguliert wird. Zudem liegen Informationen vor welche zeigen, 
+dass CAT2 in älteren pflanzen stark nach unten reguliert wird. Mit den folgenden Versuchen 
+soll  nun  ein  Zusammenhang  zwischen  der  Expression  von  GBF1  in  älteren  Pflanzen  und 
+deren  Seneszenzerscheinungen  untersucht  werden.  Hierzu  wurden  nun  3  Pflanzereihen 
+verwendet  eine  Reihe  Col0  Wildtyp  Arabidopsis  Pflanzen  und  je  eine  Reihe  Ex  und  Int 
+Planzen bei denen das Gen für GBF1 jeweils im Extron oder Intron ausgeschaltet wurde. 
+
+1.3  Beschreibung der Versuche 
+
+1.2.1 Versuch  1: Phänotypisierung von GBF1 knock-out Pflanzen 
+Dieser  Versuch  bestand  aus  2  Teilen.  Zum  einen  sollten  die  Pflanzen  in  ihrem  Wachstum 
+beobachtet  und  jede  Woche  Photografiert  werden  ,  zudem  sollte  ihr  Chlorophylgehalt 
+bestimmt  werden.  Zum  anderen  sollte  eine  Auswahl  der  Pflanzen  mit  Abscicinsäure 
+besprüht werden welche die Wirkung von Phytohormen in Pflanzen unterdrückt und einen 
+natürlichen Wachstumsinhibitor darstellt. Diese sollten dann wiederum im Vergleich zu den 
+Wildtypflanzen in ihrem Wachstum beobachtet werden. 
+
+1.2.2 Versuch 2: Promotor CAT2: GUS Reportergenanalysen 
+Bei  diesem  Versuch  sollten  die  Protoplasten  von  transgenen  Pcat2:GUS  Pflanzen, 
+Arabidopsis  thaliana,  isoliert  werden.  Diese  Protoplasten  sollten  anschließend    zum  Einen 
+mit  einem  leeren  35  S  Vektor  (PY01)  und  zum  Anderen  mit  einem  35  S:GBF  1  Vektor 
+transformiert werden. Da das Reportergen GUS hinter einem CAT2 Promotor bei Zugabe von 
+GBF1  reduziert  exprimiert  wird,  wurde  bei  Verwendung  des  35S  Vektors  auch  eine 
+Reduktion der GUS Aktivität im Vergleich zur Verwendung des PY01 Vektors erwartet. 
+
+1.2.3 Versuch 3: Expressionsanalysen in gbf1 KO Pflanzen 
+Bei  diesem  Versuch  sollten  wöchentlich  Blattproben  der  Pflanzen  entnommen  werden  um 
+daraus  RNA  zu 
+isolierte  RNA  sollte  dann  aufgereinigt  und  zu  cDNA 
+umgeschrieben  werden.  Mit  der  cDNA  sollte  dann  eine  RT-PCR  durchgeführt  werden.  Zur 
+Kontrolle  wurden  hierbei  Actin  Primer  verwendet  und  für  den  von  GBF1  die  vorliegenden 
+
+isolieren.  Die 
+
+Seite 3 
+
+ 
+ 
+ 
+GBF1 Primer. Erwartet wurde ein Nachweis von GBF1 in den Col0 Pflanzen in den anderen 
+beiden Reihen wurde kein GBF1 erwartet. 
+
+1.2.4 Versuch 4: Klonierung 
+Bei diesem Versuch sollte das sich in einem Blueskriptvektor befindliche gbf2 Gen in einen 
+cf203 GFP-Vektor kloniert werden. Dafür sollte der Vektor mit designten Primern mittels PCR 
+amplifiziert und das PCR-Produkt  anschließend gelelektrophoretisch aufgetrennt werden. 
+Um das Amplifikat aufzureinigen und den Blueskript-Vektor zu entfernen sollte dann eine 
+Gelextraktion durchgeführt werden. Anschließend sollte sowohl das Amplifikat, als auch der 
+cf203 GFP-Vektor einem Doppelverdau mit den Restriktionsenzymen KpnI und BamHI 
+unterzogen und ligiert werden. Nach der darauffolgenden Transformation in kompetente E. 
+coli Bakterien sollte zuerst eine Kolonien-PCR, dann eine Plasmid-Mini-Prep durchgeführt 
+werden. 
+
+Seite 4 
+
+ 
+ 
+ 
+ 
+2.  Materialien und Methoden 
+
+2.1 
+
+Versuch 1: gbf1 knock out Pflanzen Typisierung 
+
+2.1.1  Versuchsdurchführung 
+
+Die  Pflanzen  wurden  sowohl  mit  einer  Digitalkamera  als  auch  mit  einem  Flachbettscanner 
+wöchentlich  aufgenommen.  Hierbei  wurde  jeweils  die  ganze  Pflanze  wie  auch  jeweils  3 
+junge,  mittelalte  und  alte  Blätter  der  ersten  Rosette  gescannt.  Zudem  wurde 
+Pflanzenmaterial zur späteren Verwendung eingefroren. 
+
+Anschließend  wurde  die  Chlorophylkonzentration  der  Pflanzen  gemessen.  Hierzu  wurde 
+Pflanzenmaterial  in  0,2ml  25mM  Kalium  Phosphat  Puffer  (pH  7,0),  welcher  2mM  EDTA 
+enthielt  homogenisiert.  Danach  wurde  0,8  ml  Aceton  hinzugegeben  und  für  1h  bei 
+Raumtemperatur stark geschüttelt. Die Lösung wurde anschließend bei 14000 u/min für 30 
+min  zentrifugiert.  Der  Chlorophylgehalt  des  Überstandes  wurde  danach  im  Photometer 
+gemessen. Aus der Menge an Pflanzenmaterial und der gemessenen Menge an Chlorophyll 
+wurde nun die Chlorophyllkonzentration errechnet. 
+
+Zusätzlich  wurden  über  die  komplette  Zeit  des  Praktikums  9  Pflanzen  (3  von  jeder 
+Pflanzenreihe  aus  Col0  Int  und  Ex)  in  Intervallen  mit  Abscisinsäure  besprüht.  Gleichzeitig 
+wurden 9 Pflanzen zur Kontrolle nicht besprüht unter gleichen Bedingungen gehalten. 
+
+2.2  Versuch 2: Promotor CAT2: GUS Reportergenanalysen 
+
+2.2.1  Versuchsdurchführung 
+Von den Verwendeten Pflanzen wurden beim ersten Versuchsdurchlauf 40 mittelgroße und 
+beim 2. Durchlauf 40 große Blätter mit einer Rasierklinge in kleine (ca. 1mm) breite Streifen 
+geschnitten  zusammen  mit  20  ml  Enzymlösung  auf  eine  Petrischale  gegeben.  Beim  ersten 
+Versuchsdurchlauf  wurde  nun  1  Stunde  verdaut,  anschließend  Vakuuminfiltriert  und 
+schließlich  2  weitere  Stunden  verdaut.  Beim  zweiten  Durchlauf  wurde  zuerst 
+Vakuuminfiltriert und anschließend für 3h verdaut. Die Vakuuminfiltration lief für 20 min bei 
+200 mBar. Nun wurde die Lösung mit einem 45µm Filter filtriert und die filtrierte Lösung für 
+2  min  in  einem  Falcon  Tube  bei  2500  u\min  zentrifugiert.  Der  Überstand  wurde  daraufhin 
+abpippetiert  und  das  verbleibende  Protoplastenpallet 
+in  10ml  eiskalter  W5  Lösung 
+resuspendiert. Die Lösung wurde für 30 min auf Eis gehalten und anschließend abermals für 
+2 min bei 2500 u\min abzentrifugiert und in 1,5ml MMg gelöst. 
+
+Zur PEG Transfektion wurden 200µl der gelösten Protoplasten zusammen mit 10µg DNA in 
+ein Eppendorf Gefäß umpippetiert und anschließend 220µl PEG Lösung hinzugegeben. Diese 
+Lösung  wurde  anschließend  bei  25°C  für  30min  inkubiert  und  danach  mit  2ml  W5  Lösung 
+versetzt  um  den  Transfektionsprozess  anzuhalten.  Danach  wurde  für  2min  bei  100g  (1500 
+u\min)  abzentrifugiert  und  der  Überstand  verworfen.  Die  Lösung  wurde  nun  mit  1ml  W5 
+
+Seite 5 
+
+ 
+ 
+ 
+Puffer versetzt und für 20h im Dunkeln über Nacht inkubiert. Es wurden jeweils 3 Proben mit 
+dem PY01 Vektor, 3 mit dem P35S Vektor sowie eine mit dem CF 203 Vektor angefertigt. 
+
+Die inkubierten Lösungen wurden nun für 2 Tests verwendet, ein GUS assay und eine protein 
+quantifiaction. Die Vorbereitung war hierfür bei beiden Tests gleich. Die Lösung wurde mit 
+10ml  fall  buffer  versetzt  und  bei  400g  für  5min  zentrifugiert,  der  Überstand  wurde 
+verworfen.  Die  Protoplasten  wurden  nun  in  ein  1.5ml  Eppendorfgefäß  überführt  und 
+nochmals bei 10000g für 10 sec zentrifugiert, Der Überstand wurde abermals verworfen. Die 
+Protoplasten  wurden  nun  mit  36µl  protein  extraction  buffer  und  7µl  protease  inhibitor 
+gelöst  und  im  Eisbad  gemörsert.  Die  Lösung  wurde  nun  bei  14000  u\min  für  10  min 
+zentrifugiert und der Überstand in ein neues Gefäß überführt. 
+
+Bei der protein quantification wurde nun 5µl Lösung mit 995µl Bradford 1:5 in einer Küvette 
+versetzt und 5min ruhen gelassen. Zudem wurde ein blank mit 995µl Bradford 1:5 und 5µl 
+protein  extraction  buffer  /  protease  inhibitor  Gemisch  erstellt.  Die  vorbereiteten  Küvetten 
+wurden nun im Photometer bei einer Wellenlänge von 595nm gemessen. 
+
+Zur GUS quantification wurden 2 Messreihen erstellt. Bei beiden wurde 90µl assay buffer mit 
+10µl  Probe  versetzt.  Anschließend  wurde  eine  Messreihe  60  min  bei  37°C  inkubiert  und 
+danach mit 900µl 0,2 M Na2CO3 versetzt um die Reaktion zu stoppen. Die andere Messreihe 
+wurde nicht inkubiert. Zudem wurde wiederum ein blank mit 90 µl Assay buffer 10 µl protein 
+extraction  buffer  und  900  µl  Na2CO3  erstellt.  Von  beiden  Messreihen  und  dem  blank 
+wurden  nun  1µl  auf  eine  Microtiterplatte  pippetiert  und  im  Plattenphotometer  die 
+Extinkiton bei 355 nm und die Emission 460 bei nm gemessen.  
+
+Seite 6 
+
+ 
+ 
+2.2.2  Verwendete Mittel 
+W5 Lösung (1l): 
+
+154 mM NaCl (8,900g) 
+
+125mM CaCl2 (13,873g) 
+
+5mM KCl (0,372g) 
+
+5mM Glukose (0,990g) 
+
+MMg Lösung (0,5l): 
+
+Essay Buffer: 
+
+10ml GUS puffer 
+
+7 µl Mercaptoethanol 
+
+4mg 4MUG (gelöst in 10 µl DMSO) 
+
+Fall Buffer (500ml): 
+
+0,5M Mannitol (45,5 g) 
+
+15mM MgCl2 • 6H20 (1,524g) 
+
+15mM MgCl2 (3,75 ml 2M NgCl2) 
+
+0,1% MES (0,500g) 
+
+0,5 M Mannitol (46,042g) 
+
+pH 5,8 
+
+autoklaviert 
+
+0,1% MES (0,5g) 
+
+pH 5,8 
+
+sterile filtrate 
+
+Extraction Buffer (10ml): 
+
+PEG/Ca Lösung (100ml):  
+
+50mM Tris pH 7,5 (0,5ml 1M Tris) 
+
+40%PEG 4000 (40g) 
+
+100mM NaCl (1ml 1M NaCl) 
+
+0,4M Mannitol (7,285g) 
+
+0,1% Triton X-100 (10µl Triton 100-X) 
+
+0,1M Ca(NO3)2 • 4H2O (2,361g) 
+
+Protease Inhibitor (7x) 
+
+pH 8-9 mit 1-2 Tropfen KOH 
+
+autoklaviert 
+
+gefroren aufbewahren 
+
+GUS Buffer (500ml): 
+
+2,05g Na2HPO4 
+
+1,27g NaH2PO4 
+
+10ml 0,5M EDTA 
+
+0,5ml Triton X-100 
+
+0,5g N-Lauroylsarcosine Sodium Salz (=0,1%) 
+
+Seite 7 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+2.3 
+
+Versuch 3 Expressionsanalyse in gbf1 KO Pflanzen 
+
+2.3.1  Versuchsdurchführung 
+
+RNA  Aufbereitung:  Zur  Aufarbeitung  der  RNA  wurde  folgendermaßen  vorgegangen.  Zu  Beginn  wurde 
+das gefrorene Blattmaterial in, mit flüssigem Stickstoff gekühlten, Reibeschalen gemörsert und mit 1ml 
+Cell-Lysis-Lösung  in  ein  2ml  Eppendorfgefäß  überführt  und  homogenisiert.  Zusätzlich  wurden  500  µl 
+Protein-DNA-Precipitation  Lösung  gegeben  und  nach  10maligem  invertieren  für  10min  ins  Eisbad 
+gestellt. Schließlich wurden die Proben für 10min im Kühlraum bei 14000 u\min zentrifugiert. 
+
+1ml des Überstandes aurde nun in ein neues 2ml Eppendorfgefäß überführt, mit 1ml 100% Isopropanol 
+versetzt  und  nach  mehrmaligem  invertieren  für  5min  bei  max  u\min  im  Kühlraum  zentrifugiert.  Der 
+Überstand  wurde  verworfen  das  Eppendorfgefäß  auf  einem  Filterpapier  abgetupft.  Nun  wurde  der 
+restliche  1ml  Überstand  der  Proben    zusammen  mit  1ml  100%  Isopropanol  in  das  bereits  verwendete 
+Eppendorfgefäß  überführt  und  wiederum  für  5min  bei  max  u\min  im  Kühlraum  zentrifugiert.  Der 
+Überstand wurde verworfen, das verbleibende Pellet mit 1ml 70% EtOH mehrmals invertiert und dann 
+2min  bei  max  u\min  im  Kühlraum  zentrifugiert.  Das  verbleibende  EtOH  wurde  verworfen  und  das 
+zurückbleibende Pellet auf dem Heizblock bei 40°C getrocknet. 
+
+Anschließend wurde die verbleibende DNA verdaut. Um dies zu erreichen wurde das Pellet in 6 µl 10x 
+Puffer  +MgCL  gelöst,  mit  4  µl  DNaseI  versetzt  und  für  30min  bei  37°C  auf  den  Heizblock  gelegt.  Nun 
+wurde  1µl  EDTA  25mM  hinzugefügt  und  für  10min  bei  65°C  auf  dem  Heizblock  denaturiert. 
+Abschließend  wurde  jeweils  1µl  der  Lösung  auf  dem  NanoDrop  Gerät  gemessen  um  die  RNA 
+Konzentration zu bestimmen und die Proben auf Ein Gel aufgetragen um zu prüfen in welchen Proben 
+die  gewünschte  RNA  zu  finden  war.  Als  positivkontrolle  und  marker  wurde  hierbei  jeweils  der  Lamda 
+DNA/Hind III Marker, 2 verwendet. 
+
+cDNA Umwandlung: Um nun die RNA in cDNA umzuwandeln wurde ein iScript Reaction Mix verwendet. 
+Hierbei  wurden  4µl  5x  iScript  Reaction  Mix,  1µl  reverser  Transcriptase  und  eine  Menge  X  (wobei    X 
+=1µg/RNA  Konzentration  der  entprechenden  Probe)  zusammengebracht  und  mit  autoklaviertem  auf 
+20µl Gesamtvolumen aufgefüllt. Die Proben wurden nun für jeweils 5min bei 25°C, 30min bei 42°C und 
+5min bei 85°C auf dem Heizblock erhitzt. 
+
+Semi-quantitative  RT  PCR:  zur  Amplifikation  der  cDNA  wurde  die  DNA  1:10  verdünnt.  Anschließend 
+wurden  jeweils  2  Versuchsreihen  durchgeführt.  Jeweils  eine  mit  Actin  und  eine  mit  GBF1  Primern. 
+Hierzu wurde jeweils ein MM (s.u.) angesetzt wobei die jeweiligen primer verwendet wurden. Wichtig 
+hierbei war, um eine Gleichverteilung der DNA zu gewärhleisten, dass der MM bis auf die Primer jeweils 
+für  die  Actin  und  die  GBF1  Probe  gemeinsam  angesetzt  wurde  dann  halbiert  und  mit  den 
+entsprechenden  Primern  versetzt.  Die  Proben wurden dann  durch  das  PCR  Programm  laufen gelassen 
+bei  60°C  Annealingtemperatur  für  30sec  und  72°C  Elongationstemperatur  für  30sec  für  insgesamt  25 
+Zyklen. 
+
+Gelelektrophorese:  Abschließend  wurde  jeweils  5µl  Probe  mit  0,5µl  Pufferlösung  versetzt  und  auf  ein 
+Agarosegel aufgetragen. An dieses wurde 30min eine Spannung von 100Volt angelegt. 
+
+Seite 8 
+
+ 
+ 
+ 
+2.3.2  Verwendete Materialien 
+MasterMix [MM] (10µl) 
+
+1 µl 10xPuffer (high specific) 
+
+0,4 µl DNTPs (10mM) 
+
+0,1 µl Control TAQ (incl. Polymerase) 
+
+0,5 µl verdünnte cDNA (bei Durchlauf 2 wurden 5µl verwendet) 
+
+1 µl Primer Forward 
+
+1 µl Primer Backward 
+
+5,9 µl H2O (Bei Durchlauf 2 wurden 1,4 µl verwendet) 
+
+Agarosegel: 
+
+30ml 1x TAE Puffer und 0,3g Agarose zusammen aufkochen 
+
+1µl Ethidiumbromid (1%) 
+
+Gel gießen und mit 1xTAE Puffer auffüllen.(170ml) 
+
+Seite 9 
+
+ 
+ 
+ 
+ 
+ 
+ 
+2.4 
+
+Versuch 4: Klonierung 
+
+2.4.1  Versuchsdurchführung 
+
+Am  Anfang  wurde  die  vorhandene  GBF2  Sequenz  durch  eine  PCR  amplifiziert.  Hierbei  wurde  der  50µl 
+Ansatz(siehe  2.4.2)  in  folgendem  PCR  Programm  eingesetzt:  2  min  bei  95°C,  30  sec  bei  95°C,  30  sec 
+Annealing, 1 min Elongation bei 72°C und 7min bei 72°C. 
+
+Die DNA wurde nun in 10µl H2O gefällt und zusammen mit 1µl loading buffer für 30 min bei 100V auf 
+ein  Agarosegel  aufgetragen.  Anschließend  wurde  das  gewünschte  Fragment  mit  dem  QIAquick  Gel 
+Extraction  Kit  Protokoll  aus  dem  Gel  geschnitten.  Nun  wurde  zum  einen  der  cf203  Vector  und  das 
+Template in einem 100µl Ansatz für 3h bei 37°C verdaut und anschließend die Ligation des Vectors und 
+des geschnittenen Templates in einem 10µl Ansatz üernacht bei 4°C durchgeführt. 
+
+Zur  Transformation  wurden  nun  zuerst  50µl  kompetente  Zellen  und  5µl  Ligation  für  20  min  auf  Eis 
+gestellt.  Um  die  Zellen  aufnahmefähig  für  Plasmide  zu  machen  wurden  sie  1  Minute  42  C  ausgesetzt 
+(Hitzeschock).  Nun  wurden  250µl  LB  Medium  hinzugegeben  und  für  1h  schüttelnd  bei  37°C  inkubiert. 
+Anschließend  wurde  die  gesamte  Probe  auf  einer  LBSpec  Platte  ausplattiert  und  über  Nacht  bei  37°C 
+inkubiert. 
+
+Insgesamt wurden je Platte 16 Kolonien kepickt und in je 7µl H2O in einem PCR Tube gelöst. Zusätzlich 
+wurden  die  Pippettenspitzen  nach  jedem  Lösten  auf  einer  frischen  LBSpec  Platte  ausgestrichen.  Die 
+gelösten Proben wurden nun zusammen mit einem Mastermix in ein PCR Gerät gegeben. 
+
+2.4.2  Verwendete Materialien 
+Agarosegel: 
+
+30ml 1x TAE Puffer und 0,3g Agarose zusammen aufkochen 
+1µl Ethidiumbromid 
+Gel gießen und mit 1xTAE Puffer auffüllen.(170ml) 
+
+50µl Ansatz: 
+
+5µl 10X Puffer 
+0,5µl LA Taq (proofreading) 
+2µl Template 
+2µl dNTP 
+2,5µl Primer Forward 
+2,5µl Primer Reverse 
+35,5µl H2O 
+
+100µl Ansatz: 
+
+50µl Gelextrakt 
+10µl 10x Tango/KpnI Puffer 
+5µl KpnI 
+5µl BamHI 
+
+Seite 10 
+
+ 
+ 
+ 
+ 
+30µl H20 
+
+10µl Ansatz: 
+
+1µl 10x Puffer 
+1µl Ligase 
+1µl verdauter Vektor 
+7µl Gelextrakt 
+
+Mastermix: 
+
+0,1µl Polymerase 
+1 µl 10 x Puffer 
+0,4 µl dNTPs 
+0,7 µl Primer Forward 
+0,7 µl Primer Reverse 
+
+Seite 11 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+3  Ergebnisse 
+
+3.1  Versuch 1: gbf1 knock out Pflanzen Typisierung 
+
+Col0 4W von oben 
+
+Col0 4W von unten 
+
+Ex 4w von oben 
+
+Ex 4W von unten 
+
+Seite 12 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Int 4W von oben 
+
+Int 4W von unten 
+
+Col0 5W von oben 
+
+Col0 5w von unten 
+
+Seite 13 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Ex 5W von oben 
+
+Ex 5W von unten 
+
+Int 5W von oben 
+
+Int 5W von unten 
+
+Seite 14 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Col0 6W von oben 
+
+Col0 6W von unten 
+
+Col0 6W einzelne Blätter von oben 
+
+Col0 6W einzelne Blätter von unten 
+
+Seite 15 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Ex  6W von oben 
+
+Ex  6W von unten 
+
+Ex 6W einzelne Blätter von oben 
+
+Ex 6W einzelne Blätter von unten 
+
+Seite 16 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Int 6W von oben 
+
+Int 6W von unten 
+
+Int 6W einzelne Blätter von oben 
+
+Int 6W einzelne Blätter von oben 
+
+Seite 17 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Col0 7W von oben 
+
+Col0 7W von unten 
+
+Col0 7W von oben 
+
+Seite 18 
+
+ 
+ 
+ 
+ 
+ 
+ 
+Ex 7W von oben 
+
+Ex 7W von unten 
+
+Ex 7W einzelne Blätter von oben 
+
+Seite 19 
+
+ 
+ 
+ 
+ 
+ 
+ 
+Int 7W von oben 
+
+Int 7W von unten 
+
+Int 7W einzelne Blätter von oben 
+
+Seite 20 
+
+ 
+ 
+ 
+ 
+Oben Abgebildet sind die Bilder der Pflanzen  über den Wachstumzeitraum von Woche 4 bis 7. Es sind 
+jeweils  2  Bilder  von  je  3  Pflanzen  der  Reichen  Col0,  Int  und  Ex.  Die  Blattmenge  und  die  Zunahme 
+derBlattmenge über den betrachteten Zeitraum ist bei allen 3 Reihen gleich stark. Achtet man nun auf 
+Seneszenzerscheinungen  wie  z.B.  braune  und  abgestorbene  Blätter  und  Vergleicht  die  verschiednen 
+Reihen  untereinander  so  fällt  auf,  dass  alle  3  Versuchreihen  die  gleichen  Erscheinungen  in  gleichem 
+Ausmaß  zeigen  oder  nicht  zeigen.  Nachfolgend  abgebildet  sind  nun  die  Ergebnisse  der  Messung  des 
+Chlorophylgehaltes der einzelnen Reihen in  der 6. Woche.  
+
+Col0 6W
+
+Chlorophylgehalt
+
+Gew. in g
+
+Pflanze 1
+
+Pflanze 2
+
+Pflanze 3
+
+Jung
+Mittel
+Alt
+Jung
+Mittel
+Alt
+Jung
+Mittel
+Alt
+
+0,01
+0,06
+0,08
+0,01
+0,06
+0,1
+0,04
+0,01
+0,07
+
+c (mg/l)= (D x 
+1000)/34,5
+
+(0,1/Gew)*c
+
+62,087
+59,739
+21,507
+31,536
+42,609
+50,319
+76,493
+26,145
+26,493
+
+620,870
+99,565
+26,884
+315,362
+71,014
+50,319
+191,232
+261,449
+37,847
+
+D652
+2,142
+2,061
+0,742
+1,088
+1,47
+1,736
+2,639
+0,902
+0,914
+
+Mittelwert:
+Standartab
+
+Jung
+375,821
+221,108
+
+Mittel
+144,010
+102,703
+
+Alt
+38,350
+11,725
+
+INT 6W
+
+Chlorophylgehalt
+
+c (mg/l)= (D 
+
+Pflanze 1
+
+Pflanze 2
+
+Pflanze 3
+
+Jung
+Mittel
+Alt
+Jung
+Mittel
+Alt
+Jung
+Mittel
+Alt
+
+Gewicht in g
+0,02
+0,1
+0,01
+0,02
+0,1
+0,1
+0,02
+0,04
+0,03
+
+D
+1,988
+2,028
+1,278
+2,011
+1,47
+2,56
+1,64
+1,655
+0,902
+
+(0,1/Gew)*c
+288,116
+58,783
+370,435
+291,449
+42,609
+74,203
+237,681
+119,928
+87,150
+
+57,623
+58,783
+37,043
+58,290
+42,609
+74,203
+47,536
+47,971
+26,145
+
+Jung
+
+Mittel
+
+Alt
+
+Mittelwert:
+Standartabw
+
+272,415
+30,127
+
+73,773
+40,781
+
+177,262
+167,417
+
+Seite 21 
+
+ 
+ 
+ 
+ 
+Ex 6W
+
+Chlorophylgehalt
+
+Pflanze 1
+
+Pflanze 2
+
+Pflanze 3
+
+Jung
+Mittel
+Alt
+Jung
+Mittel
+Alt
+Jung
+Mittel
+Alt
+
+Gewicht in g
+0,01
+0,01
+0,03
+0,02
+0,06
+0,08
+0,02
+0,03
+0,08
+
+c (mg/l)= (D 
+x 
+
+D
+
+(0,1/Gew)*c
+
+1,088
+1,655
+0,781
+0,781
+1,351
+1,693
+1,278
+1,736
+
+31,536
+47,971
+22,638
+22,638
+39,159
+49,072
+37,043
+50,319
+
+315,362
+159,903
+113,188
+37,729
+48,949
+245,362
+123,478
+62,899
+
+Jung
+
+Mittel
+
+Alt
+
+Mittelwert:
+Standartabw
+
+179,275
+93,461
+
+158,857
+142,157
+
+90,584
+60,436
+
+Col0 6W
+
+INT 6W
+
+Ex 6W
+
+700,000
+
+600,000
+
+500,000
+
+400,000
+
+300,000
+
+200,000
+
+100,000
+
+0,000
+
+Jung
+
+Mittel
+
+Alt
+
+Chlorophylkonzentration nach Alter und Reihe mit Standartabweichung 
+
+Betrachtet man den Chlorophyllgehalt und dessen Abnahme nach Alter der Blätter so lässt sich sagen, 
+dass  die  Abnahme  in  der  Col0  Reihe  stärker  ausfällt.  Dies  lässt  auf  einen  funktionierenden  GBF1 
+Knockout  schließen  Knockout  da  hierbei  das  Chlorophyll  in  älteren  Blättern  nicht  so  schnell  abgebaut 
+wird wie in Wildtyppflanzen. 
+
+Die 2te Chlorophyll Messung lässt sich aufgrund fehlender Gewichtsmessungen des Blattmaterials nicht 
+auswerten 
+
+Seite 22 
+
+ 
+ 
+ 
+ 
+400,000
+
+350,000
+
+300,000
+
+250,000
+
+200,000
+
+150,000
+
+100,000
+
+50,000
+
+0,000
+
+Jung
+
+Mittel
+
+Alt
+
+Regressionsgerade der Chlorophylkonzentration 
+
+Col0 6W
+
+INT 6W
+
+Ex 6W
+
+Col0 6W
+
+INT 6W
+
+Ex 6W
+
+Seite 23 
+
+ 
+ 
+ 
+ 
+Mit und ohne Aba besprühte Pflanzen im Vergleich vom 05.05.2009 
+
+Mit und ohne Aba besprühte Pflanzen im Vergleich vom 18.05.2009 
+
+Man  erkennt  deutlich  die  Wachstumsinhibitorische  Wirkung  der  Abscisinsäure.  Die  behandelten 
+Bplanzen  weisen  ein  deutlich  geringeres  Wachstum  auf  als  die  Unbehandelten.  Im  Vergleich  der  3 
+Pflanzenreihen zeigt sich die Wirkung auf die Col0 Pflanzen am deutlichsten. 
+
+Seite 24 
+
+ 
+ 
+ 
+ 
+3.2  Versuch 2: Promotor CAT2: GUS Reportergenanalysen 
+
+Abbildung der Isolierten Protoplasten. Man deutlich erkennen, dass hierbei genügend funktionelle 
+Protoplasten isoliert wurden. 
+
+Ergebnisse der Bradford Messung 
+
+Seite 25 
+
+ 
+ 
+ 
+35S
+577425
+500170
+
+35S
+680432
+563390
+Ergebnisse des Gus Essay 
+
+35S
+61627
+60455
+
+Py01
+616945
+616249
+
+Py02
+619922
+584727
+
+Py03
+612286
+555998
+
+Blank
+558312
+
+Zur Berechnung der spezifischen GUS Aktivität wurde folgende Formel verwendet: 
+
+AGUS (nmol/mg x min) = (KMU (nM) x VKü (ml) x VF x UF (1l/1000ml)) / (PM (mg) x t (min) 
+
+Wobei: 
+
+AGUS   
+KMU 
+VKü 
+VF 
+UF 
+PM 
+T  
+
+spezifische GUS-Aktivität 
+gemessene MU Konzentration 
+Volumen in Küvette 
+Verdünnungsfaktor 
+Umrechnungsfaktor 
+Proteinmenge im Ansatz 
+Reaktionszeit   
+
+nmol/(mg x min) 
+nM 
+
+ml 
+
+1l / 1000ml 
+mg 
+
+min 
+
+Welche mit eingesetzten Werten zu folgendem Ergebnis führt: 
+
+35 S
+35 S
+35 S
+
+PYO1
+PYO1
+PYO1
+
+KMU
+77255
+117042
+11717
+
+696
+35195
+56288
+
+V KÜ VF
+0,2 100
+0,2 100
+0,2 100
+
+UF
+
+PM
+0,001 0,29814
+0,001 0,28109
+0,001 0,35108
+
+0,2 100
+0,2 100
+0,2 100
+
+0,001 0,24083
+0,001 0,29908
+0,001 0,17595
+
+T
+60
+60
+60
+
+60
+60
+60
+
+AGUS
+86,37441
+138,7954
+11,12472
+
+0,9633351
+39,225848
+106,63636
+
+Mittelwert 
+
+35 S
+PYO1
+
+78,764845
+48,941846
+
+Standard
+abweichung
+52,398346
+43,684454
+
+Seite 26 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+i
+
+)
+n
+m
+*
+g
+m
+(
+/
+l
+o
+m
+
+90
+
+80
+
+70
+
+60
+
+50
+
+40
+
+30
+
+20
+
+10
+
+0
+
+PYO1
+
+35 S
+
+Die Annahme, dass das, hinter einen CAT2 Promoter geschaltete, Reportergen GUS bei Zugabe von GBF1 
+redzuiert  exprimiert  wird,  konnte  mit  den  vorliegenden  Ergebnissen  leider  nicht  bestätigt  werden.  In 
+den  hier  abgebildeten  Ergebnissen  ist  sogar  gegenteiliges  der  Fall.  Hier  wurde  GUS  bei  denjenigen 
+Protoplasten  die  einen  leeren  Vektor  ohne  GFB1  Gen  enthielten  weniger  stark  exprimiert  als  bei 
+denjenigen mit vorhandenem GBF1 Gen. 
+
+Seite 27 
+
+ 
+ 
+ 
+3.3  Versuch 3: Expressionsanalyse in gbf1 KO Pflanzen 
+
+Seite 28 
+
+ 
+ 
+ 
+Seite 29 
+
+ 
+ 
+ 
+ 
+Seite 30 
+
+ 
+ 
+ 
+  
+Seite 31 
+
+ 
+ 
+ 
+ 
+Oben abgebildet sind alle im Verlauf des Versuchs produzierten Gelbilder. Die mit „RNA“ beschrifteten 
+Bilder sind jeweils die Kontrollen zum prüfen ob verwendbare RNA vorhanden war. Die mit X markierten 
+Proben wurden hierbei jeweils für verwendbar befunden zur Umwandlung in cDNA weiter verendet. In 
+manchen  Fällen  erkennt  man  hierbei  die  zwei  obersten  Banden  welche  die  vorhandene  18S  und  25S 
+RNA  darstellen.  Die  immer  sichbaren  starken  dunklen  Banden  ganz  unten  bilden  jeweils  die  defekte 
+degradierte  RNA.  Die  mit  cDNA  markierten  Bilder  sind  die  jeweils  nach  der  RT  PCR  aufgetragenen 
+Proben. Die verwendeten Primer sind hierbei auf dem Bild vermerkt. Die untersten Banden stellen auf 
+diesen Bildern die komplementären Primer dar die sich aneinander gelagert haben und keine Expression 
+darstellen. Falls darüber eine zweite Bande zu sehen ist so stellt dies eine jeweilige positive Expression 
+der dem Primer entsprechenden cDNA dar. Einzig der Fall der verwendeten Probe „Col 5C“ auf Bild B5 
+stellt sich als unerklärbar dar da hier eine GBF1 Bande aber keine Actin Bande zu sehen ist, welche aber 
+zu sehen sein sollte. Das Ergebnis wird daher nicht als positiv bewertet. Die einzige positive Bewertung 
+für eine GBF1 Expression stellt die Probe Int 8W von Bild B9 dar, da hier eine Actin Expression sowie eine 
+sehr geringe GBF1 Expression zu sehen ist. Dies dürfte aber aufgrund des Knockouts in den Int Pflanzen 
+nicht der Fall sein. 
+
+Seite 32 
+
+ 
+ 
+ 
+ 
+ 
+Eine Zusammenstellung der Auswertung der Bilder und der gemessenen RNA-Konzentration und 
+Reinheit findet sich in folgender Tabelle: 
+
+Probe
+
+RNA Isoliert
+
+RNA 
+Konzentration
+
+Reinheit 
+(260/280)
+
+Actin
+
+GBF1
+
+Col0 4W
+Col0 5W
+Col0 6W
+Col0 7W
+
+Int 4W
+Int 5W
+Int 6W
+Int 7W
+Int 8Wa
+Int 8Wb
+
+Ex 4W
+Ex 5W
+Ex 6W
+Ex 7W
+
+positiv
+
+0,256
+
+n.v.
+
+positiv
+positiv
+positiv
+positiv
+positiv
+positiv
+
+positiv
+positiv
+positiv
+positiv
+
+0,66
+873,2
+0,066
+0,66
+210,4
+122,7
+
+0,66
+0,07
+230,4
+0,91
+
+n.v.
+2,1 positiv
+
+n.v. positiv
+1,76 positiv
+1,94
+
+n.v. positiv
+2,01
+
+2,1 positiv
+1,95 positiv
+
+positiv
+
+Seite 33 
+
+ 
+ 
+ 
+ 
+3.4  Klonierung 
+
+Man erkennt deutlich, dass keine einzelnen Banden erkennbar sind und die Kolonie PCR somit in diesem 
+Fall fehlgeschlagen ist. 
+
+Abgebildet sind die Ergebnisse der PCR auf die Miniprep. Auch hier sieht man an den fehlenden Banden 
+bei Verwendung der Control TAQ, dass die Klonierung nicht funktioniert hat, die PCR als solche aber sehr 
+wohl wie man an den deutlich sichtbaren Banden bei verwendung der LA-TAQ sieht. 
+
+Seite 34 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+4  Diskussion 
+
+4.1  GBP1 Pflanzen KO Typisierung 
+Da  sowohl  Pflanzenwachstum  als  auch  Seneszenzerscheinungen  in  allen  3  Pflanzereihen  gleich  war 
+lassen sich leider keine Aussagen treffen. Möglicherweise treten hier die erwarteten Effekte aber auch 
+erst  in  späteren  Wochen  auf.  Die  erhaltenen  Ergebnisse  entsprachen  beim  Chlorophylgehalt  als  auch 
+beim Pflanzenwachstum der mit Aba besprühten Pflanzen jedoch den Erwartungen. Die Ergebnisse der 
+zweiten Chlorophylmessung waren leider aufgrund fehlender Messungen nicht auswertbar.  
+
+4.2  Versuch 2: Promotor CAT2: GUS Reportergenanalysen 
+Die Ergebnisse in diesem Versuch konnten die Erwartungen leider nicht erfüllen. So waren die meisten 
+Messungen aufgrund von Fehlern nicht auswertbar obwohl die isolierten Protoplasten gut aussahen. Es 
+wird  vermutet  dass  bei  den  letzten  Messungen  Pippetierfehler  aufgetreten  sind  oder  Gefäße  und 
+Beschriftungen vertausc ht wurden. Dies kann aber nicht bestätigt werden. 
+
+4.3  Versuch 3: Expressionsanalyse in gbf1 KO Pflanzen 
+Auch dieser Versuch konnte die Erwartungen nicht erfüllen und die Theoretischen Ergebnisse nicht bestätigen. Zu 
+einem  großen  Teil  wird  das  auf  die  Minderwertige  RNA  nach  Isolierung  zurückzuführen  sein.  Hier  wurden 
+eventuell  prozedurale  Fehler  gemacht wie  z.B.  ein  zeitweises  auftauen  des  Blattmaterial  führte. Dies  wiederum 
+erzeugte  Stress  für  Pflanzen  und  führte  womöglich  zu  einer  Ausschüttung  von  Nukleasen.  Zudem  zeigen  die 
+Ergebnisse  ein  Vorhandensein  des  GBF1  Gens  in  den  KO  Pflanzen  was  wiederum  an  den  Ergebnissen  zweifeln 
+lässt, da dies  
+
+4.4  Versuch 4: Klonierung 
+Dieser  Versuch  ist  fehlgeschlagen.  Zum  einen  waren  die  verwendeten  LBSpec  Platten  zeitweise  nicht 
+auffindbar  und  zum  anderen  evtl  auch  zu  alt  da  nicht  wie  erwartet  einzelne  Resistente  Kolonien 
+gewachsen sind sondern ein ganzer Rasen. Zudem können Fehler bei der Plasmidisolierung aufgetreten 
+sein, was das totale Fehlen der Plasmide bei der Miniprep erklären würde- 
+
+Seite 35 
+
+ 
+ 
+ 
+
\ No newline at end of file
diff --git a/StilVorlagen/Protokoll Versuch A - Nerv V2.md b/StilVorlagen/Protokoll Versuch A - Nerv V2.md
new file mode 100644
index 0000000..b19d70b
--- /dev/null
+++ b/StilVorlagen/Protokoll Versuch A - Nerv V2.md	
@@ -0,0 +1,624 @@
+Versuch A: 
+
+Nervenphysiologie 
+
+ 1  
+
+Durchgeführt am: 
+
+Do. 1.4.04 
+
+Gruppe B2D 
+
+Kersting, Daniel 
+Maslesa, Senid 
+Schwörer, Christoph 
+
+Quelle: http://www.egbeck.de/skripten/bilder/frosch.gif (bearbeitet) 
+
+Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 2  
+
+1. Einführung 
+
+Die schnelle interne Informationsweiterleitung jedes mehrzelligen tierischen Lebewesens beruht 
+auf Nerven. Dies sind spezielle Zellen deren Membran durch eine ungleiche Verteilung von Na+ 
+Cl-  K+  und  Anionen polarisiert werden. Damit  die weitergeleiteten  Informationen  in Form  von 
+Änderungen  der  Polarisation  der  Zellmembran  größere  Distanzen  innerhalb  des  Organismus 
+zurücklegen  zu  können  besteht  eine  Nervenzelle  aus  einem  Zellkern  in  den  viele  Dendriten 
+münden,  die  diese  Polarisationsänderung  zur  Zelle  hin  leiten,  und  einem  aus  der  Zelle 
+ausgehenden  Axon  das  am  Axonhügel  beginnt  und  an  dessen  Ende  sich  eine  Schnittstelle  zur 
+Informationsweitergabe  befindet.  Meist  ist  diese  Schnittstelle  eine  Synapse  die  den  geleiteten 
+Reiz an eine weitere Nervenzelle weitergibt. Es existieren aber auch andere Enden wie z.B. eine 
+Motorische Endplatte.  
+Die  „Information“  die  durch  diese  Nervenzelle  weitergegeben  wird  ist  in  Form  von  plötzlichen 
+Ladungsänderungen  der  Zellmembran  realisiert.  Diese  Ladungsänderungen,  die  AP  (Aktions-
+Potential) genannt werden, sind jedoch immer gleich stark (Alles oder nichts Gesetz) so dass eine 
+Codierung  der  Information  anders  erfolgen  muss.  Dies  geschieht  über  die  Frequenz  mit  der 
+Reize  geleitet  werden.  Da  jedoch  die  Veränderung  der  Polarisation  mit  der  eine  Information 
+geleitet  wird  durch  einen  Ausgleich  der  Na+  Ionen  an  der  Zellmembran  geschieht,  und  diese 
+Depolarisation der Zellmembran erst wieder durch einen  Ausstrom von K+ Ionen kompensiert 
+werden muss kann die Frequenz mit der Reize geleitet werden nicht unbegrenzt hoch sein. Die 
+maximale  Frequnz  wird  durch  die  sogenannte  „Absolute  Refraktärzeit“  der  Nervenzelle 
+bestimmt. Diese Zeit ist die Zeit die benötigt wird um ein erneute SAP auszulösen.  Die Relative 
+Refraktärzeit  hingegen  ist  diejenige  Zeit  in  der  zwar  schon  wieder  ein  SAP  ausgelöst  werden 
+kann die Repolarisation der Zellmembran jedoch noch nicht vollständig ist so dass ein größerer 
+Reiz benötigt wird um ein SAP auszulösen. 
+
+Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 
+
+ 
+ 
+ 
+ 
+ 3  
+
+2. Passive Eigenschaften der Nervenzellmembran   
+
+2.1 Aufbau/Methoden: 
+
+In diesem Versuch wird die passive Membraneigenschaft einer Nervenzelle gemessen. Dabei 
+benutzen wir ein Modell der Nervenzellmembran (Kette von RC-Gliedern) Jedes Glied dieser 
+Kette repräsentiert einen kleinen Membranabschnitt mit Membranwiderstand und 
+Membrankapazität. Den Innenwiderstand bildet die "Intrazellulärflüssigkeit" in verbindet die 
+einzelnen Glieder. Der Außenwiderstand der Extrazellulärflüssigkeit wird als sehr klein 
+angenommen. 
+
+Aufbau: 
+
+Quelle: Script zum Versuch 
+
+2.2 Ergebnisse: 
+
+Abstand 
+0 
+Amplitude [V]  7 
+
+2 
+
+1 
+2,75  1,1 
+
+2.3 Diskussion: 
+
+4 
+
+3 
+0,45  0,17  0,05  0,045 
+
+5 
+
+6 
+
+Wenn man die Ergebnistabelle betrachtet erkennt man, dass die Amplitude sehr schnell stark abnimmt. 
+Dies ist auf den hohen „Innenwiederstand“ der Intrazellulärflüssigkeit zurückzuführen. Vergleicht man 
+die sich ergebende Kurve mit denen aus der Literatur für eine echte Nervenzelle so stellt man fest dass 
+das Modell sehr genau der Realität entspricht. 
+
+Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 4  
+
+3. Präperation 
+
+3.1 Präparation des Nervus ischiadicus 
+
+Ein Frosch wird dekapitiert, sein Rückenmark zerstört, enthäutet und mit Ringerlösung 
+abgespült.  
+Die Bauchhöhle des Frosches wird geöffnet und die Eingeweide entnommen. Die Ischiadicus-
+Nerven werden mit einem Bindfaden abgebunden und bis zum Eintritt in den Oberschenkel 
+freipräpariert.  
+Anschließend wird er in eine Petrischale mit Ringerlösung gelegt, da dies eine optimale 
+Umgebung für den Nerv ist.  
+
+3.2 Versuchsaufbau Ableitapparatur 
+
+Quelle: Script zum Versuch 
+
+Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+4 Messung des Reizartefakts 
+
+4.1 Methoden/Aufbau: 
+
+Ein mit Ringer angefeuchteter Faden wir in die Ableitkammer gelegt und mit einigen Reizen 
+angeregt. 
+
+ 5  
+
+4.2 Ergebnisse: 
+
+Hier War kein Ausdruck vorhanden 
+
+4.1 Diskussion: 
+
+Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 6  
+
+5. Ableitung eines fortgeleiteten diphasischen 
+Summenaktionspotentials bei unterschiedlichen 
+Reizstärken 
+
+5.1 Methoden/Aufbau: 
+
+Ein Summenaktionspotential (SAP) entsteht bei gleichzeitiger Erregung mehrerer (sämtlicher) 
+Axone eines Nerven. Es wird extrazellulär abgeleitet. Die Amplitude hängt von der 
+Reizamplitude ab. Bei der Reizamplitude unterscheidet man zwischen der Schwellenreizstärke, 
+der kleinsten Reizamplitude, die noch ein meßbares SAP auslöst und der Maximalreizstärke, der 
+Reizamplitude, ab der eine weitere Reizstärkung keine größere SAP-Amplitude auslöst. 
+
+Zunächst wird schrittweise die Reizamplitude erhöht. 
+
+5.2 Ergebnisse: 
+
+AP: 5 fach verstärkt 5mV 
+Reiz: 50 mV 
+Zeit 0,2ms 
+
+Reiz: 500 mV 
+AP: 50mV 
+
+Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 7  
+
+Reiz: 2V 
+AP:100mV 
+
+Amplitude des SAP’s in Abhängigkeit von der Reizamplitude: 
+
+Reiz[v] 
+0 
+SAP [mV]  0 
+
+0,08  0,3 
+125 
+4 
+
+1 
+250 
+
+3,5 
+280 
+
+5 
+280 
+
+Diagramm über die Zunahme der SAP-Amplitude in Abhängigkeit von der Reizamplitude: 
+
+5.3 Diskussion: 
+
+Im obigen Diagramm kann sowohl die untere als auch die obere Reizschwelle von 0.08V und 3.5V 
+sehr gut erkennen. Bei einem Schwellreiz von 0.08V werden nur sehr wenige Nervenzellen erregt, 
+vermutlich sogar nur eine einzige. Entsprechend schwach ist auch die gemessene Reizantwort. Je 
+stärker nun gereizt wird desto mehr einzelne Nervenzellen werden erregt und bilden AP’s die als SAP 
+abgeleitet werden. Ab einer Reizstärke von ca. 3.5V werden alle Nervenzellen des Nervs erregt und 
+eine noch weitere Verstärkung des Reizes bringt nichts. 
+
+Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 
+
+-500501001502002503000123456Amplitude [V]SAP [mV] 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 8  
+
+6. Bestimmung der Geschwindigkeit der 
+Erregungsleitung 
+
+6.1 Aufbau/Methoden: 
+
+Hier messen wir, wie groß die Geschwindigkeit ist, mit der Aktionspotentiale im Froschnerven 
+weitergeleitet werden. Dabei wird der Reiz einmal nahe am Reizort und einmal in einem 
+weiteren Abstand vom Reizort (1cm) registriert. Aus dem Abstand zwischen den beiden 
+Ableitelektrodenpaaren (s) und dem ermittelten Zeitunterschied (t) zwischen den abgeleiteten 
+SAP’s kann die Leitungsgeschwindigkeit (v) errechnet werden (v=s/t). 
+
+6.2 Ergebnisse: 
+
+Zeit: 0,2ms     Reiz: 2mV     AP: 20mV 
+
+Der zeitliche Abstand mit dem die beiden AP’s gemessen wurden beträgt ca. 0,3 ms. Unter 
+Verwendung der oben angegeben Formel v=s/t (v=1cm/0,3ms) erhält man eine 
+Leitungsgeschwindigkeit von 33,3m/s. 
+
+6.3 Diskussion: 
+
+Betrachtet man die beiden Schaubilder stellt man im rechten, also der weiter vom Reiz entfernten Ableitung 
+eine deutliche „Ablachung“. Diese entsteht durch die unterschiedliche Leitgeschwindigkeit der in der 
+Nerfenfaser liegenden Axone. So treffen die erzeugten einzelnen AP’s nach einer gewissen Distanz nicht mehr 
+exakt zur selben Zeit ein, wie es im linken Schaubild der Fall ist sondern über einen Zeitraum verteilt der mit 
+der Distanz zur Reizquelle immer größer wird. Dies führt zur Abflachung des abgeleiteten SAP’s.  
+
+Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 9  
+
+7. Bestimmung der Refraktärzeit beim 
+Froschnerv 
+
+7.1 Aufbau/Methoden: 
+
+Die Refraktärzeit eines Nerven ist die Zeitspanne, in der er  überhaupt nicht (absolute 
+Refraktärzeit) oder aber nur mit höheren Reizamplituden (relative 
+Refraktärzeit) erneut erregt werden kann.  
+
+Zur Messung werden zwei Reize (Doppelreize) gesendet, deren zeitlicher Abstand 
+(Doppelreizabstand) variiert werden kann. Mit dem zweiten Reiz wird das refraktäre Verhalten 
+des Nervs nach dem ersten Reiz bestimmt. 
+
+7.2 Ergebnisse: 
+
+Zeit: 0,2ms 
+AP: 100mV 
+Reiz: 2V 
+
+Zeit: 0,5ms 
+AP: 2mv 
+
+Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 10  
+
+AP: 20mV 
+
+Reizabstand [ms]  0,3ms 
+SAP [mV] 
+
+0mV 
+
+4ms 
+60mV 
+
+1,5ms 
+2mV 
+Schwelle 
+absolut/ 
+relativ 
+
+16ms 
+80mV 
+Ende 
+relativ 
+
+7.3 Diskussion: 
+
+Die gemessene absolute Refraktärzeit lag bei 1.5 ms Dies ist die Zeit in der die Na+ Kanäle der 
+Membran zeitlich und mechanisch gesteuert geschlossen sind um das Potential an der Membran, 
+durch den K+ Ausstrom, unter den Schwellwert sinken zu lassen da sonst durch das anliegende 
+Potential schon beim Ausstrom der K+ Ionen ein erneutes AP ausgelöst würde. Die relative 
+Refraktärzeit die zwischen 1.5 und 16 ms ist die Zeit in der durch den erhöhten K+ Ausstrom 
+beim Vorhergehenden AP das Membranpotential Hyperpolarisiert wird und somit ein größerer 
+Reiz notwenig ist um ein erneutes AP zu erzeugen. 
+
+Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 11  
+
+8. Umwandlung des diphasischen SAPs in ein 
+monophasisches SAP 
+
+8.1 Aufbau/Methoden: 
+
+Diphasisches SAP: Die Erregungswelle wandert entlang der Axone über zwei Ableitelektroden 
+hinweg. Zuerst wird die erste Elektrode und dann die zweite Elektrode negativ gegenüber der 
+jeweils anderen.  
+Monophasisches SAP: Die zweite Elektrode wird an eine unerregbare Stelle des Nerven gelegt. 
+
+Der Nerv wird zwischen den beiden Ableitelektroden dadurch unerregbar gemacht, dass er dicht 
+vor der zweiten Elektrode mit einer Pinzette kräftig gequetscht wird.  
+
+8.2 Ergebnisse: 
+
+Reiz: 100mV 
+AP: 100mV 
+Zeit: 0,5ms 
+
+8.3 Diskussion: 
+
+Durch das Abklemmen des Nerv zwischen der ersten und der zweiten elektrode kann das AP die 
+zweite Elektrode ncith mehr erreichen und die Ableitelektroden werden nur ein mal negativ zu 
+anderen gepolt. Man erkennt dies gut daran, dass auf dem Schaubild lediglich ein ausschlag 
+nach unten zu sehen ist und anschließend nicht (wie in den vorherigen Schaubildern) ein 
+leichterer Ausschlag nach oben. 
+
+Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+9. Leitungsanästhesie am peripheren Nerven 
+
+9.1 Aufbau/Methoden: 
+
+Lokalanästhetika sind Medikamente, die eine reversible Blockade der Nervenleitung bewirken. 
+Der Nerv wird in der Ableitkammer im Bereich zwischen Reiz - und Ableitelektroden 
+mit Xylocain besprüht. Dann wird im Abstand von 30 Sekunden mehrere Messungen gemacht 
+
+ 12  
+
+9.2 Ergebnisse: 
+
+Messreihe: 
+
+0,5ms – Reiz: 1V AP: 100mV 
+
+9.3 Diskussion: 
+
+Man sieht dass die sedative Wirkung erst nach ca. 4 min. eintritt, und auch das nicht zu 100% 
+Im Gegensatz zu anderen Betäubungsmitteln wie zb Äther ist Xylocain nicht für eine 
+Vollnarkose geeignet und wird auch nur zur lokalen Betäubung von Schleimhäuten verwendet. 
+
+Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 13  
+
+10. Anhang 
+
+10.1 Quellenangaben: 
+
+Soweit nicht gesondert darauf hingewiesen ist, sind alle Bilder/Abbildungen selbst angefertigt 
+(Fotos während dem Versuch, sowie eingescannte Oszilloskopausdrucke) 
+
+Für das biologische Hintergrundwissen sind folgende Bücher verwendet worden: 
+Prof. Werner A. Müller, Tier und Humanphysiologie, Springerverlag 2. Auflage 
+Neil A. Campbell, Biologie, Spektrum, 1997 
+
+Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+
\ No newline at end of file
diff --git a/StilVorlagen/Protokoll des Versuchs Reaktionskinetik (eigenes)_korrigiert.md b/StilVorlagen/Protokoll des Versuchs Reaktionskinetik (eigenes)_korrigiert.md
new file mode 100644
index 0000000..9df6f5c
--- /dev/null
+++ b/StilVorlagen/Protokoll des Versuchs Reaktionskinetik (eigenes)_korrigiert.md	
@@ -0,0 +1,172 @@
+Reaktionskinetik
+
+
+Versuchsdurchführung
+
+Vor dem Versuch wurde vom Betreuer die Referenzlösung, bestehend aus 2650µl Puffer, 100µl Semicarbazid-HCl, 200µl NAD und 10µl GSH, in die Referenzküvette pipettiert und der Nullabgleich des Spektrometers durchgeführt.
+Wir führten 11 Enzymtests durch. Zunächst wurden 2500µl Puffer, 100µl Semicarbazid-HCL, 200µl NAD, 10µl GSH und 100µl Ethanol-Testlösung gemischt und zum Temperaturausgleich im Spektrometer äquibriliert. Danach wurde die entsprechende Menge an Ethanol hinzugegeben. Im ersten Versuch 0µl Ethanol hinzugegeben und in den weiteren Versuchen immer 10µl mehr. Das Gemisch wurde dann in den Spektrometer gegeben und 240s lang die Extinktion gemessen.
+
+Auswertung
+
+
+
+
+Auswertung 1)
+Ethanol Volumen V [µl]
+Stoffmenge Ethanol n [µmol]
+ges. Probenvolumen V [ml]
+Ethanol-konzentration cs [mmol/l]
+1/Ethanol- konzentration 1/cs [l/mmol]
+0
+0,00
+2,96
+0,00
+inf
+10
+173,28
+2,96
+58,54
+0,0171
+20
+346,56
+2,96
+117,08
+0,0085
+30
+519,84
+2,96
+175,62
+0,0057
+40
+693,12
+2,96
+234,16
+0,0043
+50
+866,40
+2,96
+292,70
+0,0034
+60
+1039,68
+2,96
+351,24
+0,0028
+70
+1212,96
+2,96
+409,78
+0,0024
+80
+1386,24
+2,96
+468,32
+0,0021
+90
+1559,52
+2,96
+526,86
+0,0019
+100
+1732,80
+2,96
+585,40
+0,0017
+Tabelle 1: Messprotokoll I
+
+Ethanol Volumen V [µl]
+?E/?t        (min-1)
+v0           (µmol l-1 min-1)
+1/v0                (l min µmol-1)
+v0/cs                     (10-3 min-1)
+0
+0,0084
+0,00026
+3846,15
+Inf
+10
+0,0101
+0,00034
+1515,15
+0,000002
+20
+0,1926
+0,00554
+180,50
+0,000019
+30
+0,4092
+0,01148
+87,10
+0,000027
+40
+0,4385
+0,01196
+83,61
+0,000022
+50
+0,6109
+0,01683
+59,41
+0,000024
+60
+0,6084
+0,01665
+60,06
+0,000020
+70
+0,6593
+0,01817
+55,03
+0,000018
+80
+0,6354
+0,01738
+57,53
+0,000016
+90
+0,7997
+0,02272
+44,01
+0,000017
+100
+0,8794
+0,02440
+40,98
+0,000017
+Tabelle2: Messprotokoll II  (?E/?t wurde durch lineareRegression bestimmt)
+
+Auswertung  2) 
+ Diagramm 1: Lineweaver-Burk
+
+Steigung 			m = 0,00000965* 10-3 * min-1
+y-Achsenabschnitt 		b = 0,00288 µmol/l
+      KM = 0,0033 mmol/l
+      v0,max  = 347,22 l*min/µmol
+      
+
+
+Auswertung 3)
+
+ Diagramm 2: Eadie-Hofstee
+
+Steigung  		m = -861,76 *10-3 *min-1
+y-Achsenabschnitt 	b = 0,37 µmol* l-1 * min-1
+      KM: = 861,76 mmol*l-1
+      v0,max: = b
+
+Auswertung 03)
+
+ Diagramm 3: Michaelis Menten
+
+KM: 0,015 
+V0,max: 0,03
+
+
+
+Auswertung 04)
+Die Michaelis-Menten-Auftragung ist sehr einfach, da die maximale Geschwindigkeit und die Konstante einfach aus der Formel abgelesen werden können, somit ist diese Variante genauer und erfordert kaum Rechenzeit.
+Bei Lineweaver-Burk und Eadie-Hofstee werden die Werte mit Hilfe der Ausgleichsgeraden ermittelt. Hierbei muss beachtet werden, dass die Ausgleichsgeraden verschieden aufgetragen werden können (z.B. linear oder logarithmisch). Dadurch ergeben sich unterschiedliche Werte und es können durch ungenaues Ablesen Rundungsfehler entstehen. 
+
+Auswertung 05) 
+Die Geschwindigkeitskontante k hängt exponentiell von der Umgebungstemperatur der Lösung T ab, in folgender Form: k=k0 exp(-EA/RT). Diese Konstante fließt in die Michaelis-Menten-Gleichung ein, welche wiederum die Reaktionsgeschwindigkeit beeinflusst. Eine Änderung der Temperatur bedingt also eine Änderung der Reaktionsgeschwindigkeit. Da im Versuch Lösungen mit verschiedenen Temperaturen gemischt wurden, finden kontinuierliche Änderungen der Temperatur statt; um dieses zu verhindern wird die gesamte Lösung temperiert, bevor die Reaktion startet. Damit ist gewährleistet, dass keine Änderung der Temperatur mehr stattfindet und somit die Reaktionsgeschwindigkeit nur noch von der Änderung der Stoffmenge abhängt.
diff --git a/StilVorlagen/Protokoll_Psycho.md b/StilVorlagen/Protokoll_Psycho.md
new file mode 100644
index 0000000..f6396aa
--- /dev/null
+++ b/StilVorlagen/Protokoll_Psycho.md
@@ -0,0 +1,855 @@
+Protokoll  
+
+Psychophysik 
+Reflexe  
+Sensomotorik 
+
+Dienstag 30.03.2004 
+
+Gruppe B2D 
+
+Christoph Schwörer 
+Daniel Kersting 
+Senid Maslesa 
+
+ 
+ 
+ 
+ 
+ 
+ 
+Prolog 
+
+Die  Psychophysik,  auch  subjektive  Sinnesphysiologie  genannt,    unterscheidet  sich  zur 
+
+objektiven  Sinnesphysiologie  darin,  dass  die  durch  Reize  verursacht  Erregung  nicht  im 
+
+Körper  direkt  (z.B.  Versuch  Insekten  ERG)  gemessen  werden  sondern  die  Stärke  der 
+
+Empfindung durch eine Versuchsperson angegeben wird.  
+
+Trotz  der  Subjektivität  der  Messungen  existieren  aber  auch  in  der  Psychophysik  bestimmte 
+
+allgemein  gültige  Gesetzte  und  Rechenregeln.  So  setzt  beispielsweise  die  Steven’sche 
+Potenzfunktion  (E  =  k(S-S0)n  mit  E  =  Empfindungsintensität;  n  =  ein  vom  Receptortyp 
+
+abhängiger  positiver  Wert;  S  =  Reizwert;  S0  =  Schwellwert)  den  Empfindungswert  zum 
+
+Reizwert in Proportion. 
+
+ Es  gibt  aber  auch  Reize  die  nicht  nur  zu  einer  Empfindung  führen  sondern  auch  zu  einer 
+
+direkten (meist Motorischen) Reaktion des Körpers führen. Diese unwillkürlichen, mit kurzer 
+
+Latenz ablaufenden Reaktionen werden Reflexe genannt. 
+
+ 
+Versuchsteil I:  
+
+Bestimmung der absoluten Hörschwelle des Menschen 
+
+Einleitung 
+
+Der  Mensch  ist  in  der  Lage  Frequenzen  von  ca.  15  Hz  bis  17-21  kHz  wahrzunehmen.  Der 
+
+beim  Sprechen  verwendete  Bereich  („Sprachbereich“)  liegt  hierbei  zwischen  300  Hz  und 
+
+5000 Hz. 
+
+Nicht  jede  Frequenz  ist  bei  gleich  niedrigem  Schalldruckpegel  hörbar.  So  erfordert  es 
+
+wesentlich geringeren Schalldruckpegel um Frequenzen im Sprachbereich wahrzunehmen als 
+
+außerhalb dieses Frequenzbereichs. 
+
+Der minimale Schalldruckpegel ab dem eine bestimmte Frequenz hörbar ist wird Hörschwelle 
+
+genannt. 
+
+Methode 
+
+In  diesem  Versuch  wird  der  Versuchsperson  ein  Köpfhörer  aufgesetzt  der  mit  einem 
+
+Reizgenerator  verbunden  ist.  Dieser  kann  Impulse  in  einem  Frequenzbereich  von  15  Hz  bis 
+
+>30 kHz bei verschiedenem Schalldruck erzeugen.  
+
+Nun werden  verschieden  Frequenzen, anfangend bei 20 Hz (50, 100, 200, 500, 1000, 2000, 
+
+5000, 10000 Hz) bei einem eindeutig hörbaren Schalldruckpegel eingestellt und anschließend 
+
+der Schalldruckpegel gesenkt bis die Frequenz von der Versuchsperson eindeutig nicht mehr 
+
+wahrgenommen werden kann. Anschließend wird der Schalldruckpegel wieder gesteigert bis 
+
+die  Versuchsperson  die  Impulse  wieder  hören  kann  (Dieser  eingestellte  Schalldruckpegel 
+
+sollte jedoch geringer liegen als der zuvor eingestellte maximale Pegel). Diese Prozedur wird 
+
+solange  auf  und  ab  wiederholt  bis  man  eine  Genauigkeit  von  0.5  dB  SPL  erreicht  hat.  Das 
+
+Angewandte Verfahren wird als „Staircase Prozedur“ bezeichnet. 
+
+Die bei den verschiednen Frequenzen gemessenen Schalldruckpegel werden zur Auswertung 
+
+protokolliert. 
+
+Anschließend werden noch die oberen und unteren absoluten Hörschwellen gemessen indem 
+
+ein  Schalldruckpegel  von  95  dB  SPL  am  Gerät  eingestellt  wird  und  die  Frequenz  solange 
+
+gesteigert bzw. gesenkt wird, bis kein Ton mehr hörbar ist. 
+
+ 
+ 
+Ergebnisse: 
+
+100
+
+50
+
+0
+
+-50
+
+20
+
+50 100 200 500 100 200 500 100
+
+Beide Ohren 55
+52
+linkes Ohr
+54
+rechtes Ohr
+
+39
+40
+42
+
+24
+17
+19
+
+ Abb. 1.1 
+
+25 -1,5 -11 -11 -17 -9,5
+-4
+19
+-6
+22
+
+-12 -14
+-8
+-4
+
+-9
+-2
+
+3
+-5
+
+Erwartungsgemäß war das Hörvermögen der Testperson im Sprachbereich am besten, d.h. es 
+
+wird der niedrigste Schalldruckpegel benötigt um noch etwas wahrzunehmen. Außerhalb des 
+
+Sprachbereichs steigt die Kurve zu beiden Seiten hin an. 
+
+Die absolute obere Hörschwelle der Testperson lag bei 20700 Hz. 
+
+Die  absolute  untere  Hörschwelle  der  Testperson  lag  bei  15  Hz  (Niedrigst  mögliche 
+
+Einstellung des Testgerätes, es ist also durchaus möglich das die tatsächliche absolute untere 
+
+Hörschwelle noch tiefer liegt als im Versuch bestimmt.) 
+
+Diskussion: 
+
+Wenn  man  die  Kurve  aus  Abb.  1.1  mit  Literaturwerten  vergleicht  lässt  sich  eine  grobe 
+
+Übereinstimmung  im  Kurvenverlauf  feststellen.  Allerdings  liegen  die  gemessenen  Wert  um 
+
+ein Stück nach unten verschoben. Weiterhin fällt auf, dass bei dem Versuch mit beiden Ohren 
+
+meist ein besseres Ergebnis erzielt wurde als nur mit einem Ohr. 
+
+Die  absolute  Hörschwelle  der  Testperson  liegt  sehr  hoch  jedoch  noch  gut  im  Bereich  des 
+
+Möglichen.  
+
+ 
+ 
+Versuchsteil II: 
+
+Akustische Richtungslokalisation beim Menschen 
+
+Einleitung: 
+
+Um  auf  Gefahren  außerhalb  seines  Gesichtsfeldes  reagieren  zu  können  ist  es  unverzichtbar 
+
+eine  ungefähre  Richtung  des  gehörten  angeben  zu  können.  So  gehört  die 
+
+Richtungslokalisation  zu  einer  der  wichtigsten  Fähigkeiten  des  Menschen.  Dies  wird 
+
+ermöglicht durch das „binaurale“ hören, also das hören mit 2 Ohren. Das binaurale hören wird  
+
+durch  2  Faktoren  bestimmt.  Zum  einen  durch  die  Zeitliche  Verzögerung  mit  der  ein 
+
+akustischer  Reiz  an  beiden  Ohren  wahrgenommen  wird.  Wenn  ein  Geräusch  beispielsweise 
+
+von rechts kommt so wird der Reiz zuerst am rechten Ohr und mit kurzer Verzögerung erst 
+
+am  linken  Ohr  wahrgenommen.  Der  zweite  bestimmende  Faktor  ist  die  Lautstärke  des 
+
+Geräuschs,  also  der  Schalldruck  im  Ohr.  Der  Reiz  scheint  immer  aus  der  Richtung  zu 
+
+kommen  aus  der  er  lauter  wahrgenommen  wird.  So  ein  Reiz  der  auf  dem  linken  Ohr  lauter 
+
+wahrgenommen wird als auf dem rechten, „von links“ kommen. 
+
+Teil 1: Bestimmung der binauralen Zeitdifferenzschwelle 
+
+Methode: 
+
+Der  Versuchsperson  werden  Kopfhörer  aufgesetzt  die  mit  einem  Reizgenerator  verbunden 
+
+sind der ein kurzes Klicken erzeugt. Am Reizgenerator lassen sich für den rechten und linken 
+
+Kanal  der  Kopfhörer  verschiedene  Verzögerungen  (Im  Bereich  zwischen  0-9999µs) 
+
+einstellen. Nun wird am Reizgenerator ein fester wert von 1000µs Verzögerung für das rechte 
+
+Ohr  eingestellt  und  die  Verzögerung  am  linken  Ohr  um  +-  100µs  Variiert.  Die 
+
+Versuchsperson,  die  nicht  weiß  wie  das  gerät  eingestellt  ist,  muss  nun  angeben  ob  das 
+
+Geräusch von links oder rechts kommt. Die Angabe „Mitte“ ist hierbei nicht zulässig. 
+
+Protokolliert werden nun die Angaben der Versuchsperson bei zufällig eingestellten werden 
+
+im oben angegeben Testbereich und anschließend ausgewertet. 
+
+ 
+ 
+ 
+Ergebnisse: 
+
+Abb. 2.1 
+
+Wie man aus dem Schaubild (Abb. 2.1) erkennen kann ist beim „Mittelpunkt ein 
+
+Vorzeichenfehler aufgetreten. Dieser liegt bei –22 und nicht bei 22. Als Kriterium für ein 
+
+„sicheres“ Ergebnis bei einem psychophysischen Versuch wird eine 75% Schwelle gesetzt. 
+
+Bei der Versuchsperson liegt diese schwelle bei –28,24µs nach links und –14,76µs. Die 
+
+binaurale Zeitdifferenzschwelle entspricht dem Zeitabstand der subjektiven Mitte zum 75%-
+
+Wert, für den Probanden also 6,75µs  
+
+Der Winkel zur Vorrausrichtung berechnet sich wie folgt: 
+
+sin α=∆l/d 
+
+∆t=∆l/c (cid:198) ∆l=∆t*c 
+
+Also ist: sin α= (∆t*c)/d, wobei: 
+
+α der gesuchte Winkel zur Vorrausrichtung, 
+
+∆t die Zeitverzögerung (in diesem Fall 6,75µs), 
+
+c die Schallgeschwindigkeit in der Luft (330m/s) und 
+
+d der durchschnittliche Ohrenabstand beim Menschen (20 cm) ist. 
+
+Es ergibt sich: sin α = (6,75µs * 330m/s) / 20cm = 0,0111  (cid:198)  α =0,64° 
+
+ 
+ 
+Teil 2: Die relative Bedeutung von Schalldruck und Laufzeitunterschieden für das 
+
+Richtungshören beim Menschen („trading Messung“) 
+
+Methode: 
+
+Wie  auch  beim  vorigen  Versuch  werden  der  Versuchsperson  auch  diesmal  Kopfhörer 
+
+aufgesetzt  und  ein  seitlich  verzögertes  Geräusch  vorgespielt.  Allerdings  wird  diesmal  nicht 
+
+die Verzögerung verändert sondern die Lautstärke auf der „verzögerten“ Seite, solange bis die 
+
+Versuchsperson angibt, das Geräusch käme aus der Mitte. Die so ermittelten Werte werden in 
+
+ein  Diagramm  eingetragen  und  anschließen  wird  eine  Ausgleichsgerade  ermittelt  und 
+
+eingezeichnet. 
+
+Ergebnisse: 
+
+Tabelle 1.1 
+
+Verzögerung
+
+-100
+-50
+0
+50
+100
+
+1
+-9
+-7,5
+0
+3
+1,5
+
+Durchgänge
+3
+-7,5
+-1,5
+4,5
+0
+7,5
+
+2
+-6
+-4,5
+0
+3
+1,5
+
+4
+-9
+-3
+3
+4,5
+7,5
+
+5
+-6
+-6
+1,5
+6
+4,5
+
+Mittelwert
+
+-7,5
+-4,5
+1,8
+3,3
+4,5
+
+0
+
+50
+
+100
+
+150
+
+6
+4
+2
+0
+-2
+-4
+-6
+-8
+-10
+
+-150
+
+-100
+
+-50
+
+Abb. 2.2 
+
+Diskussion: 
+
+ 
+ 
+ 
+ 
+ 
+ 
+Versuchsteil III: 
+
+Reflexe – motorische Reaktionen auf Sinneseindrücke 
+
+Einleitung: 
+
+Als  Reflex  bezeichnet  man  eine  direkte,  nur  schwer  Ermüdbare  und  willentlich  nicht 
+
+unterdrückbare  Reaktion  eines  Organismus  auf  einen  äußeren  Reiz.  Dieser  Reflex  läuft  bei 
+
+gleichem  Reiz  immer  gleich  ab.  Durch  sehr  kurze  Verschaltungswege  im  Nervensystem 
+
+laufen  Reflexe  sehr  schnell  ab.  Man  Unterscheidet  hierbei  zwischen  monosynaptischen  und 
+
+polysynaptischen Reflexen.  
+
+Bei einem monosynaptischen Reflex findet die Verschaltung direkt im Rückenmark über eine 
+
+einzige  Synapse  statt.  Bei  einem  polysynaptischen  Reflex  findet  die  Verschaltung  über 
+
+mehrer Synapsen im Rückenmark statt. Bei manchen polysynaptischen Reflexen können diese 
+
+auch erst im Hirn verschaltet werden. 
+
+Ein 
+
+durch 
+
+einen 
+
+Receptor 
+
+Wahrgenommener  Reiz  wird  über 
+
+einen  Nerv 
+
+in  das  Rückenmark 
+
+geleitet  und  dort  Verschaltet.  Der 
+
+Zellkörper dieses „afferenten“ Nervs 
+
+liegt 
+
+im 
+
+Spinalganglion  Von 
+
+welchem  aus  das  Axon  des  Nervs 
+
+durch  die  hintere  Wurzel 
+
+ins 
+
+Rückenmark  geleitet  wird.  Seine 
+
+Synaptische Endigung hat der Nerv 
+
+Im Vorderhorn der „grauen 
+
+Substanz“. Von dort aus wird der  
+
+Abb 3.1 
+
+Reiz über einen Nerv der an der „vorderen Wurzel“ aus dem Rückenmark austritt an den 
+
+Effektor weitergeleitet. Bei einem sogenannten Eigenreflex liegen Receptor und Effektor im 
+
+gleichen Organ. Bei einem Fremdreflex liegen Receptor und Effektor in unterschiedlichen 
+
+Organen.. 
+
+Methode: 
+
+Durchgeführt wurde der sogenannte Patellarsehnenreflex. Hierbei wurde die Ferse der 
+
+Versuchsperson mit Kontaktgel bestrichen und mit einem Elektrischen Kontakt in 
+
+Verbindung gebracht. Um die Kontaktschleife zu schließen musste die Versuchsperson den 
+
+zweiten Kontakt in der Hand halten. Die Zwei Kontakte waren über einen Zeitmesser 
+
+miteinander verbunden. Nun wurde der Versuchsperson mit einem Hammer an dem sich ein 
+
+ 
+ 
+dritter Kontakt befand unterhalb der Kniescheibe auf die Pattelarsehne geschlagen. Dieser 
+
+Kontakt setze den Zeitmesser in Gang. Die Unterbrechung der Kontaktschleife durch das nach 
+
+vorne zucken des Unterschenkels durch den ausgelösten Reflex beendete die Zeitmessung 
+
+wieder. In diesem Zustand wurde der Versuch 16 mal wiederholt und die Ergebnisse notiert. 
+
+(Tabelle 3.1) Anschließend musste die Versuchsperson den Ganzen Körper in eine 
+
+Grundspannung versetzten und der Versuch wurde weitere 16 Male wiederholt und die 
+
+Ergebnisse notiert.(Tabelle 3.1) Anschließend wurde das Knie der Versuchsperson mit dem 
+
+Hammer nur berührt um der Versuchsperson ein Signal zu geben ohne einen Reflex 
+
+auszulösen. Die Person sollte so schnell wie möglich den Kontakt der Ferse unterbrechen,. 
+
+Dieser Versuch wurde weitere 16 mal wiederholt und die Ergebnisse notiert.(Tabelle 3.1). 
+
+Tabelle 3.1 
+
+Durchgänge
+
+entspannt 
+
+116
+182
+154
+152
+177
+218
+255
+143
+210
+218
+155
+236
+259
+267
+179
+322
+202,69
+51,93
+
+1
+2
+3
+4
+5
+6
+7
+8
+9
+10
+11
+12
+13
+14
+15
+16
+
+Mittlewert
+Standartabweichung
+
+Diskussion: 
+
+Reaktionszeit
+angespannt willentlich
+146
+156
+128
+118
+113
+122
+154
+126
+133
+134
+120
+189
+118
+220
+161
+137
+142,19
+27,13
+
+310
+291
+473
+338
+312
+364
+375
+431
+312
+379
+377
+363
+468
+357
+480
+310
+371,25
+58,21
+
+Man erkennt deutlich die Abweichungen zwischen entspannter und angespannter 
+
+Körperhaltung. Diese liegen weit jenseits der 5% die allgemein als „Standartabweichung“ 
+
+zulässig sind. Beim Wilkoxon Verfahren lagen beide Messreihen außerhalb dieser 
+
+Maximalabweichung. Die Messergebisse sind im unwillkürlichen Bereich recht hoch aber 
+
+noch im vertretbaren Bereich. Die willkürliche Reaktion ist erwartungsgemäß extrem niedrig. 
+
+Die starke Standartabweichung weißt auf eine erhöhte körperliche Unruhe hin. 
+
+ 
+ 
+ 
+Versuchsteil IV: 
+
+Sensomotorische Integration 
+
+Einleitung: 
+
+Methode: 
+
+Bei diesem Versuch wurde der Kopf der Testperson mit Hilfe eines Gestells so fixiert, dass 
+
+die Augen 57cm entfernt vom Bildschirm lagen. Anschließend wurde ein Infrarotsensor am 
+
+linken Auge angebracht der die Augenbewegung maß und an einen Computer weitergab. Es 
+
+wurden 4 verschiedene Versuchsreihen durchgeführt. Jeweils eine zur Linearität der 
+
+Augenbewegung, zur glatten Augenbewegung, zur Augenbewegung beim Lesen und eine zu 
+
+den Sakkaden des Auges. Beim Versuch zur Linearität musste die Versuchsperson jeweils 
+
+einen weißen Balken auf dem Monitor Fixieren der in 2° Schritten von –10° bis +10° 
+
+eingeblendet wurde fixieren. Anschließend wurde die glatte Augenbewegung in drei 
+
+Versuchen gemessen. Hierbei musste die Versuchsperson zuerst einen Weißen Punkt auf 
+
+schwarzem Hintergrund fixieren, der sich mit sinusförmiger Geschwindigkeit im –10° bis 
+
++10° Bereich bewegte. Beim 2. Versuch wurde der Monitor abgeschaltet und die 
+
+Versuchsperson sollte versuchen die Augenbewegung im vorhergehenden Versuch zu 
+
+wiederholen. Beim 3. Versuch wurde der Monitor wieder eingeschaltet und die 
+
+Versuchsperson musste den selben Punkt auf einem Strukturierten Hintergrund verfolgen. 
+
+Nun wurde der Versuchsperson zu dem Versuch der Augenbewegungen beim Lesen ein 
+
+normaler Deutscher Text eingeblendet und die Augenbewegungen beim lesen aufgezeichnet. 
+
+Anschließend wurden der Versuchsperson ein englischer Text, ein Gedicht und ein Text mit 
+
+schweren Rechtschreibfehlern eingeblendet und die Augenbewegungen wiederum 
+
+aufgezeichnet. 
+
+Ergebnisse: 
+
+9000
+8000
+7000
+6000
+5000
+4000
+3000
+2000
+1000
+0
+
+-15
+
+-10
+
+-5
+
+0
+
+5
+
+10
+
+15
+
+Abb. 4.1(X-Achse: Ausrichtung [°] Y-Achse: Horiz. Augenposition[mm]) 
+
+ 
+ 
+ 
+ 
+In Abb. 4.1 dargestellt ist der lineare Zusammenhang zwischen tatsächlicher und gemessener 
+
+Augenbewegung. Man erkennt auf beiden Seiten der Achse ein recht lineares Messergebnis. 
+
+Die Verschiebung der Geraden nach links lässt auf eine Verschiebung des Messmittelpunktes 
+
+schließen. 
+
+Abb. 4.2 (Lineare Augenbewegung bei eingeschaltetem Bildschirm) 
+
+Wie man deutlich erkennt braucht die Versuchsperson ca. 1 Sekunde um den Punkt zu 
+
+fokussieren und dem Punkt mit den Augen zu folgen. Ist dies aber erst einmal erfolg bleibt die 
+
+Augenbewegung, bis auf einen kurzen Ausschlag bei Sekunde 6 sehr nah der tatsächlichen 
+
+Bewegung des Punktes. Dieser kurze Ausschlag wird sehr vermutlich ein kurzer Lidschlag 
+
+der Testperson sein. 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Abb. 4.3 (Lineare Augenbewegung bei ausgeschaltetem Monitor) 
+
+Man erkennt deutlich, dass die Augenbewegung nicht mehr linear sondern sehr sprunghaft 
+
+verlief. Die Geschwindigkeit des Punktes wurde recht gut eingehalten jedoch wird der 
+
+Ausschlag nach rechts bzw. links zum Ende hin immer größer. 
+
+ 
+ 
+ 
+ 
+Abb. 4.4 (Lineare Augenbewegung auf strukturiertem Hintergrund) 
+
+Im Vergleich mit Abb. 4.2 sieht man, dass es ca. die doppelte Zeit, also 2 Sekunden, dauert 
+
+bis die Versuchsperson den sich bewegenden Punkt auf dem Strukturierten Hintergrund 
+
+ausgemacht hat und ihn fokussiert. Ist dies aber einmal geschehen folgt der Fokus fast ideal 
+
+dem Punkt. 
+
+ 
+ 
+ 
+ 
+Abb. 4.5 (Augenbewegung bei einem deutschen, recht einfachem Text) 
+
+Man erkennt, dass beim lesen sas Wort meist sehr schnell mit dem Auge überflogen wird, der 
+
+Fokus dann aber eine kurze Zeit am Wortende bleibt. Da es sich um einen recht einfachen 
+
+Text handelt gibt es so gut wie keine Rücksprünge innerhalb einer Zeile um einen Teil erneut 
+
+zu lesen. 
+
+ 
+ 
+ 
+Abb. 4.6 (Augenbewegung bei einem englischen normal schweren Text) 
+
+Auch dieser Text konnte von der Versuchsperson ohne größere Schwierigkeiten gelesen 
+
+werden. Es gibt jedoch einige stellen an denen der Fokus des auges zurück sprang um einen 
+
+Teil des bereits gelesenen erneut zu lesen. Man kann daraus schließen dass die 
+
+Versuchsperson mit dem englischen nicht so vertaut ist wie mit Deutsch und bei manchen 
+
+Worten Verständnis- bzw. Identifikations-Probleme auftreten. 
+
+ 
+ 
+Abb. 4.6 (Augenbewegung beim lesen eines Gedichts) 
+
+Man erkennt, dass das Auge beim lesen des Gedicht länger auf einem Wort verweilte und 
+
+auch öfters zurück sprang. Dies lässt sich wohl damit erklären, dass es beim lesen des 
+
+Gedichts länger dauert das aktuelle Wort in Zusammenhang mit dem ganzen Text zu bringen, 
+
+was aber auch nicht immer sofort gelingt, so dass Teile des Textes erneut gelsen werden 
+
+müssen um den Sinn zu erkennen. 
+
+ 
+ 
+ 
+Abb. 4.7 (Augenbewegung beim lesen eines Textes mit schweren Rechtschreibfehlern) 
+
+Es wird hier ein deutlicher Unterschied zu den obigen Texten bemerkbar. Für die einzelnen 
+
+Worte benötigte die Versuchsperson wesentlich länger und sie musste sehr oft bereits gelsene 
+
+Teile wiederholen. Hier wird auch eine deutliche Zeitverschiebung zwischen „lesen“ und 
+
+„verstehen“ erkennbar da oft Worte mit Fehlern überlesen werden und erst am Ende des 
+
+Satzes springt das Auge auf die fehlerhafte Stelle zurück. 
+
+ 
+ 
+ 
+Abb. 4.8 (Aufzeichnung der Latenz der Sakkaden des Auges  bei –10° bis +10°) 
+
+Man erkennt eine deutliche Ballung der Messewerte bei ca. 150ms was darauf hindeutet, dass 
+
+es sich um einen unwillkürlichen Reflex handelt und nicht um eine willentliche Handlung. 
+
+Betrachtet man die Mittelwerte so lässt sich ein leichter Anstieg von links nach rechts 
+
+feststellen was vermutlich an der Messung am linken Auge liegt. 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Abb. 4.9 (Links:  Geschwindigkeit der Augenbewegung in Abhängigkeit der Amplitude 
+ Rechts: Latenz der Augenbewegung in Abhängigkeit der Amplitude) 
+
+Auf dem linken Schaubild erkennt man, dass die Geschwindigkeit mit derr sich Auge bewegt 
+
+unabhängig von der Strecke ist die es zurücklegen muss. Auf dem rechten Schaubild erkennt 
+
+man die Latenz bis zur erneuten Fokussierung des Auges auf einen Punkt im Abstand der 
+
+Amplitude zur ursprünglichen Fokussierung des Auges. Bringt man die beiden Schaubilder in 
+
+Verbindung so lässt sich feststellen, dass je größer die Amplitude, also je weiter der „neue“ 
+
+Punkt als Abbild auf der Netzhaut von der Fovea (also dem Ursprünglichen Fokus des Auges) 
+
+entfernt ist, die Latenz bis sich das Auge reagiert in einer logarithmus-ähnlichen Kurve 
+
+abgebildet wird. Dies liegt vermutlich an der immer größer werdenden Querverschaltung der 
+
+Sehzellen je weiter diese von der Fovea entfernt liegen, da es dann länger dauert bis der neue 
+
+Fokuspunkt „errechnet“ wurde.  
+
+ 
+ 
+ 
+4.10 (Abbildung der Sakkaden des Auges gegen [s]) 
+
+Hier sieht man alle Sakkaden des Auges der Testperson übereinandergelagert. Man erkennt 
+
+deutlich eine Verdichtung etwas ober- und unterhalb der Stellen an denen eigentlich der Punkt 
+
+aufgetaucht ist, dies lässt sich auf eine ungenügende Kalibrierung des Messgeräts und vor 
+
+allem auf eine zu starke Verstärkung der Messdaten zurückführen. Die ungefähre Latenz liegt 
+
+bei 150-200 ms. Dies berechnet sich aus dem Auftauchen des Punktes (roter Strich bei 0.2s) 
+
+und dem Beginn der Augenbewegung (bei ca. 400ms). Vgl. hierzu Abb. 4.8. 
+
+ 
+ 
+Abb. 4.11 (Durchschnittliche Genauigkeit der Sakkaden bei gegebenem Auslenkungsgrad) 
+
+Das alle gemessenen Durchschnittswerte im positiven Bereich liegen verstärkt die 
+
+Vermutung, dass die Verstärkung am Messgerät zu stark eingestellt war. Vgl. hierzu Abb. 
+
+4.10. 
+
+ 
+ 
+Literatur: 
+
+Adolf Faber, Der Körper des Menschen, 13. Auflage 
+
+N.A. Campbell, Biologie, 6. Auflage 
+
+ 
+ 
+ 
+
\ No newline at end of file
diff --git a/StilVorlagen/Seminar System Imunology - Ausarbeitung.md b/StilVorlagen/Seminar System Imunology - Ausarbeitung.md
new file mode 100644
index 0000000..bc896ca
--- /dev/null
+++ b/StilVorlagen/Seminar System Imunology - Ausarbeitung.md	
@@ -0,0 +1,457 @@
+Seminar System Immunology 
+
+Experimental techniques to acquire 
+high‐throughput quantitative data 
+
+Author 
+
+Christoph Schwörer 
+
+Betreuer 
+
+Sven Nahnsen 
+
+13.11.2008
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+1. Introduction 
+
+In the past few years System Biology has emerged from the field of computational biology. The 
+processing  power  of  new  computers  and  the  development  of  new  techniques  led  to  new 
+approaches in the understanding the complete picture of what happens inside a single cell or 
+an entire organism. Instead of looking at one particular reaction, interaction of between single 
+proteins or even a whole pathway we now want to look at the status of a whole cell at once. 
+Thus  we  can  come to understand the  interaction  of  whole  Pathways  or  the  complete  cellular 
+reaction to a certain stimulus. 
+
+But  to  build  these  new  models  we  need  reliable  statistics.  In  order  to  get  to  these  reliable 
+statistics  we  need  many  sets of  data from  different  sources.  One of  the reasons  is  why there 
+have been several new techniques developed to acquire data in huge amounts. Which is why 
+they  are  called  high  throughput  methods.  Because  they  process  whole  experiments  at  once, 
+like screening the genome for a certain sequence. This report will now give an introduction to 
+the basic techniques used to prepare these high throughput methods as well as an introduction 
+to the most important high throughput methods. 
+
+ 
+ 
+2. Basic techniques 
+
+In  order  to  conduct  high  throughput  experiments  we  have  to  prepare  them  carefully.  This 
+means we have to separate cells from one and another if we want to test only certain cells with 
+specific  properties.  Or  we  have  to  separate  certain  compartments  within  a  cell  if  we  want  to 
+test  them  alone.  On  the  other  hand  we  have  to  provide  certain  cells  with  these  wanted 
+properties  in  order  to  do  comparison  tests.  In  this  chapter  we  will  now  discuss  the  basic 
+techniques used to prepare high throughput experiments.  
+
+2.1 Restriction Enzymes / Gel Electrophoresis  
+
+Gel  electrophoresis  can  be  used  for 
+two  different  purposes.  On  the  one 
+hand  it  can  be  used  to  identify  the 
+relationship  between  different  cell 
+lines  on  the  other  it  can  be  used  to 
+break down the isolate short strands 
+of DNA for further use. 
+
+The  first  step  in  this  procedure  is  to 
+break down the very large strands of 
+cellular  DNA  into  short  fragments. 
+This  is  accomplished  by  restriction 
+enzymes. 
+enzymes 
+Restriction 
+recognize  short  sequences  of  double 
+stranded  DNA,  which  are  typically 
+about  10  to  12  basepairs  long,  and 
+these  specific 
+cut 
+sequences.  There  exist  about  several  hundred  different  restriction  enzymes  which  all  have 
+different recognition sites. 
+
+Figure 1: Agarose Gel with luminescent DNA strands 
+
+the  DNA  at 
+
+After the DNA is completely digested by a restriction enzyme the solution is put on an agarose 
+gel. The gel is then applied with an electrical field so DNA strands are pulled to the electrodes. 
+In  dependency  of  their  length  and  charge  the  different  DNA  strands  will  travel  at  different 
+speed so that after a given time they separate and reach different points in the gel. With the 
+addition of luminescent chemicals the strands can be made visible so that they form a pattern 
+of strands on the agarose gel (see figure 1) 
+
+ 
+ 
+ 
+ 
+2.2 1D/2D Protein Gels 
+
+Gel  electrophoresis  can  not  only  be  used  to 
+separate DNA strands but it can also be used 
+to  separate  proteins.  The  problem  is  that 
+there are so many proteins within a cell with 
+approximately the same size that it is almost 
+impossible  to  separate  them  by  size  only. 
+That  is  why  one  has  to  use  another  criterion 
+to  separate  the  proteins  further.  In  this  case 
+2D  electrophoresis  uses 
+the  different 
+isoelectric  points  of  the  proteins  which  they 
+reach  at  different  ph‐values  (O’Farrel  1975). 
+In  the  procedure  the  first  step  is  to  linearize 
+the  proteins  because  in  their  natural  tertiary 
+structure they  won’t  fit through the  pores  of 
+the gel. So all the intramolecular bonds which 
+give  the  protein  its  form  have  to  be  broken. 
+(E.g. H‐H bonds or sulfuric bonds) The next step is to separate the proteins by size as it is done 
+with the DNA on a polyacrylamid gel which is applied with an electrical field. After the second 
+step another gel with a ph gradient is put on the first and because of their charge the proteins 
+begin  to  travel  to  their  isoelectric  point.  Afterwards  the  gel  with  the  previously  luminescent 
+marked proteins is visualized. 
+
+Figure 2: 2D Protein gel. Each dot represents one protein. 
+
+2.3 Cloning Vectors an DNA Libraries 
+
+Cloning  Vectors  are  short  DNA  fragments  (up  to  19  kbp),  as  for  example  the  ones  we  have 
+retrieved  with  the  restriction  enzyme/gel  electrophoresis  technique.  To  analyze  these  DNA 
+fragments  and  the  genes  on  them  we  have  to  bring  them  into  a  living environment.  Because 
+DNA is the same in all living beings they can be inserted into bacteria which then express the 
+proteins encoded on the DNA strands. 
+
+This is achieved by transformation where the DNA fragments, which are called cloning vectors, 
+are  added  to  a  solution  of  bacteria  cells.  The  cloning  vectors  can  now  penetrate  the  cells 
+surface  and  get  into  the  cell.  There  the  original  bacterial  DNA  plasmid  is  cut  with  the  same 
+restriction enzyme used to obtain the cloning vectors. Now there is a chance that the cloning 
+vector is inserted into the plasmid by recombining the cut locations called sticky ends. 
+
+After  the  cloning  vector  is  inserted  the  cells  proliferate  and  are  later  separated  by  the  newly 
+resistances)
+new 
+obtained 
+
+properties 
+
+antibiotic 
+
+through 
+
+DNA. 
+
+(e.g. 
+
+the 
+
+ 
+ 
+ 
+2.4 Hybridization and Blotting  
+
+Another basic problem is to identify whether a specific DNA sequences or protein is present in a 
+given DNA/protein sample.  
+
+For DNA the technique at hand is the so called Southern Blotting (Southern 1975). A given DNA 
+sample is first put through a gel electrophoresis to separate the DNA strands by size and is then 
+washed on a nylon patch to fixate the strands. Afterwards the nylon patch is incubated at up to 
+80°C to break the hydrogen bonds so that the DNA gets single stranded. Now the nylon patch is 
+washed  again  with  a  solution  of  hybridization  probes,  which  are  short  fragments  of  the 
+complementary  DNA  we  want  to  test  for.  These  probes  are  radioactively  marked  and  will 
+hybridize with the single stranded target DNA. Now the nylon patch is pressed against a X‐ray 
+film where the hybridized probes will be visualized. 
+
+To test for the existence of specific proteins a similar technique is used which is named Western 
+Blotting.  Like  Southern  Blotting  first  the  given  protein  sample  is  separated  using  2D 
+electrophoresis and then washed onto a carrier patch. In order to test for the targeted protein 
+this  technique  uses  marked  antibodies  as  probes.  Those  marked  probes  can  then  again  be 
+visualized with an X‐ray film. 
+
+2.5 Centrifugation  
+
+One  of  the  oldest  techniques  used  for  the  separation  of  cell  compartments  is  centrifugation. 
+There the centrifugal force is used for the separation. More exactly the fact that molecules with 
+different  density  will  have  different  sedimentation  rates.  So  that  after  a  given  time  the 
+compartments  will  be  separated.  Hereby  the  Sedimentation  rate  is  measured  in  Svedenberg 
+m
+units:  
+
+1(
+
+r
+
+r
+
+)
+
+/
+
+=
+
+S
+
+V
+²
+
+w
+
+r
+
+=
+
+par
+
+sol
+f
+
+Where m is the mass of the particle, f the friction of the medium and  r sol/ r par the density of 
+the medium/particle 
+
+2.6 Column Chromatography  
+
+In  column  chromatography  the  molecules  one  wants  to  separate  are  washed  through  a  solid  carrier 
+material.  Because  of  the  different  size  and  shape  of  the  different  molecules  they  arrive  at  different 
+times  at  the  bottom  of  the  column.  A  more  sophisticated  method  is  also  available  where  the  carrier 
+material  is  spiked  with  antibodies  for  a  target  protein.  The  antibodies  will  bind  to  target  protein  and 
+hold  it  back  while  everything  else  is  washed  through.  Then  a  solution  is  washed  through  which  will 
+loosen the protein form the antibodies and the protein can be retrieved. 
+
+ 
+ 
+ 
+ 
+ 
+-
+3. Advanced Techniques 
+
+After having prepared the proteins or DNA we want to test we now need to have methods so 
+that we can retrieve data from a large number of parallel experiments. To get confirmation or 
+even more data to create statistics we need to do several of the same experiment at once. The 
+techniques used for this purpose are called high throughput experiments because of the sheer 
+amount of parallel processing and data we get. 
+
+3.1 PCR (Polymerase Chain Reaction) 
+
+PCR  is  not  an  experiment  to  retrieve  data 
+but more a method to amplificate DNA we 
+already have prepared to an amount where 
+it  can  be  used  in  later  high  throughput 
+techniques.  (Saiki  et  al.  1985)  Simply  put 
+PCR  duplicates  the  amount  of  DNA  per 
+cycle.  The  first  step  is  to  heat  the  DNA 
+solution  so  that  the  hydrogen  bonds 
+between the two DNA strands is broken an 
+the DNA gets single stranded. Then primers 
+are  added  to  the  solution  which  will 
+hybridize  with  the  single  stranded  DNA 
+while the solution is cooling down. Now the 
+DNA‐polymerase  kicks  in  and  extends  the 
+
+single  stranded  DNA  with  primer  to  a  new 
+double stranded DNA strand. This leads to the duplication of DNA with each cycle so that after 
+a few cycles there is sufficient DNA to use in a high throughput experiment. 
+
+Figure 3: PCR 
+
+3.2 DNA-/Protein Chips (Microarrays) 
+
+Microarrays  are  a  newly  developed  method  to  test  the  expressions  of  thousands  of  genes  at 
+once (Cahill and Nordhoff 2003). There are two different types of microarrays, DNA‐chips and 
+protein‐chips. While DNA chips test for the occurrence of mRNA in a cell, protein‐chips test for 
+the  occurrence  of  proteins.  Both  methods  applied  to  the  same  cell  will  lead  to  different 
+expression patterns because there are several factors influencing the translation from mRNA to 
+proteins. Both methods work in a similar way. 
+
+ 
+ 
+ 
+ 
+ 
+DNA  chips  are  carrier  spotted  with  cDNA  primers 
+from  exons  which  one  can  get  from  a  DNA  library. 
+Those chips are then incubated with DNA reversely 
+transcribed from the target cells mRNA. This DNA is 
+also  marked  with  fluorescing  dye  so  that  the 
+coloring  of  the  chip  reveals  the  expression  of  the 
+correspondent genes. As you can see in fig.4 with the 
+use  of  different  dyes  one  can  also  do  comparrison 
+expereriments on one microarray.  
+
+Protein‐chips on the other hand are carriers spotted 
+with  binding  partners  for  proteins  which  can  be 
+other  proteins,  antibodies,  DNA  or  drugs.  But 
+protein‐chips  are  not  that  easy  to  apply  because 
+different proteins have different optimal conditions 
+(e.g  ph‐value)  so  that  one  has  to  find  a  sufficient 
+compromise to acquire usable data. 
+
+3.3 Yeast Two-hybridization  
+
+Figure 4: Heatplot of a comparative microarray with two 
+sources 
+
+The yeast‐two‐hybrid system is a technique used to test if two proteins, prey and bait, interact. 
+(Uetz et al.2000) It uses the fact that the Gala4 Transcription factor consists of two parts. Those 
+two parts are fused to either of the proteins one wants to test. If bait and prey do interact they 
+come  close  together.  When  this  happens  the  two  parts  of  Gala4  TF  also  come  close  enough 
+together  so  that  it  can 
+the 
+promote 
+expression  of  a  given 
+reporter  gene  which  is 
+promoted  by  Gala4. 
+For screening purposes 
+this  technique  can  be 
+
+Figure 5: Yeast-two-hybrid system 
+
+extended  to  a  high 
+throughput  technique 
+
+by adding multiple prey proteins or even multiple bait proteins. 
+
+ 
+ 
+3.4 Mass Spectrometry  
+
+Mass  spectrometry  allows  the  identification  of  proteins  through  their  mass/charge  ratio 
+(Abersold & Mann 2003). In a mass spectrometer basically the digested protein is ionized by an 
+ion  source  and  the  fragments  are  accelerated  through  a  magnet  onto  a  mass  analyzer.  The 
+detector  then  delivers  a  fingerprint  of  the 
+containing fragments. This fingerprint is now 
+compared  to  the  precomputed  theoretical 
+fingerprints from a protein database. 
+
+There  are  different  methods  available  for 
+the ionization or the mass analysis. The two 
+methods for ionization are ESI (Electrospray 
+ionization)  which  is  used  to  ionize  proteins 
+out  of  solutions  and  MALD  (matrix  assisted 
+laser  desorption/ionization)  which  is  used 
+on proteins in dry crystals. 
+
+Figure 6: Mass spectrometer 
+
+For the mass analysis there exist  four basic 
+types.  The  first  is  the  sector  field  analyzer 
+which  is  depicted  in  fig.6.  It  measures  the 
+deviation  of  a  fragment  from  its  trajectory 
+according to the fact that heavier fragments 
+won’t  be  deviated  so  much  then  lighter 
+fragments. The second type of analyzer is the TOF (time of flight) analyzer which measures the 
+time between entrance in the magnetic field and impact on the analyzer. This type also bases 
+on the fact that heavier fragments won’t accelerate so fast then lighter ones because of their 
+inertia.  The  third  type  is  the  quadrupole  which  allows  only  fragments  to  pass  that  have  a 
+specific  mass/charge  ratio.  The  quadrupole  is  used  to  measure  the  quantity  of  the  targeted 
+fragment. The last type is the Fourier transform ion cyclotron. Here the ions are accelerated in 
+circular  magnetic  field.  It  measures  the  radius  and  the  frequency  of  the  flying  fragments  and 
+computes  from  that  the  mass  fingerprint.  This  is  also  by  far  the  most  accurate  and  sensitive 
+type of analyzer. 
+
+ 
+3.5 Transgenic Animals 
+
+Transgenic animals are animals who’s DNA have been altered. Either by inserting foreign DNA 
+or by willingly cutting out specific genes. Either of both happens with the firs stem cell before it 
+begins to proliferate. There are two ways of getting the foreign DNA into the cell. The first is to 
+directly inject it into the cell, which is called DNA microinjection. The second is to use an altered 
+retrovirus which infects the cell. 
+
+Transgenic animals are mostly used as knockout animals where one specific gene is cut out to 
+identify its function. 
+
+3.6 RNA Interference  
+
+RNA  interference  is  mechanism  inhibiting  DNA  expression  where  a  double  stranded  RNA  has 
+been inserted into a cell (Fire et al. 1998). It is part of the cells defense system against viruses or 
+other genomic material. The double stranded RNA is recognized by an endoribonuclease called 
+DICER.  DICER  cuts  the  dsRNA  into  short  strings  (~20bps)  which  are  then  assembled  to  RISC 
+(RNA‐induced silencing complex). The RISC complex then recognizes the correspondent mRNA 
+and  cuts  it  into  short  pieces  which  are  then  digested  thus  inhibiting  the  translation  of  this 
+mRNA. 
+
+In  opposition  to  transgenic  animals  this  method  is  usable  in  high  throughput  experiments 
+where  many  cells  and/or  genes  can  be  inhibited  at  once.  The  only  problem  with  RNA 
+interference studies is that longer dsRNA strands lead to an interferon response in mammalian 
+cells. This is why in these cases synthetically produced siRNA strands are used.(Dykxoorn et al. 
+2003)  
+
+4. Discussion and Conclusion 
+
+As  shown  in  the  chapters  above  there  are  several  techniques  available  to  acquire  high 
+throughput  data.  The  most  upcoming  are  surely  the  microarray  and  the  DNA  interference 
+techniques.  What  all  techniques  have  in  common  is  that  they  are  very  expensive  to  conduct 
+either  in  the  individual  experiment  like  microarrays  or  in  the  needed  infrastructure  and 
+machinery like a mass spectrometer. What they also have in common is that every one of them 
+needs a lot of processing power to analyze the results. Not only to fit the data into models but 
+simply to handle the sheer amount of data. This processing power is only available to everyone 
+since the last few years. As research goes on and the field of system biology will surely grow it 
+stands to hope that in mass production the techniques will be more affordable.  
+
+ 
+ 
+ 
+ 
+ 
+5. References 
+
+5.1 Literature 
+
+Cahill, D.J. and Nordhoff, E. Protein arrays and their role in proteomics (2003) Adv. Biochem. 
+Eng. Biotechnol. 83, 177‐87. 
+
+Dykxoorn, D.M., Nivina, C.D. and Sharp, P.A. Killing the messenger: short RNAs that silence gene 
+expression.(2003) Nat. Rec. Mol. Cell. Biol. 4, 457-67 
+
+E.Klipp, R.Herwig, A.Kowald, C.Wierling, H.Lehrbach 
+System Biology in Practice. Concepts,Implementation and Application, (2005)Wiley-VCH  109-
+133  
+
+Fire, A., Xu, S., Montgomery, M.K., Kostas, S.A., Driver, S.E., and Mello, C.C. Potent and specific 
+genetic interference by double stranded RNA in Caenorhabditis elgeans (1998) Nature 391, 806‐
+11 
+
+O’Farrel.  P.H.  High  resolution  two-dimensional  electrophpresis  of  proteins(1975)  J.  Biol.  Chem 
+250, 4007-4021 
+
+Ruedi Aebersold & Matthias Mann 
+Mass spectrometry-based proteomics (2003) Nature 422, 198-207 
+
+Saiki, R.K., Scharf, S., Faloona, F., Mullis,K.B., Horn, G.T., Erlich, H.A. and Arnheim, N. Enzamtic 
+amplification  of  beta  globin  genomic  sequences  and  restriction  site  analysis  for  diagnosis  of 
+sickle cell anemia.(1985) Science 230, 1350-1354 
+
+Southern,  E.M.  Detection  of  specific  sequences  among  DNA  fragments  separated  by  gel 
+electrophpresis (1975) J. Mol. Biol. 98, 503-517 
+
+Uetz, P., Giot, L., Cagney, G. Mansfield, T.A., Judson, R.S., Knight, J.R., Lockshon, D., Narayan, V., 
+Srinivasan,  M.,  Pochart,  P.,  Qureshi‐Emili,  A.,  Li,  Y.,  Goodwin,  B.,  Conover,  D.,  Kalbfleisch,  T., 
+Vijayadamo‐Dar,  G.,  Yang,  M.  Johnston,  M.,  Fields,  S.,  and  Rothenberg  J.M.  A  comprehensive 
+analysis of protein-protein interaction in Saccharomyces cerivisiae (2000) Nature 403, 623‐7 
+
+ 
+ 
+5.2 Figures 
+
+Fig. 1: http://upload.wikimedia.org/wikipedia/commons/6/60/Gel_electrophoresis_2.jpg 
+
+Fig. 2: http://upload.wikimedia.org/wikipedia/de/b/b2/2D‐Gel.jpg 
+
+Fig. 3: http://www.obgynacademy.com/basicsciences/fetology/genetics/images/pcr.png 
+
+Fig. 4: http://www.bio.davidson.edu/COURSES/genomics/2005/Durnbaugh/microarray.jpg 
+
+Fig. 5: http://upload.wikimedia.org/wikipedia/en/e/e4/Three‐hybrid‐system.svg 
+
+Fig. 6: 
+http://upload.wikimedia.org/wikipedia/commons/b/b8/Mass_spectrometer_schematics.png 
+
+ 
+ 
+
\ No newline at end of file
diff --git a/StilVorlagen/Splitstree.md b/StilVorlagen/Splitstree.md
new file mode 100644
index 0000000..f0114a2
--- /dev/null
+++ b/StilVorlagen/Splitstree.md
@@ -0,0 +1,862 @@
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+SplitsTree and  
+Phylogenetic Networks 
+
+Betreuer: 
+Tobias Klöpper 
+
+- 1 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+Inhaltsverzeichnis 
+
+2.1 
+2.2 
+2.3 
+2.4 
+2.5 
+
+1.  Einleitung ....................................................................................................... 3 
+2.  Theorie............................................................................................................ 4 
+Evolutionäre Verbindungen in Netzwerken........................................................... 4 
+Die „Split De-composition“ Theorie...................................................................... 5 
+Buneman Bäume .................................................................................................... 6 
+Split decomposition................................................................................................ 7 
+Von schwach kompatiblen Splits zu Netzwerken .................................................. 9 
+3.  Anwendung................................................................................................... 11 
+Das SplitsTree Programm .................................................................................... 11 
+Beispiel: mtDNA Datensatz ................................................................................. 11 
+Beispiel 2: HIV-1 Datensatz ................................................................................ 13 
+4.  Quellenangaben: ........................................................................................... 15 
+
+3.1 
+3.2 
+3.3 
+
+- 2 - 
+
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+1. Einleitung 
+
+In den vergangenen Jahrzehnten ist man, nach der Entdeckung der DNA, immer 
+mehr  dazu  übergegangen  Organismen  nicht  nur  anhand  ihrer  phänotypischen 
+Eigenschaften sondern auch anhand ihres Genotyps zu vergleichen. Mittlerweile 
+gibt es einige gute Verfahren die die Ähnlichkeit und den Verwandtschaftsgrad 
+zweier  oder  auch  mehrerer  Organismen  bestimmen.  So  ist  die  Maus  genetisch 
+dem Menschen sehr ähnlich und eignet sich damit auch  als Forschungsobjekt. 
+Um  diese  komplexen  Verwandtschaften  nun  auch  graphisch  übersichtlich 
+darzustellen, benötigt man ausgereifte mathematische Verfahren. 
+Ein Programm, das einige dieser Verfahren, die aus einem gegebenen Datensatz 
+einen  graphisch  übersichtlichen  Zusammenhang  liefern,  ist  SplitsTree  (Huson 
+1998),  welches,  wie  der  Name  schon  sagt,  aus  einer  gegebenen  Datenmenge 
+einen  Phylogenetischen  Baum  oder  Netzwerk  aufbaut.  Diese  Phylogenetischen 
+Netzwerke können zur visuellen Analyse der erhaltenen Daten genutzt werden. 
+SplitsTree  bietet  die  Möglichkeit  Bäume,  ähnlich  dem  unten  abgebildeteten 
+Beispiel,  oder  Netzwerke  über  eine  beliebige  Eingabe  an  Taxa  und  den  damit 
+verbundenen Daten zu erstellen. 
+
+- 3 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+2. Theorie 
+
+dargestellt 
+
+2.1  Evolutionäre Verbindungen in Netzwerken 
+Der klassische Weg evolutionäre Zusammenhänge eines gegebenen Datensatzes 
+an Taxa zu veranschaulichen ist ein binärer Baum, hierbei sind interne Knoten 
+als  mögliche  Vorfahren  dargestellt  und  die  Blätter  stellen  die  aktuell 
+existierenden Taxa dar. 
+Für den Fall, dass die verwandtschaftlichen Zusammenhänge gar keinen Baum 
+bilden bei dem es immer nur genau 2 Nachfahren gibt, wäre ein Baum mit einer 
+unbestimmten Anzahl Ästen je Knoten ein adäquates Mittel. 
+Aber  selbst  dieser  Fall  ist  in  der  Biologie  noch  nicht  allgemein  genug.  Als 
+Beispiel  sei  hier  die  Interaktion  von  Bakterien  genannt  bei  denen  es  innerhalb 
+einer Generation zu Hybridisierungen und Rekombinationen kommen kann. Ein 
+Baum eignet sich hierbei nur bedingt um die vollständigen Beziehungen korrekt 
+darzustellen,  da  ein  Baum  unter  der 
+Bedingung  aufgebaut  wird,  dass 
+einmal  getrennte  Äste  später  nicht 
+mehr  zusammen  geführt  werden  oder 
+interagieren. 
+Dieser  Fall  kann,  wie  in  Abb.  2.1, 
+vereinfacht 
+werden. 
+Hierbei  werden  die  Knoten  1,  2,  3,  4 
+als Vorfahren und die Blätter 5, 6 und 
+7 als real existierende Taxa betrachtet. 
+Wie  bei  einem  Baum  mit  einer 
+Wurzel geht man hierbei davon aus,  
+dass  1  den  Ursprungsknoten  darstellt.  Der  Unterschied  zwischen  diesem 
+Netzwerk und einem normalen Baum ist, dass es hier zu einem Ringschluss der 
+Knoten  1-4  kommt.  Derartige  Netzwerke  eignen  sich  nicht  nur  für  spezielle 
+Arten von Evolution, wie der im obigen Beispiel genannten Rekombination von 
+Bakterien,  sondern  können  in  all  jenen  Fällen  verwendet  werden  wo  es 
+unangebracht ist Daten in eine Baumstruktur zu zwingen. Es gibt zwar auch bei 
+anderen  Programmen  als  SplitsTree  die  Möglichkeit  sich  Daten 
+in 
+verschiedenen  Arten  von  Bäumen  anzeigen  zu  lassen  aber  dennoch  kann  es 
+vorkommen, dass keiner dieser Bäume die Zusammenhänge korrekt wiedergibt. 
+Es mag sogar soweit kommen, dass erst in einem Netzwerk in dem Ringschlüsse 
+erlaubt  sind  die  eigentliche  Struktur  der  Evolution  anschaubar  und  begreifbar 
+wird.  Ein  Beispiel  hierfür  wäre  der  Gebrauch  von  Netzwerken  zur 
+„Phylogenetischen Analyse“ der Canterbury Tales (Barrbook et. Al. 1998.) 
+Die Frage die sich nun stellt ist, welche Netzwerke es gibt und für welche Arten 
+von  Daten  sie  geeignet  sind.  So  werden  zum  Beispiel  für  die  Darstellung  der 
+Evolution von mtDNA häufig median Netzwerke benutzt. Wir konzentrieren uns 
+hier  jedoch  auf  eine  spezielle  Art  des  Zugangs  zur  Phylogenetischen  Analyse, 
+
+(Abb. 2.1) 
+
+- 4 - 
+
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+dem  SplitsTree  Programm  (Huson  1998).  Die  hierbei  erzeugten  SplitGraphen 
+basieren  hauptsächlich  auf  Distanzen  die  mit  der  Split-decomposition  Theorie 
+errechnet  wurden  (Bandelt,  Dress  1992/1993).  Dieser  Theorie  widmen  wir  uns 
+nun im folgenden Kapitel. 
+Weitere  Beschreibungen  hierzu  findet  man  auch  in  Dress,  Huson,  Multon 
+(1996), Page, Holmes (1998), und Swafford et. Al. (1996). 
+
+2.2  Die „Split De-composition“ Theorie 
+Der wichtigste Punkt der Split de-composition Theorie ist, dass ein Netzwerk in 
+sogenannte  Splits  zerlegt  werden  kann.  Würde  man  z.B  in  dem  in  Abb.  2.2 
+dargestellten  Baum  (TX)  eine  beliebige  Kante  entfernen,  so  erhielte  man  2 
+disjunkte  Teilbäume  A  und  B.  Entfernte  man  beispielsweise  die  Kante  f  so 
+erhielte  man 
+Bipartitionen 
+A={1,2,3)  und  B={4,5}.Wie  man  sieht 
+jede  Kante  genau 
+induziert  hierbei 
+einen  Split.  Die  Menge  aller  durch  die 
+Kanten  erzeugten  Splits  wird  Σ(X) 
+|Σ|  genau  die 
+ist 
+genannt,  hierbei 
+Anzahl der Kanten des Baumes. 
+
+die 
+
+Zwei Splits U={A,B} und V={K,L) heißen kompatibel falls gilt: 
+
+(Abb. 2.2) 
+
+{
+!
+U∈∅∃
+
+LBKBLAKA
+,
+
+,
+
+,
+
+U
+
+U
+
+U
+
+ }
+
+U
+
+Es  muss  also  genau  eine  der  Schnittmengen  aus  U V  leer  sein.  Andernfalls 
+heißen die beiden Splits „nicht kompatibel“.  
+Ein  Split  bei  dem  min.  eine  der  beiden  Partitionen  genau  1  Element  enthält 
+bezeichnet man als trivialen Split. 
+Einen  maßgeblichen  Beitrag  leistete  1971  Bunman  indem  er  bewies,  dass  die 
+Vereinigung  aller  Splits  genau  dann  mit  der  Vereinigung  aller  Kanten  eines 
+Phylogenetischen  Baumes  übereinstimmte  wenn  alle  Splits  paarweise 
+kompatibel sind.  
+
+Die Vereinigung aller paarweiser kompatibler Splits stimmt genau mit der 
+Vereinigung aller Kanten eines Phylogenetischen Baumes überein. 
+
+Man  kann  um  einen  Baum,  der  die  evolutionäre  Entwicklung  eines  gegebenen 
+Datensatzes an Taxa darstellt, zu erstellen nach kompatiblen Splits dieser Taxa 
+suchen. 
+Zu beachten sei hier, dass es für z.B. 5 Taxa 15 mögliche Splits und für n Taxa 
+  mögliche  Splits  gibt.  Um  einen  vollständigen  binären  Baum 
+2
+aufzubauen,  muss  man  hierzu  nach  2n-3  kompatiblen  aus  den  oben  genannten 
+
+−−n
+)1
+
+1
+
+(
+
+- 5 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+(
+
+1
+
+−−n
+)1
+
+  möglichen  Splits  heraussuchen.  So  gibt  es  zu  15  Taxa  27  kompatible 
+2
+Splits  von  16.383  möglichen.  Man  muss  also  nun  eine  Möglichkeit  finden 
+möglichst einfach zu einem optimalen Ergebnis zu kommen. Am effizientesten 
+ist  es  hierbei  nach  auffälligen  Splits  zu  suchen,  und,  obwohl  es  auch  hierzu 
+mehrere Wege gibt wird im Folgenden nur auf den von Buneman (1971) weiter 
+eingegangen,  da  dieser  auch  gleichzeitig  eine  gute  Basis  liefert  um  die  „Split-
+decomposition“ Theorie zu verstehen. 
+
+2.3  Buneman Bäume 
+Um überhaupt einen derartigen Baum aufbauen zu können, benötig man eine 
+vollständige Distanzmatrix die jedem Paar an Taxa einen Wert zuordnet: 
+
+R →× XXd :
+
+Man definiert β(uv|xy) über den Split S={A,B} wobei u,v ∈A und x,y ∈B als: 
+
+(
+uv
+β
+
+|
+
+xy
+
+)
+=
+
+min(
+
+uxd
+,(
+
+)
+
++
+
+vxdvyd
+),
+),(
+
+,(
+
++
+
+uyd
+,(
+
+))
+
+−
+
+yxd
+,((
+
+)
+
++
+
+vud
+,(
+
+))
+
+Der Buneman Index 
+
+Sβ  des Splits S ist definiert als: 
+
+2/1
+
+min
+
+uvβ
+(
+
+|
+
+xy
+
+)
+
+ über alle u,v ∈A und x,y ∈B 
+
+Beispiel: 
+
+Td
+
+Betrachtet  man  den  in  Abb.  2.2  dargestellten  Baum  so  ist  die  Distanz  zweier 
+Taxa  definiert  als  die  Summe  der  Gewichtungen  auf  dem  Weg  zwischen 
+(2,5) = 2+3+3+1 = 9. 
+beiden. So ist die Distanz 
+Will man nun β für alle möglichen Paare eines Splits S={{1,2},{3,4,5}} 
+berechnen so ergibt sich  
+β(12,34) = 6; 
+β(12,35) = 6 und  
+β(12,45) = 12. 
+Somit ist der Buneman Index βS = ½ * 6 = 3. 
+
+Der wichtigste Fakt aber den Buneman hierbei herausfand ist: 
+
+Für einen Satz an Taxa für den die Distanzmatrix bestimmt ist gilt:  
+Die Vereinigung aller Splits für die βS > 0 gilt, sind kompatibel und lassen 
+sich somit als Baum repräsentieren. 
+
+Somit ist βS ein wichtiges Kriterium um zu entscheiden welche Splits wesentlich 
+sind und somit einen Baum konstruieren lassen. 
+Ein  derartiger  Baum,  dessen  Äste  jeweils  dem  Gewicht  βS    der  durch  sie 
+erzeugten Splits entsprechen, wird Buneman Baum genannt. Die Entfernungen 
+der  gewichteten  Äste  entsprichen  hierbei  den  errechneten  Distanzen  der  
+Matrix d. 
+
+- 6 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+Jede Methode die einen Baum aus genetischen Distanzen errechnet, sollte 
+folgenden Kriterien entsprechen: 
+
+1.  Die  Methode  angewandt  auf  die  genetischen  Distanzen  eines
+
+gewichteten Baumes T sollte den Baum T ausgeben. 
+
+2.  Die  Methode  angewandt  auf  genetische  Distanzen  sollte  von  diesen
+„kontinuierlich“  abhängen.  Das  heißt  kleine  Änderungen  an  d  sollten
+auch  nur  kleine  Änderungen  an  T  zur  Folge  haben  und  nicht  das
+komplette Erscheinungsbild des Baumes ändern. 
+
+3.  Es sollte möglich sein die Methode effizient zu implementieren. 
+4.  Der ausgegebene Baum T sollte unabhängig von der Reihenfolge der
+
+Eingabe der Taxa sein. 
+
+Dies  sind  zwar  gute  Kriterien,  jedoch  entsprechen  selbst  einige  der  gängigsten 
+Methoden  zur  Rekonstruktion  eines  Baumes  aus  gegebenen  genetischen 
+Distanzen  nicht  diesen  Bedingungen.  UPGMA  beispielsweise  entspricht  nicht 
+immer  Kriterium  1  und  Neighbour  Joining  (NJ)  entspricht  nicht  immer  den 
+Kriterien 2 und 4. Genauer beschrieben wird dies in Moulton, Steel (1999).  
+Obwohl  der  Aufbau  eines  Buneman  Baumes  allen  diesen  Kriterien  entspricht 
+sind  die  erzeugten  Bäume  nicht  immer  vollständig  aufgelöst,  da,  wegen  der 
+Sortierung nach den Minima der vorkommenden β , oft zu viele Splits verworfen 
+werden,  so  dass  der  Baum  aufgelöster  erscheint  als  er  nach  den  vorliegenden 
+Daten  tatsächlich  ist.  Das  folgende  Kapitel  befasst  sich  nun  mit  genau  einer 
+solchen Möglichkeit dieses Problem zu beheben, der Split decomposition. 
+
+2.4  Split decomposition 
+Im  Gegensatz  zu  der  Methode  von  Buneman  wird  bei  der  Split  decomposition 
+nun durch eine Änderung ein neuer Index definiert. Hierbei ist: α(uv|xy)  
+mit Split S={A,B} wobei u,v ∈A und x,y ∈B definiert als: 
+
+(
+α
+
+xy
+
+|
+
+uv
+
+)
+
+=
+
+max{
+
+uxd
+,(
+
+)
+
++
+
+vxdvyd
+),
+),(
+
+,(
+
++
+
+uyd
+,(
+
+))
+
+−
+
+yxd
+,((
+
+)
+
++
+
+vud
+,(
+
+))
+
+Der Isolation Index 
+
+Sα  ist definiert als: 
+
+2/1
+
+min
+
+uvα
+(
+
+|
+
+xy
+
+)
+
+ über alle u,v ∈A und x,y ∈B 
+
+Beispiel: 
+
+Betrachtet man den in Abb. 2.3 dargestellten Netzwerk N mit den Taxa 1,2,3,4 
+so ist auch hier die geringste Entfernung zweier Taxa zueinander die geringste 
+Summe  der  gewichteten  Kanten  des  Netzwerks.  Es  kann  allerdings,  im 
+Gegensatz  zu  Bäumen,  wie  auch  in  diesem  Beispiel  vorkommen,  dass  zwei 
+unterschiedliche Pfade von Kanten beide die geringste Gewichtung haben. 
+
+- 7 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+So  ist  beispielsweise  die  Entfernung  d  N  (1,3)=1+3+4+5=13.  Um  zu  diesem 
+Ergebnis zu gelangen kann man aber 2 verschiedenen Pfaden folgen, nämlich 
+zuerst  dem  senkrechten  und  dann  dem  waagerechten  oder  umgekehrt.  Will 
+man nun für den Split S={{1,4}{2,3}} den Isolation Index 
+Sα  von S berechnen 
+Sα = 3. Und für den Split T={{1,2}{3,4}} ist 
+so ergibt sich aus α(14|23) = 6 ⇒ 
+Tα = 4. Hierbei fällt auf, dass die berechneten Indizes genau den Gewichtungen 
+der parallel verlaufenden Kanten entspricht. 
+
+(Abb. 2. 3) 
+
+Isolation 
+
+Aus  diesem  Beispiel  lassen  sich  nun  2 
+wichtige  Dinge  erkennen.  Erstens,  führt 
+die  Entfernung  parallel  verlaufender 
+Kanten zu einer Splittung des Netzwerks, 
+Index  genau  dem 
+dessen 
+Gewicht  der  jeweils  entfernten  Kanten 
+entspricht.  Und  zweitens  sieht  man,  dass 
+die Splits S und T nicht mehr kompatibel 
+sind und somit auch nicht zu einem Baum 
+gehören  können.  Das  bedeutet  nun,  dass 
+Splits  mit  positivem  Isolation  Index  im  Gegensatz  zu  Splits  mit  positivem 
+Buneman Index nicht mehr unbedingt kompatibel sein müssen. Da kein Vorteil 
+darin  liegt  mehr  Splits  als  notwenig  zu  behalten  wird  nun  allen  verbleibenden 
+Splits  mit  Hilfe  der  spectral  analyse  ein  Wert  über  ihre  Wichtigkeit 
+zugewiesen. 
+Berechnet  man  hier  z.B,  wie  in  Abb.  2.3  zu  sehen,  den  Isolation  Index  eines 
+Splits U={{1,3}{2,4}} so ergibt sich αU=0. Da αU hiermit kein positiver Index 
+aus der Menge der Taxa {1,2,3,4} ist gehört es auch nicht dazu. Geht man nun 
+weiter und berechnet die Isolation Indizes und die Buneman Indizes der in Abb. 
+2.4  dargestellten  A,  B  und  C  so  sieht  man,  dass  man  mit  dem  Isolation  Index 
+sowohl  A  als  auch  B  behalten  würde  und  nur  C  verworfen  würde,  beim 
+Buneman Index hingegen würden C und auch B verworfen und nur A behalten. 
+Kombiniert  man  nun  A  und  B  miteinander  erhält  man  wieder  das  in  Abb.2.3 
+dargestellte Netzwerk welches eine Mischung aus A und B darstellt und keinem 
+von beiden eine Priorität einräumt. 
+
+- 8 - 
+
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+(Abb2.4) 
+
+Aus  dieser  Dissonanz  zwischen  den  immer  kompatiblen  Splits  eines  postiven 
+Buneman  Indexes  und  den  nicht  gezwungenermaßen  kompatiblen  Splits  eines 
+positiven Isolation Indexes erklärt sich nun die neue Definition einer schwachen 
+Kompatibilität. 
+
+Drei  Splits  sind  schwach  kompatibel,  falls  mindestens  eine  Schnittmenge 
+aus der Splits S={A,B}, T={C,D} und U={E,F} leer ist: 
+
+1
+
+{
+II∈∅≤
+
+EDBFCBFDAECA
+,
+}
+
+,
+
+,
+
+II
+
+II
+
+II
+
+Die wichtigsten Schlüsse die man nun aus dieser schwachen Kompatibilität  
+ziehen kann sind folgende: 
+
+•  Hat X n Elemente so ist die Anzahl der Splits mit positivem Isolation 
+
+Index maximal n(n-1)/2. 
+
+•  Diese können effizient berechnet werden. 
+•  Alle 4 der oben geforderten Ansprüche an ein derartiges Verfahren wird 
+
+genüge getan. 
+
+2.5  Von schwach kompatiblen Splits zu Netzwerken 
+Nachdem  man  nun  zu  einem  solchen  Satz  an  schwach  kompatiblen  Splits  den 
+jeweiligen  Isolation  Index  berechnet  hat  muss  man  eine  Möglichkeit  finden 
+diese  in  einem  gewichteten  Netzwerk  darzustellen.  Im  Allgemeinen  kann  dies 
+immer  unter  der  Verwendung  von  Median  Netzwerken  erreicht  werden,  bei 
+diesen  besteht  aber  das  Problem,  dass  sie  nicht  immer  auch  planar  sind  und 
+somit  schwer  zu  zeichnen.  Sofern  die  berechneten  Spilts  aber  zyklisch  sind 
+
+- 9 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+besteht  die  Möglichkeit  diese  in  einem  sogenannten  äußeren  Planaren 
+Netzwerk darzustellen. Diese Netzwerke sind es auch, die im Allgemeinen von 
+dem Programm SplitsTree erzeugt werden.  
+
+Die Menge der Splits eines gegebenen Sets an Taxa ist zyklisch, falls diese 
+auf einem Kreis so angeordnet werden können, dass sich jeder Split durch 
+eine Linie darstellen lässt 
+
+(Abb. 2.5) 
+
+Betrachtet man nun das in Abb. 2.5. dargestellt Beispiel so sieht man, dass jede 
+gepunktete Linien einen Split darstellt. Fügt man nun jedem, der in Teil A durch 
+eine  gepunktete  Linie  eingegrenzten  Bereiche,  einen  Knoten  hinzu  und 
+verbindet diese so kommt man zu Abb2.5B. Man sieht, dass Teil C nun schon 
+dem originalen Netzwerk das in Teil C abgebildet ist ähnelt, man erreicht dies 
+indem  man  die  Ecken  nun  leicht  anpasst,  so  dass  diese  parallel  zueinander 
+verlaufen. Die Methode die hier in diesem Beispiel verwendet wurde basiert auf 
+dem Prinzip der De Bruijn dualisation. 
+Ordnet man nun jeder Kante den Wert des ihres Splits entsprechenden Isolation 
+Indexes  zu  so  lässt  sich  aus  diesem  Gewichteten  Netzwerk  ein  repräsentativer 
+Wert der Distanz dN errechnen. Ist das mit Hilfe eines positiven Isolation Index 
+der  Splits  erzeugte  Netzwerk  zyklisch,  so  stellt  dN  einen  Näherungswert  der 
+wirklichen  Distanz  d  dar.  Die  verbleibende  Differenz  zwischen  d  und  dN  wird 
+als  split-prime-residue  (d-  dN)  bezeichnet  und  ist  genau  dann  0  falls  die 
+erzeugten dN der eigentlich errechneten d entsprechen. 
+Das  Maß  für  die  Genauigkeit  diese  Näherung  der  dN  an  d  wird  definiert  als  
+Fit Index: 
+
+fi
+
+=
+
+)(
+
+∑ −
+(
+dd
+∑
+
+N
+,(
+yxd
+
+,
+yx
+
+)
+
+)
+
+%100*
+
+ für alle x,y aus X 
+
+- 10 - 
+
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+3. Anwendung 
+
+3.1  Das SplitsTree Programm 
+Erhältlich  sind  mehrere  Versionen  von  SplitsTree,  die  aktuellste  Release 
+Version  3.2  ist  verfügbar  für  Win32  und  Unix.  Für  MacOS  ist  die  Version  2 
+verfügbar. Eine Java basierte Version 4 Namens Jsplits ist im Betastadium. Alle 
+Versionen sind verfügbar unter: 
+
+http://www-ab.informatik.uni-tuebingen.de/software/splits/ 
+
+Für  die  Version  3.2  für  Win32  wird  zudem  noch  die  TCL/TK  Erweiterung 
+TCL805.exe  benötigt.  Diese  ist  zu  finden  unter  http://www.scriptics.com. 
+Zudem  müssen  noch  die  Dateien  TCL80.dll  und  TK80.dll  in  den  SplitsTree 
+Ordner kopiert werden. 
+
+3.2  Beispiel: mtDNA Datensatz 
+
+(Abb. 3.1) 
+
+- 11 - 
+
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+Abb. 3.1 stellt einen mit SplitsTree erstellten Split Graphen dar, dessen Fit Index 
+wie  in  der  Statusleiste  angegeben  bei  79,2%  liegt.  D.h.  80%  der  angegebenen 
+Distanzen  sind  noch  korrekt  und  20%  der  Distanzen  weichen  von  ihrer 
+eigentlich  errechneten  Distanz  ab.  Man  kann  nun  leider  nicht  generell  sagen 
+welcher  Fit  Index  für  einen  SplitGraphen  gut  ist.  Erfahrungsgemäss  werden 
+Netzwerke die bei über 80% liegen als akzeptabel betrachtet. Bei Fit Indizes von 
+70%  und  weniger  kann  man  davon  ausgehen,  dass  zu  viele  verworfen  wurden 
+um  noch  ein  Netzwerk  darstellen  zu  können,  als  dass  man  das  Netzwerk  noch 
+verwenden könnte. 
+Man  darf  davon  ausgehen,  dass  bei  einem  hohen  Fit  Index  die  Ergebnisse 
+anderer  Methoden  die  auf  Entfernungen  basieren,  wie  z.B.  NJ,  sehr  ähnlich 
+aussehen würden. Im Folgenden sieht man in Abb3.2 den gleichen Datensatz an 
+Taxa, diesmal allerdings als Buneman Baum aufgebaut.  
+
+(Abb. 3.2) 
+
+- 12 - 
+
+ 
+ 
+  
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+3.3  Beispiel 2: HIV-1 Datensatz 
+
+(Abb. 3.3) 
+
+In  Abb.  3.3  nun  dargestellt  sieht  man  das  Netzwerk  der  aus  einem  HIV  Set 
+erstellt  wurde.  Das  Netzwerk  ist  zwar  zum  größten  Teil  baumartig  und  der  Fit 
+Index  von  88,2%  bestätigt  die  Korrektheit  der  Darstellung.  Im  Gegensatz  zum 
+ersten Beispielt tritt hier jedoch eine Ungenauigkeit im Netzwerk vor den Taxa 
+U27399 und U43368 auf. Des Weiteren ist der Zentrale Knoten mit einem Grad 
+von 6 auffällig. Dies lässt auf einen Konflikt der Daten schließen, so dass sich 
+dieser Knoten nicht weiter auflösen lässt. 
+Bei  den  bisherigen  beiden  Beispielen  wurde  nun  die  Distanz  schlicht  mit  der 
+Hamming  Methode  berechnet  welche  die  Anzahl  der  Unterschiede  zwischen 
+zwei Sequenzen als deren Entfernung ausgibt. 
+Es ist nun aber auch möglich schon im Voraus mit einer Methode berechneten 
+Distanzmatrizen in SplitsTree einzubinden und zu verwenden. Dazu müssen die 
+zu importierenden Daten lediglich im Nexus Dateiformat bereitgestellt werden.  
+
+- 13 - 
+
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+Wie  man  in  Abb.  3.4  leicht  erkennt  wurde  diese  nicht  aus  einem  baumartigen 
+Datenset erzeugt sondern aus HCV Daten (Allain et al. 2000) einer Studie über 
+die  Immunantwort  auf  Hepatitis  C.  Eine  baumartige  Darstellung  dieses 
+Netzwerkes wäre, im Gegensatz zur dieser Abbildung, nur unzureichend. Zumal 
+der Split Index von 96,3% auf eine nahezu korrekte Darstellung der errechneten 
+Distanzen  hinweist.  Man  kann  nun  das  dargestellte  Netzwerk  grob  in  drei 
+Einheiten  aufteilen.  Hierbei  wurde  die  mit  603  gekennzeichneten  Taxa  aus 
+einem  Donor  entnommen  und  die  mit  163  und  31  gekennzeichneten  aus  zwei 
+unterschiedlichen  Rezipienten.  Des  Weiteren  beachte  man  den  Knoten  der  mit 
+in  zweierlei  Weise 
+31/7,31/13  gekennzeichnet 
+beachtenswert.  Die  doppelte  Kennzeichnung  weist  darauf  hin,  dass  kein 
+Splitindex eines Splits gefunden wurde der diese zwei Taxa trennen würde. Die 
+Tatsache, dass dieser Knoten ein interner Knoten und kein Blatt ist deutet darauf 
+hin,  dass  es  sich  hierbei  um  einen  Vorfahr  der  an  den  Blättern  dieses 
+Teilnetzwerks vorhandenen Taxa handelt.- 
+
+ist.  Dieser 
+
+ist  gleich 
+
+Weitere Beispiele 
+zur  Analyse  von 
+Daten  findet  man 
+in  Dopaz  et  al. 
+(1993) 
+und 
+Nielst-
+Plikat, 
+und 
+Struwe 
+Meyerhans(1997)
+. 
+
+(Abb 3.4) 
+
+- 14 - 
+
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+Proseminar: Grundlagen der Bioinformatik 
+Thema: SplitsTree and Phylogenetic Networks 
+
+Christoph Schwörer 
+
+Quellenangaben: 
+
+Verwendete Abbildungen: 
+
+The Phylogenetic Handbook, M.Salemi, 
+A-M. Vandamme, Cambridge University Press, 2003 
+
+Verwendete Literatur: 
+
+The Phylogenetic Handbook, M.Salemi, 
+A-M. Vandamme, Cambridge University Press, 2003 
+
+Studienarbeit zum Vergleich prokaryotischer Gnome, 
+A. Auch, Uni Tübingen , 2003 
+
+- 15 - 
+
+ 
+ 
+ 
+ 
+ 
+
\ No newline at end of file
diff --git a/StilVorlagen/Studienarbeit.md b/StilVorlagen/Studienarbeit.md
new file mode 100644
index 0000000..d841a75
--- /dev/null
+++ b/StilVorlagen/Studienarbeit.md
@@ -0,0 +1,900 @@
+Protein Similarity Measures as Kernels for
+Proteochemometrics
+
+Christoph Schw¨orer
+
+1. November 2009
+
+2
+2
+
+3
+3
+4
+4
+5
+5
+6
+7
+7
+7
+8
+9
+10
+11
+12
+13
+
+14
+
+22
+
+Inhaltsverzeichnis
+
+1 Einleitung
+
+1.1 Versuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
+
+2 Methodik
+
+Substitution Kernel
+
+2.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
+. . . . . . . . . . . . . . . . . . . . . . . . . .
+2.2 Verwendete Kernel
+. . . . . . . . . . . . . . . . . . . . . . .
+2.2.1 Tanimoto Kernel
+2.2.2 Missmatch Kernel
+. . . . . . . . . . . . . . . . . . . . . .
+2.2.3 Gappy Kernel . . . . . . . . . . . . . . . . . . . . . . . . .
+. . . . . . . . . . . . . . . . . . . . .
+2.2.4
+2.2.5 Alignment Kernel
+. . . . . . . . . . . . . . . . . . . . . .
+Implementierung der Kernel . . . . . . . . . . . . . . . . . . . . .
+. . . . . . . . . . . . . . . . . . . . . . .
+2.3.1 Tanimoto Kernel
+. . . . . . . . . . . . . . . . . . . . . .
+2.3.2 Missmatch Kernel
+2.3.3 Gappy Kernel . . . . . . . . . . . . . . . . . . . . . . . . .
+. . . . . . . . . . . . . . . . . . . . .
+2.3.4
+. . . . . . . . . . . . . . . . . . . . . .
+2.3.5 Alignment Kernel
+2.4 Die Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
+. . . . . . . . . . . . . . . . . . . . . . .
+2.5 verwendete Programme
+
+Substitution Kernel
+
+2.3
+
+3 Ergebnisse
+
+4 Diskussion
+
+1
+
+Kapitel 1
+
+Einleitung
+
+1.1 Versuche
+
+2
+
+Kapitel 2
+
+Methodik
+
+2.1 SVM
+
+Eine Support Vektor Machine (SVM) ist ein Verfahren aus dem Bereich der
+Mustererkennung zur Klassiﬁkation von Objekten. Diese Objekte werden hier-
+bei durch ihre Eigenschaften (features) (zB. L¨ange, Gewicht oder Sequenzfolge)
+und ihre Klasse repr¨asentiert. Bei einer Gegebenen Anzahl d an Eigenschaften
+k¨onnen diese als d-dimensionaler Vektor dargestellt werden. Der d-dimensionale
+Raum der Eigenschaftsvektoren wird Eigenschaftsraum (feature space) χ ge-
+nannt.
+Das Ziel einer SVM ist es nun anhand gegebener Trainingsvektoren deren Klas-
+se bereits bekannt ist unbekannte Objekte korrekt zu klassiﬁzieren. Man hat
+Beispielsweise 2 Klassen von l Objekten mit einer Anzahl d an Eigenschaften x
+die als Paare (xi, yi), i = 1, . . . , n mit (cid:126)xl ∈ Rdund yi ∈ {−1, 1}n gegeben sind.
+Sind die Datenpunkte im Eigenschaftsraum χ linear separierbar durch eine Hy-
+perebene so ist das Problem trivial (Siehe Abb 2.1A). Sind die Daten aber nicht
+linear separierbar (Siehe Abb 2.1B) so muss folgendes Optimierungsproblem
+
+Abbildung 2.1: Beispiel f¨ur linear separierbare Daten (A) und nicht linear sepa-
+rierbare Daten (B)
+
+3
+
+gel¨ost werden (Boser et al. 1992; Cortes, C. and Vapnik, V., 1995):
+
+minw,b,ξ
+
+1
+
+2 wT w + C (cid:80)l
+
+i=1 ξi
+
+mit der Bedingung yi(wT φ(xi) + b‘1 − ξi,
+
+ξi‘0.
+
+(2.1)
+
+C > 0 ist eine positive Konstante die als Strafparameter dient. Die Trainings-
+vektoren wi werden zudem auf einen h¨oher dimensionalen Vektorraum durch die
+Funktion φ : Rd1 → Rd2 , w → φ(w); d2 > d1 abgebildet um in diesem h¨oher
+dimensionalen Raum eine Hyperebene zu ﬁnden die ihn linear separiert. Da die
+Daten xi im Algorithmus zur L¨osung des oben genannten Problems nur in der
+Form eines Skalarproduktes (cid:104)xi, xj(cid:105) im Raum Rd1 eingehen ist es m¨oglich diese
+durch ein Skalarprodukt (cid:104)φ(xi), φ(xj)(cid:105) im Raum Rd2 zu berechnen. Hierzu kann
+nun eine positiv-semideﬁnite Kernelfunktion verwendet werden mit:
+
+k(xi, xj) = (cid:104)φ(xi), φ(xj)(cid:105)
+
+(2.2)
+
+Die in dieser Arbeit verwendeten Kernelfunktionen werden im folgenden Ab-
+schnitt erl¨autert.
+
+2.2 Verwendete Kernel
+
+2.2.1 Tanimoto Kernel
+
+Der einfachste implementierte Kernel ist der Tanimoto Kernel. Hierbei wird ein
+|Σ|k-dimensionaler Vektorraum ¨uber {0,1} verwendet. Jede Koordinate wird
+durch ein m¨ogliches k-mer α indexiert. Tritt das k-mer α auf, so wird der Wert
+der Koordiante 1 ansonsten bleibt sie 0. Dies f¨uhrt zu folgender feature map:
+
+wobei
+
+ΦT animoto
+
+k
+
+(x) = (φα(x))α∈Σl
+
+φα(x) =
+
+(cid:26) 1,
+0,
+
+falls α in x vorkommt
+sonst
+
+(2.3)
+
+(2.4)
+
+F¨ur eine Sequenz x beliebiger L¨ange wird diese feature map nun ¨uber die Sum-
+mation der einzelnen Vektoren f¨ur alle k-mere in x gebildet:
+
+ΦT animoto
+
+k
+
+(x) =
+
+(cid:88)
+
+ΦT animoto
+
+k
+
+(α) = X
+
+(2.5)
+
+k−mere α in x
+
+Der Tanimoto Koeﬃzienl T (X, Y ) f¨ur zwei Sequenzen x und y wird nun errech-
+net durch den Tanimotokoeﬃzienten von X und Y
+
+T (X, Y ) =
+
+X · Y
+||X||2 + ||Y ||2 − X · Y
+
+(2.6)
+
+Damit ergibt sich abschließend der Tanimoto Kernel
+
+kT animoto
+k
+
+(x, y) = T (X, Y ) = T (ΦT animoto
+
+k
+
+(x), ΦT animoto
+k
+
+(y))
+
+(2.7)
+
+4
+
+2.2.2 Missmatch Kernel
+
+Zur Erh¨ohung des Realit¨atsgrads und der Ann¨aherung an die nat¨urlichen Gege-
+benheiten muss es jedoch m¨oglich sein einen gewissen Grad von Ungenauigkeit
+zu erm¨oglichen. Ein Kernel der dies erreicht darf also nicht nur abh¨angig von
+genauen Vergleichen sein sondern muss ein Maß an ¨Ahnlichkeit implementie-
+ren. Eine einfache M¨oglichkeit dieser Implementation ist es missmatches beim
+Vergleich von k-meren zu erlauben. In Leslie et al. (2003b) wird hierzu ein
+(k.m)-missmatch Kernel ¨uber eine feature map ΦM issmatch
+realisiert. F¨ur ein
+missmatch neigh-
+gegebenes k-mer α = α1α2α3...αk, αi ∈ Σ wird hierzu ein
+”
+borhood“Nk,m(α) deﬁniert. Dies ist die Menge aller k-mere die sich an maximal
+m Stellen vom k-mer α unterscheiden. Die featur map f¨ur α ist demnach deﬁniert
+als:
+
+(l,m)
+
+wobei
+
+ΦM issmatch
+
+(k,m)
+
+(α) = (φβ(alpha))β∈Σk
+
+φβ(x) =
+
+(cid:26) 1,
+0,
+
+falls β ∈ N(k,m)(α)
+sonst
+
+(2.8)
+
+(2.9)
+
+Wie schon beim Tanimoto Kernel wird auch hier wieder f¨ur eine Sequenz x be-
+liebiger L¨ange die map durch Addition der einzelnen feature Vektoren gebildet:
+
+ΦM issmatch
+
+(k,m)
+
+(x) =
+
+(cid:88)
+
+ΦM issmatch
+
+(k,m)
+
+(α)
+
+(2.10)
+
+k−mere α∈x
+
+Im Gegensatz zum Tanimoto Kernel werden aber mehrfach vorkommende k-
+mere auch mehrfach gewertet. Jedes k-mer tr¨agt somit zu allen Werten sei-
+missmatch neighborhood“ bei. In diesem Fall Stellt die β Koordinate von
+nes
+”
+ΦM issmatch
+(x) also die Anzahl derjenigen k-mere in x dar, die maximal an m
+(k,m)
+Stellen abweichen. Der (k, m)-missmatch Kernel kM issmatch
+(x, y) kann also dar-
+gestellt werden als das Skalarprodukt der feature Vektoren von x und y:
+
+(k,m)
+
+kM issmatch
+(k,m)
+
+(x, y) = (cid:104)ΦM issmatch
+
+(k,m)
+
+(x), ΦM issmatch
+(k,m)
+
+(y)(cid:105)
+
+(2.11)
+
+2.2.3 Gappy Kernel
+
+Alternativ zu missmatches m¨ussen in einem biologisch motivierten Kernel auch
+L¨ucken erlaubt werden. Diese M¨oglichkeit ist mit dem Gappy Kernel gegeben.
+Wie auch die beiden vorhergehenden Kernel wird f¨ur den (g, l)-gappy string
+kernel (Leslie and Kuang, 2003) der gleiche |Σ|l-dimensionale Merkmalsraum
+gappy“ matches
+verwendet. In diesem Fall aber basiert die feature map auf
+”
+von g-meren zu l-meren (wobei g > l). Hierbei ist G(g,l)(α) die Menge aller
+l-mere die als Teilfolgen der L¨ange l (mit g − l L¨ucken) aus einem gegeben g-
+mer α = α1α2 . . . αg, αi ∈ Σ durch Konkatenation von Zeichen aus g gewonnen
+werden k¨onnen. Wobei f¨ur alle Stringpositionen αi, αj gelten muß: i < j falls
+i < j in g. Somit ergibt sich die feature map:
+
+wobei
+
+ΦGappy
+(g,l)
+
+(α) = (φβ(α))β∈Σl
+
+φβ(α) =
+
+(cid:26) 1,
+0,
+
+falls β ∈ G(g,l)(α)
+sonst
+
+(2.12)
+
+(2.13)
+
+5
+
+Hierbei tr¨agt wieder jede Teilfolge zum Wert aller feature Vektoren bei in denen
+sie vorkommt. Die feature map wird dann wieder erweitert auf eine beliebig
+lange Sequenz x indem ¨uber alle feature Vektoren aller g-mere in x summiert
+wird:
+
+ΦGappy
+(g,l)
+
+(x) =
+
+(cid:88)
+
+φGappy
+(g,l)
+
+(α)
+
+(2.14)
+
+Der (g, l)-gappy kernel kGappy
+(g,l)
+dukt der feature Vektoren zweier Sequenzen x und y:
+
+(x) wird wiederum erneut deﬁniert als Skalarpro-
+
+g−mere α∈x
+
+kGappy
+(g,l)
+
+(x, y) = (cid:104)ΦGappy
+
+(g,l)
+
+(x), ΦGappy
+
+(g,l)
+
+(y)(cid:105)
+
+(2.15)
+
+2.2.4 Substitution Kernel
+
+Eine erweiterte Variante des mismatch Kernels ist der substitution kernel (Les-
+lie and Kuang, 2003). Anstelle des mismatch neighborhood wird hier jedoch ein
+similarity neighborhood verwendet. Dieses basiert auf einem probabilistischen
+Model zum Austausch von Zeichen in den betrachteten Sequenzen. Hierzu wer-
+den paarweise Werte S(a, b) verwendet die sich aus gesch¨atzten evolution¨aren
+Austauschwahrscheinlichkeiten ableiten (Henikoﬀ and Hennikoﬀ, 1992; Schwartz
+and Dayhoﬀ, 1978; Altschul et al., 1990). Um solch eine Matrix S zu generieren
+werden einzelne Bl¨ocke von von Sequenzen homologer Proteine verglichen und
+ein log odds-Ratio errechnet:
+
+S(i, j) =
+
+(cid:19)
+
+(cid:18) 1
+λ
+
+log
+
+(cid:19)
+
+(cid:18) pij
+qi ∗ qj
+
+(2.16)
+
+wobei pij die Wahrscheinlichkeit darstellt die Aminos¨auren i und j in einem
+Alignment zu ﬁnden. qi und qj hingegen bezeichnen die H¨auﬁgkeiten der Ami-
+nos¨auren. λ ist der Normalisierungsfaktor. Man deﬁniert nun also den mutation
+neighborhood M(k,σ)(α) eines k-mers α = a1a2 . . . ak folgendermaßen:
+
+M(k,σ)(α) =
+
+(cid:110)
+
+β = b1b2 . . . bk ∈ Σk :
+
+(cid:88)
+
+(cid:111)
+
+S(ak, bk)
+
+(2.17)
+
+Dabei l¨asst sich σ = σ(N ) w¨ahlen, so dass maxα∈Σk |Mk,σ(α)| < N . Dies
+erm¨oglicht eine Kontrolle ¨uber die Gr¨oße des mutation neighborhood. Die sub-
+stitution feature map deﬁniert sich nun wie folgt:
+
+wobei
+
+ΦSubstitution
+
+(k,σ)
+
+=
+
+(cid:88)
+
+(φβ(α)β∈Σk )
+
+k−mere α∈x
+
+φβ(α) =
+
+(cid:26) 1,
+0,
+
+falls β ∈ M(k,σ)(α)
+sonst
+
+(2.18)
+
+(2.19)
+
+Der substitution kernel kSubstitution
+als:
+
+(k,σ)
+
+ist damit ¨uber das Skalarprodukt deﬁniert
+
+kSubstitution
+(k,σ)
+
+= (cid:104)ΦSubstitution
+(k,σ)
+
+(x), ΦSubstitution
+(k,σ)
+
+(y)(cid:105)
+
+(2.20)
+
+6
+
+2.2.5 Alignment Kernel
+
+Im Gegensatz zu den bisher angef¨uhrten Kerneln stellt der Alignment Kernel
+keinen direkten ¨Ahnlichkeitsvergleich zweier Sequenzen dar. Vielmehr wird die-
+ser Kernel durch Faltung mehrere local alignments gebildet da ein einzelnes local
+alignment keinen g¨ultigen Kernel darstellt.(Vert, Jean-Philippe; Siago, Hiroto;
+Akutsu, Tatsuya). Im folgenden wird nun ein g¨ultiger local alignment Kernel
+deﬁniert.
+Gegeben sei hierzu eine Substitutionsmatrix S und eine gap penalty Funktion
+g. Zus¨atzlich werden drei Kernel auf Basis einer Funktion aus S und g deﬁniert.
+Der erste Kernel k0 ist hierbei ein konstante Abbildung von auf 1 welche f¨ur
+diejenigen Sequenzteile verwendet werden die außerhalb des matchings liegen:
+
+k0(x, y) := 1, ∀(x, y) ∈ χ2
+
+(2.21)
+
+Der zweite Kernel ka wird zur Berechnung der ¨Ahnlichkeit von allinierten Sym-
+bolen mit Hilfe von S verwendet:
+
+k(β)
+a (x, y) :=
+
+(cid:26) 0,
+
+exp(βS(x, y)),
+
+falls |x| (cid:54)= 1 oder |y| (cid:54)= 1
+sonst
+
+(cid:27)
+
+, ∀(x, y) ∈ χ2
+
+(2.22)
+mit β ≥ 0 als Parameter. Der dritte Kernel kg dient abschließend zur Darstellung
+der gap penalty:
+
+k(β)g(x, y) := exp[β(g(|x|) + g(|y|))]
+wobei β ≥ 0 den gleichen Parameter wie in (2.20) bezeichnet und g eine g¨ultige
+gap penalty Funktion .
+Diese 3 Kernel werden nun durch Faltung zu einem g¨ultigen Kernel kn zusam-
+mengef¨ugt:
+
+(2.23)
+
+k(β)
+(n) := k0 ∗
+
+a ∗ k(β)
+k(β)
+
+g
+
+(cid:16)
+
+(cid:17)(n−1)
+
+∗ k(β)
+
+a ∗ k0
+
+(2.24)
+
+Dieser Kernel deﬁniert nun die ¨ahnlichkeit von zwei Strings x und y mit einem
+local alignment der L¨ange n. Hierbei werden durch den Kernel alle m¨oglichen
+a ∗ (k(β)
+Dekompositionen von x und y erfasst. Dabei ist k0 der initiale Teil, (k(β)
+)
+Die Verteilung aller local alignments von genau n Symbolen die durch (n − 1)
+gaps getrennt werden und das abschließende k0 der ﬁnale Teil.
+Um nun bei einem Vergleich zweier Strings alle m¨oglichen lokalen alignments
+zu ber¨ucksichtigen ist es Notwendig ¨uber alle n zu summieren so dass sich der
+endg¨ultige local alignment kernel k(β)
+
+g
+
+LA ergibt:
+
+k(β)
+LA :=
+
+∞
+(cid:88)
+
+i=0
+
+k(i)
+
+(2.25)
+
+2.3
+
+Implementierung der Kernel
+
+2.3.1 Tanimoto Kernel
+
+Um eine eﬃziente Berechnung zu gew¨ahrleisten wird eine Trie-Datenstruktur
+verwendet. Hierbei wird jeweils ein Trie f¨ur jede der Sequenzen x und y gebil-
+det. Die Tiefe des Tries entspricht dem Parameter k der verwendeten k-mere.
+Jeder innere Knoten des Tries hat maximal |Σ| (im Fall von Aminos¨auren also
+
+7
+
+Abbildung 2.2: Beispiel f¨ur 2 Tries und deren Tanimoto Koeﬃzienzen
+
+20) ¨Aste. der Pfad von der Wurzel des Baumes zu einem Blatt entspricht ei-
+nem in der zugeh¨origen Sequenz auftretenden k-mer. An jedem inneren Knoten
+wird beim Aufbau des Tries ¨uberpr¨uft ob ein k-mer mit der entsprechenden Zei-
+chenfolge erweitert um ein Symbol aus Σ in der Sequenz existiert.Falls ja wird
+der Trie um dieses Symbol erweitert. Die Bl¨attern des Tries, also jeweils ein
+m¨ogliches k-mer, entsprechen hierbei also den Koordinaten der Vektoren des
+Tanimoto Koeﬃzienten. Nach dem Aufbau der Tries wird der Tanimoto Ko-
+eﬃzient T (X, Y ) (Siehe Formel 2.4) der beiden Sequenzen anhand ihrer Tries
+errechnet. Mehrfach auftretende k-mere werden bei diesem Trie und so auch im
+Tanimoto Koeﬃzien auf eins reduziert.
+
+2.3.2 Missmatch Kernel
+
+Auch der mismatch Kernel nutzt zur Berrechnung eine Trie Struktur ¨ahnlich
+der des Tanimoto Kernels. Im Gegensatz zu dem beim Tanimoto Koeﬃzienten
+verwendeten Trie sollen aber bei dem hier verwendeten Trie auch alle mehrfach
+vorkommenden k-mere gewertet werden. Hierzu wird jedem Knoten (auch den
+Bl¨attern) eine Liste mit Pointern aller n-mere (wobei n die Tiefe des aktuel-
+len Knotens ist) zugewiesen, die dem Pfad des Knotens von der Wurzel aus
+entsprechen oder maximal m missmatches aufweisen. Es wird dazu bei jedem
+erweitern des Tries um ein Symbol am aktuellen Knoten f¨ur jedes n-mer der
+
+8
+
+Abbildung 2.3: Teil des (6,1)-missmatch trees f¨ur die Sequenz ATGACATT. Es
+werden l-mere der L¨ange 6 mit mit max. 1 missmatch berechnet. Der hier darge-
+stellte Pfad zeigt den Teilbaum aller mit l-mer features mit Pr¨aﬁx AL. In jedem
+Knoten werden zu allen g¨ultigen Pr¨aﬁxen die Anzahl an missmatches zwischen
+dem Pr¨aﬁx einer l-mer Instanz und dem Pr¨aﬁx eines features gespeichert sowie
+ein Pointer zum Startpunkt des jeweiligen Pr¨aﬁxes.
+
+Liste des Vorg¨angerknotens geschaut ob das (n+1)-mer noch innerhalb der m
+missmatches liegt. Ist dies der Fall wird es in die Liste ¨ubernommen; ist dies
+nicht der Fall wird es nicht ¨ubernommen. Die Liste der (n+1)-mere ist allso
+in jedem Fall eine valide Teilmenge der Liste des Knotens des vorhergehenden
+n-mers. Erreicht man auf diese Weise ein Blatt so ist die Liste der l-mere also
+eine g¨ultige Liste aller l-mere die maximal m mismatches zum gesuchten l-mer
+α aufweisen.
+F¨ur eine Sequenz x sind also alle g¨ultigen l-mere die in N(l,m)(α) liegen also
+¨aquivalent zu allen l-meren in den Listen des Bl¨attes des Tries mit dem Pfad α.
+Alle l-mere der Liste tragen somit zur α Koortinate des feature vektors Φ(x) bei.
+Man kann also nun einfach die Beitr¨age aller auftretenden Instanzen Summieren
+und somit den Wert des Kernels aktualisieren:
+
+k(x, y) := k(x, y) + nα(x) ∗ nα(y)
+
+(2.26)
+
+wobei nα(x) und nα(y) die Anzahl der Instanzen, einschließlich missmatches,
+eines l-mers α in x und y sind.
+
+2.3.3 Gappy Kernel
+
+Wie bei den beiden vorhergehenden Kerneln wird auch f¨ur den (g, l)-gappy
+Kernel ein Baum mit Tiefe l verwendet bei dem jeder innere Knoten |Σ| ¨Aste
+hat. Der Aufbau des Baumes wird durch ein depth ﬁrst traversal realisiert.
+¨Ahnlich dem Missmatch Kernel wird jedem besuchten Knoten eine Liste mit
+Pointern zu g-meren zugewiesen die dem aktuellen Pr¨aﬁx, mit maximal g − l
+gaps, entsprechen. F¨ur jedes g-mer wird hierbei zus¨atzlich ein Pointer zur letzten
+g¨ultigen Position, also dem ersten Symbol nach letzen g¨ultigen Position des
+Mutterknotens das der Bezeichnung des Astes entspricht, gespeichert. An der
+Wurzel sind diese Pointer also alle 0 da noch keine Symbole in den g-meren
+abgearbeitet wurden.
+Bei jedem Schritt in den Baum hinein werden jeweils nur diejenigen g-mere
+
+9
+
+Abbildung 2.4: Teil eines (6,3)-gappy trees f¨ur die Sequenz ATGACATT. An
+jedem Knoten werden die noch g¨ultigen g-mere gespeichert sowie die erste Stelle
+des Auftretens des aktuellen Symbols nach dem letzten g¨ultigen Symbol. Im
+gezeigten Bsp wird der Baum f¨ur das l-mer AAT gezeigt.
+
+weitergegeben bei denen die letzte g¨ultige Position innerhalb des g-mers lag.
+Wird kein g¨ultiges Symbol, das heißt ein Symbol das der Markierung des Astes
+entspricht, zwischen dem letzten g¨ultigen und dem Ende des g-mers gefunden so
+wird dieses verworfen. Findet man jedoch ein g¨ultiges Symbol so wird das g-mer
+zusammen mit dem neuen Pointer an den Kindknoten weitergegeben. Wird bei
+einem Schritt kein g-mer weitergegeben so muß dieser Teilbaum nicht weiter
+bearbeitet werden.
+Zum update des Kernelwertes f¨ur x und y muß nun nur f¨ur jedes feature k-
+mer die Summe der g¨ultigen Pointer am, dem k-mer entsprechenden Blatt, zum
+Kernelwert addiert werden.
+
+2.3.4 Substitution Kernel
+
+Die Berechnung des Substitution Kernels ¨ahnelt der des missmatch Kernels.
+Auch hier wird ein trie der Tiefe l verwendet. An jedem Knoten der Tiefe d
+wird eine Liste mit Pointern zu allen l-meren gespeichert. Zudem wird noch zu
+jeder l-mer Instanz α die aktuelle mutation score (cid:80)d
+i=1 S(ai, bi) im Verh¨altnis
+zum aktuellen Pr¨aﬁx des Pfades b1b2 . . . bd gespeichert. Bei jedem Schritt in den
+Baum hinein wird an der Kante mit Beschriftung b der Tiefe d+1 zu jeder l-mer
+Instanz α der Wert S(a, b) zur aktuellen mutation score addiert und zusammen
+mit der l-mer Instanz α an den Kindknoten weitergegeben. Wie bei den bisheri-
+gen Kerneln wird nun der Kernel Wert f¨ur ein l-mer erneuert indem die Summe
+aller g¨ultigen Instanzen (also mit mutation score < σ) von l-meren im trie an
+den Bl¨attern zum Kernel Wert f¨ur x und y addiert wird.
+
+10
+
+Abbildung 2.5: Beispiel f¨ur einen Substitution Kernel Trie der Tiefe 6 f¨ur das
+Pr¨aﬁx ANC. Die Werte f¨ur S(x,y) sind aus der BLOSUM62 (Siehe Tabelle 2.1)
+entnommen.
+
+2.3.5 Alignment Kernel
+
+Da eine naive Berechnung des Kernels nach 2.23 zu einer exponentiellen Zu-
+nahme der Komplexit¨at in Abh¨angigkeit von |x| und |y| f¨uhrt wurde einen
+dynamic programming Ansatz gew¨ahlt. Hierbei handelt sich um eine Abwand-
+lung des klassischen Smith-Waterman Algorithmus f¨ur aﬃne gap penalties. Hier-
+zu seien (x, y) ∈ χ2 zwei Sequenzen und g eine aﬃne gap penalty Funktion mit
+
+g(n) =
+
+(cid:26) 0
+
+d + e(n − 1)
+
+falls n = 0 , oder
+falls n ≥ 1
+
+(2.27)
+
+dann ist der LA Kernel kβ
+
+LA(x, y) f¨ur x und y gleichwertig mit
+
+kβ
+LA(x, y) = 1 + X2(|x| , |y|) + Y2(|x| , |y|) + M (|x| , |y|)
+
+(2.28)
+
+wobei M (i, j), X(i, j), Y (i, j), X2(i, j) und Y2(i, j) f¨ur 0 ≤ i ≤ |x|, und 0 ≤ j ≤
+|y| rekursiv deﬁniert sind als
+
+
+
+
+
+
+M (i, 0) = M (0, j) = 0,
+X(i, 0) = X(0, j) = 0,
+Y (i, 0) = Y (0, j) = 0,
+X2(i, 0) = Y2(0, j) = 0,
+Y2(i, 0) = Y2(0, j) = 0,
+
+(2.29)
+
+und
+
+
+
+
+
+M (i, j) = exp(βS(xi, yj))[1 + X(i − 1, j − 1) + Y (i − 1, j − 1) + M (i − 1, j − 1)],
+X(i, j) = exp(βd)M (i − 1, j) + exp(βe)X(i − 1, j),
+Y (i, j) = exp(βd)[M (i, j − 1) + X(i, j − 1)] + exp(βe)Y (i, j − 1),
+X2(i, j) = M (i − 1, j) + X2(i − 1, j),
+Y2(i, j) = M (i, j − 1) + X2(i, j − 1) + Y2(i, j − 1),
+
+(2.30)
+β ist hierbei der frei w¨ahlbare Parameter, S ist die in Tabelle 2.1 gezeigte BLO-
+SUM62 Matrix, d und e sind die gap open und gap extension penalties. Zur
+
+11
+
+A R N D C Q E G H I L K M F P S T W Y V B Z X *
+A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4
+R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4
+N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
+D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4
+C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4
+Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1
+0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4
+E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
+G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4
+H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4
+1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4
+-1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3
+I
+L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2
+2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
+K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4
+5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4
+M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1
+F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3
+1 3 -1 -3 -3 -1 -4
+0 6 -4 -2 -2
+P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4
+1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4
+S
+T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4
+W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4
+Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2
+2 7 -1 -3 -2 -1 -4
+V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2
+1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4
+B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4
+Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
+X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4
+-4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1
+
+Tabelle 2.1: Die BLOSUM62. Die Angegebenen Werte geben die log odds Ratio
+der Aminos¨auren der Zeilen und Spalten an
+
+Normierung der Ergebnisse und um das sogenannte diagonal dominance Pro-
+blem zu vermeiden wird jeder Kernel wert kβ
+LA(x, y) durch folgende Formel
+aktualisiert
+
+ln kβ
+
+LA(x, y)
+
+(2.31)
+
+˜kβ
+LA(x, y) =
+
+2.4 Die Daten
+
+1
+β
+
+Der in dieser Arbeit verwendete Datensatz bezieht sich auf den in (Rausch, C.;
+Weber, T.; Kohlbacher, O; Wohlleben, W. und Huson, D.; 2005) verwendeten
+Datensatz an NRPS Proteinen. NRPS steht f¨ur nonribosomalproteinsynthetase
+und Bezeichnet eine Familie von Proteinen in Bakterien und Pilzen die durch
+einzelnes Anf¨ugen von Aminos¨auren an eine Kette ein Protein erzeugen. In den
+meisten F¨allen sind dies Peptidantibiotika die spezielle nicht kanonische Ami-
+nos¨auren verwenden. Die NRPS Proteine sind nach der Art ihres speziﬁschen
+Substrates in 8 Klassen aufgeteilt:
+
+• aliphatische Kettenenden mit Wasserstoﬀbr¨ucken Donor
+
+• apolare, aliphatische Seitenketten
+
+12
+
+• aromatische Seitenketten
+
+• lange positiv geladene Seitenketten
+
+• aliphate oder phenyle mit OH Gruppen
+
+• polare ungeladene (Cys)
+
+• zyklische Aliphate
+
+• hydroxy benzoe S¨auren und derivate
+
+Der vollst¨andige Datensatz enth¨alt 339 Sequenzen.
+
+2.5 verwendete Programme
+
+Zu Analyse der berechneten Kerneldaten aus den vorgestellten Kerneln wurde
+das Programm LibSVM (frei erh¨altlich unter: http://www.csie.ntu.edu.tw/ cj-
+lin/libsvm/) verwendet. Insbesondere der Programmteil svm-train der es erm¨oglich
+sowohl vorberechnete Kernel zu verwenden als auch eine direkte n-fache Kreuz-
+validierung erm¨oglich. Hierzu m¨ussen die Parameter −t 4 und −v [n] verwendet
+werden. Bei der Auswertung der Kernel wurde im weiteren Verlauf der Parame-
+ter n immer mit 5 gew¨ahlt. Als Ausgabe erfolgt das Ergebnis der Kreuzvalidie-
+rung in % sowie eine Datei die das Model der SVM zur weiteren Verwendung
+innerhalb des Programms enth¨alt.
+
+13
+
+Kapitel 3
+
+Ergebnisse
+
+14
+
+Abbildung 3.1: blabla
+
+15
+
+Abbildung 3.2: blabla
+
+16
+
+Abbildung 3.3: blabla
+
+17
+
+Abbildung 3.4: blabla
+
+18
+
+Abbildung 3.5: blabla
+
+19
+
+Abbildung 3.6: blabla
+
+20
+
+Abbildung 3.7: blabla
+
+21
+
+Kapitel 4
+
+Diskussion
+
+22
+
+
\ No newline at end of file
diff --git a/StilVorlagen/Vorprotokolll PC-Praktikum Versuchstag 1 - Kinetik2.md b/StilVorlagen/Vorprotokolll PC-Praktikum Versuchstag 1 - Kinetik2.md
new file mode 100644
index 0000000..c29c3f8
--- /dev/null
+++ b/StilVorlagen/Vorprotokolll PC-Praktikum Versuchstag 1 - Kinetik2.md	
@@ -0,0 +1,489 @@
+Christoph Schwörer Vorprotokoll zum 1.Versuchstag
+Benedikt Zimmermann
+
+des PC-Praktikums
+
+6.Juli 2005
+
+Kinetik einer enzymkatalysierten Reaktion
+
+Versuchsziel
+
+Gegenstand dieses Versuchs ist die kinetische Analyse einer 
+enzymkatalytischen Alkohol-Oxidation unter Verwendung der 
+Alkoholdehydrogenase. Mit Hilfe von grundlegenden Gesetzen der 
+Reaktionskinetik, wie z.B. der Arrhenius-Gleichung und der Michaelis-
+Menten-Gleichung, werden die ablaufenden Prozesse unter verschiedenen 
+Gesichtspunkten betrachtet.
+
+Theoretische Grundlagen
+
+Der nachfolgende Versuch setzt einige Definitionen aus den Bereichen der 
+Kinetik, der Enzymkatalyse sowie der Spektroskopie voraus.
+
+Reaktionsgeschwindigkeit v
+
+Die Reaktionsgeschwindigkeit wird am anschaulichsten über eine Änderung 
+der Stoffmenge von Edukten und Produkten in einem Zeitablauf definiert, 
+also
+
+v=
+
+−dnA
+dt
+
+=
+
+dnB
+dt
+
+. In diesem Fall ist A Edukt und B Produkt.
+
+Für einen allgemeineren Ansatz wird die Reaktionszahl ξ verwendet, die auch 
+stöchiometrische Koeffizienten brücksichtigt. Es gelten
+
+d=
+
+dni
+vi
+
+und  v=
+
+d
+dt
+
+=
+
+dni
+vi∗dt
+
+.
+
+Wenn Reaktionen mit einem konstanten Volumen V ablaufen, kann eine 
+Reaktionsvariable x eingeführt werden, die eine Definition der 
+Reaktionsgeschwindigkeit über eine Stoffmengenkonzentrationsänderung 
+
+
+V
+
+=
+
+dci
+vi
+
+folgt
+
+erlaubt. Aus  dx=d
+
+v=
+
+dx
+dt
+
+=
+
+dci
+vi∗dt
+
+.
+
+Reaktionsgeschwindigkeitskonstante k
+
+Die Reaktionsgeschwindigkeitskonstante k stellt den Proportionalitätsfaktor 
+für die Beziehung zwischen Reaktionsgeschwindigkeit v und den 
+Konzentrationen  ci  der Edukte. Es gilt:
+
+v=
+
+dx
+dt
+
+=k∗cA
+
+a∗cB
+
+b∗...
+
+. Die Exponenten a, b, ... dieser Gleichung geben 
+
+neben der Reaktionsordnung der einzelnen Komponenten auch die Summe 
+der Exponenten bezogen auf die Gesamtreaktion an.
+
+-  1  -
+
+Christoph Schwörer Vorprotokoll zum 1.Versuchstag
+Benedikt Zimmermann
+
+des PC-Praktikums
+
+6.Juli 2005
+
+Temperaturabhängigkeit der Reaktionsgeschwindigkeit
+
+Die Arrhenius-Gleichung bringt die Reaktionstemperatur T, die 
+Aktivierungsenergie  EA sowie k in Beziehung:
+
+v 0=
+
+ v 0,max∗c s
+ K M cs
+
+=
+
+v0, max
+K M
+cs
+
+1
+
+
+
+k 0: reaktionsspezifisch ; R : allgemeine Gaskonstante ; E A : Aktivierungsenergie
+
+Die Reaktionsgeschwindigkeit nimmt also mit steigender 
+Reaktionstemperatur zu.
+
+Michaelis-Menten-Gleichung
+
+Die Michaelis-Menten-Gleichung 
+
+v 0=
+
+ v 0,max∗c s
+ K M cs
+
+=
+
+v 0, max
+K M
+c s
+
+1
+
+
+
+beschreibt das Verhältnis der Reaktionsgeschwindigkeit und der 
+Substratkonzentration zu der Michaelis-Konstante, die definiert ist als
+
+K M=
+
+k −1k 2
+k 1
+
+.
+
+Um die Michaelis-Menten-Gleichung zu linearisieren, d.h. um die 
+reaktionsspezifischen Größen  K M und  v 0,max zu bestimmen, gibt es 
+verschiedene Ansätze. Einer davon ist die Methode nach Lineweaver-Burk. 
+
+Hierbei wird nach Bildung des Kehrwerts 
+
+mx + b geschrieben, wobei   v0, max=
+
+1
+b
+
+für 
+
+1
+v 0
+
+1
+c s
+
+die Gleichung als Gerade y = 
+
+=1 und  K M=
+
+m
+b
+
+.
+
+Spektroskopie
+
+Mit Hilfe der Spektroskopie ist es möglich, die Stoffkonzentration einer Probe 
+und deren Änderung während einer Reaktion anhand der gemessenen 
+Extinktion zu bestimmen. Dies geschieht über das Lambert-Beer'sche Gesetz, 
+nach dem die Extinktion einer Substanz stets  E=,i∗ci∗d  ist. Hierbei ist ε 
+der mediumspezifische Extinktionskoeffizient, c die Konzentration und d die 
+Schichtdicke der Probe.
+Extinktionen verhalten sich beim Mischen von Substanzen additiv, d.h. das 
+Gesetz hat dann folgenden Form:
+E=∑ i∗ci∗d
+
+-  2  -
+
+Christoph Schwörer Vorprotokoll zum 1.Versuchstag
+Benedikt Zimmermann
+
+des PC-Praktikums
+
+6.Juli 2005
+
+Vorfragen
+
+1.
+
+Ethanol-
+Ethanol-
+volumen
+volumen
+V[V[μμl]l]
+
+Stoffmenge  
+Stoffmenge
+Ethanol
+Ethanol
+n[n[μμmol]mol]
+
+ges. Proben-
+ges. Proben-
+volumen
+volumen
+cs[mmol /l]
+cs[mmol /l]
+
+Ethanol-
+Ethanol-
+konzentration
+konzentration
+
+1/Ethanol-
+1/Ethanol-
+konzentration
+konzentration
+
+1
+
+2
+
+5
+
+10
+
+20
+
+50
+
+17,1326
+
+34,2652
+
+85,6631
+
+171,3262
+
+342,6525
+
+856,6312
+
+100
+
+1713,2624
+
+3,001
+
+3,002
+
+3,005
+
+3,010
+
+3,020
+
+3,050
+
+3,100
+
+5,708
+
+11,42
+
+28,51
+
+56,91
+
+113,5
+
+280,9
+
+552,6
+
+0,1752
+
+0,08756
+
+0,03508
+
+0,01757
+
+0,008811
+
+0,003560
+
+00,1810
+
+Ethanol=0,7893g/cm3 (bei 20°C)
+MEthanol=2∗12,011g/mol6∗1,0079g/mol15,999g/mol=46,07g/mol
+
+n=
+
+m
+M
+m=∗V
+
+Mit obigen Werten ergibt sich beispielsweise für die Stoffmenge  von 1μl 
+Ethanol  n=0,7893g/cm3∗1 l/46,07g/mol=17,1326 mol .
+
+2. Einheiten für Gleichung 4:
+
+Die Änderung der Stoffmenge besitzt die Einheit [mol]. Die 
+Stöchiometriezahl hat keine Einheit. Mit der Zeiteinheit [s] hat die 
+Reaktionsgeschwindigkeit v somit die Einheit [mol/s].
+
+Einheiten für Gleichung 6:
+Die Änderung in der Konzentration hat die Einheit [mol/l]. Die 
+Stöchiometriezahl ist auch hier einheitenlos. Analog zu oben ergibt  
+sich mit der Zeiteinheit [s] die Reaktionsgeschwindigkeit v mit 
+[mol/l*s].
+
+3. Die kinetische Kontrolle einer Reaktion kommt bei niedrigen 
+
+Temperaturen zum Tragen. Hierbei wird das kinetisch bevorzugte 
+Produkt gebildet, das über den Reaktionsweg mit der geringeren 
+Aktivierungsenergie entsteht.
+Bei thermodynamischer Kontrolle hingegen wird das stabilere Produkt 
+gebildet. Es handelt sich dabei um eine stärker exergonische Reaktion.
+
+-  3  -
+
+ 
+ 
+Christoph Schwörer Vorprotokoll zum 1.Versuchstag
+Benedikt Zimmermann
+
+des PC-Praktikums
+
+6.Juli 2005
+
+4. Bei einer Reaktion 1.Ordnung besitzt die Geschwindigkeitskonstante k 
+
+die Dimension 
+
+1
+s
+
+.  Im Grenzfall der unendlich hohen Temperatur 
+
+T∞K konvergiert k gegen  k0 . Es gilt ferner 
+
+limT 0 k=0 .
+
+5. Die Molekularität ist ein Maß für die an einer Elementarreaktion 
+
+beteiligten Teilchen. Im Gegensatz hierzu versteht man unter der 
+Ordnung einer Reaktion die Summe der Exponenten der 
+Konzentrationen der an der Reaktion beteiligten Edukte.
+
+6. Die Konzentration des Eduktes C nimmt im Verlauf der Reaktion ab, 
+
+während die Konzentrationen von A und B solange zunehmen, bis die 
+Substratsättigung erreicht wird. 
+
+7. Für die Intensität eines Lichtstrahls bei Austritt aus einem durch die 
+
+Konzentration c und Schichtdicke d bestimmten Medium, gilt mit der 
+Eintrittsintensität  I0 und dem Proportionalitätsfaktor ε:
+
+Id=I0∗10−∗c∗d
+Id
+I0
+
+=10−∗c∗d log
+
+I0
+Id
+Id
+I0
+Dies ist das Lambert-Beer'sche Gesetz.
+
+=−∗c∗d log
+
+=∗c∗d=E
+
+□
+
+8. Voraussetzungen des Lambert-Beer'schen Gesetzes:
+
+- paralleler Einfall monochromatischen Lichts
+- Vermeidung von Streuung und Reflexion
+- benötigt verdünnte Lösungen
+
+Abweichungen des Lambert-Beer'schen Gesetzes:
+–
+
+Fluoreszenz oder Phosphoreszenz  in der Probe
+Siebeffekt durch inhomogene Verteilung des absorbierenden 
+Stoffes
+
+–
+
+– zu niedrige Stoffkonzentration
+
+9. Gemeinsamkeiten:
+
+- Reduzierung der Aktivierungsenergie
+- Katalysator befindet sich in der gleichen Phase wie die Reaktanten
+
+Unterschiede:
+- Möglichkeit der Substratsättigung bei heterogener und 
+enzymatischer Katalyse
+- Bei der heterogenen Katalyse erfolgt die Reaktion nur an der 
+Phasengrenze
+- Ausbildung des Enzym-Substrat-Komplexes nur bei der 
+Enzymkatalyse
+
+-  4  -
+
+ 
+ 
+ 
+ 
+Christoph Schwörer Vorprotokoll zum 1.Versuchstag
+Benedikt Zimmermann
+
+des PC-Praktikums
+
+6.Juli 2005
+
+10. Die Michaelis-Konstante  K M=
+
+k −1k 2
+k 1
+
+hat die Dimension 
+
+l
+mol
+
+.
+
+      11. Die maximale Anfangsgeschwindigkeit ist abhängig von der 
+
+Reaktionsgeschwindigkeitskonstanten  k2 der Dissoziation (d.h. also 
+der Geschwindigkeitskonstante des Zerfalls) des Enzym-Substrat-
+Komplexes und der Ausgangskonzentration des Enzyms. 
+
+12. Gemäß dem Lambert-Beer'schen Gesetz gehen in die Extinktion einer 
+
+Probe die Konzentration der einzelnen Komponten  ci
+Schichtdicke der Probe d und der mediumspezifische Koeffizient ε ein, 
+so dass sich insgesamt folgende Formel ergibt:
+  E=∑ i∗c i∗d
+
+, die 
+
+-  5  -
+
+
\ No newline at end of file
diff --git a/Stilvorlage.md b/Stilvorlage.md
new file mode 100644
index 0000000..30781fa
--- /dev/null
+++ b/Stilvorlage.md
@@ -0,0 +1,184 @@
+# Stilvorlage
+
+Leitfaden, um den Schreibstil der in `StilVorlagen` vorhandenen Dokumente für KI-gestützte Generierung nachzuahmen. Die Regeln beruhen auf folgenden Quellen (vollständige Texte liegen als `.md` vor):
+
+- Ausarbeitung.md
+- DIL_M4_Study Paper_Schwörer_Führung und Schlüsselqualifikation.md
+- Diplomarbeit.md
+- Protokoll des Versuchs Reaktionskinetik (eigenes)_korrigiert.md
+- Protokoll Genetik Praktikum I.md
+- Protokoll Versuch A - Nerv V2.md
+- Protokoll_Psycho.md
+- Seminar System Imunology - Ausarbeitung.md
+- Splitstree.md
+- Studienarbeit.md
+- Vorprotokolll PC-Praktikum Versuchstag 1 - Kinetik2.md
+
+## 1. Gemeinsame Stilprinzipien
+
+1. **Sachlich und direkt:** Kurze bis mittlere Absätze, nüchterner Ton, Fokus auf Fakten und Beobachtungen. Emotionale Sprache vermeiden.
+2. **Chronologische Struktur:** Beschreibe Vorgehen Schritt für Schritt (Vorbereitung → Durchführung → Auswertung). Bei theoretischen Arbeiten: Kontext → Problem → Methode → Ergebnis.
+3. **Explizite Überschriften:** Jede Sektion erhält eine klare Überschrift (z.B. "Einleitung", "Vorbereitung", "Versuchsdurchführung", "Ergebnis").
+4. **Kompakte Sätze mit Fachterminologie:** Begriffe wie "Ligand", "Extinktion", "Kontextfenster" oder "Traceability" werden ohne weitere Popularisierung genutzt.
+5. **Listen für Kernaussagen:** Risiken, Ziele, Materialien, Fragen etc. werden häufig als Bullet- oder Nummernlisten dargestellt.
+6. **Zeitform und Perspektive:** Vergangene Versuche im Präteritum ("wir führten durch"), allgemeine Beschreibungen im Präsens. Häufig "wir" oder passive Konstruktionen.
+7. **Keine Gender-Doppelpunkt-Formen:** Personengruppen werden ohne Doppelpunkte oder Binnen-I angesprochen (z.B. "Entwickler" statt "Entwickler:innen"), analog zu den Vorlagendokumenten.
+
+## 2. Strukturbausteine pro Dokumenttyp
+
+### 2.1 Wissenschaftliche Ausarbeitungen (Ausarbeitung, Seminararbeit, Studienarbeit, Diplomarbeit)
+
+- **Deckblatt-Informationen:** Institution, Lehrstuhl, Titel, Autor:in, Datum.
+- **Einleitung:** Kontext, Relevanz, Zielsetzung in 1–3 Absätzen.
+- **Theorie-/Methodenteil:** Beschreibt z.B. Autodock-Energiefunktionen, Kernel-Methoden oder High-Throughput-Techniken.
+- **Abschnittstitel wie „Vorbereitung“, „Methodik“, „Ergebnisse“, „Diskussion“** mit kurzen Übergängen.
+- **Aufzählungen** für Komponentenlisten (H-Brücken, vdW-Wechselwirkungen etc.).
+
+### 2.2 Protokolle und Praktikumsberichte (Genetik, Reaktionskinetik, Nerv, Psycho, Vorprotokoll)
+
+- **Meta-Block am Anfang:** Titel "Protokoll", Praktikum, Datum, Gruppe, beteiligte Personen.
+- **Kurze Einführung** zum Zweck des Versuchs ("Die schnelle interne Informationsweiterleitung … beruht auf Nerven").
+- **Materialien/Methoden** als Fließtext oder nummerierte Unterabschnitte.
+- **Durchführung in Vergangenheit**, oft mit konkreten Mengen- und Zeitangaben ("2500 µl Puffer … 240 s Extinktion").
+- **Kapitelstruktur:** Häufige Reihenfolge „Prolog → Versuchsteil I/II … → Einleitung → Methode → Ergebnisse/Auswertung“. Abschnittsüberschriften stehen meist allein in einer Zeile, manchmal mit Doppelpunkt („Versuchsteil I:“).
+- **Auswertung/Ergebnis** folgt mit knapper Interpretation sowie Tabellen mit Spaltenüberschriften und Einheiten.
+
+### 2.3 Seminar- und Proseminarunterlagen (Splitstree, Seminar System Immunology)
+
+- **Doppelte Titelzeilen** („Proseminar: Grundlagen der Bioinformatik / Thema: …“).
+- **Betreuerangabe** direkt nach dem Titel.
+- **Inhaltsverzeichnis** mit nummerierten Kapiteln und Seiten.
+- **Abschnittstitel mit Nummerierung** (1., 2., 2.1, …) in Tabellenform oder als Listen.
+
+### 2.4 Persönliche Reflexions-/Leadership-Notizen (DIL_M4_Study …)
+
+- **Kurzer Claim oder Frage** („Wer bin ich – und wenn ja, wie viele?“).
+- **Selbstreflexive Passagen** in Ich-Form möglich, dennoch sachlich.
+
+## 3. Sprachliche Muster
+
+- **Einführungssätze:** "Unsere Aufgabe bestand darin …", "Die schnelle interne Informationsweiterleitung …", "Ziel ist es …"
+- **Verbindungswörter:** "Zunächst", "Anschließend", "Darüber hinaus", "Hierzu", "In diesem Versuch".
+- **Mess- und Mengenangaben:** Immer in SI-Einheiten mit Zahlenwert und Einheit (µl, s, °C).
+- **Umlaute konsequent nutzen** (ä, ö, ü, ß); beim Kopieren auf Konsistenz achten.
+- **Fachliche Präzision vor rhetorischer Ausschmückung.**
+
+### 3.1 Häufig verwendete Floskeln und Satzschablonen
+
+- **Kontextsetzung:** "Dieses Dokument beschreibt …", "Im Rahmen des Praktikums wurde … durchgeführt.", "Der vorliegende Abschnitt fasst … zusammen."
+- **Aufgabeneinstieg:** "Unsere Aufgabe bestand darin …", "Ziel der Messreihe war …", "Der Versuch diente dazu …"
+- **Vorbereitungsphase:** "Vor dem Versuch wurde … eingestellt.", "Zunächst wurden … pipettiert und äquilibriert."
+- **Durchführung:** "Anschließend gaben wir … hinzu und starteten die Messung.", "Der Prozess wurde in n Schritten wiederholt."
+- **Ergebnisformeln:** "Der beste Lauf erreichte …", "Die Messreihe zeigte …", "Die Abweichung lag unter …"
+- **Interpretation/Fazit:** "Die Ergebnisse bestätigen …", "Die Limitation liegt in …", "Damit ist die Grundlage für … geschaffen."
+- **Wissensüberleitung:** "Auf Basis dieser Beobachtungen …", "Im nächsten Abschnitt wird … beschrieben."
+- **Stakeholder-/Rollenbezug:** "Betreuer: …", "Gruppe B2D", "Autor: Christoph Schwörer" – meist als separate Zeilen im Kopfbereich.
+
+### 3.2 Wortwahl und Satzstellung (Diplomarbeit, Splitstree, Studienarbeit)
+
+- **Deutschsprachige wissenschaftliche Wendungen:**
+  - Häufige Einleitungen sind „In den vergangenen Jahrzehnten ist man …“, „Mittlerweile gibt es …“, „Als Beispiel sei hier … genannt“ (Splitstree.md:3, Splitstree.md:17).
+  - Formulierungen wie „Hierbei wird … dargestellt“, „Hierzu kann … verwendet werden“, „Dies führt zu …“ strukturieren Argumentationsketten (Studienarbeit.md:48).
+  - Definitionen folgen dem Muster „Eine Support Vektor Machine (SVM) ist …“ oder „Der klassische Weg … ist …“, wobei erklärende Nebensätze das Verb ans Satzende stellen (Studienarbeit.md:58, Splitstree.md:33).
+  - Aussagen zu Ergebnissen nutzen „Die Ergebnisse zeigen, dass …“, „Damit eignet sich … als …“, „Somit lässt sich … beobachten“.
+- **Angloamerikanische Passagen (Diplomarbeit.md):**
+  - Der Abstract verwendet selbstreferenzielle Sätze wie „In this work I tried to find …“, „The intent was to see if …“, „The results will show that …“ und kombiniert simple past mit future forms, um Ziel und Ausblick zu koppeln.
+  - Listen von Methoden werden mit „The first being …, the second …“ eingeleitet; Adverbien wie „concurrent“, „implicitly“ und „respectively“ dienen zur Präzisierung.
+  - Passive Formulierungen („was attained“, „is used“) dominieren Beschreibungen technischer Abläufe.
+- **Wortstellungen und Übergänge:**
+  - Parataxen mit Doppelpunkt (z.B. „Beispielsweise …:“, „Hierzu kann …:“) leiten Aufzählungen oder Gleichungen ein.
+  - Einschübe in Klammern dienen der Quellenangabe („(Boser et al. 1992; Cortes and Vapnik 1995)“) oder definieren Symbole.
+  - Lange Fachsätze trennen Gedanken über Zeilenumbrüche, behalten jedoch das Verb am Satzende, wenn ein Nebensatz vorangestellt ist („Da …, muss … gelöst werden.“).
+- **Lexikalische Besonderheiten:**
+  - Technische Begriffe (z.B. „Quantitative Structure-Activity Relationship“, „Split decomposition“, „feature map“) werden unverändert übernommen, teils mit deutscher Umgebung.
+  - Maße/Variablen werden konsequent benannt („k-mer“, „RMSD“, „µl“, „s“), häufig zusammen mit erklärenden Textfragmenten („Dies führt zu folgender feature map:“).
+  - Eigennamen und Rollen erscheinen als separate Zeilen (z.B. Betreuer:innen, Beginn-/Enddatum in Diplomarbeit.md:9).
+- **Tonfall:**
+  - Neutral, teilweise beschreibend-narrativ („Ein Programm, das … ist SplitsTree …“), ohne rhetorische Fragen oder Umgangssprache.
+  - Selbstreferenzen werden sparsam genutzt („In dieser Arbeit …“, „Diese Studie untersucht …“), in englischen Abschnitten aber durchaus in Ich-Form („I tried to find …“).
+
+### 3.3 Beispielabschnitte zur Stilnachbildung
+
+> **Splitstree (Einleitung):**  
+> „In den vergangenen Jahrzehnten ist man, nach der Entdeckung der DNA, immer mehr dazu übergegangen Organismen nicht nur anhand ihrer phänotypischen Eigenschaften sondern auch anhand ihres Genotyps zu vergleichen. Mittlerweile gibt es einige gute Verfahren die die Ähnlichkeit und den Verwandtschaftsgrad zweier oder auch mehrerer Organismen bestimmen.“
+
+Merkmale: zweigliedrige Einleitung (historischer Kontext → aktueller Stand), kaum Kommata zwischen Nebensätzen, direkte Überleitung auf Methode.
+
+> **Studienarbeit (Methodik):**  
+> „Eine Support Vektor Machine (SVM) ist ein Verfahren aus dem Bereich der Mustererkennung zur Klassifikation von Objekten. Diese Objekte werden hierbei durch ihre Eigenschaften … und ihre Klasse repräsentiert. Sind die Datenpunkte … linear separierbar … so ist das Problem trivial … Sind die Daten aber nicht linear separierbar … so muss folgendes Optimierungsproblem gelöst werden.“
+
+Merkmale: Definition + Bedingungssätze, Kombination aus erklärenden Nebensätzen und kurzen Hauptsätzen, konsequente Verwendung mathematischer Verweise.
+
+> **Diplomarbeit (Zusammenfassung, ins Deutsche übertragen):**  
+> „Diese Arbeit untersucht, ob sich 3D-QSAR-Modelle verbessern lassen, wenn Konformationen mithilfe genetischer Algorithmen optimiert und verschiedene Kernelverfahren kombiniert werden. Der erste Ansatz nutzt vorab berechnete Konformationen, der zweite erzeugt sie implizit während der Optimierung. Die Ergebnisse zeigen, dass Modelle mit guter Generalisierung häufig nicht die aktive Konformation selbst, sondern Strukturen mit minimalem durchschnittlichem Abstand nutzen.“
+
+Merkmale: Dreisatz aus Zielsetzung, Vorgehen, Ergebnis; knappe Verbphrasen („untersucht“, „nutzt“, „zeigen“); keine Ich-Form mehr, obwohl Original englisch war.
+
+> **Protokoll Psychophysik (Prolog + Versuchsteil):**  
+> „Die Psychophysik, auch subjektive Sinnesphysiologie genannt, unterscheidet sich zur objektiven Sinnesphysiologie darin, dass … Trotz der Subjektivität der Messungen existieren … allgemein gültige Gesetze. … Versuchsteil I: Bestimmung der absoluten Hörschwelle … Der minimale Schalldruckpegel ab dem eine bestimmte Frequenz hörbar ist wird Hörschwelle genannt.“
+
+Merkmale: längere, kommagetrennte Sätze, Fachbegriffe sofort erklärt, Abschnittstitel mit Doppelpunkten, Wechsel zwischen Erläuterung und kurzen Definitionen („Der minimale … wird … genannt.“).
+
+### 3.4 Sprachführung für deutschsprachige Ergebnisse
+
+- Auch wenn Ausgangsdaten englische Passagen enthalten, sollen generierte Texte vollständig deutsch sein. Übernehme lediglich Strukturmerkmale (z.B. Abstract-Logik, Kapitelreihenfolge) und übersetze Fachtermini nur dann, wenn es etablierte deutsche Begriffe gibt; sonst bleiben englische Fachwörter stehen („Kernel“, „Support Vector Machine“).
+- Englische Quellenangaben bleiben im Original (Autor:innen + Jahr), werden jedoch in deutsche Satzstruktur eingebettet („(Boser et al. 1992; Cortes und Vapnik 1995)“).
+- Vermeide Ich-Form aus der Diplomarbeit, nutze stattdessen „diese Arbeit“ oder Passive.
+
+## 4. Formatierungsrichtlinien
+
+| Element                    | Vorgabe                                                                 |
+|---------------------------|-------------------------------------------------------------------------|
+| Überschriften             | Markdown `#`, `##`, ggf. `###`, analog zu Vorlagekapiteln               |
+| Absätze                   | Leerzeile zwischen Absätzen, keine eingerückten Zeilen                  |
+| Listen                    | `-` oder `*` für Bullets, nummerierte Listen für Schritte oder Fragen   |
+| Tabellen                  | Nach Bedarf, insbesondere für Parameterübersichten                      |
+| Hervorhebungen            | Sparsam `**Fett**` zur Kennzeichnung wichtiger Begriffe                  |
+| Meta-Daten                | Block aus kurzen Zeilen (Titel, Datum, Autor, Gruppe) am Dokumentanfang |
+- **Bullet-Stil:** In technischen Ausarbeitungen werden häufig Asterisk-Listen eingesetzt („* H-Brücken“). Bei nummerierten Datenreihen Tabellen nutzen, keine Mischformen.
+
+### 4.1 Layoutmuster und visuelle Elemente
+
+- **Inhaltsverzeichnisse:** Nummerierte Kapitel mit Punktketten und Seitenzahlen am rechten Rand (z.B. „1. Einleitung …… 3“). Zwischenüberschriften (2.1, 2.2 …) stehen unterhalb und übernehmen dieselbe Formatierung.
+- **Seitenzählung:** In einigen Vorlagen stehen Seitenzahlen mittig oder als „- 3 -“ unterhalb eines Blocks. Bei Bedarf kann diese Darstellung übernommen werden, insbesondere bei Seminararbeiten.
+- **Doppelte Titelzeilen:** Für Proseminare/Seminare: „Proseminar: … / Thema: …“ in zwei Zeilen, gefolgt von Autor:in und Betreuer:in.
+- **Blockangaben:** Abschnitte wie „Betreuer:“, „Begonnen am:“, „Beendet am:“ oder „Durchgeführt am:“ werden als eigenständige Zeilen mit Doppelpunkt geführt, häufig mit Leerzeile dazwischen.
+- **Tabellen- und Abbildungslisten:** Überschriften „List of Figures“/„List of Tables“ (können auf Deutsch als „Abbildungsverzeichnis“, „Tabellenverzeichnis“ umgesetzt werden) mit zweispaltiger Auflistung.
+- **Mathematische Einbettungen:** Gleichungen oder Formeln werden nach einem Doppelpunkt eingeführt und ggf. nummeriert; erläuternde Sätze folgen unmittelbar darunter.
+
+## 5. Textbausteine pro Abschnitt
+
+- **Einleitung/Vorbereitung:**
+  - „Dieses Dokument beschreibt …“
+  - „Im Rahmen des Praktikums wurde … durchgeführt.“
+- **Material/Methoden:**
+  - „Es wurden X µl Y-Lösung mit Z µl … gemischt.“
+  - „Als Messgerät kam … zum Einsatz.“
+- **Ergebnisse/Auswertung:**
+  - „Die Messreihe zeigte …“
+  - „Der beste Lauf erreichte einen RMSD von …“
+- **Diskussion/Fazit:**
+  - „Die Ergebnisse bestätigen …“
+  - „Die Limitation liegt in …“
+
+## 6. Prompt-Vorlage für KI-Systeme
+
+```
+Schreibe einen Abschnitt im Stil der HNU-Stilvorlagen. Beachte:
+- Sachlicher, präziser Ton
+- Klare Überschrift
+- Kurzer Kontextabsatz, gefolgt von Aufzählung oder nummeriertem Ablauf
+- Verwende Fachtermini und genaue Mengenangaben, falls relevant
+- Schließe mit einem knappen Fazit oder Verweis auf den nächsten Schritt
+```
+
+## 7. Qualitätscheckliste
+
+- [ ] Enthält das Dokument eine Meta- oder Einleitungssektion mit Kontext?
+- [ ] Sind alle Fachbegriffe korrekt und einheitlich geschrieben?
+- [ ] Werden Prozesse chronologisch geschildert?
+- [ ] Sind Messwerte und Einheiten vorhanden, wo nötig?
+- [ ] Gibt es eine klare Trennung von Vorbereitung, Durchführung, Ergebnis?
+- [ ] Wurden Listen eingesetzt, wenn mehrere Punkte genannt werden?
+
+Diese Stilvorlage dient als Referenzdatei für zukünftige KI-Prompts. Ergänzungen können direkt in `Stilvorlage.md` vorgenommen werden, sobald neue Textquellen ausgewertet wurden.
diff --git a/claude_Inhalt.md b/claude_Inhalt.md
new file mode 100644
index 0000000..b3ae196
--- /dev/null
+++ b/claude_Inhalt.md
@@ -0,0 +1,42 @@
+### 1. Einleitung (ca. 8 Seiten)
+1.1 Ausgangssituation und Motivation  
+1.2 Problemstellung  
+1.3 Zielsetzung  
+1.4 Forschungsleitfragen  
+1.5 Aufbau der Arbeit
+
+### 2. Theoretische Grundlagen (ca. 12 Seiten)
+2.1 Requirements Engineering und Reverse Requirements Engineering  
+2.2 Large Language Models im Software Engineering  
+2.3 Legacy-Modernisierung und Stand der Forschung
+
+### 3. Fallstudie c-entron GmbH (ca. 6 Seiten)
+3.1 Unternehmenskontext und Legacy-Software  
+3.2 Migrationsstrategie und spezifische Herausforderungen
+
+### 4. Konzeption und methodisches Vorgehen (ca. 12 Seiten)
+4.1 Forschungsdesign und Vorgehensmodell  
+4.2 Prozessmodell für KI-gestütztes Reverse Requirements Engineering  
+4.3 Technologieauswahl und LLM-Konfiguration  
+4.4 Stakeholder-Einbindung und Datengrundlage
+
+### 5. Prototypische Umsetzung (ca. 10 Seiten)
+5.1 Architektur des LLM-Agenten  
+5.2 Toolchain-Integration  
+5.3 Governance, Datenschutz und IP
+
+### 6. Evaluation (ca. 12 Seiten)
+6.1 Evaluationskriterien und Messgrößen  
+6.2 Durchführung und Ergebnisse  
+6.3 Qualitative Bewertung durch Experten
+
+### 7. Diskussion (ca. 8 Seiten)
+7.1 Interpretation der Ergebnisse  
+7.2 Chancen und Grenzen des Ansatzes  
+7.3 Implikationen für Forschung und Praxis
+
+### 8. Fazit und Ausblick (ca. 4 Seiten)
+8.1 Zusammenfassung und Beantwortung der Forschungsfragen  
+8.2 Handlungsempfehlungen für c-entron GmbH  
+8.3 Ausblick und zukünftige Forschung
+
diff --git a/kapitel_1_einleitung.md b/kapitel_1_einleitung.md
new file mode 100644
index 0000000..b1de615
--- /dev/null
+++ b/kapitel_1_einleitung.md
@@ -0,0 +1,101 @@
+# 1. Einleitung
+
+## 1.1 Ausgangssituation und Motivation
+
+Die digitale Transformation stellt mittelständische Softwareunternehmen vor vielfältige Herausforderungen. Insbesondere gewachsene Legacy-Systeme, die über Jahre hinweg kontinuierlich erweitert wurden, erfordern zunehmend eine strategische Neuausrichtung. Diese Systeme bilden häufig das Rückgrat geschäftskritischer Prozesse, ihre technologische Basis entspricht jedoch nicht mehr den Anforderungen moderner Cloud- und Web-Architekturen. Die Migration solcher Systeme gestaltet sich komplex, da historisch gewachsene Funktionalitäten oft nicht vollständig dokumentiert sind und implizites Wissen bei einzelnen Entwickler:innen oder langjährigen Mitarbeiter:innen verankert ist.
+
+Die c-entron GmbH steht exemplarisch für diese Herausforderung. Das mittelständische Softwareunternehmen mit Sitz in Ulm entwickelt und vertreibt seit über zwei Jahrzehnten eine Windows-basierte ERP-Software, die speziell für IT-Systemhäuser konzipiert wurde. Die Software deckt ein breites Funktionsspektrum ab – von der Auftragsverwaltung über Lagerhaltung bis hin zur Fakturierung und Projektabrechnung. Über die Jahre ist eine umfangreiche, funktionsreiche Lösung entstanden, die bei der Zielgruppe etabliert ist und einen hohen Reifegrad aufweist.
+
+Mit einer expansiven Vertriebsstrategie und dem Ziel, neue Marktsegmente zu erschließen, steht die c-entron GmbH jedoch vor der Notwendigkeit, ihre Software-Architektur grundlegend zu modernisieren. Die native Windows-Anwendung stößt an Grenzen der Skalierbarkeit – sowohl in der Entwicklung als auch im Betrieb und Roll-out. Kunden erwarten zunehmend webbasierte, plattformunabhängige Lösungen mit modernen Benutzeroberflächen und flexiblen Deployment-Optionen. Eine Migration zu einer modernen, webbasierten Plattform ist daher unumgänglich geworden.
+
+Diese Modernisierung erfordert jedoch nicht lediglich eine technologische Neuentwicklung, sondern setzt eine umfassende Analyse der bestehenden Funktionalität voraus. Genau hier zeigt sich eine zentrale Herausforderung vieler Legacy-Systeme: Die funktionalen und nicht-funktionalen Anforderungen wurden über die Jahre nie systematisch dokumentiert. Was im Code implementiert ist, existiert oft nicht in strukturierter Form als Anforderungsspezifikation. Dies erschwert eine gezielte und vollständige Migration erheblich.
+
+Parallel zu dieser praktischen Herausforderung hat sich in den letzten Jahren ein neues technologisches Paradigma etabliert: Large Language Models (LLMs) wie GPT-4, Claude oder Code-Llama haben gezeigt, dass sie in der Lage sind, Code zu verstehen, zu analysieren und zu dokumentieren. Diese Modelle bieten potenziell neue Möglichkeiten, die Lücke zwischen implizitem Wissen in Codebasen und expliziter Anforderungsdokumentation zu schließen. Der Einsatz von LLMs für Reverse Requirements Engineering – also die nachträgliche Extraktion von Anforderungen aus bestehendem Code – ist jedoch noch wenig erforscht und in der Praxis kaum systematisch erprobt.
+
+Genau an dieser Schnittstelle zwischen praktischem Bedarf und technologischer Innovation setzt die vorliegende Arbeit an. Sie untersucht, wie KI-gestützte Verfahren eingesetzt werden können, um aus Legacy-Software strukturierte Requirements zu extrahieren und damit eine fundierte Basis für Migrationsprojekte zu schaffen. Die Arbeit adressiert damit sowohl eine wissenschaftliche Forschungslücke als auch einen konkreten Anwendungsfall mit hoher praktischer Relevanz für mittelständische Softwareunternehmen.
+
+## 1.2 Problemstellung
+
+Die zentrale Problemstellung dieser Arbeit ergibt sich aus der fehlenden Anforderungsdokumentation der bestehenden ERP-Software der c-entron GmbH. Diese Situation ist symptomatisch für viele über Jahre gewachsene Softwaresysteme: Während der kontinuierlichen Weiterentwicklung lag der Fokus auf der Implementierung neuer Features und der Behebung von Fehlern. Anforderungen wurden primär implizit durch Code-Commits, Ticket-Systeme und direktes Kundenfeedback kommuniziert, jedoch nicht systematisch in Form strukturierter Requirements erfasst.
+
+Die fehlende Dokumentation erschwert die gezielte Migration erheblich, da sowohl funktionale Redundanzen als auch implizit verankerte Prozesse nur durch aufwendige manuelle Analysen identifiziert werden können. Konkret führt dies zu folgenden Problemen:
+
+**Re-Implementationsfehler und unvollständige Migration:** Ohne vollständige Kenntnis aller implementierten Funktionen besteht das Risiko, dass bei der Neuentwicklung Features übersehen oder falsch interpretiert werden. Insbesondere Edge Cases, Sonderfälle und historisch gewachsene Workarounds sind häufig nur im Code ersichtlich und werden in manuellen Reviews leicht übersehen. Dies kann dazu führen, dass geschäftskritische Prozesse bei Kunden nach der Migration nicht mehr korrekt funktionieren.
+
+**Hohe technische Schuld und Ineffizienzen:** Die Analyse und das Verständnis der Legacy-Codebasis binden erhebliche Entwicklungsressourcen. Entwickler:innen müssen Code lesen, verstehen und dokumentieren – ein zeitintensiver Prozess, der vom eigentlichen Entwickeln der neuen Lösung ablenkt. Zudem besteht die Gefahr, dass veraltete oder redundante Funktionalitäten unreflektiert in die neue Architektur übernommen werden, anstatt sie kritisch zu hinterfragen und zu modernisieren.
+
+**Implizites Wissen und Wissenstransfer:** Ein erheblicher Teil des Domänenwissens ist bei einzelnen langjährigen Mitarbeiter:innen verankert, die die Entstehungsgeschichte bestimmter Features kennen. Dieses implizite Wissen ist schwer zu erfassen und zu formalisieren. Bei Personalwechseln oder in größeren Teams führt dies zu Wissenslücken und Abhängigkeiten von Einzelpersonen.
+
+**Komplexität gewachsener Codebasen:** Die über Jahre gewachsene Codebasis der c-entron GmbH weist typische Charakteristika von Legacy-Systemen auf: verschachtelte Abhängigkeiten, historisch bedingte Architekturentscheidungen, unterschiedliche Code-Stile verschiedener Entwicklungsphasen und eine enge Kopplung an spezifische Technologien. Diese Komplexität erschwert nicht nur das Verständnis, sondern auch die Extraktion klarer, modularer Anforderungen für die Neuimplementierung.
+
+**Fehlende Traceability:** Ohne strukturierte Requirements fehlt die Nachvollziehbarkeit, warum bestimmte Funktionen existieren, welche Geschäftsprozesse sie unterstützen und welche Stakeholder-Anforderungen sie erfüllen. Dies erschwert sowohl die Priorisierung im Migrationsprojekt als auch die spätere Wartung und Weiterentwicklung der neuen Software.
+
+Die manuelle Erhebung und Dokumentation aller Anforderungen wäre mit einem prohibitiv hohen Aufwand verbunden. Hier könnten KI-gestützte Verfahren, insbesondere Large Language Models mit ihren Code-Verständnis-Fähigkeiten, einen wesentlichen Beitrag leisten. Die zentrale Fragestellung ist daher, inwieweit LLMs in der Lage sind, aus bestehendem Quellcode systematisch und strukturiert Requirements zu extrahieren, die als Grundlage für eine Neuentwicklung dienen können.
+
+Diese Problemstellung ist nicht nur für die c-entron GmbH relevant, sondern betrifft eine Vielzahl mittelständischer Softwareunternehmen, die vor ähnlichen Modernisierungsherausforderungen stehen. Die Entwicklung eines systematischen, KI-gestützten Ansatzes für Reverse Requirements Engineering könnte daher einen signifikanten Beitrag zur Bewältigung dieser weit verbreiteten Herausforderung leisten.
+
+## 1.3 Zielsetzung
+
+Das übergeordnete Ziel dieser Masterarbeit ist die Entwicklung, Implementierung und Evaluation eines KI-gestützten Verfahrens für Reverse Requirements Engineering bei Legacy-Software. Konkret soll ein LLM-basierter Agent konzipiert und prototypisch umgesetzt werden, der in der Lage ist, aus der bestehenden Codebasis der c-entron GmbH strukturierte, vollständige und nachvollziehbare Requirements zu extrahieren.
+
+Die Arbeit verfolgt dabei mehrere spezifische Teilziele:
+
+**Konzeptionelle Entwicklung eines Prozessmodells:** Es soll ein theoretisch fundiertes und praktisch anwendbares Prozessmodell entwickelt werden, das beschreibt, wie Unternehmen systematisch den Übergang von Legacy-Software zu modernen Architekturen mithilfe von KI-gestützter Anforderungserhebung gestalten können. Dieses Prozessmodell soll die verschiedenen Phasen – von der Vorbereitung über die Analyse bis zur Validierung – strukturieren und Best Practices sowie kritische Erfolgsfaktoren identifizieren.
+
+**Technologische Evaluation und Auswahl:** Im Rahmen der Arbeit sollen aktuelle Large Language Models hinsichtlich ihrer Eignung für das Reverse Requirements Engineering evaluiert werden. Dabei sind Kriterien wie Code-Verständnis, Kontextfenster-Größe, Kontrollierbarkeit, Datenschutz-Compliance und Kosten zu berücksichtigen. Die Evaluation soll zu einer begründeten Auswahl eines Hauptmodells sowie gegebenenfalls ergänzender Modelle für spezifische Teilaufgaben führen.
+
+**Prototypische Implementierung eines LLM-Agenten:** Basierend auf der Konzeption soll ein funktionsfähiger Prototyp entwickelt werden, der die Codebasis der c-entron GmbH analysieren und daraus Requirements extrahieren kann. Der Agent soll dabei sowohl funktionale als auch nicht-funktionale Anforderungen identifizieren, diese strukturiert beschreiben und mit Traceability-Metadaten anreichern, die eine Nachvollziehbarkeit zur Codebasis ermöglichen.
+
+**Integration von Stakeholder-Wissen:** Da nicht alle Anforderungen – insbesondere nicht-funktionale Aspekte wie Performance-Erwartungen, Sicherheitsanforderungen oder Usability-Präferenzen – vollständig aus dem Code ableitbar sind, soll ein hybrider Ansatz verfolgt werden. Durch strukturierte Interviews mit relevanten Stakeholdern (Entwickler:innen, Product Owner, Kunden) sollen diese Aspekte erhoben und mit den KI-generierten Requirements abgeglichen und angereichert werden.
+
+**Systematische Evaluation:** Die Qualität der extrahierten Requirements soll anhand definierter Kriterien systematisch evaluiert werden. Dabei sollen sowohl quantitative Metriken (z.B. Vollständigkeit im Vergleich zu einem Referenzset, Anzahl identifizierter Requirements) als auch qualitative Bewertungen durch Expert:innen der c-entron GmbH einfließen. Zentrale Evaluationskriterien sind Vollständigkeit, Verständlichkeit, Redundanzfreiheit, Stakeholder-Alignment und Aufwandsreduktion im Vergleich zu rein manuellen Verfahren.
+
+**Governance und Compliance:** Da der Einsatz externer KI-Dienste mit sensiblen Codedaten verbunden ist, sollen auch Aspekte des Datenschutzes, des IP-Schutzes und der IT-Sicherheit adressiert werden. Die Arbeit soll Handlungsempfehlungen ableiten, wie Unternehmen KI-gestützte Analysen unter Einhaltung regulatorischer Anforderungen und Sicherheitsrichtlinien durchführen können.
+
+**Praxistransfer und Handlungsempfehlungen:** Die Erkenntnisse aus der prototypischen Umsetzung und Evaluation sollen in konkrete Handlungsempfehlungen für die c-entron GmbH überführt werden. Dabei geht es sowohl um die operative Nutzung des entwickelten Ansatzes im Migrationsprojekt als auch um die potenzielle Integration in bestehende Toolchains (z.B. Jira, Confluence). Zudem soll die Übertragbarkeit auf andere Kontexte und Unternehmensgrößen diskutiert werden.
+
+Zusammenfassend verfolgt die Arbeit das Ziel, einen wissenschaftlich fundierten und praktisch erprobten Beitrag zur Bewältigung einer zentralen Herausforderung bei der Modernisierung von Legacy-Software zu leisten: die systematische und effiziente Rekonstruktion von Anforderungen durch den Einsatz moderner KI-Technologien.
+
+## 1.4 Forschungsleitfragen
+
+Zur strukturierten Bearbeitung der Zielsetzung werden folgende Forschungsleitfragen formuliert, die sich an den zentralen Aspekten der Arbeit orientieren:
+
+**F1: Wie können Large Language Models systematisch für Reverse Requirements Engineering in Legacy-Software eingesetzt werden?**
+
+Diese Frage adressiert die grundlegende Konzeption des Ansatzes. Sie umfasst sowohl die technische Ebene (Wie müssen LLMs konfiguriert und gesteuert werden? Welche Prompt-Engineering-Strategien sind erfolgreich?) als auch die methodische Ebene (Welche Schritte sind notwendig? Wie wird der Prozess strukturiert? Welche Rolle spielen menschliche Expert:innen?). Die Beantwortung dieser Frage erfordert die Entwicklung eines Prozessmodells, das beschreibt, wie der KI-Einsatz in den Gesamtkontext der Anforderungserhebung eingebettet wird.
+
+**F2: Welche funktionalen und nicht-funktionalen Anforderungen lassen sich durch eine Kombination aus KI-gestützter Codeanalyse und Stakeholder-Interviews extrahieren?**
+
+Diese Frage fokussiert auf die inhaltliche Dimension der extrahierten Requirements. Sie untersucht, welche Arten von Anforderungen durch LLMs aus Code identifizierbar sind und wo die Grenzen der automatisierten Extraktion liegen. Insbesondere soll analysiert werden, wie funktionale Requirements (Was soll das System tun?) und nicht-funktionale Requirements (Wie soll das System beschaffen sein?) aus unterschiedlichen Quellen – Code, Dokumentation, Interviews – zusammengeführt werden können. Die hybride Vorgehensweise aus KI-Analyse und menschlichem Input steht hier im Fokus.
+
+**F3: Wie bewerten Fachexpert:innen die Qualität und Vollständigkeit der durch KI gewonnenen Requirements?**
+
+Diese Frage adressiert die Evaluation des entwickelten Ansatzes aus Sicht der praktischen Anwendbarkeit. Sie untersucht, inwieweit die extrahierten Requirements den Qualitätsansprüchen von Software-Entwickler:innen, Projektmanager:innen und anderen Stakeholdern genügen. Dabei sollen sowohl objektive Kriterien (z.B. Vollständigkeit im Vergleich zu einem Referenzset) als auch subjektive Einschätzungen (Verständlichkeit, Präzision, Nützlichkeit für die Weiterentwicklung) erfasst werden. Diese Frage ist zentral für die Beurteilung, ob der entwickelte Ansatz in der Praxis eingesetzt werden kann.
+
+**F4: Welche Chancen und Grenzen ergeben sich beim KI-gestützten Requirements Engineering in Legacy-Umgebungen?**
+
+Diese Frage nimmt eine kritisch-reflektierende Perspektive ein und untersucht sowohl die Potenziale als auch die Limitationen des Ansatzes. Chancen können sich etwa in der Effizienzsteigerung, der Systematisierung oder der Entdeckung bisher unbekannter Abhängigkeiten ergeben. Grenzen zeigen sich möglicherweise bei implizitem Wissen, das nicht im Code abgebildet ist, bei der Zuverlässigkeit von LLM-Ausgaben (Halluzinationen) oder bei spezifischen technischen Einschränkungen (Kontextfenster-Größe, Kosten). Die Beantwortung dieser Frage liefert wichtige Erkenntnisse für die Einordnung der Ergebnisse und die Ableitung von Handlungsempfehlungen.
+
+Diese vier Forschungsleitfragen strukturieren die Arbeit und leiten sowohl die theoretische Fundierung als auch die empirische Untersuchung. Ihre Beantwortung erfolgt durch die Kombination aus Literaturanalyse, technologischer Evaluation, prototypischer Implementierung und systematischer Validierung im Unternehmenskontext der c-entron GmbH.
+
+## 1.5 Aufbau der Arbeit
+
+Die vorliegende Arbeit ist in acht Kapitel gegliedert, die aufeinander aufbauen und einen systematischen Weg von der theoretischen Fundierung über die praktische Umsetzung bis zur kritischen Reflexion beschreiben.
+
+**Kapitel 1 – Einleitung** führt in die Thematik ein, beschreibt die Ausgangssituation der c-entron GmbH, formuliert die Problemstellung und leitet daraus die Zielsetzung sowie die Forschungsleitfragen ab.
+
+**Kapitel 2 – Theoretische Grundlagen** schafft das theoretische Fundament der Arbeit. Es werden zunächst die Konzepte des Requirements Engineering und des Reverse Requirements Engineering erläutert, wobei der Fokus auf Qualitätskriterien für Requirements und den besonderen Herausforderungen bei Legacy-Software liegt. Anschließend wird der Stand der Technik zu Large Language Models im Software Engineering aufgearbeitet. Dabei werden die Funktionsweise, Fähigkeiten und Grenzen aktueller Modelle (GPT-4o, Claude 3.5, Code-Llama) diskutiert. Das Kapitel schließt mit einer systematischen Analyse des Forschungsstands zu KI-gestütztem Requirements Engineering und Legacy-Modernisierung ab und identifiziert die Forschungslücke, die diese Arbeit adressiert.
+
+**Kapitel 3 – Fallstudie c-entron GmbH** stellt den Unternehmenskontext detailliert vor. Es beschreibt das Geschäftsmodell, die Zielgruppe und die technologischen Charakteristika der bestehenden ERP-Software. Die geplante Migrationsstrategie wird ebenso erläutert wie die spezifischen Herausforderungen, die sich aus der gewachsenen Codebasis ergeben. Dieses Kapitel schafft das Verständnis für den konkreten Anwendungsfall und die praktischen Rahmenbedingungen der Arbeit.
+
+**Kapitel 4 – Konzeption und methodisches Vorgehen** entwickelt das zentrale Prozessmodell für KI-gestütztes Reverse Requirements Engineering. Zunächst werden die Anforderungen an das Verfahren definiert – sowohl funktional als auch nicht-funktional. Anschließend wird das Prozessmodell mit seinen verschiedenen Phasen, Aktivitäten und Rollen beschrieben. Die Technologieauswahl und -evaluation wird dokumentiert, wobei die Entscheidung für spezifische LLMs begründet wird. Das Kapitel beschreibt zudem die methodische Einbindung von Stakeholdern durch Interviews und die Integration der Datengrundlagen (Code-Repositories, Dokumentation, Ticket-Systeme).
+
+**Kapitel 5 – Prototypische Umsetzung** dokumentiert die technische Implementierung des LLM-Agenten. Es wird die Architektur des Systems beschrieben, einschließlich der einzelnen Komponenten für Code-Analyse, Requirements-Extraktion und Traceability. Die Integration in bestehende Toolchains (Jira, Confluence) wird konzeptionell skizziert. Zudem werden die getroffenen Maßnahmen zu Governance, Datenschutz und IP-Schutz dargelegt, um den Einsatz im Unternehmenskontext rechtskonform zu gestalten.
+
+**Kapitel 6 – Evaluation** präsentiert die systematische Bewertung des entwickelten Ansatzes. Nach Darstellung des Evaluationsdesigns und der definierten Qualitätskriterien (Vollständigkeit, Verständlichkeit, Redundanzfreiheit, Stakeholder-Alignment, Aufwandsreduktion) werden die Durchführung und die Ergebnisse der Evaluation detailliert beschrieben. Dies umfasst sowohl quantitative Messungen als auch qualitative Expertenreviews. Die Ergebnisse werden strukturiert aufbereitet und bilden die empirische Basis für die nachfolgende Diskussion.
+
+**Kapitel 7 – Diskussion** interpretiert die Evaluationsergebnisse vor dem Hintergrund der Forschungsleitfragen. Es werden die Potenziale des KI-gestützten Ansatzes erörtert – etwa in Bezug auf Effizienzgewinne, Systematisierung und Vollständigkeit. Gleichzeitig werden Limitationen kritisch reflektiert, darunter technische Einschränkungen, Zuverlässigkeitsfragen und organisatorische Voraussetzungen. Das Kapitel leitet aus den Erkenntnissen Implikationen sowohl für die wissenschaftliche Forschung als auch für die praktische Anwendung in Unternehmen ab.
+
+**Kapitel 8 – Fazit und Ausblick** fasst die zentralen Erkenntnisse der Arbeit zusammen und beantwortet die eingangs formulierten Forschungsleitfragen. Es werden konkrete Handlungsempfehlungen für die c-entron GmbH formuliert, die sowohl den operativen Einsatz des Prototyps als auch die Weiterentwicklung des Ansatzes betreffen. Das Kapitel schließt mit einem Ausblick auf zukünftige Forschungsfelder und Entwicklungsperspektiven im Bereich KI-gestütztes Requirements Engineering.
+
+Diese Gliederung gewährleistet eine systematische Bearbeitung der Forschungsfragen und verbindet theoretische Fundierung mit praktischer Anwendung. Die Fallstudie bei der c-entron GmbH dient dabei als roter Faden, der alle Kapitel miteinander verknüpft und die wissenschaftlichen Erkenntnisse in einen konkreten Praxiskontext einbettet.
\ No newline at end of file
diff --git a/kapitel_1_einleitung_adapted.md b/kapitel_1_einleitung_adapted.md
new file mode 100644
index 0000000..6e6b809
--- /dev/null
+++ b/kapitel_1_einleitung_adapted.md
@@ -0,0 +1,57 @@
+# 1. Einleitung
+
+## 1.1 Ausgangssituation und Motivation
+
+In den vergangenen Jahren hat die digitale Transformation mittelständische Softwareanbieter gezwungen, ihre gewachsenen Systeme neu zu bewerten. Besonders ERP-Lösungen, die über Jahrzehnte in Windows-Umgebungen gepflegt wurden, stoßen bei Cloud-, Web- und Mobile-Szenarien an technische sowie organisatorische Grenzen. Dokumentierte Architekturentscheidungen sind selten, implizites Wissen steckt in Source-Control-Systemen oder bei einzelnen Entwickler:innen.
+
+Die c-entron GmbH in Ulm repräsentiert diesen Kontext. Das Unternehmen betreibt seit über zwanzig Jahren eine Windows-basierte ERP-Suite für IT-Systemhäuser. Die Lösung deckt Auftragsabwicklung, Lager, Fakturierung und Projektabrechnung ab, ist aber eng mit der bisherigen Client/Server-Architektur gekoppelt. Kunden fordern inzwischen plattformunabhängige Oberflächen, Self-Service-Funktionen und flexible Betriebsmodelle. Die bestehende Anwendung limitiert Skalierung, Deployment und Benutzerführung, wodurch eine Migration auf eine webbasierte Plattform zwingend erforderlich wird.
+
+Parallel dazu hat sich ein neues Instrumentarium etabliert. Large Language Models wie GPT-4, Claude oder Code Llama können Quellcode analysieren, Muster erkennen und textuell beschreiben. Damit entsteht die Chance, fehlende Anforderungsdokumentationen zumindest teilweise aus dem Code heraus zu rekonstruieren. Die praktische Nutzung dieses Potenzials ist bislang kaum erforscht – insbesondere nicht in mittelständischen Legacy-Projekten. Diese Arbeit adressiert genau diese Lücke und untersucht, wie KI-gestützte Verfahren für eine systematische Anforderungsextraktion eingesetzt werden können.
+
+## 1.2 Problemstellung
+
+Im Projektumfeld der c-entron GmbH fehlen strukturierte Requirements für die bestehende ERP-Lösung. Die Analyse der Legacy-Codebasis ist zeitintensiv, personengebunden und anfällig für Auslassungen. Daraus ergeben sich mehrere Risiken:
+
+- **Re-Implementationsfehler:** Edge Cases, Workarounds und kundenindividuelle Anpassungen sind nur im Code sichtbar. Ohne vollständige Erfassung drohen Funktionsverluste nach der Migration.
+- **Technische Schuld:** Entwickler:innen investieren viel Zeit in das Verständnis historischer Strukturen, statt aktiv an der neuen Plattform zu arbeiten. Veraltete Muster werden unreflektiert übernommen.
+- **Implizites Wissen:** Domänenwissen liegt bei wenigen langjährigen Mitarbeitenden. Personalwechsel führen zu Wissensverlust und Verzögerungen.
+- **Komplexität der Codebasis:** Verschachtelte Abhängigkeiten, unterschiedliche Stile und technologiebedingte Zwänge erschweren eine modulare Anforderungsableitung.
+- **Fehlende Traceability:** Ohne Zuordnung zwischen Code und Geschäftsprozess fehlt die Grundlage für Priorisierung, Testkonzeption und spätere Wartung.
+
+Eine rein manuelle Rekonstruktion aller Anforderungen wäre wirtschaftlich kaum tragbar. Deshalb soll geprüft werden, ob KI-gestützte Verfahren Requirements so extrahieren können, dass sie als belastbare Basis für die Modernisierung dienen.
+
+## 1.3 Zielsetzung
+
+Diese Arbeit verfolgt das Ziel, ein vollständiges Vorgehen für KI-gestütztes Reverse Requirements Engineering im Umfeld eines mittelständischen ERP-Herstellers zu entwickeln und zu bewerten. Die Teilziele lauten:
+
+- Entwicklung eines Prozessmodells, das Vorbereitung, Analyse, Validierung und Übergabe strukturiert.
+- Evaluation aktueller LLMs hinsichtlich Kontextfenster, Codeverständnis, Steuerbarkeit, Kosten und Datenschutz.
+- Prototypische Umsetzung eines Agenten, der Quellcode verarbeitet, Requirements formuliert und Traceability-Informationen hinterlegt.
+- Integration von Stakeholder-Wissen durch Interviews, um nicht direkt aus dem Code ableitbare Anforderungen zu ergänzen.
+- Definition eines Evaluationsrahmens mit quantitativen und qualitativen Kriterien (Vollständigkeit, Verständlichkeit, Redundanzfreiheit, Aufwandseinsparung).
+- Ableitung von Governance- und Compliance-Leitlinien für den sicheren Umgang mit sensiblen Kundendaten.
+- Formulierung konkreter Handlungsempfehlungen für die c-entron GmbH sowie Übertragbarkeit auf ähnliche Unternehmen.
+
+## 1.4 Forschungsleitfragen
+
+Die Zielsetzung wird über vier Forschungsleitfragen strukturiert:
+
+- **F1 – Einsatz von LLMs im Reverse Requirements Engineering:** Welche Prozessschritte, Steuerungsmechanismen und Kontrollpunkte sind notwendig, um LLMs reproduzierbar einzusetzen?
+- **F2 – Kombination von KI-Analyse und Stakeholder-Input:** Welche funktionalen und nicht-funktionalen Anforderungen lassen sich aus Code extrahieren, und welche Informationen müssen über Interviews ergänzt werden?
+- **F3 – Qualitätsbewertung der generierten Requirements:** Wie beurteilen Fachexpert:innen Vollständigkeit, Verständlichkeit, Nützlichkeit und Aufwandseinsparung der KI-Ergebnisse?
+- **F4 – Chancen und Grenzen des Ansatzes:** Welche Effizienzgewinne sind realistisch, wo liegen technische oder organisatorische Limitierungen, und welche Risiken (z.B. Halluzinationen, Datenschutz) müssen adressiert werden?
+
+## 1.5 Aufbau der Arbeit
+
+Die Arbeit ist in acht Kapitel gegliedert und folgt dem in den Vorlagen üblichen Aufbau:
+
+1. **Einleitung:** Kontext, Problemstellung, Ziele und Forschungsfragen.
+2. **Theoretische Grundlagen:** Requirements Engineering, Reverse Engineering, Large Language Models sowie Qualitätssicherungskriterien.
+3. **Fallstudie c-entron GmbH:** Unternehmensprofil, Produktarchitektur, Migrationsdruck und Rahmenbedingungen.
+4. **Konzeption und methodisches Vorgehen:** Prozessmodell, Technologieauswahl, Stakeholder-Einbindung und Datenbasis.
+5. **Prototypische Umsetzung:** Architektur und Funktionsweise des LLM-Agenten sowie Integration in bestehende Toolchains.
+6. **Evaluation:** Vorgehen, Metriken, Ergebnisse und Expertenfeedback.
+7. **Diskussion:** Interpretation der Resultate, Limitationen und Implikationen für Forschung und Praxis.
+8. **Fazit und Ausblick:** Zusammenfassung, Beantwortung der Forschungsfragen und Perspektiven für weitere Arbeiten.
+
+Damit entsteht eine nachvollziehbare Linie von der Ausgangssituation über das Konzept bis zur Validierung.
diff --git a/masterarbeit_style.typ b/masterarbeit_style.typ
index 4d5c17e..90d655e 100644
--- a/masterarbeit_style.typ
+++ b/masterarbeit_style.typ
@@ -1,4 +1,4 @@
-#let thesis_meta(title, subtitle: none, author, degree, supervisor, submission_date) = (
+#let thesis_meta(title, subtitle, author, degree, supervisor, submission_date) = (
   title: title,
   subtitle: subtitle,
   author: author,
@@ -27,12 +27,12 @@
     #v(3cm)
     #text(size: 12pt)[Autor: #meta.author]
     #v(2mm)
-    #text(size: 12pt)[Betreuung: #meta.supervisor]
+    #text(size: 12pt)[Betreuer: #meta.supervisor]
     #v(2mm)
     #text(size: 12pt)[Abgabedatum: #meta.submission_date]
 
     #v(2cm)
-    #text(size: 10pt)[Hochschule Neu-Ulm - Fakultaet fuer Wirtschaftswissenschaften]
+    #text(size: 10pt)[University of Applied Sciences Neu-Ulm]
   ]
 ]
 
@@ -40,9 +40,9 @@
   #set page(numbering: none)
   #set text(font: "Times New Roman", size: 11pt)
   #set par(leading: 14pt)
-  #heading(level: 1)[Eigenstaendigkeitserklaerung]
+  #heading(level: 1)[Eigenständigkeitserklärung]
 
-  Hiermit versichere ich, die vorliegende Masterarbeit selbstaendig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel verwendet zu haben. Alle woertlich oder sinngemaess uebernommenen Textstellen sind als solche gekennzeichnet.
+  Hiermit versichere ich, die vorliegende Masterarbeit selbstständig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel verwendet zu haben. Alle wörtlich oder sinngemäß übernommenen Textstellen sind als solche gekennzeichnet.
 
   #v(2cm)
   #align(left)[
@@ -53,7 +53,7 @@
 ]
 
 #let abstract(content) = [
-  #set page(numbering: "arabic")
+  #set page(numbering: "1")
   #set text(font: "Times New Roman", size: 11pt)
   #set par(justify: true, leading: 14pt)
   #content
@@ -63,23 +63,24 @@
   #set page(
     paper: "a4",
     margin: (top: 25mm, bottom: 25mm, inside: 30mm, outside: 20mm),
-    numbering: "arabic"
+    numbering: "1"
   )
   #set text(font: "Times New Roman", size: 11pt)
   #set par(justify: true, leading: 14pt, first-line-indent: 5mm)
   #set list(indent: 6mm, spacing: 2mm)
-  #set heading(numbering: "1.", depth: 3)
+  #set enum(numbering: "a)")
+  #set heading(numbering: "1.1.1", depth: 3)
   #show heading.where(level: 1): it => [
     #set text(size: 16pt, weight: "bold")
-    #it.body
+    #it
   ]
   #show heading.where(level: 2): it => [
     #set text(size: 13pt, weight: "semibold")
-    #it.body
+    #it
   ]
   #show heading.where(level: 3): it => [
     #set text(size: 12pt, weight: "semibold")
-    #it.body
+    #it
   ]
 ]
 
diff --git a/simple_style.typ b/simple_style.typ
new file mode 100644
index 0000000..6f79f85
--- /dev/null
+++ b/simple_style.typ
@@ -0,0 +1,44 @@
+#let set_simple_layout(doc) = {
+  set page(
+    paper: "a4",
+    margin: (top: 25mm, bottom: 25mm, inside: 25mm, outside: 20mm),
+    numbering: "1"
+  )
+  set text(font: "Helvetica", size: 11pt)
+  set par(justify: true, leading: 14pt, first-line-indent: 4mm)
+  set list(indent: 5mm, spacing: 1.5mm)
+  set heading(numbering: "1.1.1", depth: 3)
+
+  // Make headings visually distinct without extra boilerplate.
+  show heading.where(level: 1): it => [
+    #set text(size: 18pt, weight: "bold")
+    
+  ]
+  show heading.where(level: 2): it => [
+    #set text(size: 14pt, weight: "semibold")
+    
+  ]
+  show heading.where(level: 3): it => [
+    #set text(size: 12pt, weight: "bold")    
+  ]
+  doc
+}
+
+#let simple_title_page(title, author, date: none) = [
+  #set page(numbering: none)
+  #align(center)[
+    #v(6cm)
+    #text(size: 26pt, weight: "bold")[#title]
+    #v(6mm)
+    #text(size: 14pt, weight: "medium")[Autor: #author]
+    #if date != none [
+      #v(3mm)
+      #text(size: 12pt)[Datum: #date]
+    ]
+  ]
+]
+
+#let simple_style = (
+  layout: set_simple_layout,
+  title_page: simple_title_page,
+)
diff --git a/simple_style_demo.typ b/simple_style_demo.typ
new file mode 100644
index 0000000..cf83778
--- /dev/null
+++ b/simple_style_demo.typ
@@ -0,0 +1,29 @@
+#import "simple_style.typ": set_simple_layout, simple_style
+
+#let author = "Max Mustermann"
+
+#(simple_style.title_page)(
+  "Einfaches Typst-Beispiel",
+  author,
+  date: datetime.today().display()
+)
+
+#pagebreak()
+
+#show: set_simple_layout
+
+#set text(font: "Helvetica")
+
+#heading(level: 1)[Einleitung]
+Dies ist ein kompaktes Beispiel für einen eigenen Typst-Stil. Die Layout-Einstellungen werden in *simple_style.typ* gebündelt, und der Autor #author wird automatisch eingefügt.
+
+#heading(level: 2)[Motivation]
+Eigene Styles helfen dabei, mehrere Dokumente einheitlich zu formatieren, ohne jedes Mal alle Einstellungen wiederholen zu müssen.
+
+#heading(level: 3)[Listen]
+- Einheitliche Schrift
+- Konsistente Abstände
+- Automatische Nummerierung
+
+#heading(level: 1)[Weitere Inhalte]
+Nutze dieselben Funktionen für Kapitel wie für normale Texte. Die Nummerierung passt sich automatisch an, sobald mehr Abschnitte hinzukommen.