diff --git a/Masterarbeit_draft.typ b/Masterarbeit_draft.typ index 00ed5f9..78490a4 100644 --- a/Masterarbeit_draft.typ +++ b/Masterarbeit_draft.typ @@ -2,7 +2,7 @@ #let meta = (thesis.meta)( "KI-gestütztes Reverse Requirements Engineering bei Legacy-Software", - subtitle: "Masterarbeit an der Hochschule Neu-Ulm", + "Masterarbeit an der Hochschule Neu-Ulm", "Christoph Musterfrau", "Master of Science", "Prof. Dr. Daniel Schallmo", @@ -24,18 +24,17 @@ #pagebreak() +#set heading(numbering: "1.1.1") + #(thesis.body_show)() #(thesis.body_content)([ - #set page(numbering: "roman") - #counter(page).update(1) - #heading(level: 1)[Inhaltsverzeichnis] - #outline(depth: 3) + #set page(numbering: "1") + #counter(page).update(1) + #outline(depth: 2, title: "Inhaltsverzeichnis") #pagebreak() - #set page(numbering: "arabic") - #counter(page).update(1) - + #heading(level: 1)[Einleitung] #heading(level: 2)[Motivation und Ausgangssituation] Beschreibe die Relevanz der Migration der c-entron ERP-Software. diff --git a/Protokoll Reaktionskinetic.md b/Protokoll Reaktionskinetic.md new file mode 100644 index 0000000..aa7e83d --- /dev/null +++ b/Protokoll Reaktionskinetic.md @@ -0,0 +1,92 @@ +# Protokoll des Versuchs Gaschromatographie + +## Reaktionskinetik + +### Versuchsdurchführung + +Vor dem Versuch wurde vom Betreuer die **Referenzlösung** bestehend aus +2650 µl Puffer, 100 µl Semicarbazid-HCl, 200 µl NAD und 10 µl GSH +in die Referenzküvette pipettiert und der Nullabgleich des Spektrometers durchgeführt. + +Wir führten **11 Enzymtests** durch. +Zunächst wurden 2500 µl Puffer, 100 µl Semicarbazid-HCl, 200 µl NAD, 10 µl GSH und 100 µl Ethanol-Testlösung gemischt und im Spektrometer temperiert. Danach wurde die entsprechende Menge Ethanol hinzugegeben — im ersten Versuch 0 µl und in den weiteren Versuchen jeweils 10 µl mehr. Das Gemisch wurde dann 240 s lang im Spektrometer gemessen. + +--- + +## Auswertung 1 + +| Ethanol [µl] | n [µmol] | Vges [ml] | cs [mmol/l] | 1/cs [l/mmol] | +|---------------|-----------|------------|--------------|---------------| +| 0 | 0,00 | 2,96 | 0,00 | ∞ | +| 10 | 173,28 | 2,96 | 58,54 | 0,0171 | +| 20 | 346,56 | 2,96 | 117,08 | 0,0085 | +| 30 | 519,84 | 2,96 | 175,62 | 0,0057 | +| 40 | 693,12 | 2,96 | 234,16 | 0,0043 | +| 50 | 866,40 | 2,96 | 292,70 | 0,0034 | +| 60 | 1039,68 | 2,96 | 351,24 | 0,0028 | +| 70 | 1212,96 | 2,96 | 409,78 | 0,0024 | +| 80 | 1386,24 | 2,96 | 468,32 | 0,0021 | +| 90 | 1559,52 | 2,96 | 526,86 | 0,0019 | +| 100 | 1732,80 | 2,96 | 585,40 | 0,0017 | + +*Tabelle 1: Messprotokoll I* + +--- + +| Ethanol [µl] | ΔE/Δt (min⁻¹) | v₀ (µmol l⁻¹ min⁻¹) | 1/v₀ (l min µmol⁻¹) | v₀/cs (10⁻³ min⁻¹) | +|---------------|----------------|---------------------|---------------------|--------------------| +| 0 | 0,0084 | 0,00026 | 3846,15 | ∞ | +| 10 | 0,0101 | 0,00034 | 1515,15 | 0,000002 | +| 20 | 0,1926 | 0,00554 | 180,50 | 0,000019 | +| 30 | 0,4092 | 0,01148 | 87,10 | 0,000027 | +| 40 | 0,4385 | 0,01196 | 83,61 | 0,000022 | +| 50 | 0,6109 | 0,01683 | 59,41 | 0,000024 | +| 60 | 0,6084 | 0,01665 | 60,06 | 0,000020 | +| 70 | 0,6593 | 0,01817 | 55,03 | 0,000018 | +| 80 | 0,6354 | 0,01738 | 57,53 | 0,000016 | +| 90 | 0,7997 | 0,02272 | 44,01 | 0,000017 | +| 100 | 0,8794 | 0,02440 | 40,98 | 0,000017 | + +*Tabelle 2: Messprotokoll II (ΔE/Δt durch lineare Regression bestimmt)* + +--- + +## Auswertung 2 – Lineweaver-Burk + +- Steigung: m = 0,00000965 × 10⁻³ min⁻¹ +- Achsenabschnitt: b = 0,00288 µmol/l +- KM = 0,0033 mmol/l +- v₀,max = 347,22 l min/µmol + +--- + +## Auswertung 3 – Eadie-Hofstee + +- Steigung: m = −861,76 × 10⁻³ min⁻¹ +- Achsenabschnitt: b = 0,37 µmol l⁻¹ min⁻¹ +- KM = 861,76 mmol l⁻¹ +- v₀,max = b + +--- + +## Auswertung 4 – Michaelis-Menten + +- KM = 0,015 +- v₀,max = 0,03 + +Die Michaelis-Menten-Auftragung ist sehr einfach, da die maximale Geschwindigkeit und die Konstante direkt aus der Formel abgelesen werden können. Diese Methode ist genauer und erfordert kaum Rechenzeit. + +Bei Lineweaver-Burk und Eadie-Hofstee werden die Werte mithilfe von Ausgleichsgeraden bestimmt. Da die Geraden unterschiedlich (linear oder logarithmisch) aufgetragen werden können, ergeben sich abweichende Werte. Zudem können durch ungenaues Ablesen Rundungsfehler entstehen. + +--- + +## Auswertung 5 – Temperaturabhängigkeit + +Die Geschwindigkeitskonstante *k* hängt exponentiell von der Umgebungstemperatur *T* ab: + +\[ +k = k_0 \, e^{-\frac{E_A}{RT}} +\] + +Diese Konstante beeinflusst die Michaelis-Menten-Gleichung, welche wiederum die Reaktionsgeschwindigkeit bestimmt. Eine Temperaturänderung führt also zu einer Änderung der Reaktionsgeschwindigkeit. +Damit die Temperatur während des Versuchs konstant bleibt, wird die Lösung **vor Beginn temperiert**. So hängt die Reaktionsgeschwindigkeit nur noch von der Änderung der Stoffmenge ab. diff --git a/StilVorlagen/Ausarbeitung.md b/StilVorlagen/Ausarbeitung.md new file mode 100644 index 0000000..ae83a3c --- /dev/null +++ b/StilVorlagen/Ausarbeitung.md @@ -0,0 +1,29 @@ +Einleitung + +Unsere Aufgabe bestand darin Die beiden Protein 1HVR und 1AZM mit ihren Liganden mit Hilfe von Autodock 3.0 zu docken und die Ergebnisse mit den vorhandenen Kristallstrukturanalysen zu vergleichen. Hierzu haben wir die entsprechenden pdb Files von www.pdb.org verwendet. Diese mussten um korrekte Ergebnisse zu erzielen vor dem docken vorbereitet werden. Dazu zählt das Entfernen von freien Wassermolekülen um das Protein und die Entfernung der apolaren Wasserstoffe; die polaren dienen zur Berechnung der WBB. (genaueres siehe einzelne Proteine). +Über Autodock +Für die einzelnen Dockingläufe wurde Autodock 3.0 von 1998 verwendet. Die Energiefunktion von Autodock 3.0 lautet: + + +Hierin sind Berücksichtigt: +* H-Brücken +* vdW-Wechselwirkungen +* Elektrostatik +* Entropie aus internen FG des Liganden +* Solvatationsbeiträge + +Das besondere an Autodock ist nun dass diese Energiefunktion nicht zur Laufzeit des Dockings sondern schon im Voraus berechnet wird. Um die Berechnung zu beschleunigen wird zudem ein diskretes Gitter Über die Bindungsstelle gelegt und die Energien nun für die Einzelnen Gitterpunkte berechnet. Zum docken liegen nun schon alle Energien berechnet vor so dass diese nur noch ausgelesen werden müssen. Der größte Nachteil hierbei ist ein großer Speicherverbrauch da pro Atomtyp/Wechselwirkung Ein Gitter angelegt wird. +Das eigentliche Docking erfolg nun über einen Lamarckschen genetischen Algorithmus bei dem die Ligandenkonformation als Chromosome kodiert sind. Jedes Individuum besitzt hierbei 3 Gene für Translation 4für Rotation und je ein Gen pro interner Torsion. +Docking von 1HVR +Über 1HVR +1HVR ist eine Protease des HIV-1 die eine große Rolle in der Reifung neuer Viren spielt. Die Inhibierung dieser Protease führt zur Bildung nichtinfektiöser Viren. Daher ist 1HVR ein attraktives Ziel zur Bekämpfung von AIDS. + +Vorbereitung +Wie in der Einleitung bereits erwähnt liegt der Enzym-Substrakt-Komplex bereits durch Röntgenstrukturanalyse als pdb Datei vor. Diese Datei musste nun vor dem Docking von freien Wassermolekülen bereinigt werden um keine Verzerrung der Ergebnisse zu erzielen. Des weiten mussten alle unpolaren Wasserstoffe entfernt und alle noch fehlenden polaren Wasserstoffe hinzugefügt werden um eine korrekte Berechnung der Wasserstoffbrücke zu erreichen. Anschließen musste noch die Größe und Auflösung des Gittes um die Bindungsstelle angegeben werden + +Docking +Erster Schritt des Dockings mit Autodock 3.0 ist die Berechnung der Energiegitter mit Hilfe der Energiefunktion. Anschließen wird auf Grundlage dieser Energiegitter gedockt. Ein kompletter durchlauf mit 20 Wiederholungen dauerte ca. 5 Minuten. + +Ergebnis +Der beste dieser Läufe lag mir einem rmsd von 0.42 sehr nahe an der schon vorliegenden Struktur.(Siehe Abb.) + diff --git a/StilVorlagen/Ausarbeitung.zip b/StilVorlagen/Ausarbeitung.zip new file mode 100644 index 0000000..5e185a7 Binary files /dev/null and b/StilVorlagen/Ausarbeitung.zip differ diff --git a/StilVorlagen/DIL_M4_Study Paper_Schwörer_Führung und Schlüsselqualifikation.md b/StilVorlagen/DIL_M4_Study Paper_Schwörer_Führung und Schlüsselqualifikation.md new file mode 100644 index 0000000..e3e8fdd --- /dev/null +++ b/StilVorlagen/DIL_M4_Study Paper_Schwörer_Führung und Schlüsselqualifikation.md @@ -0,0 +1,838 @@ +Self Leadership: +Wer bin ich - und wenn ja, wieviele? + +Autor: Christoph Schwörer + +Datum 17.05.2024 Title + + + + + + + + + Inhalt + +Einleitung .................................................................................................................... 3 + +Theoretischer Hintergrund .......................................................................................... 4 + +Messinstrumente ..................................................................................................... 4 + +Merkmale Psychologischer Tests ........................................................................ 4 + +Die „Big 5“ ........................................................................................................... 5 + +Motive .................................................................................................................. 6 + +Das „Emotional Intelligence Inventar“ (EI4) ......................................................... 8 + +Methodik und Testdurchführung ............................................................................... 10 + +Testergebnisse ......................................................................................................... 12 + +Diskussion ................................................................................................................ 15 + +Fazit und Ausblick ..................................................................................................... 16 + +Literaturverzeichnis .................................................................................................. 17 + +Ehrenwörtliche Erklärung .......................................................................................... 18 + +2/18 + + + + + + + Einleitung + +„Wer bin ich – Und wenn ja, wie viele?“ Diese Frage stellt der deutsche Philosoph + +David Rupert Precht in seinem gleichnamigen Buch. Um diese Frage eingehend zu + +klären, müssen wir uns selbst beobachten und damit in Einklang bringen wie andere + +uns Wahrnehmen uns Bewerten. Je besser wir darin sind diese zwei Perspektiven in + +Einklang zu bringen, desto erfolgreicher sind wir im privaten und auch im beruflichen + +Leben. Die wissenschaftliche Disziplin, die sich mit diesem Thema beschäftigt nennt + +sich Self-Leadership oder im deutschen Selbstführung und setzt sich zusammen aus + +Konzepten des Managements und der Psychologie. Sie beschreibt unsere Fähigkeit + +sich selbst zu bewerten, zu führen, sich Ziele zu setzen und sich selbst zu motivieren. + +Seit der Prägung des Begriffs Self Leadership im Jahr 1983 durch Charles C. Manz in + +seinem Buch "The Art of Self-Leadership: Strategies for Personal Effectiveness in your + +Life and Work" wurde er stetig weiterentwickelt. + +Wie aber bewertet man sich selbst richtig. Hierbei ist es wichtig zu wissen nach + +welchen Kriterien und Merkmalen man sich selbst bewertet. Bereits in den 1930er + +Jahren begannen Gordon Allport und Henry Odbert mit der Forschung zur + +Klassifizierung von Persönlichkeitsmerkmalen. Diese Forschung setzte sich fort, bis + +sie in den 1980er Jahren im Big5 Modell mündete. Dieses Modell beschreibt 5 + +Kernelemente eine Persönlichkeit: Offenheit für Erfahrungen, Gewissenhaftigkeit, + +Extraversion, Verträglichkeit und Neurotizismus. Den Eigenschaften gemein ist, dass + +sie gut messbar und sehr stabil sind. Das heißt sie schwanken nicht mit der Tagesform + +und bleiben in ihrer Ausprägung über lange Jahre gleich beständig. + +Eine weitere Möglichkeit einen Charakter zu bewerten ist über seine Emotionale + +Intelligenz. In seinem Buch "Emotional Intelligence: Why It Can Matter More Than IQ" + +(1995) beschreibt Daniel Goleman die fünf Hauptkomponenten der Emotionalen + +Intelligenz: Selbstwahrnehmung, Selbstregulation, Selbstmotivation, Empathie und + +soziale Fähigkeiten. + +Um sich selbst zu bewerten, genügt somit ein standardisierter Test jeweils für die Big + +5 und zur emotionalen Intelligenz. Die Beantwortung der eingehenden Frage „Wer bin + +ich – Und wenn ja, wie viele?“ bleibt aber noch aus. Denn vor allem die Frage „Wie + +viele?“ zielt nach Ansicht des Autors auf eine weiter greifende Frage. Zeigt eine Person + +in verschiedenen sozialen Umfeldern oder Rollen auch unterschiedlich starke + +3/18 + + + + Ausprägungen von Charaktereigenschaften. Und wie stark variieren hierbei die Selbst- + +und die Fremdwahrnehmung voneinander. Um diese Frage zu beantworten, stellt sich + +der Autor dem Selbstexperiment und bewertet sich selbst in seiner privaten Rolle als + +Familienvater aber auch in seiner beruflichen Rolle als Führungskraft. Ergänz wird + +diese Selbstbewertung um eine Fremdbewertung jeweils aus der Familie und aus dem + +Arbeitsumfeld. + +Theoretischer Hintergrund + +Messinstrumente + +Psychologische Tests sind standardisierte wissenschaftliche + +Instrumente, die + +verwendet werden, um verschiedene psychologische Merkmale, wie Fähigkeiten, + +Persönlichkeitseigenschaften, Einstellungen und Verhaltensweisen, zu messen. Diese + +Tests sind so konzipiert, dass sie valide und reliable Ergebnisse liefern, die es + +ermöglichen, objektive und vergleichbare Daten zu erheben. + +Merkmale Psychologischer Tests + +Um aussagekräftige und zuverlässige Ergebnisse zu liefern, müssen psychologische + +Tests bestimmte Merkmale aufweisen [Leong, Bartram (2016); The ITC International + +Handbook of Testing and Assessment] + +Standardisierung + +Die Durchführung der Tests erfolgt unter einheitlichen Bedingungen, um Verzerrungen + +zu minimieren und die Vergleichbarkeit der Ergebnisse zu gewährleisten. Dies + +beinhaltet gleiche + +Instruktionen, Testmaterialien und Zeitvorgaben + +für alle + +Testpersonen. + +Validität + +Ein Test ist valide, wenn er tatsächlich das misst, was er zu messen vorgibt. Arten der + +Validität umfassen Inhaltsvalidität (umfasst das Testmaterial das gesamte Spektrum + +des zu messenden Konstrukts?), Konstruktvalidität + +(misst der Test das + +4/18 + + + + + + zugrundeliegende theoretische Konstrukt?) und Kriteriumsvalidität (sagt der Test ein + +relevantes externes Kriterium vorher?). + +Reliabilität + +Die Reliabilität eines Tests bezieht sich auf seine Zuverlässigkeit und Konsistenz. Ein + +reliabler Test liefert bei wiederholter Durchführung unter gleichen Bedingungen + +ähnliche Ergebnisse. Dies umfasst interne Konsistenz (wie gut die einzelnen Testitems + +zusammenhängen), Retest-Reliabilität (Stabilität der Testergebnisse über die Zeit) und + +Interrater-Reliabilität (Übereinstimmung zwischen verschiedenen Beurteilern). + +Objektivität + +Ein Test ist objektiv, wenn seine Durchführung, Auswertung und Interpretation + +unabhängig vom Testleiter sind. Dies stellt sicher, dass die Ergebnisse nicht durch + +subjektive Einflüsse verzerrt werden. + +Die „Big 5“ + +Auch Ocean Model genannt. Im Folgenden werden die 5 Zentralen Dimensionen der + +Persönlichkeitsforschung (Offenheit, Gewissenhaftigkeit, Extraversion, Verträglichkeit + +und Neurotizismus), auch Faktoren genannt, genauer erklärt. + +Offenheit für Erfahrungen (engl. Openness) + +Dieser Faktor beschreibt die Neigung einer Person offen gegenüber neuen + +Erfahrungen und + +Ideen zu sein und kreative Lösungen zu erarbeiten. + +Personen mit einem hohen Wert an Offenheit werden häufig als wissbegierig, + +intellektuell, fantasievoll, neugierig oder aufgeschlossen beschrieben. Eine Vorliebe für + +Kunst, Literatur und Musik wird + +in + +(Schwaba et al, 2018) beschrieben. + +Personen mit einem niedrigen Wert an Offenheit neigen dagegen zu konservativen + +Einstellungen und werden oft als pragmatisch oder engstirnig beschrieben. + +Gewissenhaftigkeit (engl. Conscientiousness) + +Dieser Faktor beschreibt die Tendenz einer Person selbst-diszipliniert, selbst- + +organisiert zu sein. Er beschreibt den Grad an Selbstkontrolle und Zielstrebigkeit einer + +Person. Personen mit hohen Werten an Gewissenhaftigkeit werden häufig als + +organisiert, zuverlässig, sorgfältig und effektiv beschrieben. Personen mit niedrigen + +5/18 + + + + + Werten an Gewissenhaftigkeit fallen häufig durch spontanes Verhalten auf können + +aber auch flexibler sein. + +Extraversion (engl. Extraversion) + +Dieser Faktor beschreibt die Fähigkeit von Personen aktiv auf andere zuzugehen mit + +ihnen zu kommunizieren und sich durchsetzen zu können. Personen mit einem hohen + +Wert an Extraversion werden als kontaktfreudig, gesellig, heiter, aber auch + +durchsetzungsstark beschrieben. Das Gegenteil der Extraversion ist hierbei die + +Intraversion. Personen mit einem niedrigen Wert an Extraversion (respektive hohen + +Wert an + +Introversion) wirken daher eher nachdenklich, verschlossen und + +zurückhaltend. + +Verträglichkeit (engl. Agreeableness) + +Dieser Faktor beschreibt, wie gut sich eine Person in einem sozialen Umfeld bewegen + +und eingliedern kann. Personen mit hohen Werten an Personen mit einem Hohen Wert + +an Verträglichkeit werden häufig als anerkennen, verständnisvoll, kooperativ und + +wertschätzend beschrieben. Sie sind allgemein gute Team-Player. Personen mit einem + +niedrigen Wert an Verträglichkeit sind häufig kritisch, unfreundlich oder streitsüchtig. + +Neurotizismus (engl. Neuroticism) + +Das Gegenteil dieses Faktors wir im deutschen auch Emotionale Stabilität genannt. Er + +beschreibt, wie stark ein negatives Ereignis eine Person emotional beeinflussen kann. + +Personen mit einem hohen Wert an Neurotizismus sind oft angespannt, nervös, + +unsicher und haben Schwierigkeiten in Stresssituationen. Personen mit einem + +niedrigen Wert an Neurotizismus sind ich sich selbst gefestigt und wirken ruhig, + +zufrieden und sicher. + +Motive + +Die Motivationspsychologie versucht die unterschiedlichen Bedürfnisse und Antriebe + +von Individuen erklären. Diese Motive beeinflussen, wie Menschen ihre Ziele setzen + +und verfolgen sowie wie sie in verschiedenen sozialen und beruflichen Kontexten + +handeln. Im Folgenden werden die 3 wesentlichen Motive näher beschrieben. + +Machtmotiv + +Das Machtmotiv bezieht sich auf das Bedürfnis eines Individuums, Einfluss auf andere + +auszuüben, Kontrolle über Ressourcen zu haben und eine dominante Rolle in sozialen + +oder beruflichen Beziehungen zu spielen. (McClelland, 1987) + +6/18 + + + + Merkmale des Machtmotivs sind: + +• Der Wunsch nach Einfluss und Kontrolle über andere + +• Das Streben nach Führungspositionen und Entscheidungsbefugnissen + +• Die Suche nach Anerkennung und Status + +• Die Tendenz, Herausforderungen und Wettbewerb zu suchen + +Leistungsmotiv + +Das Leistungsmotiv bezieht sich auf das Bedürfnis eines Individuums, hohe Standards + +zu erreichen, Exzellenz in Tätigkeiten zu zeigen und durch persönliche Fähigkeiten + +und Anstrengungen erfolgreich zu sein. (Murray, 1938) + +• Merkmale des Leistungsmotivs sind: + +• Das Streben nach Exzellenz und Perfektion + +• Der Wunsch, anspruchsvolle Ziele zu setzen und zu erreichen + +• Die Freude an der Bewältigung von Herausforderungen + +• Die Präferenz für Aufgaben, die durch persönliches Wissen oder Fähigkeiten + +erfüllt werden können + +Sicherheitsmotiv + +Das Anschlussmotiv bezieht sich auf das Bedürfnis eines Individuums nach sozialen + +Beziehungen, Zugehörigkeit und positiver sozialer Interaktion. (McClelland, 1987) + +• Merkmale des Sicherheitsmotivs sind: + +• Der Wunsch nach freundschaftlichen und harmonischen Beziehungen + +• Das Bedürfnis nach sozialer Anerkennung und Akzeptanz + +• Die Freude an gemeinschaftlichen Aktivitäten und Zusammenarbeit + +• Die Tendenz, Konflikte zu vermeiden und Kooperation zu fördern + +7/18 + + + + + + + Das „Emotional Intelligence Inventar“ (EI4) + +In seinem Buch "Emotional Intelligence: Why It Can Matter More Than IQ" (1995) + +beschreibt Daniel Goleman die fünf Hauptkomponenten der Emotionalen Intelligenz: + +Selbstwahrnehmung, Selbstregulation, Selbstmotivation, Empathie und soziale + +Fähigkeiten. Basierend auf diesen Eigenschaften entwickelt Lars Satow in einem Test + +Emotional Intelligence Inventar (EI4) die folgenden 4 testbaren Bereiche Emotionaler + +Intelligenz. + +Einfühlungsvermögen + +Einfühlungsvermögen oder Empathie ist ein zentraler Bestandteil der emotionalen + +Intelligenz und umfasst die Fähigkeit, die Emotionen und Perspektiven anderer + +Menschen zu verstehen und sich in diese hineinzuversetzen. Damit einhergehend ist + +die Fähigkeit angemessen darauf zu reagieren und so die Kommunikation zu fördern + +und Konfliktlösung und Zusammenarbeit zu fördern. Eine der grundlegenden Quellen + +zur Erforschung der emotionalen Intelligenz, einschließlich Empathie, ist das Buch von + +Daniel Goleman, „Emotional Intelligence: Why It Can Matter More Than IQ“ (1995). + +Menschenkenntnis + +Menschenkenntnis ist die Operationalisierung des Einfühlungsvermögens auf der + +kognitiven Ebene. Es beschreibt die Fähigkeit die Charaktereigenschaften, Motive und + +Ziele anderer Menschen richtig zu verstehen und daraus ihre Handlungen abzuleiten + +oder vorherzusagen. Menschenkenntnis ist keine inhärent angeborene Fähigkeit, + +sondern wird im Laufe des Lebens erlernt und verbessert. + +Überzeugungskraft + +Überzeugungskraft bezieht sich auf die Fähigkeit, andere Menschen durch effektive + +Kommunikation, Charisma und emotionale Interaktion zu beeinflussen und zu + +überzeugen. Diese Fähigkeit ermöglicht es einer Person, ihre Ideen und Standpunkte + +klar und überzeugend darzulegen und andere zu motivieren, ihre Sichtweise zu + +akzeptieren oder bestimmten Handlungen zu folgen. + +Emotionale Selbstkontrolle + +Emotionale Selbstkontrolle beschriebt sich auf die Fähigkeit, die eigenen Emotionen + +bewusst zu regulieren und zu steuern, um angemessen und konstruktiv auf + +verschiedene Situationen zu reagieren. Diese Fähigkeit ermöglicht es, impulsive + +8/18 + + + + Reaktionen zu vermeiden, stressige Situationen zu bewältigen und nach außen hin + +ruhig zu wirken, um die eigenen Ziele zu verfolgen. + +9/18 + + + + + + Methodik und Testdurchführung + +In diesem Kapitel wird die Methodik und Durchführung der Big Five + +Persönlichkeitsmerkmale und des Emotional Intelligence Inventory (EI4) Tests sowohl + +aus Eigenperspektive als auch aus Fremdperspektive beschrieben. Ziel ist es, ein + +umfassendes Verständnis der Vorgehensweise bei der Erhebung dieser + +psychologischen Maße zu vermitteln. + +Zur Durchführung der Big 5 und IE4 Tests sollen allgemein anerkannte Tests mit einer + +großen Gesamtstichprobe verwendet werden. Die Auswahl fällt hierbei auf die Tests + +von Dr. Lars Satow (2011) + +Testumfang + +Der „Big 5“-Test von Dr. Satow beinhaltet einen Fragebogen mit 72 Fragen die mit 4 + +möglichen Antworten auf einer Skala von 1 (Trifft gar nicht zu) bis 4 (trifft genau zu) + +beantwortet werden können. Es kann jeweils nur eine Antwort angekreuzt werden. Das + +Ergebnis des Tests sind Werte für die Big 5 (Neurotizismus, Extraversion, + +Gewissenhaftigkeit, Offenheit, und Verträglichkeit) sowie den damit verbundenen + +Motiven (Leistungsmotiv, Machtmotiv und Anschlussmotiv). Zudem wird ein Wert für + +die Ehrlichkeit bei der Beantwortung und eine die damit verbundene Plausibilität + +ausgegeben. + +Für den IE4 Test stehen 28 Fragen zu Auswahl die jeweils auf einer Skala von 1 – 4 + +beantwortet werden. Als Ergebnis werden Werte + +für Einfühlungsvermögen, + +Menschenkenntnis, Überzeugungskraft und Emotionale Selbstkontrolle ausgegeben., + +Zur Durchführung beider Tests gelten folgende Kriterien: + +• Die Tests dürfen nur von Erwachsenen Personen älter als 16 Jahren + +durchgeführt werden. + +• Die Teilnehmer sollten ausgeruht sein und dürfen nicht unter Einfluss + +Bewusstseinsverändernder Drogen oder Medikamente stehen. + +• Zur Durchführung der Tests werden die Testbögen in 10-20 Minuten durch den + +Testteilnehmer möglichst spontan beantwortet. + +• Die Teilnehmer sollten ungestört und ohne äußeren Einfluss die Fragen + +beantworten. + +10/18 + + + + Testdurchführung + +Um der Frage nachzugehen, ob sich Selbst- und Fremdwahrnehmung sowie die + +Bewertung im Kontext verschiedener sozialer Rollen sich voneinander unterscheiden + +werden 4 Tests durchgeführt. + +1. Selbstwahrnehmung + +2. Fremdwahrnehmung aus Sicht eines Familienmitglieds + +3. Fremdwahrnehmung aus Sicht eines weiteren Familienmitglieds + +4. Fremdwahrnehmung aus Sicht des Vorgesetzen auf der Arbeitsstelle + +Alle Tests wurden nach den im vorigen Absatz beschriebenen Kriterien durchgeführt, + +um ein möglichst genaues Ergebnis zu erhalten und eine Einflussnahme des + +Testsubjekts bei der Fremdwahrnehmung auszuschließen. + +11/18 + + + + + + + Testergebnisse +In diesem Kapitel werden die Ergebnisse zu den „Big 5“ und „EI4“ – Test dargestellt + +und beschrieben. Zur kompakteren Darstellung wurden die Ergebnisse kumuliert + +untereinander in einer Tabelle dargestellt. + +Big 5 + +In Abb. 1 sind die Testergebnisse aller durchgeführten Tests zu den Big 5 dargestellt. + +Wie man erkennt, liegen die Ergebnisse der Fremdwahrnehmung je Merkmal jeweils + +in einem Cluster mit einer maximalen Abweichung von 2 Graden zur + +Selbstwahrnehmung. Lediglich beim Merkmal „Extraversion“ gibt es eine Abweichung + +von 3 Graden. + +Die Mittlere Abweichung von der Selbstwahrnehmung stellt sich wie folgt dar: + +N +0,67 + +E +1,67 + +C +1,00 + +O +0,67 + +A +0,33 + +LM +0,67 + +MM +0,67 + +SM +0,67 + +Ø +0,79 + +Eigenschaft / Motiv +Mittlere Abweichung +Selbstwahrnehmung + +EI4 + +In Abb. 2 sind die Testergebnisse aller durchgeführten Tests zum EI4 dargestellt. Auch + +hier liegen die Ergebnisse der Selbstwahrnehmung und der Fremdwahrnehmung + +innerhalb eines Intervalls von 2 Graden um die Selbstwahrnehmung. Die einzige + +Abweichung ist im Bereich „Überzeugungskraft“ mit einer Abweichung von 3 Graden + +zu sehen. + +Die Mittlere Abweichung von der Selbstwahrnehmung stellt sich wie folgt dar: + +Eigenschaft / Motiv +Mittlere Abweichung +Selbstwahrnehmung + +EM +0,67 + +Mk +0,33 + +Ue +1,00 + +eS +1,00 + +Ø +0,75 + +12/18 + + + + + + + Abbildung 1: Ergebnisse Big 5 Tests + +13/18 + + + + + Abbildung 2: Ergebnisse EI4 Tests + +14/18 + + + + + + + Diskussion + +In diesem Abschnitt werden die Ergebnisse des Big Five Persönlichkeitsmerkmale- + +Tests und des Emotional Intelligence Inventory (EI4) Tests ausgewertet und + +interpretiert. Der Fokus liegt dabei auf den durchschnittlichen Abweichungen zwischen + +Selbst- und Fremdwahrnehmung sowie deren Implikationen. + +Die beim Big 5 Test Ausgewerteten Ergebnisse liegen bei der Durchschnittlichen + +Abweichungen zwischen Selbst- und Fremdwahrnehmung unter 1 Punkt und somit + +sehr nahe beieinander. Daraus lassen sich zwei Aussagen treffen. Erstens, Die + +bewertete Person hat eine starke Ausprägung der „Öffentlichen Person“ nach dem + +JoHari-Fenster [Luft, Ingram (1955)]. Das heißt die verfügbaren Informationen im + +„öffentlichen Raum“ sind allen Testteilnehmern so gut bekannt, dass die Fragen alle + +weitestgehend gleich beantwortet werden konnten. Die zweite Aussage ist, dass die + +getestete Person auch in verschiedenen sozialen Umfeldern (Arbeit / zu Hause) gleich + +bewertet wird. Die getestete Person zeigt also in den verschiedenen Umfeldern + +dennoch immer die gleichen Charaktereigenschaften. Die eingängliche These, dass + +eine Person in verschiedenen Sozialen Umfeldern unterschiedliche Ausprägungen der + +einzelnen Charaktereigenschaften zeigt, konnte mit diesem Test also nicht + +nachgewiesen werden. Es zeigt sich sogar, dass die Charaktereigenschaften sehr + +stabil sind und nicht schwanken. + +Auch die Ergebnisse des Emotional Inventory 4 bestätigen dieses Bild, Denn auch hier + +liegen + +die + +durchschnittlichen + +Abweichungen + +zwischen + +Selbst- + +und + +Fremdwahrnehmung unter 1 Punkt. Dies deutet auf eine stabile Emotionale Basis die + +die Selbstwahrnehmung bestimmt sowie eine gute Kommunikation der Emotionen + +nach außen so, dass sich die Fremdwahrnehmung mit den tatsächlich empfundenen + +Emotionen deckt. + +15/18 + + + + + + Fazit und Ausblick + +Die Frage „Wer bin ich, und wenn ja wie viele?“ die darauf hinauszielen soll, dass man + +sich als Person in verschiedenen Umfeldern auch unterschiedlich verhält kann nach + +dieser Studie nur mit „Man ist, wer man ist“ beantwortet werden. Konkret zeigt sich + +dies in der sehr geringen Schwankung der Ergebnisse bei der Charaktereigenschaft + +der Big5 oder auch der Emotionalen Komponenten im Emotional Inventory 4 zwischen + +privatem und beruflichem Umfeld. + +Bezogen auf das Thema „Self-Leadership“ sollte man sich also darüber im Klaren sein, + +dass man ein Charaktereigenschafts-bedingtes Verhalten in allen Situationen an den + +Tag legt. Möchte man sich also selbst führen und nachhaltig verbessern ist es dabei + +wichtig dies auf alle Situationen anzuwenden und nicht nur Umfeldbezogen. + +Kritik an der Methodik dieser Studie kann man daran üben, dass bei der Auswertung + +der Antworten nicht nach spezifischen Kriterien der befragten Personen unterschieden + +wurde. Es wurde also bei der Auswertung keine Rücksicht auf das alter, das + +Geschlecht oder den Bildungsstand der Antwortenden genommen. Der Vorschlag für + +eine Folgestudie zur Ermittlung relevanter Faktoren bei der Fremdwahrnehmung liegt + +daher nahe. Die Frage, die sich hierbei stellt, ist, ob die Bewertung von bestimmten + +Kriterien und deren Gewichtung abhängig von persönlichen Faktoren sind. So wäre + +zum Beispiel zu klären ob Frauen bestimmte Fragen in der Fremdwahrnehmung + +anders gewichten als die selbstwahrnehmende Männliche Person. + +16/18 + + + + + + Literaturverzeichnis + +Precht, R.D. (2007) Wer bin ich – und wenn ja, wie viele? + +Allport, G. W., & Odbert, H. S. (1936). "Trait-names: A psycho-lexical study." + +Psychological Monographs, 47(1), i-171. + +Michael G. Goldsby, Elizabeth A. Goldsby, Christopher B. Neck, Christopher P. + +Neck and Rob Mathews „Self-Leadership: A Four Decade Review of the Literature + +and Trainings + +Goldberg, L. R. (1981). "Language and individual differences: The search for + +universals in personality lexicons." Review of Personality and Social Psychology, 2, + +141-165. + +Daniel Goleman (1995). „Emotional Intelligence: Why It Can Matter More Than IQ“ + +Leong, Bartram (2016). „The ITC International Handbook of Testing and Assessment“ + +Luft, J.; Ingham, H. (1955). "The Johari window, a graphic model of interpersonal + +awareness". Proceedings of the Western Training Laboratory in Group Development. + +Los Angeles: University of California, Los Angeles. + +17/18 + + + + + + Ehrenwörtliche Erklärung + +Hiermit erkläre ich, Christoph Schwörer, dass ich die vorliegende Arbeit mit dem Titel + +„Self Leadership: Wer bin ich - und wenn ja, wieviele?“ selbstständig und ohne + +unerlaubte Hilfe angefertigt habe. Ich habe keine anderen als die angegebenen + +Hilfsmittel verwendet und alle Quellen, die ich wörtlich oder sinngemäß übernommen + +habe, sind als solche kenntlich gemacht. + +Ich versichere, dass ich die Arbeit noch keiner anderen Prüfungsbehörde vorgelegt + +und mich auch noch keinem anderen Prüfungsverfahren mit dieser Arbeit unterzogen + +habe. + +Falls die Arbeit personenbezogene Daten enthält, erkläre ich hiermit, dass ich die + +Datenschutzbestimmungen eingehalten und die Daten nur mit ausdrücklicher + +Zustimmung der Betroffenen verwendet habe. + +Biberach, 26.06.2024 + +Christoph Schwörer + +18/18 + + + + + \ No newline at end of file diff --git a/StilVorlagen/Diplomarbeit.md b/StilVorlagen/Diplomarbeit.md new file mode 100644 index 0000000..fb54286 --- /dev/null +++ b/StilVorlagen/Diplomarbeit.md @@ -0,0 +1,4184 @@ +EBERHARD-KARLS-UNIVERSIT ¨AT T ¨UBINGEN +Wilhelm-Schickard-Institut f¨ur Informatik +Lehrstuhl Rechnerarchitektur + +Diplomarbeit + +Active Structure Learning using Genetic +Algorithms and Kernel Functions + +Christoph Schw¨orer + +Betreuer: + +Prof. Dr. rer. nat. Andreas Zell +Wilhelm-Schickard-Institut f¨ur Informatik + +Prof. Dr. rer. nat. Karl-Heinz Wiesm¨uller +EMC Microcollections GmbH + +Begonnen am: + +13th January 2010 + +Beendet am: + +12th July 2010 + + Erkl¨arung + +Hiermit versichere ich, diese Arbeit selbstst¨andig +verfasst und nur die angegebenen Quellen benutzt +zu haben. + +T¨ubingen am 12th July 2010 + +Christoph Schw¨orer + + Kurzfassung. +Current 3D QSAR approaches attempt to build models base not only on 1D or 2D descriptors +of molecules like weight, charge or molecular graphs, but also on 3D sensitive information +like the conformation or information about the molecules surface. A basic assumption on +building these 3D QSAR models is that the best results are attained by using the best available +(i.e., the obtained active structure) data. In this work I tried to find such a best achievable 3D +QSAR model by the means of optimizing a model over a set of conformations using a genetic +algorithm and three different kernel methods. The intent was to see if these resulting models +would include the active structures. For the generation of the sets of conformations I used +two different approaches. The first being a precomputation of the conformations the second +an implicit generation concurrent to the optimization. The results will show that the model +with the best generalization and prediction accuracy in most cases do not include the active +conformation but conformations with a minimal average pairwise distance to all other possible +conformations of the respective molecules. + + Contents + +1 + +Introduction + +1 + +. + +. + +. + +4 +2 Background Information +4 +2.1 Kernel Functions +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . +. +4 +2.2 Support Vector Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . +7 +2.3 Rotation with quaternions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . +7 +. . . . . . . . . . . . . . . . . . . . . . . +2.4 RMSD calculation with quaternions +2.5 Genetic Algorithm . +9 +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . +2.6 Quantitative Structure-Activity Relationship . . . . . . . . . . . . . . . . . . . 11 + +. + +. + +. + +. + +. + +. + +. + +. + +. + +. + +. + +. + +. + +. + +. + +. + +. + +13 +3 Materials and Methods +3.1 Overall process . +. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 +3.2 Radial Distribution Function . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 +. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 +3.3 Kernel . +Probability Product Kernel . . . . . . . . . . . . . . . . . . . . . . . . 17 +3.3.1 +3.3.2 Radial Basis Function Kernel +. . . . . . . . . . . . . . . . . . . . . . 18 +3.3.3 Atom Pair Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 +. +. . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 +Precomputed Conformation Sampling . . . . . . . . . . . . . . . . . . 21 +Implicit Conformation Sampling . . . . . . . . . . . . . . . . . . . . . 24 +. . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 +. . + +3.4 Dataset +. +. +3.5 Conformation Sampling . + +3.6 SVR . + +3.5.1 +3.5.2 + +. . + +. . + +. + +. + +. + +. + +. + +. + +. + +. + +. + +. + +. + +. + +4 Results + +. + +. + +Initial Runs . + +28 +4.1 Precomputed Conformation Sampling . . . . . . . . . . . . . . . . . . . . . . 28 +4.1.1 +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 +4.1.2 Reduced Dataset with PPK and RBF Kernel . . . . . . . . . . . . . . . 33 +4.1.3 Reduced Dataset with Atom Pair Kernel . . . . . . . . . . . . . . . . . 35 +4.1.4 Alternative Parameters for the Product Probability Kernel +. . . . . . . 37 +4.1.5 Alternative Parameters for APK . . . . . . . . . . . . . . . . . . . . . 39 +Increased Mutation Rate . . . . . . . . . . . . . . . . . . . . . . . . . 41 +4.1.6 +4.1.7 Alternative Conformation Sampling . . . . . . . . . . . . . . . . . . . 42 +4.1.8 Alternative Mutation Operator . . . . . . . . . . . . . . . . . . . . . . 45 +4.1.9 Reruns +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 +Implicit Conformation Sampling . . . . . . . . . . . . . . . . . . . . . . . . . 47 +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 +4.2.1 +. +. . . . . . . . . . . . . . . 51 +4.2.2 Reduced Dataset and Fixed Conformation + +Initial Runs . + +4.2 + +. . + +. . + +. + +5 Discussion + +6 Prospects + +iv + +52 + +54 + + Bibliography + +Contents + +55 + +v + + Contents + +vi + + 1 Introduction + +In drug design one of the major goals is to find new lead structures. Lead structures already +show a certain affinity towards the intended target but express unwanted side effects or lack +certain properties. For example they may be toxic or have a low bioavailability. Without a +detailed understanding of the biochemical processes responsible for the activity the search for +such a new lead structure is non-trivial. + +The usual process is to simply try a huge combination of different chemical compounds in +vitro and observe their activity. But the combinatorial possibilities of this strategy can explode +even for small systems. For instance the number of compounds needed to place 10 substituents +on the four open positions of an asymmetrically disubstituted benzene ring system is approxi- +mately 10,000. + +Therefore this classical screening process was automatized and combinatorially optimized +in the last decades to high throughput screening (HTS) which allowed for a systematical search +in greater databanks with hundreds of thousands of entries. But still this process makes up a +large amount of the development-costs and -time. Further the chemical compounds needed for +the synthesis are often rare and hard to come by in the purity needed for reliable results. + +One way to optimize this exhaustive search and give an indication of the right direction is +to develop a model that quantitatively relates variations in biological activity to changes in +molecular properties which can be easily obtained for each compound. One of the first to build +such a model was Corvin Hansch correlating lipophilicity and polarity with biological activity +in his Hansch method [Han69]. But there exist many other approaches to this Quantitative +Structure-Activity Relationship (QSAR) principle, which mostly differ in their use of molecular +descriptors and mathematic models such as Partial Least Squares or Principal Component +Analysis. The QSAR models developed in this work are based on kernels which are evaluated +by Support Vector Regression. + +In the recent years several models have been developed using 3D descriptors of molecules. +These 3D descriptors are important, because to build a model and gain understanding for the +binding process it is not enough to know of the single component and values of a molecule but +also to know their 3D dimensional arrangement. As one can see for example on fig 1.1 where a +single molecule can take on several conformations. To know which of these conformation is the +active conformation can improve the modeling process and the understanding of the chemical +processes leading to the activity. + +One thing all QSAR methods have in common is the basic assumption that the biological +activity is an additive function of the molecular properties (2D or 3D) of the substituents and +groups of the respective structure. Not only the mere presence of those groups is essential but +also their three dimensional arrangement. + +This leads to the expectation that on using 3D descriptors only good and correct training data +including 3D information of the molecules leads to a good model of the activity. But, what if +this doesn’t hold true? What if a better model can be created not using the actually correct +physical data? The question is if the reverse of this expectation is always valid, thus if the +model quality is bijective to the training data quality. + +1 + + 1 Introduction + +Figure 1.1: This figure shows an overlay of six conformations of the same thrombin inhibitor. + +One can see the high flexibility of the lower ring system. + +(a) This figure shows the standard process for building a +QSAR model. + +(b) This figure shows the reverse process of optimizing a +QSAR model with respect to the training data quality + +Figure 1.2: These figures show the standart and the process used in this work to build a QSAR +model. To optimize the model quality with respect to the varying training data the +process has been reversed. + +To test, whether one can find such a model I will reverse the QSAR approach (see figure 1.2 . +Therefore optimizing the QSAR model to predict activity by the means of altering the training +dataset, where for each data point several values are given including the actual physical ones. +While the input data points vary (i.e. their molecular descriptors) their target function value + +2 + + (i.e. the activity) stays the same. + +The intention of this experiment is to see if the best attainable model includes the actual +active structure or the artificially created one. To this end I compiled a data set and created a set +of conformers for each molecule. Then I concurrently optimized the activity prediction over +the whole training dataset not to favor one molecule over the other by successively optimizing +one after the other. A good way to handle multidimensional optimization with several datasets +is to use a genetic algorithm which I did in this case. + +In this work I will show the methods used for the generation of the the dataset, the optimization +and the evaluation. Further I will present the results and discuss their significance. Finally I +will give a perspective of further work which can be done on this topic. + +3 + + 2 Background Information + +2.1 Kernel Functions + +Detecting linear relations has been the focus of much research in statistics and machine learning +for the last few decades and the resulting algorithms are well understood, well developed and +efficient [Sew07].However, many models of natural processes aren’t linear. So, if a problem +is non-linear, instead of trying to fit a non-linear model, one can map the problem from the +inputspace X to a new higher-dimensional space called the f eaturespace F and then use +a linear model in the feature space. This mapping can be achieved by doing a non-linear +transformation. For example the function φ can be given as + +φ : R2 → R3 with φ (x1, x2) = (x2 +1, + +(cid:112) + +2x1x2, x2 +2) + +(2.1) + +While this function is a very simple one, other functions can easily become computationally +impracticable for both polynomial features and higher dimensionality. This is grounded on the +(cid:17) +, with d = dim X +fact that the number of different monomial features of degree p is +[Vap95] (e.g. p = 7, d = 28 · 28 = 748, corresponds to a total of approximately 3, 7 · 1016 +features). + +(cid:16) d+p−1 +p + +The key to an efficient computation is the observation made by [BGV92] that + +(cid:68)(cid:16) + +x2 +1, + +(cid:112) + +2x1x2, x2 +2 + +(cid:17) + +(cid:16) +x(cid:48)2 +1, + +, + +(cid:112) + +2x(cid:48) + +1x(cid:48) + +2, x(cid:48)2 +2 + +(cid:17)(cid:69) + += (cid:104)x, x(cid:48)(cid:105)2 + +(2.2) + +which allows the use of kernel f unctions where φ must not be explicitly known as long as the +function corresponds to a dot product in the FeaturespaceF + +k(x, x(cid:48)) := (cid:104)φ (x), φ (x(cid:48))(cid:105) + +(2.3) + +2.2 Support Vector Regression + +Many multi variant systems assume that there is a linear relation between X and Y which holds +for all samples. In chemoinformatics this assumption does not hold true and causes a variety of +problems on the prediction of unknown data points. One way to solve these occurring problems +is to use non-linear learning methods such as support vector regression (SVR). The support +vector algorithm is a non-linear generalization of the Generalized Portrait algorithm developed +in Russia in the 1960’s [VL63] [VC64]. Its groundwork, the statistical learning theory, or VC +theory, has been developed over the last half century by Vapnik and Chervonenkis [VC74] +[Vap82] [Vap95]. The VC theory defines properties of learning machines, enabling them to +generalize to unseen data. + +Given a set of training data {(x1, y1), ..., (yn, yn)} ⊂ χ × R with χ denoting the space of input +patterns (e.g. χ = Rd) the goal of ε − SV regression is to find a function f (x) with a maximum + +4 + + 2.2 Support Vector Regression + +deviation of ε from the actually received targets yi for all the training data. In addition f should +be as flat as possible. The form of a linear function f is given as + +f (x) = (cid:104)w, x(cid:105) + b with w ∈ χ, b ∈ R + +(2.4) + +with (cid:104)·, ·(cid:105) denoting the dot product in χ and flatness meaning a small w. To attain this we +2 (cid:107)w(cid:107)2 which can be formally written as a convex optimization +minimize the euclidean norm 1 +problem: + +minimize + +subject to + +1 + +2(cid:107)w(cid:107)2 +(cid:40) + +yi − (cid:104)w, xi(cid:105) − b ≤ ε +(cid:104)w, xi(cid:105) + b − yi ≤ ε + +(2.5) + +The above formula is viable for all problems where a function f actually exists that approx- +imates all pairs (xi, yi) with precision ε. If this is not the case, or if we want to allow some +errors, according to [CV95] one can introduce slack variables ξi, ξ ∗ +i + +leading to the formula: + +minimize + +subject to + +i=1(ξi + ξ ∗ +i ) + +1 + +2 (cid:107)w(cid:107)2 +C ∑n + + + +yi − (cid:104)w, xi(cid:105) − b ≤ ε + ξi +(cid:104)w, xi(cid:105) + b − yi ≤ ε + ξ ∗ +i +ξi, ξ ∗ + +i ≥ 0 + + + +(2.6) + +Where the constant C > 0 defines the trade off between the flatness of f and the amount up to +which deviations larger than ε are tolerated. This is the same as dealing with a ε-intensive loss +function |ξ |ε denoted by: + +(cid:40) + +|ξ |ε := + +0 +|ξ | − ε + +if|ξ | ≤ ε +else + +(2.7) + +Figure 2.1 depicts the use of ξ and ε. Extending support vector machines to solve non linear +problems is possible by using a standard dualization approach utilizing Lagrange multipliers as +described in [Fle89] leading to the following formula: + +L := 1 + +2 (cid:107)w(cid:107)2 +C ∑n + +i=1(ξi + ξ ∗ + +i ) − ∑n + +i=1(ηiξi + η ∗ + +i ξ ∗ +i ) + +− ∑n + +i=1 αi(ε + ξi − yi + (cid:104)w, xi(cid:105) + b) + +(2.8) + +− ∑n + +i=1 α ∗ + +i (ε + ξ ∗ + +i + yi − (cid:104)w, xi(cid:105) − b) + +With L being the Lagrangian and ηi, η ∗ +satisfy the constraints + +i , αi, α ∗ +i + +the Lagrangian multipliers. Thus they have to + +ηi, η ∗ + +i , αi, α ∗ + +i ≥ 0 + +(2.9) + +To gain an optimal result one can infer from the saddle point condition that the partial deriva- + +5 + + 2 Background Information + +Figure 2.1: The image shows the use of ξ and ε in a support vector regression. Data points +with a distance smaller than ε are not considered an error. For data points with a +distance larger than ε the parameter ξ decides wether they are tollerated or not. + +tives of L have to vanish + +∂ L +∑n +∂ b = +∂ L +∂ w = w − ∑n +∂ L +∂ ξi +∂ L +∂ ξ ∗ +i + +i=1(α ∗ +i − αi) +i=1(αi − α ∗ +C − αi − ηi +i − η ∗ +C − α ∗ +i + += + += + += 0 +i )xi = 0 += 0 += 0 + +Substituting eq 2.7 into eq. 2.6 leads to the dual optimization problem: + +(cid:40) + +maximize + +subject to ∑n + +i, j=1(αi − α ∗ +i=1(αi + α ∗ + +2 ∑n +− 1 +i )(α j − α ∗ +−ε ∑n +i ) + ∑n +i=1(αi − α ∗ +i ) = 0 and αi, α ∗ +i we can further reformulate (7) to η (∗) + +j )(cid:104)xi, x j(cid:105) +i=1 yi(αi − α ∗ +i ) +i ∈ [0,C] + +i = C − α (∗) + +i + +Having already eliminated ηi, η ∗ +follows + +w = + +n +∑ +i=1 + +(αi − α ∗ + +i )xi, thus f (x) = + +n +∑ +i=1 + +(αi − α ∗ + +i )(cid:104)xi, x(cid:105) + b. + +(2.10) + +(2.11) + +so that + +(2.12) + +The fact that the dataxi only contributes in form of the dot product allows the introduction of +kernel functions in such a way that + +This allows the prediction of unknown data points via + +k(xi, x j) = (cid:104)φ (xi), φ (x j)(cid:105) + +n +∑ +i=1 + +(αi − α ∗ + +i )k(x, x j) + b + +f (x) = + +6 + +(2.13) + +(2.14) + + 2.3 Rotation with quaternions + +2.3 Rotation with quaternions + +Quaternions are an extension of the complex numbers invented by William Rowan Hamilton in +1843[Ham66] and formally introduced to computer graphics by the publication of Shoemaker +[Sho85] [Har94] + +Quaternions encode rotations by a set of 4 real numbers (or 2 complex numbers), while a +linear representation of a rotation requires a 3 × 3 Matrix, thus 9 numbers. Further Quaternions +occupy a smooth, seamless isotropic space which is the generalization of the surface of a sphere. +This means that one doesn’t need to take special care in avoiding singularities (e.g., the gimbal +lock, where two rotation axes collapse into one making the interpolation irreversible). + +The four-dimensional space H is spanned by the real axis and three additional orthogonal +axes, spanned by the vectors i, j, k called the principal imaginaries, which obey Hamilton’s +rule + +Where the three dimensional vectors i, j, k signify + +i2 = j2 = k2 = ijk = − 1 + +i = (1,0,0) +j = (0,1,0) +k = (0,0,1). + +(2.15) + +(2.16) + +A quaternion q = r + xi + yj + zk consists of a real part r and a pure part xi + yj + zk and can +be written as a three dimensional vector an a scalar + +The sum of two quaternions is given as + +q = (a, b) + +q1 + q2 = (a1 + a2) + (v1 + v2) + +and their product as + +(2.17) + +(2.18) + +q1q2 = a1a2 − b1 · b2 + a1b2 + a2b1 + b1 × b2 + +(2.19) + +where the multiplication of two quaternions q1q2 with unit length (i.e. absolute value = 1) and +q2 being a pure quaternion (i.e. with a = 0) causes a rotation of b2 around the axis described +by b1 for cos−1 2φ degrees. Where φ is the desired rotation angle. + +2.4 RMSD calculation with quaternions + +In various cheminformatic situations the problem arises of finding the best superposition of on +rigid object onto another. For example to give a similartiy measure for two proteins or in case +of this work two conformations of the same molecule. One method is finding the best rotation +and translation to minimize the root mean square deviation (RMSD) [Kab76] with examples +are given by [Dia76] and [McL72]. A prerequisite for this method is a given assignment of the +points matched on each other. Usually such an assignment is already given (e.g., the canonical +atom numbering of two different conformations). + +The mathematical problem can the be stated as follows: [Cou04] + +7 + + 2 Background Information + +“given a ordered set of vetors yk (target) and a second set xk (model), 1 ≤ k ≤ N, find a + +orthogonal transformation U and a translation r such that the residual E (weighted by wk) + +E := + +1 +N + +N +∑ +k=1 + +wk|U xk + r − yk|2 + +(2.20) + +is minimized. ”Where the weight factor wk allows to lay the emphasis on certain parts of the +structure in question. + +While Kabsch’s method uses Lagrange multipliers, Mackay proposed a method in 1984 +[Mac84] using quaternions to calculate the rotation matrix. One disadvantage of Mackay’s +method was that, using a linear form of the least square errors, the results could be false where +objects had different relative orientations in space. In 1989 Kearsley developed a method, solv- +ing the non-linear least square error problem with an eigenvalue determination through the use +of quaternions [Kea89]. The proof that both, Kabschs and Kearsleys methods lead to the same +result was brought by Coutsias et al. in 2005 [Cou05]. + +If xk and yk are considered as pure quaternions, with xk := (0, xk) and xc + +k = −xk the rotation + +U (q) can be written as + +And the residual function is transformed using quaternions to + +(0, U (q)xk) = qxkqc + +Eq = + +1 +N + +N +∑ +k=1 + +(qxqc − yk)(qxqc − yk)c + +An expansion and a multiplication by N leads to + +NEq = ∑N + +k=1(qxkqc)(qxkqc)c + ykyc + +k(qxkqc)yc + +k − yk(qxkqc)c + +(2.21) + +(2.22) + +(2.23) + += ∑N + +k=1(xkxc + +k + ykyc + +k + (qxkqc)yk + yk(qxkqc)) + +where the normalization qqc = 1 and the property of pure quaternions xc = −x has been used. +qxkqc and yk being pure quaternions and with a, b pure ab + ba = 2(−a · b, 0) = 2([ab]0, 0) the +last two terms in eq. 2.23 can be combined as follows + +(qxkqc)yk + yk(qxkqc) = 2([yk(qxkqc)]0, 0) + +(2.24) + +This means that only the 0th component is non-zero. Because of the associativity of the quater- +nions one can write yk(qxkqc) = (ykqxk)qc and define xk := ykqxk wich leads to the 4-vector +form of zk, Zk with Zk = AL(yk)AR(xk)Q with AL, AR defined as follows + +AR(p) = + + + + + + + +p0 −p1 −p2 −p3 +p3 −p2 +p1 +p0 +p1 +p2 −p3 +p0 +p0 +p2 −p1 +p3 + + + + + + + +, AL(p) = + + + + + + + +p0 −p1 −p2 −p3 +p2 +p0 −p3 +p1 +p0 −p1 +p2 +p3 +p0 +p1 +p3 −p2 + + + + + + + +(2.25) + +8 + + All together we can write + +followed by the residue + +with + +−2yT +k + +U (q)xk = 2[yk(qxkqc)0 + += 2[zkqc]0 += 2(zk0q0 + zk · q) += 2QT Zk += 2Z T Al(yk)R(xk)Q + +NEq = + +N +∑ +k=1 + +(|xk|2 + |yk|2) − 2QT F Q + +F := − + +N +∑ +k=1 + +AL(yk)AR(xk) + +2.5 Genetic Algorithm + +(2.26) + +(2.27) + +(2.28) + +leading to the full form of the matrix F in terms of the correlation matrix R + +F = + + + + + + + +R11 + R22 + R33 +R23 − R32 +R31 − R13 +R12 − R21 + +R23 − R32 +R11 − R22 − R33 +R12 + R21 +R13 + R31 + +R31 − R13 +R12 + R21 +−R11 + R22 − R33 +R23 + R32 + +R12 − R21 +R13 + R31 +R23 + R32 +−R11 − R22 + R33 + + + + + + + +(2.29) + +In this way the problem can be reduced to finding the extreme of a quadratic form QT F Q +for the four variables qi, i ∈ {0, 1, 2, 3} subject to the constraint QTQ = 1. Here QT F Q is the +standard Rayleigh quotient for a symmetric matrix F , where the maximum value of QT F Q +is equal to its larges eigenvalue which leads to the following problem + +which in turn leads to the following expression for the best RMSD Value + +F Q = λ Q + +(cid:115) + +eq = + +(cid:114) + +min +(cid:107)q(cid:107)=1 + +Eq = + +∑N + +k=1(|xk|2 + |yk|2) − 2λmax +N + +(2.30) + +(2.31) + +2.5 Genetic Algorithm + +In cheminformatics one often encounters optimization problems with several variable param- +eters. Traditional optimization methods such as steepest decent often fail at this task because +they often run into a local optimum. To get around this problem Prof. John Holland developed +the class of Genetic Algorithms (GA’s) at the University of Michigan during the 60’s and 70’s +[Hol75]. + +Genetic algorithms belong to the class of stochastic search methods. Their distinctive feature +is, that instead of operating on a single solution like most other stochastic search methods, they +operate on a whole set of solutions. The term Genetic Algorithm is a tribute to their basic +operations which derive from natural evolutionary processes, such as inheritance, mutation, +selection, and crossover. + +9 + + 2 Background Information + +Given a problem P with parameters x1, ..., xn the first step is to initialize a first set of solutions, +called population M(0). Each single solution is called individual m and is represented by a bit +string called chromosome (see fig x). The initial value of each parameter is chosen at random +within its predefined range. + +Figure 2.2: This figure shows two individuals with parameters x1, .., x4 encoded as a series of + +binary representations of different length. + +The second step is to evaluate each individual (i.e. solution) in the current population M(t) +for its fitness. This is done by and applying the individuals parameter values to a fitness function +(which in most cases is the initial problem function) and assigning the function result as fitness +value u(m). This means that the parameters of individuals with higher fitness values lead to a +better result of the problem function. + +The third step is to assign each of the current individuals a selection probability p(m) which +depends on the individuals fitness value u(m). This selection probability determines if a in- +dividual is chosen for mating. There are several methods of assigning selection probabilities +like roulette wheel selection (the likelihood of picking an individual is proportional to the indi- +vidual’s score), tournament selection (a number of individuals are picked using roulette wheel +selection, then the best of these are chosen for mating), and rank selection (pick the best in- +dividual every time). Moreover it is important not to use a method which always picks the +individuals with the best fitness because then the population will quickly converge to these +individuals narrowing the search space. + +The fourth step is to generate a new population M(t + 1) using the individuals selected in +step three to produce offspring applying the already mentioned genetic operators mutation and +crossover with a predefined probability (see figure 2.3(a) and 2.3(b) for genetic operators). + +10 + + 2.6 Quantitative Structure-Activity Relationship + +(a) Mutation of the fifth bit from 0 to 1 + +(b) Crossover after the third bit + +Figure 2.3: This figure shows the two genetic operators mutation and crossover. These allow +to generate new individuals from already existing ones and to introduce new sets of +parameters with possible better fitness values. + +Steps two to four are then repeated until one of three possibilities occur. The best fitness +in the current population reaches a given limit, the best fitness does not increase over several, +predefined generations, or the steps two to four are repeated for a specific number of times. + +2.6 Quantitative Structure-Activity Relationship + +For the development of a new drug it is important not only to know its chemical formula but +also its conformation. The underlying principle for that is the so called lock and key principle +postulated by Emil Fischer in 1894 [Fis94] stating that an active compound has to be spacial +complementary to its target to form a complex. But as we know today there are several other +factors that influence the building of an active complex. Those can be direct features of the +molecules, like hydrophobicity, partial atomic charge, binding sites etc., or there can be influ- +ences from the surrounding solution (e.g., water) so that a ligand changes its conformation in +the binding process. These considerations lead to the expansion of the lock and key principle +to the induced fit theory in 1958 [Kos58][Kos94] + +11 + + 2 Background Information + +Figure 2.4: This figure shows a Thrombin-Hirudin complex. The Hirudin(magenta) being the + +key to the Thrombin(blue) lock. + +Also new to this theory was the introduction of flexible binding sites which can account for +differences in specificity and affinity. This leads to the conclusion that the biological activity +is a direct function of the ligands three dimensional structure which in turn is the fundamental +premise for the quantitative structure-activity relationship (QSAR) [SOW04]. QSAR Meth- +ods attempt to represent the relationship between structural attributes of molecules and their +biological activity. In the beginning QSAR models where used to retrospectively analyze the +activity modulation of molecules in a specific subset. But in the last decade QSAR models have +been increasingly used for predictions on novel derivatives of well known ligands [Eki04]. To +be applicable to such a use the applied QSAR models must be able to generalize and predict +activities correctly beyond the chemical space defined by the given training data. + +To that end a large number of methods has been described in the literature since the begin- +ning of the research on QSAR. The early methods implemented only 2D features of molecules +(e.g. the connection table of a molecule), while newer ones often include 3D features like the +chemical properties of molecules in their bioactive conformation [SJ93] [OW91]. + +12 + + 3 Materials and Methods + +In this chapter the two main strategies applied to the problem and the overall process will +be explained in detail and their function will be exemplified. The parameters used for the +experiments and their progress will be given. The implementation of the algorithms or the use +of external programs or code will be described. All algorithms were written in Java. + +3.1 Overall process + +Because this work consist of a concatenation of different machine learning and chemoinformat- +ical methods I will first give an overview of the whole process and then explain the appointed +methods in depth. + +The aim was to see if the best models for an activity prediction included the actual active + +structures of the given molecules or if a better model could be found without them. + +In this work I used two different approaches. The first was to precompile a set of conformers +for each molecule maximizing the coverage of the conformer space and the second was to +create random new conformers during the optimization process. From the set of precompiled +conformers 100 (or the maximum available if lower then 100) were chosen equally distributed +over the calculated relative energy range for each molecule and used as the training set. In both +approaches the optimization was done by a genetic algorithm. The deciding facts for using a +heuristic (in this case the genetic algorithm) were that both a full search of the optimization +space isn’t feasible for 100 molecules each with at least 100 conformation and that the solution +hyperplane is very jagged and there was no information about a starting point. +The information about the molecules conformation were encoded in the GA’s genes, either as a +direct reference to the whole conformation (in the precomputed approach) or as single dihedral +angles for each rotatable bond in each molecule (in the implicit approach). + +After each generation of the GA the fitness of it’s individuals was calculated. In this case +each individual corresponded to a set of conformers for which a kernel matrix using one of the +following kernel methods were used. + +• Probability Product Kernel (PPK) + +• radial basis function(RBF) + +• Atom Pair Kernel (APK) + +The first two of which were working on the RDF of a given molecule and the third one working +directly on 3D model of the conformation. Each kernel matrix therefore consisted of similar- +ity measures between the molecules. And for each molecule pKi value was known. These +informations were used to build a SVR model to predict the activity of an unknown molecule +in relation to it’s similarity to the molecule in the training set. For each model a set of best + +13 + + 3 Materials and Methods + +parameters was searched using 5 repetitions of leave-one-out convoluted with a 5-fold cross- +validation. These best parameters were used to compute the MSE of the model which in turn +served as the fitness value for each individual. + +The next generation of individuals in the GA was then generated using standard GA opera- +tors such as mutation and cross over. The individual selected to mate for the next generation +according to their fitness value. + +(a) In the first approach the conformer sampling was +done before the optimization process + +(b) In the second approach the conformer sampling +was done implicitly as part of the optimization process +by mutating the conformers + +Figure 3.1: These two figures show the different procedures of the two approaches. Both con- +sist of four frameworks indicated by the different colors. The conformer gener- +ation(either with MacroModel or implicit), the GA (with JavaEva2) which runs +the optimization loop, the kernel matrix computation and the SVR modeling (with +libsvm). + +The process of generating new generations, the calculation of each kernel matrix and the +evaluation via the SVR was then repeated 200 times. The development of the MSE for each +individual and the RMSD between the conformations of the individual and the known active +structure was calculated. + +14 + +ConformergenerationGAinitializationGA individualgenerationKernelcalculationSVR modelgenerationIndividualevaluationResult outputConformergenerationGAinitializationGA individualgenerationKernelcalculationSVR modelgenerationIndividualevaluationResult output 3.2 Radial Distribution Function + +3.2 Radial Distribution Function + +An important prerequisite for the computation of active structures with respect to the different +conformations is keeping some kind of knowledge about the 3D structure of the molecules +throughout the whole process. Therefor a molecular representation is needed that guarantees +3D sensitivity. To do so there are some prerequisites for a structure code + +• independence form the numbers of atoms, i.e. the size of the molecule, + +• unambiguity regarding the three-dimensional arrangement of the atoms and + +• invariance against translation and rotation of the entire molecule + +(a) Overlay of three different conformations of the +same molecule + +(b) The RDF for the three molecules shown on the left + +Figure 3.2: These figures show an overlay of three conformations of the same Thrombin in- +hibitor and their RDF. While the internal distances of the ring systems stay the +same (i.e. the peeks representing the ring systems at r ≈ 1.5 and r ≈ 2.6 overlap for +all three molecules) their relative spacial position vary (i.e. the peeks representing +the distances of the ring systems among themselves at r ≈ 6 to r ≈ 12 are set off) + +One method that meets all of the above requirements and which I used in this work is +a derivation of the 3D-Molecule Representation based on Electron diffraction (3D-MoRSE) +[Sch96] [Sel97], the radial distribution funtion [Gas96] [Gas97]. In general this function gives +the probability to find a pair of atoms in the given molecule with similar properties in the +distance r to each other. + +g(r) = f + +N−1 +∑ +i + +N +∑ +j>i + +AiA je−B(r−ri j)2 + +(3.1) + +15 + + 3 Materials and Methods + +where f is the scaling factor and N is the number of atoms. The exponential therm consists +of the distance ri j between two atoms i, j and the smoothing factor B for the probability dis- +tribution which will be explained later. Ai and A j are the characteristic Atom properties. The +properties used in this work are standard properties of the JoeLib2 framework, for example: + +• Electro-topological state + +• Electronegativity (Pauling) + +• Partial charge + +• Atom mass + +• Electron affinity + +• Intrinsic state + +• Free electron count + +• Hybridisation + +• Van-der-Waals volume + +• Heavy atom valence + +• Electrogometrical state + +• Implicit valence + +This distribution function allows to embed a lot of additional information, e.g. bond dis- +tances, ring types, planar and non-planar systems and atom types, all of which are important in +calculating the similarity of two molecules or as in this case the similarity of two conformers +of the same molecule. + +An important factor in using the radial distribution function is the resolution of the 3D model +of the molecule on which the formula is applied. Using exact distances stands in contrast +to physical reality and further restricts the application of any ability to interpolate for better +results. Even though if one wants to compute the similarity of two conformers using paired +atomic distances a certain amount of fuzziness is necessary to account for flexibility and errors +in the initial measurement. Therefor the width of the peaks in the radial distribution function +is determined by the factor B. As an approximation the value of B can be given as a relation +between B and the chosen step size ∆r [Hem99] by + +B (cid:117) (∆r)−2 + +(3.2) + +In this work I started with a value of B = 1000 for my computations. But on realizing that +even slight changes had a large effect on similarity values I successively lowered it up to a value +of B = 10 where only rotations of whole ring systems had a noticeable effect on similarity. The +step size ∆r was always set to value of ∆r = 0.1 ˚A. + +Implementation + +In this implementation the function was internally represented by a vector of double values +each representing the value of the RDF at point g(r) with r ∈ 0.1N. The length of the vector, +and therefore the range of the function with y values ≥ 0 was predetermined by measuring the +longest distance of atom pairs in a molecule over all molecules in the dataset and adding 2 ˚A as +security margin. The preceding scaling factor f was not used (i.e. always set to f = 1). + +16 + + 3.3 Kernel + +Figure 3.3: This figure shows the overlay of three RDF diagrams of the same molecule with +three different values for B: 10, 100, 100. One can see that with increasing B the +smoothness decreases but the information value increases. + +3.3 Kernel + +3.3.1 Probability Product Kernel + +One of the two methods used in this work to give a 3D sensitive representation of a molecule +was the radial basis function (RBF). This function can be regarded as a distinct distribution of +atom pairs in the given molecule. + +Typical kernels compute a generalize inner product between two input objects χ and χ (cid:48) +which is equivalent to applying a mapping function φ to each object and then computing a dot +product between φ (χ) and φ (χ (cid:48)) in a Hilbert space [Jeb04]. This kernel considers the case of a +mapping φ (χ) being a probability distribution p(x|χ), restricting the Hilbert space to the space +of distributions embedded in the Hilbert space. + +In this work the probability distribution φ (x|χ) is given as the RDF function which leads to + +the definition of the probability product kernel as follows + +Definition Let p and p’ be probability distributions on a space X and ρ be a positive con- +stant. Assume that pρ , p(cid:48)ρ ∈ L2(X), i.e. that (cid:82) +X p(cid:48)(x)2ρ dx are well defined (not +infinity). +The probability product kernel (PPK) between distributions p and p’ is defined as + +X p(x)2ρ dx and (cid:82) + +kprob(p, p(cid:48)) = + +(cid:90) + +X + +p(x)ρ p(cid:48)(x)ρ dx = (cid:104)pρ , p(cid:48)ρ (cid:105)L2. + +(3.3) + +Furthermore it is well known that L2(X) is a Hilbert space.Hence the defined kernel is positive +definite for any set of P of probability distributions over X such that (cid:82) +X p(x)2ρ is finite for any + +17 + + 3 Materials and Methods + +p ∈ P. + +Implementation + +The first idea was to implement the computation of the probability product kernel with the +numerical integration of the given RDF functions via Simson’s rule (see figure 3.4) + +(cid:90) b + +a + +f (x)dx ≈ + +(cid:20) + +a − b +6 + +f (a) + 4 f + +(cid:19) + +(cid:18)a + b +2 + +(cid:21) + ++ f (b) + +. + +(3.4) + +Figure 3.4: This figure shows the approximation of a function f (x) by a quadratic interpolation + +P(x). + +The RDF was interpolated by Simpson’s rule in steps of 0.01 which led to an exact calcula- +tion of the integral up to the 6th decimal place and also allowed to freely choose the factor ρ in +the PPK formula. + +But the first tests on this implementation showed that the computation of a single kernel +value could take up to 10 seconds resulting in maximum total of 1.5 hours per kernel matrix. +Being unfeasible due to the enormous amount of need computational power I decided to fix +the parameter ρ with ρ = 1. With this the kernel takes the form of the expectation of one +distribution under the other: + +(cid:90) + +k(p, p(cid:48)) = + +p(x)p(cid:48)(x)dx = Ep[p(cid:48)(x)] = Ep(cid:48)[p(x)] + +(3.5) + +This is also called the expected likelihood kernel. + +3.3.2 Radial Basis Function Kernel + +Another method of measuring similarity between the two result vectors A and B of the RDF +is the use of a radial basis function. A radial basis function (RBF) kernel, also known as an +isotropic stationary kernel [HG04], is defined by a function ψ : [0, inf) → R such that + +k(x, x(cid:48)) = ψ((cid:107)x − x(cid:48)(cid:107)) + +(3.6) + +18 + + where x, x(cid:48) ∈ X and (cid:107) · (cid:107) denotes the Euclidean norm. The use of a special RBF kernel, the +Gaussian RBF kernel has been suggested in [Guy93] with + +3.3 Kernel + +k(x, x(cid:48)) = exp + +(cid:18) + +− + +∑n + +1 (cid:107)xi − x(cid:48) +2σ 2 + +i(cid:107)2 + +(cid:19) + +(3.7) + +where xi and x(cid:48) +width of the sphere surrounding the corresponding training pattern [Cha05]. + +i are the single data points in the result vectors of the RDF. And σ defining the + +The issue on implementing this kernel was to find a viable value for the σ parameter in the +above formula. On choosing σ to low the patterns will tend to be very similar over-fitting +the model and taking away its ability to generalize outside its bounds. While choosing σ to +high will have opposite effect letting the patterns appear very dissimilar and under-fitting the +model. So finding a optimal value for σ is more about finding an acceptable trade-off between +over-fitting in dense areas and under-fitting in sparse areas. + +3.3.3 Atom Pair Kernel + +While the preceeding kernel were based on a RDF representation another method to compare +the 3D structure of two molecules or the different conformations of the same molecule is to +represent the molecule as a trie data. For that I use a derivate of the optimal assignment of atom +pairs [Jah09]. +This method is based on a matrix D = +of binned geometrical distances between the three- +dimensional coordinates of atoms i, j. Where di j are the atomic distances and b is the binning +factor. The matrix D is used a a lookup table for the information needed to build a trie con- +taining all the geometrical information for all atom pairs from a fixed atom i to any other atom. +Where a trie is a prefix based search tree that can be applied to any symbolic pattern with a +reading direction. +At the beginning the trie of atom i only consists of the root labeled with the hash code of the +atomic symbol i. To fill the trie patterns of the form + +(cid:106) di j +b + +(cid:107) + +hash(symbol(i)), di j, hash(symbol( j)) + +(3.8) + +are inserted successively as ordered triplets. An example of a local atom pair environment and +the corresponding trie is shown in figure 3.5. + +19 + + 3 Materials and Methods + +Figure 3.5: Binned geometrical distances, spheres and trie. The upper left figure shows +the spheres of the binned geometrical distances 1.0, 2.0 and 3.0 ˚A for the centered +carbon atom. The sphere of the binned geometrical distance of 0.0 ˚A (distances in +the range [0.0; 1.0)) is not visualized as individual sphere because it contains no +atoms. The upper right figure illustrates the resulting local atom pair environment +of binned geometrical distances. For simplicity, only the distances to non-carbon +atoms are displayed. The lower figure visualizes the corresponding trie of geometric +atomic distances of the annotated atom in the upper figures. The root and leaves are +labeled with the corresponding atom type. The leaves contain additionally the total +number of occurrences in the local atom pair environment.[JZ10] + +The representation of a local atom environment as tries allows the comparison of two local +atom environments by comparing the tries. This can be achieved by applying a well known +similarity measurement like the Tanimoto coefficient + +T (A, B) = + +A · B +(cid:107)A(cid:107)2 + (cid:107)B(cid:107)2 − A · B + +(3.9) + +In this case let LA, LB be two sets of local atom pair environments of two molecular graphs A, B +and lAi ∈ LA, lB j ∈ LB the tries i, j of the nominal features (atom pair environments of atoms i, j. + +20 + + Then the Tanimoto coefficient can be defined as + +Sim(lAi, lB j) = + +(cid:12) +(cid:12)lAi ∩ lB j +(cid:12) +(cid:12)lAi ∪ lB j + +(cid:12) +(cid:12) +(cid:12) +(cid:12) + +3.4 Dataset + +(3.10) + +Implementation + +The implementation used in this work was based on the Chemistry Development Kit (CDK) +[Ste03] [Ste06]an implemented by [Jah09]. + +The single arbitrary parameter b was initially set to b = 0.1 and subsequently set to b = 0.2 + +to account for errors in measurement of the crystal structure. + +3.4 Dataset + +The dataset used in the experiments consisted of two parts. A precompiled set of 88 molecules +taken from [Boe99] and a smaller set of 12 molecules compiled for this work. All of the +molecules in the dataset were thrombin inhibitors with a known pKi value. However only +the 12 molecules in the compiled dataset had crystallographic determined active structures. +The active structures were gained by taking the crystal structure analysis of thrombin with the +respective ligand and extract the bound ligand from the whole structure. + +The fist step therefore was to search for all potential thrombin inhibitors in the scBDP 1 + +[Kel06] + +The second step was to find an entry with the identical structural formula in the Binding + +Database 2 [XG02] for information about pKi Values and publications. + +The third an final step was to download the crystallographic analysis given by the PDB +ID from the Protein Data Bank 3 [Ber77] and to extract the bound ligand with Schr¨odinger’s +Maestro program. Thus these 12 ligands will from now on be referenced by their originating +PDB ID. They are depicted in figure 3.6 and their data and publications is shown in table 3.1. +The 88 precompiled structures were only available as structural formulas so they had to be +converted into a valid 3D conformation. To achieve this they were converted with the CORINA +program [Sad94]. + +Trombin inhibitors were chosen both for their high flexibility and the fact that the interactions +of inhibitors and Thrombin are well investigated and there are several well documented studies +including crystal structures. + +3.5 Conformation Sampling + +3.5.1 Precomputed Conformation Sampling + +The first strategy to be pursued was to precompute a set of conformers for all molecules, pick +a subset of 100 of these conformers per molecule (or less, if less then 100 were available) +and use the genes in the GA as indices for the molecules to chose from. Therefor a mutation +operation in the GA lead not only to a single change in the conformation but could lead to a +whole different one. + +1http://bioinfo-pharma.u-strasbg.fr/scPDB/ +2http://www.bindingdb.org +3http://www.rcsb.org/pdb + +21 + + 3 Materials and Methods + +(a) 1a4w + +(b) 1c5n + +(c) 1ghy + +(d) 1gj4 + +(e) 1gj5 + +(f) 1o2g + +(g) 1o5g + +(h) 2zc9 + +(i) 2zda + +(j) 2zgx + +(k) 2zo3 + +(l) 3dhk + +Figure 3.6: These figures show the 12 molecules with known active structure used in this work. + +They are labeled with the PDB ID they were extracted from. + +22 + + 3.5 Conformation Sampling + +PDB ID pKi value + +resolution (in ˚A) first published in + +1a4w +1c5n +1ghy +1gj4 +1gj5 +1o2g +1o5g +2zc9 +2zda +2zgx +2zo3 +3dhk + +7.796 +4.699 +5.071 +4.222 +6.347 +6.495 +4.957 +7.327 +8.398 +6.745 +10 +6.744 + +1.80 +1.50 +1.85 +1.81 +1.73 +1.58 +1.75 +1.58 +1.73 +1.80 +1.70 +1.73 + +[Mat96] +[Kat00] +[Kat01a] +[Kat01b] +[Kat01b] +[Kat03] +[Kat04] +[Bau09] +[Bau09] +[Bau09] +[Bau09] +[Bau09] + +Table 3.1: This table gives information of all used molecules for which the crystal structure was + +known + +The conformations themselves were generated with the ConfGen program [WS10] which is + +based on the molecular modeling Program MacroModel [SI08b]. + +The first step the program takes is to identify variable features which are rotatable bonds, +flexible ring systems and invertible nitrogens. ConfGen generally identifies a bond as rotatable +if the following criteria are met: + +• It is a single bond + +• It doesn’t lie within a ring + +• Neither of the atoms connected by the bond is terminal (i.e. has no other bonds to it) + +• Neither end of the bond is a CH3, NH2 or NH+ + +3 group + +• Neither atom in the bond is bonded to two or three atoms that are all equivalent and are + +arranged with two- or three-fold rotational symmetry. + +Ring conformers are generated using the same template based facility available in LigPrep +[SI08a], Glide [Fri04], MacroModel [SI08b], or Phase [Dix06]. +It is designed to generate +a complete set of accurate, low energy ring conformation identifying individual rings with a +smallest set of smallest rings (SSSR) method [Zam76]. When a ring system is identified it is +compared to a set of 1252 templates to find the most similar template. This template is then used +to calculate the relative energies of the ring within the molecule. There are Nri combinations of +ring conformations for a whole molecule: + +Nri = 2Ni ∏ + +r + +Ncr + +(3.11) + +where Ni is the number of invertible nitrogen atoms, r runs over all flexible ring systems and +Ncr is the number of templates selected to use for each individual ring system. + +Each of the generated set of ring conformers is then processed as follows. First the potential +of each rotatable bonds connecting the ring systems are calculated using a derivative of OPLS +[Jor88] [Jor96] including a quick check of Lennard-Jones potentials of all atoms on one side +of the bond to all on the other side to avoid local Van-der-Waals clashes. Then the potential + +23 + + 3 Materials and Methods + +parameter +maximum number of seach steps +search steps per rotatable bond +minimum heavy atom RMSD ( ˚A) for +distinct conformer +minimum dihedral angle difference +for polar hydrogens (◦) +maximum relative energy for flexible +rings (kcal/mol) +maximum number of ring conforma- +tions per ligand +maximum number of ring conforma- +tions per ring +maximum relative ConfGen energy +(kcal/mol) +energy threshold for periodic torsions +(kcal/mol) +restraint potentials for weak torsions +in MacroModel (kcal/mol) +restraint potential half width (◦) +suppress hydrogen-bond electrostat- +ics in MacroModel +maximum relative energy all-atom en- +ergy in MacroModel (kcal/mol) + +intermediate +1000 +75 +1 + +comprehensive +1000 +75 +0.5 + +60 + +2.39 + +16 + +8 + +25 + +5.74 + +239 + +10 +Yes + +25 + +60 + +23.9 + +128 + +64 + +119.5 + +5.74 + +239 + +10 +Yes + +119.5 + +Table 3.2: This table shows the parameters used to generate the two datasets. The intermediate +parameter set is more restrictive and almost certainly only picks energetic minima +while the comprehensive parameter set allows for the algorithm to pick a conforma- +tion lying between two optima. + +minima are computed and used to create sets of rotational bonds surrounding the molecular +core (i.e. the part of the molecule remaining if every outer rotational bond is severed). + +For each combination of ring system conformation, invertible nitrogen atom geometry and +minima of rotatable bond dihedral angle all molecule conformations are compiled and, if the +sum of all relative potential (to the one with the least energy) energies doesn’t exceed a preset +limit, the conformation is added to the resulting set of conformers. + +In this work I used two sets of parameters for the algorithm described above. One restrictive +and one permissive. While the restrictive parameter set only generated conformers where the +rotatable bonds took up a local minimum energetic state the permissive one allowed more +freedom. Thus conformations were pickes lying in between local optima and allowing the GA +to successively change more easily from one conformation to another. For the exact parameters +used in the conformer sampling see table 3.2 + +3.5.2 Implicit Conformation Sampling + +The second strategy to be pursued was to not use the precomputed conformation sampling but +to generate a new set of conformations from generation to generation in the genetic algorithm. +Therefor the encoding of the single individuals in the GA had to be different. In contrast to the + +24 + + 3.5 Conformation Sampling + +optimization of the precomputed conformation set, where each ‘gene’represented the confor- +mation ID of a whole molecule, here a ‘gene’ only represented a single rotatable bond within +a molecule. While a mutation on one gene in the GA meant to pick a whole new conformation +of the concerned molecule with possibly every rotatable bond affected, the mutation of a gene +in the implicit conformation sampling only meant the alteration of a single rotatable bond. In +addition it had to be ensured that the crossover operator didn’t cut in the middle of the encoding +of a molecule but only at the end of one and the beginning of the other. Doing a crossover in the +middle of a molecule could lead to an invalid conformation because it couldn’t be guaranteed +that the molecule wouldn’t fold back on itself overlapping one or more atoms. + +Figure 3.7: The figure shows an example of a molecule with nine rotatble bonds an the corre- +sponding encoding as a gene for the GA. The denoted angles are the dihedral angles +for a unique set of deterministically calculated atoms ‘surrounding’the bond + +But before encoding a molecule in the GA one had to know the exact number of rotatable +bonds. For that each bond was inspected and had to meet a list of criteria to count as rotatable. +The criteria used were the ones already implemented in the JoeLib2 framework: + +• The atom at the beginning of the bond has to have a heavy atom valence of > 1 + +• The atom at the end of the bond has to have a heavy atom valence of > 1 + +• The bond order has to be 1 + +• The bond mustn’t lie in a ring system + +• The the atom at the beginning of the bond mustn’t have a hybridization of 1 + +• The the atom at the end of the bond mustn’t have a hybridization of 1 + +If these criteria were met, the bond was added to the molecules rotatable bond list. + +The unit with which the rotations where encoded was 1◦ (i.e. degree) where degree refers to + +the dihedral angle. An angle of 0◦ refers to the original crystallographic conformation. + +For the first generation of the GA a initial set of conformations was computed picking a +random value for the dihedral angle of each rotatabel bond of each molecule in the dataset. + +25 + + 3 Materials and Methods + +After each occurring mutation in the GA the according molecule was computed again with the +new degree value. Where the new value was in reference to the original 0◦ value and not to the +currently applied one. + +To compute a rotation around a rotatable bond one has to rotate each atom belonging to one +of either of the two bipartite graphs formed by splitting the molecular graph at the designated +bond. The bipartite graph was calculated using a stack, adding the beginning atom of the bond +and then recursively adding every atom bound to the ones already on the stack (except for the +atom at the end of the designated rotatable bond) until no new atoms could be found. This was +possible because no bond were allowed to be rotatable if they were in a ring system and no +molecules with macrocyles were in the dataset. + +The actual rotation was achieved by applying a quaternion to each of the atoms in the bi- +partite graph with the center of the coordinate system being the atom at the beginning of the +bond. + +(a) molecule in basic conformation + +(b) molecule with bond Nr. 9 rotated by 90◦ + +Figure 3.8: These two figures show an example of a rotation around one rotatable bond. + +Both, at the initial random initialization of the conformations and at every mutation event it +has to be ensured that the generated conformation is valid (i.e. no atoms or bonds overlap or +lie to close to each other). Therefore for every new conformation all pairwise atom distances +have to be calculated. The chosen value for a lower bound (gathered by calculating the average +minimal distance for non-bound atoms over the whole original dataset) was 2 ˚A while distances +of covalent bonds were ignored. + +26 + + 3.6 SVR + +3.6 SVR + +In this work I used the libSVM implementation by Chang and Lin [CL01] 4. To compute +the MSE a leave-one-out approach was applied. A model of the dataset (i.e represented by the +kernel matrix) was built n times (with n beeing the size of the dataset) always with one different +data point left out. For these datasets a five-fold cross-validation (inner fold) was run 5 times +(inner runs). The inner fold was used to determine the best parameters of the regression (i.e +values of parameters ε and c yielding the best performance on the validation dataset). The inner +runs were used to the best model, with the just computed best parameters. The best model was +then used to predict the currently left out data point. The set of parameters can be seen in table +3.3. + +computation method +inner folds +inner repetitions +c begin +c end +ε begin +ε end + +leave one out +5 +5 +-1 +5 +-7 +-2 + +Table 3.3: This table shows the parameters used to calculate the MSE for the regression on the + +datasets. + +4http://www.csie.ntu.edu.tw/ cjlin/libsvm/ + +27 + + 4 Results + +In this chapter I will present the results, interpret and discuss them. The results are divided +by precomputed and implicit conformation sampling. Each of those two parts is further split +by the used kernel methods and parameters. The results are mostly presented in chronological +order to try and replicate my line of thought. + +Evaluation Method + +To explain the values shown in the following diagrams I will give a short explanation for each +of them. The meaning of the values remains the same for every ‘run’-diagram in this work. + +MSE + +The ‘avg MSE’value shown in each diagram is the average MSE value for one generation +(i.e. 100 individuals). Where MSE is the best found Mean Square Error for each regression. +In the corresponding table I will show the respective numerical values. The ‘Best individual +MSE’ relates to the absolute minimum found by at least one individual. + +RMSD + +The ‘avg RMSD’ value is the average RMSD value for the conformation of the 12 molecules +with known active structure encoded by the current individual to their respective active struc- +ture. The ‘Best individual RMSD’ relates to the individual with the lowest RMSD averaged +over the 12 molecules in my dataset to their respective active structure. + +5% Quantile + +The 5% quantile demarks the value where every point below this line lies in the lowest 5% of all +possible values for the average RMSD. It’s value is exactly 1.629. This was computed picking +20000 random combinations from the conformer sets of each molecule and building the average +RMSD to their respective active structures. From this normal distribution the p−Quantile +with p = 0.05 was calculated using the standard formula x(p) = µ + σ · z(p) where µ is the +expectation and σ 2 the variance and z(0.05) was looked up in the normal distribution table. + +4.1 Precomputed Conformation Sampling + +For the first experiment, the optimization of the QSAR model I used the dataset described ear- +lier. The dataset first included all conformers produced with ConfGen where every molecule +had a different amount of conformers created. To reduce the extent of the combinatorial size +I picked the lower of either 100 or the number of conformers originally created. The selec- +tion method was to pick the conformers equally distributed over their relative energy to the + +28 + + 4.1 Precomputed Conformation Sampling + +conformer with the absolute lowest energy to guarantee an equal distribution over the con- +formational space of each molecule. Because the output sets for each individual conformer +where already sorted by their relative energy I simply had to pick every n-th conformer. Where +n = number of conformers available/100. + +29 + + 4 Results + +(a) This figure shows the avg. MSE, avg RMSD, best +MSE and best RMSD for Run 01 where the PPK Kernel +was used with parameter B = 1000 + +(b) This figure shows the avg. MSE, avg RMSD, best +MSE and best RMSD for Run 02 where the RBF Kernel +was used with parameters B = 1000; sigma = 100 + +(c) [This figure shows the avg. MSE, avg RMSD, best +MSE and best RMSD for Run 02 where the RBF Kernel +was used with smoothing factor = 0.1 + +Figure 4.1: These figures show the results of the first three runs. One can see that the optimiza- +tion works fine due to the MSE declining while the average RMSD only declines in +Run03 using the APK but still doesn’t reach the 5% quantile. + +30 + + 4.1 Precomputed Conformation Sampling + +Paramter / Run Nr. +Kernel method +RDF B factor +RBF Sigma factor +Smoothing factor +Mutation Probability +Mutate first 12 only +Conformation Sampling +Start avg. MSE +End avg. MSE +Diff. Start/End +Best avg. MSE +Best individual MSE +Start avg. RMSD +End avg. RMSD +Diff. Start/End +Best avg. RMSD +Best individual RMSD + +01 +PPK +1000 +- +- +0.1 +no +intermediate +1.256 +0.118 +1.138 +0.109 +0.117 +1.893 +1.878 +0.015 +1.822 +1.525 + +02 +RBF +1000 +100 +- +0.1 +no +intermediate +1.191 +0.536 +0.655 +0.536 +0.526 +1.915 +1.900 +0.015 +1.808 +1.505 + +03 +APK +- +- +0.1 +0.1 +no +intermediate +1.039 +0.337 +0.702 +0.337 +0.335 +1.907 +1.790 +1.117 +1.724 +1.465 + +Table 4.1: This table shows the parameters and the results for Run01,Run02 and Run 03. Pa- + +rameters denoted by ‘- ’are not available for the chosen kernel method + +4.1.1 Initial Runs + +In the first runs (run 01-03) of the experiment I used the PPK and the RBF Kernel on the RDF +of the molecules and the APK to generate the kernel matrix. The parameters were set to their +default values to check the overall function of the optimization. (see table 4.1) + +The results of these three runs are depicted on the left side in figure (4.1). One can see that +the basic optimization is functional. The average MSE declines from the values of 1.256, 1.191 +and 1.039 to values of 0.109, 0.536 and 0.337. But, while the average RMSD declines slightly +in Run03 with the use of the APK it remains at the same level with the use of the PPK and +RBF. Although some isolated individuals get below the 5% quantil mark they are dismissed in +the next generation implying that the individuals with a higher average RMSD result in better +models with lower MSEs. + +My first consideration on evaluating these results where twofold. Either the use of the large +dataset of molecules with unknown active structures impeded the decline of the ones with +known active structures because their weight in the model building process was to large, or the +parameters used were not fit for this kind of optimization. + +Therefore I consecutively lowered the size of the dataset to 56, 41 and 34 molecules, al- +ways including the 12 known active structures, and changed the parameters of the kernels used. +Which are the B parameter for the RDF resulting in a smoother RDF function and the smooth- +ing factor for the APK, both in the hope of a better generalization. These changes are shown in +the next sections. + +31 + + 4 Results + +(a) This figure shows the results for the PPK with B = +1000 on the dataset with 56 molecules + +(b) This figure shows the results for the PPK with B = +1000 on the dataset with 41 molecules + +(c) This figure shows the results for the PPK with B = +1000 on the dataset with 34 molecules + +(d) This figure shows the results for the RBF Kernel +with sigma = 100 on the dataset with 56 molecules + +(e) This figure shows the results for the RBF Kernel +with sigma = 100 on the dataset with 41 molecules + +(f) This figure shows the results for the RBF Kernel with +sigma = 100 on the dataset with 34 moleculesl + +Figure 4.2: These figures show the results of the runs with reduced datasets for the PPK and + +RBF Kernel. + +32 + + 4.1 Precomputed Conformation Sampling + +Parameter / Run Nr. +Kernel method +RDF B factor +RBF Sigma factor +Mutation Probability +Mutate first 12 only +Conformation Sampling +Dataset size +Start avg. MSE +End avg. MSE +Diff. Start/End MSE +Best avg. MSE +Best individual MSE +Start avg. RMSD +End avg. RMSD +Diff. Start/End RMSD +Best avg. RMSD +Best individual RMSD + +04 +PPK +1000 +- +0.1 +no +interm. +56 +1.3470 +0.1184 +1.2286 +0.1128 +0.1091 +1.8626 +1.7738 +0.0888 +1.5744 +1.4630 + +05 +PPK +1000 +- +0.1 +no +interm. +41 +1.4283 +0.0917 +1.3366 +0.0885 +0.0856 +1.8348 +1.6095 +0.2253 +1.5977 +1.2913 + +06 +PPK +1000 +- +0.1 +no +interm. +34 +1.5836 +0.1366 +1.447 +0.1343 +0.1334 +1.8924 +1.9664 +-0.074 +1.5805 +1.5148 + +07 +RBF +1000 +100 +0.1 +no +interm. +56 +1.3432 +0.3663 +0.9769 +0.3663 +0.3578 +1.8239 +1.7765 +0.0474 +1.7443 +1.2660 + +08 +RBF +1000 +100 +0.1 +no +interm. +41 +1.4391 +0.3422 +1.0969 +0.3422 +0.3393 +1.8206 +1.8151 +0.0109 +1.8120 +1.3552 + +09 +RBF +1000 +100 +0.1 +no +interm. +34 +1.5611 +0.4955 +1.0656 +0.4897 +0.4862 +1.8717 +1.9408 +-0.0691 +1.8688 +1.2588 + +Table 4.2: This table shows the parameters and the results for Run 04 through Run 09. Param- + +eters denoted by ‘- ’are not available for the chosen kernel method + +4.1.2 Reduced Dataset with PPK and RBF Kernel + +To see if reducing the dataset size would yield models with a lower average RMSD I ran the +PPK and the RBF on datasets where the only every 2nd, 3rd and 4th molecule with unknown +active structure where included. The hypothesis was that due to the fact that the overall influ- +ence of the known active structures on the model is higher and if the general assumption of +good models consisting of good data (i.e. the active structure) the RMSD would be lower. + +The results of these runs are shown in figure 4.1.1 and table 4.2. With the use of the PPK +(runs 04-06) the average RMSD gets below the 5% quantile at some point. In run 04 and run 05 +the average RMSD gets below the 5% quantile within the first 50 generations but returns to its +starting level shortly after and stagnates. In run 05 however the average RMS stays at a relative +high value in comparison to run 04 and 06 but declines to a value below the 5% quantile mark +after 50 generations. In addition the MSE of the best model found for run 05 was the lowest of +all three runs with final value of 0.0917 in contrast to 0.1184 and 0.1366 for runs 04 and 06. + +With the use of RBF kernel (run 07, run 08 and run 09) the average RMSD didn’t get below +the 5% quantile in any of the 3 runs. Although run 08 on the dataset with 41 molecules showed +a steady decline of the average RMSD which is similar to the results of run 05. It is noticeable +that the initial generation of all three runs consisted of at least one individual with a very +low average RMSD and considering the low starting RMSD more than one. These indivduals +however were dismissed in the first 25 generations resulting in a average RMSD. Furthermore +the best models found by using the RBF kernel had MSE values of 0.3578, 0.3393 and 0.4852 +which is for each more then three times the MSE value of the best model for the PPK with +corresponding dataset size where the values are 0.1091, 0.0856 and 0.1334. + +Considering this direct comparison of the PPK and the RBF kernel the PPK shows better + +results, both for the modeling and for the use of the actual active structure. + +33 + + 4 Results + +(a) This figure shows the results for the APK with +smoothing f actor = 0.1 on the dataset with 56 molecule + +(b) This figure shows the results for the APK with +smoothing f actor = 0.1 on the dataset with 41 molecule + +(c) This figure shows the results for the APK with +smoothing f actor = 0.1 on the dataset with 34 moleculel + +Figure 4.3: These figures show the results of the runs with reduced datasets for the APK. Run + +12 is the model with lowest final average RMSD of all runs. + +34 + + 4.1 Precomputed Conformation Sampling + +Parameter / Run Nr. +Kernel method +RDF B factor +RBF Sigma factor +Smoothing factor +Mutation Probability +Mutate first 12 only +Conformation Sampling +Dataset size +Start avg. MSE +End avg. MSE +Diff. Start/End MSE +Best avg. MSE +Best individual MSE +Start avg. RMSD +End avg. RMSD +Diff. Start/End RMSD +Best avg. RMSD +Best individual RMSD + +10 +APK +- +- +0.1 +0.1 +no +intermediate +56 +1.0026 +0.3420 +0.6606 +0.3420 +0.3390 +1.8399 +1.6799 +0.16 +1.5922 +1.4729 + +11 +APK +- +- +0.1 +0.1 +no +intermediate +41 +1.2949 +0.5053 +0.7896 +0.5051 +0.5028 +1.8381 +2.0098 +-0.1717 +1.7233 +1.3699 + +12 +APK +- +- +0.1 +0.1 +no +intermediate +34 +1.2255 +0.5067 +0.7188 +0.5023 +0.5012 +1.9241 +1.3813 +0.5428 +1.2618 +1.1870 + +Table 4.3: This table shows the parameters and the results for Ru10, Run11 and Run 12. Pa- +rameters denoted by ‘-’ are not available for the chosen kernel method + +4.1.3 Reduced Dataset with Atom Pair Kernel + +The reduction of the dataset had a similar effect on the use of the APK as id had on the RPK. +The starting average RMSD was 1.8399, 1.18381 and 1.9241 and while run 10 and 12 had a +considerably lower end RMSD with 1.699 and 1.3913 the final RMSD of run 11 was 2.0098. +Which is 0.1717 higher then the start RMSD. + +The first and third run, 10 and 12 show a similar development as the earlier runs 04, 05 and +06 with the average RMSD dropping by several percent around generation 50. But in contrast +to all other previous runs the RMSD of run 12 declines further giving an indication that the +optimization reaches a point where it can drop into several minima one of them beeing a model +that included structures more likely to be near the conformation of the active structure. + +Further one can see that for all three kernel methods the overall end MSE value rises with +descending dataset size. This can be lead back to loss of information with decreased data set +size. But both the APK and especially the PPK mostly lead to better models then the RBF dies +with the full dataset of 100 molecules. Where the APK and PPK differ in the way that using +the APK leads to models which have a lower RMSD to the active structures but a higher MSE +while the use of the PPK leads to very good models with the lowest MSE of all all models +created but with higher RMSD values. + +Because most of the resulting models using the APK and PPK with the reduced datasets +where as good as the the ones using the full dataset due to their equal or lower MSE, I decided +to use the reduced dataset for future runs. Since the SVR is contained in O(n3) and the GA is +contained in O(n) this measure cut the computation time for a complete run by at least 50%. + +35 + + 4 Results + +(a) This figure shows the results for the PPK with B = 10 +on the dataset with 34 molecules + +(b) This figure shows the results for the PPK with B = +10 on the dataset with 56 molecules + +(c) This figure shows the results for the PPK with B = +100 on the dataset with 56 molecules + +(d) This figure shows the results for the PPK with B = +500 on the dataset with 34 molecules + +Figure 4.4: These figures show the results of the runs with reduced datasets and altered param- + +eters for the PPK. + +36 + + 4.1 Precomputed Conformation Sampling + +Parameter / Run Nr. +Kernel method +RDF B factor +RBF Sigma factor +Smoothing factor +Mutation Probability +Mutate first 12 only +Conformation Sampling +Dataset size +Start avg. MSE +End avg. MSE +Diff. Start/End MSE +Best avg. MSE +Best individual MSE +Start avg. RMSD +End avg. RMSD +Diff. Start/End RMSD +Best avg. RMSD +Best individual RMSD + +13 +PPK +10 +- +- +0.1 +no +intermediate +34 +1.5727 +0.1701 +1.4026 +0.1645 +0.1595 +1.8585 +1.8107 +0.0478 +1.6172 +1.4992 + +14 +PPK +10 +- +- +0.1 +no +intermediate +56 +1.3344 +0.0853 +1.2491 +0.0838 +0.0814 +1.8323 +1.8826 +-0.0503 +1.7662 +1.3194 + +15 +PPK +100 +- +- +0.1 +no +intermediate +56 +1.3834 +0.0813 +1.3021 +0.0777 +0.0763 +1.8402 +1.7181 +0.1221 +1.7118 +1.0926 + +16 +PPK +500 +- +- +0.1 +no +intermediate +34 +1.5559 +0.1387 +1.4172 +0.1306 +0.1285 +1.9009 +2.0711 +-0.1702 +1.6644 +1.6265 + +Table 4.4: This table shows the parameters and the results for run 13, run 14, run 15 and run + +16. Parameters denoted by ‘- ’are not available for the chosen kernel method + +4.1.4 Alternative Parameters for the Product Probability Kernel + +In addition to reducing the dataset I changed the parameters of the PPK and APK. The results +for the PPK with the B parameter of the RBF set to 10, 100 and 500 in relation to 1000 at the +previous runs are shown in figure 4.4 and table 4.4. One can see that run 16 still shows the low +RMSD values around generation 50 with a strong increase and stagnation afterwards. The runs +13, 14 and 15 also show the decrease of the RMSD around generation 50 but not as strong as +runs with a higher parameter. + +The average RMSD values of runs 13 and 15 only decrease slightly by 0.0478 and 0.1221 +from 1.8585 and 1.8107 to 1.8107 and 1.7181. While the average RMSD values of runs 14 +and 16 even increase by 0.0503 and 0.1702 from 1.8323 and 1.9009 to 1.8826 and 2.0711. The +MSE though reaches the lowest values of all runs with run 15 at a value of 0.777 and the second +lowest at run 14 with 0.0838. + +The fact that a run with parameter B = 10 renders the best resulting model can be lead +back to the fact that the B parameter describes the ‘smoothness’ and distinctness of a RDF. +With declining B the RDF becomes more of a general description of the respective molecule +and its conformation instead of an exact characterization. In this case the presence of distinct +chemical groups or pharmacophores and their arrangement to each other is more important then +their individual orientation. This leads to a better generalization of the model at the cost of a +better discrimination of the conformations for each molecule. + +37 + + 4 Results + +(a) This figure shows the results for the APK with +smoothing f actor = 0.2 on the dataset with 34 molecules + +(b) This figure shows the results for the APK with +smoothing f actor = 0.2 on the dataset with 41 molecules + +the APK +(c) This figure shows +with smoothing f actor = 0.2 on the dataset with 56 +moleculesl + +the results + +for + +(d) This figure shows the results for the APK with +smoothing f actor = 0.2 on the dataset with 100 +molecules + +Figure 4.5: These figures show the results of the runs with reduced datasets and altered param- + +eters for the APK. + +38 + + 4.1 Precomputed Conformation Sampling + +Parameter / Run Nr. +Kernel method +RDF B factor +RBF Sigma factor +Smoothing factor +Mutation Probability +Mutate first 12 only +Conformation Sampling +Dataset size +Start avg. MSE +End avg. MSE +Diff. Start/End RMSD +Best avg. MSE +Best individual MSE +Start avg. RMSD +End avg. RMSD +Diff. Start/End RMSD +Best avg. RMSD +Best individual RMSD + +17 +APK +- +- +0.2 +0.1 +no +intermediate +34 +1.1934 +0.3901 +0.8033 +0.3857 +0.3830 +1.9084 +1.8879 +0.0205 +1.7840 +1.4992 + +18 +APK +- +- +0.2 +0.1 +no +intermediate +41 +1.3013 +0.3813 +0.92 +0.3813 +0.3807 +1.8337 +1.7185 +0.1152 +1.5997 +1.3194 + +19 +APK +- +- +0.2 +0.1 +no +intermediate +56 +0.9636 +0.2805 +0.6831 +0.2796 +0.2774 +1.8434 +1.6696 +0.1738 +1.6470 +1.0926 + +20 +APK +- +- +0.2 +0.1 +no +intermediate +100 +1.0234 +0.2878 +0.7356 +0.2878 +0.2864 +1.9025 +1.9787 +-0.0762 +1.8900 +1.6265 + +Table 4.5: This table shows the parameters and the results for run 17, run 18 and run 19 and run + +20. Parameters denoted by ‘-’ are not available for the chosen kernel method + +4.1.5 Alternative Parameters for APK + +Figure 4.5 and table 4.5 show the results for the runs 17, 18, 19 and 20 using the APK with the +full and the reduced datasets and a smoothing factor of 0.2. Runs 18 and 19 show the first deep +decline of the RMSD at 50 generations to a global minimum of an average RMSD of 1.5997 +and 1.6470 while run 17 shows a steady decline and run 20 an overall stagnation at a RMSD of +approximately 2.0. + +As with the alternation of the B parameter of the PPK, setting the smoothing factor to a +value of 0.2 for the APK changes the generalization of the model resulting in lower MSE +values than previous runs with the use of the APK for all four runs. While the APK only +encodes atom types, distances and binding modes, doubling the smoothing factor still holds +enough information to fit the model. It allows further for the GA to hold more individuals with +a wider RMSD range. This can be seen in figure 4.5 with the best individual RMSD values +being distinctively low than the average RMSD values over several generations in all four runs. +The average MSE values of the final models was 0.3901, 0.3813, 0.2805 and 0.2878, which +is approximately 0.15 below previous runs. But in change for the better generalization and +lower MSE values the overall RMSD stagnated with only run 19 showing a decline to a finale +value of 1.7185 which is still above the 5% quantile. + +39 + + 4 Results + +(a) This figure shows the results for the PPK with B = 10 +on 56 molecules and a mutation probability of 0.2 + +(b) This figure shows the results for the PPK with B = +10 on 56 molecules and a mutation probability of 0.2 + +(c) This figure shows the results for the PPK with B = 10 +on 56 molecules and a mutation probability of 0.2 + +Figure 4.6: These figures show the results of the runs with reduced datasets and increased mu- + +tation probability for the PPK and APK. + +40 + + 4.1 Precomputed Conformation Sampling + +Parameter / Run Nr. +Kernel method +RDF B factor +RBF Sigma factor +Smoothing factor +Mutation Probability +Mutate first 12 only +Conformation Sampling +Dataset size +Start avg. MSE +End avg. MSE +Diff. Start/End MSE +Best avg. MSE +Best individual MSE +Start avg. RMSD +End avg. RMSD +Diff. Start/End RMSD +Best avg. RMSD +Best individual RMSD + +21 +PPK +10 +- +- +0.5 +no +intermediate +34 +1.5839 +0.1584 +1.4255 +0.132 +0.1148 +1.8889 +1.8699 +0.0190 +1.7506 +1.4206 + +22 +PPK +10 +- +- +0.5 +no +intermediate +56 +1.3608 +0.1012 +1.2596 +0.0909 +0.0736 +1.8520 +1.9711 +-0.1191 +1.6712 +1.3559 + +23 +APK +- +- +0.1 +0.5 +no +intermediate +34 +1.2421 +0.4708 +0.7713 +0.4651 +0.4497 +1.8823 +2.0111 +-0.1288 +1.7752 +1.4107 + +Table 4.6: This table shows the parameters and the results for Run 21, Run 22 and Run 23. +Parameters denoted by ‘- ’are not available for the chosen kernel method + +4.1.6 Increased Mutation Rate + +Studying the results of the changes in decreasing the dataset and altering the kernel parameter +the next step was to change the parameters and overall process of the GA. The easier of both was +to set the mutation probability to 0.5 instead of the standard 0.1 value. The mutation probability +defines the rate at which mutations occur during the mating process from one generation to the +next. +Increasing the mutation probability allows the GA to search in a broader range and +increases the chance of the optimization to jump out of a local minimum, but it also decreases +the optimization rate and may lead to more diverse results. + +As one can see in all three runs depicted in figure 4.6 the increased mutation probability +leads to at least one individual in each generation with a significantly lower RMSD as the +average. Further noticeable is the fact the the progression of the average and especially the best +individual RMSD include more peaks. + +While changing the mutation probability still leads to good models with an average MSE of +0.1584, 0.1012 and 0.4708, in two of the runs the average end RMSD was even 0.1191 and +0.1288 higher then their start RMSD with 1.8520 and 1.8823. + +41 + + 4 Results + +(a) This figure shows the results for the APK with +smoothing f actor = 0.2 on 56 molecules with alterna- +tive conformation sampling and a mutation probability +of 0.1 + +(b) This figure shows the results for the APK with +smoothing f actor = 0.2 on 56 molecules with alterna- +tive conformation sampling and a mutation probability +of 0.1 + +(c) This figure shows the results for the PPK with B = 10 +on 56 molecules with alternative conformation sampling +and a mutation probability of 0.5 + +(d) This figure shows the results for the PPK with B = +10 on 56 molecules with alternative conformation sam- +pling and a mutation probability of 0.1 + +Figure 4.7: These figures show the results of the runs with reduced datasets of the alternative +conformation sampling and increased mutation probability for the PPK. + +4.1.7 Alternative Conformation Sampling + +A second way of increasing the chance of the optimization to jump out of a local minimum +was to change the conformation sampling of the dataset. While the intermediate parameters for +the ConfGen algorithm only allows local minima of relative molecular energy the comprehen- +sive parameters allowed GonfGen to output molecules with dihedral angles and flexible ring +energies not being in a local minimum. + +42 + + 4.1 Precomputed Conformation Sampling + +Parameter / Run Nr. +Kernel method +RDF B factor +RBF Sigma factor +Smoothing factor +Mutation Probability +Mutate first 12 only +Dataset size +Conformation Sampling +Start avg. MSE +End avg. MSE +Diff. Start/End MSE +Best avg. MSE +Best individual MSE +Start avg. RMSD +End avg. RMSD +Diff. Start/End RMSD +Best avg. RMSD +Best individual RMSD + +24 +APK +- +- +0.2 +0.1 +no +56 +comprehensive +0.9265 +0.3775 +0.549 +0.3775 +0.3756 +1.7999 +1.7873 +0.0126 +1.7175 +1.376 + +25 +APK +- +- +0.2 +0.1 +no +56 +comprehensive +0.9252 +0.3192 +0.606 +0.3192 +0.3169 +1.8047 +1.7608 +0.0439 +1.7385 +1.3512 + +26 +PPK +10 +- +- +0.5 +no +56 +comprehensive +1.3531 +0.1084 +1.2447 +0.1025 +0.0816 +1.794 +1.6181 +0.1759 +1.5084 +1.2488 + +27 +PPK +10 +- +- +0.5 +no +56 +comprehensive +1.3671 +0.1191 +1.248 +0.1059 +0.0934 +1.7862 +1.7728 +0.0134 +1.6867 +1.3333 + +Table 4.7: This table shows the parameters and the results for Run 24, Run 25, Run 26 and Run + +27. Parameters denoted by ‘- ’are not available for the chosen kernel method + +The thought was to allow the GA to successively get out of local minima due to the differ- +ences in relative molecular energies not being as great as with the intermediate conformation +sampling. Therefore the error of a change from one conformation to the one with the nearest +relative energy would not be as great for the comprehensive conformation sampling as for the +intermediate. + +Another reason for using the comprehensive conformation sampling was that the relative +energy of an active structure is not necessarily a local minimum due to the interaction of the +molecule with its target and the solvent. So by allowing non-minima structures in the dataset I +reduced the minimal RMSD between the conformers in the dataset and the active structures. + +The results for the experiments with the dataset produced by conformation sampling with +comprehensive parameters are shown in figure 4.7 and table 4.7. As one can see in run 24 +and run 25 which used the APK and a smoothing factor of 0.2 the first decline of the average +RMSD with its concurrent increase between generation 35 and 50 still occurs. But instead of +stagnating at the same average level as in most previous runs the average RMSD declines again +in later generations. The final average RMSD, however, was only 0.0126 and 0.0439 lower than +the starting average RMSD with 1,783 and 1.7608 while the final average MSE with 0.3775 +and 0.3192 was better than most of the previous runs with the APK. Therefore the final models +were more precise but still did not include conformations near the active structure. + +The results for run 26 and run 27 are also shown in figure 4.1.6 and table 4.7. Both runs +used the PPK and a mutation probability of 0.5. In run 26 the average RMSD almost always +lies within the 5% quantile. In run 27 the average RMSD declines to a value of approximately +1.7 and stagnates for the second half of the optimization. The runs have final average RMSD +values of 1.6181 and 1.7728 and final average MSE values of 0.1084 and 0.1191. + +43 + + 4 Results + +(a) This figure shows the results for the APK with +smoothing f actor = 0.1 on 56 molecules with alternative +conformation sampling and a the mutation only allowed +on the 12 known active structures + +(b) This figure shows the results for the APK with +smoothing f actor = 0.1 on 34 molecules with alternative +conformation sampling and a the mutation only allowed +on the 12 known active structures + +(c) This figure shows the results for the PPK with B = 10 +on 56 molecules with alternative conformation sampling +and a the mutation only allowed on the 12 known active +structures + +(d) This figure shows the results for the PPK with B = +10 on 34 molecules with alternative conformation sam- +pling and a the mutation only allowed on the 12 known +active structures + +Figure 4.8: These figures show the results of the runs with reduced datasets of the alternative +conformation sampling and altered mutation operator to allow mutation only on the +conformers of the molecules with known active structure. + +44 + + 4.1 Precomputed Conformation Sampling + +Parameter / Run Nr. +Kernel method +RDF B factor +RBF Sigma factor +Smoothing factor +Mutation Probability +Mutate first 12 only +Dataset size +Conformation Sampling +Start avg. MSE +End avg. MSE +Diff. Start/End MSE +Best avg. MSE +Best individual MSE +Start avg. RMSD +End avg. RMSD +Diff. Start/End RMSD +Best avg. RMSD +Best individual RMSD + +28 +APK +- +- +0.1 +0.1 +yes +56 +comprehensive +0.856 +0.682 +0.174 +0.6815 +0.6815 +1.7972 +1.7187 +0.0785 +1.5975 +1.3621 + +29 +APK +- +- +0.1 +0.1 +yes +34 +comprehensive +1.1405 +0.9029 +0.2376 +0.9022 +0.9022 +1.7881 +1.8774 +-0.0893 +1.727 +1.5028 + +30 +PPK +10 +- +- +0.1 +yes +56 +comprehensive +1.311 +0.7738 +0.5372 +0.7706 +0.7656 +1.7808 +1.7369 +0.0439 +1.7098 +1.3915 + +31 +PPK +10 +- +- +0.1 +yes +34 +comprehensive +1.5813 +0.7589 +0.8224 +0.7255 +0.7207 +1.7808 +1.8078 +-0.027 +1.7052 +1.3247 + +Table 4.8: This table shows the parameters and the results for Run 28, Run 29, Run 30 and Run + +31. Parameters denoted by ‘- ’are not available for the chosen kernel method + +4.1.8 Alternative Mutation Operator + +The final change to the mutation was to change the mutation operator in that way that it only +allowed the conformers of the molecules with known active structures to be mutated during the +mating process at the end of a generation. For the rest of the molecules, which are the ones with +unknown active structures, the conformation with the minimal relative energy was fixed. The +reason for this change was to reduce the search space for the optimization to the conformations +of the molecules with known active structure. Therefore increasing the chance of finding a +model with low MSE which included conformations similar to the active structures resulting in +a lower RMSD. + +The results of the four runs, 28, 29, 30 and 31 with altered mutation operator are shown in +figure 4.8 and table 4.8. One can see that, while the average MSE rapidly declines in the first +25 generations the average RMSD remains a the same level throught the whole run for all four +runs. Futher the average MSE only reaches values of 0.684 to 0.9029 which is significantly +higher than in previous runs due to the fact that the remaining fixed molecules do not allow a +better model. + +This means that, while only optimizing over the generated conformers of the known active +structures, the best models found still do not include conformations similar (i.e with a low +RMSD) to those structures. Possible reasons for that are manifold and will be discussed in the +next chapter. + +45 + + 4 Results + +(a) This figure shows the average results for four runs +with the APK with smoothing f actor = 0.1 on conform- +ers of 34 molecules created with the intermediate param- +eter set + +(b) This figure shows the average results for four runs +with the APK with smoothing f actor = 0.1 on conform- +ers of 34 molecules created with the comprehensive pa- +rameter set + +Figure 4.9: These figures show the average results of four runs with the APK and reduced + +datasets of both conformation sampling parameter sets. + +46 + + 4.2 Implicit Conformation Sampling + +Parameter / Run Nr. +Kernel method +RDF B factor +RBF Sigma factor +Smoothing factor +Mutation Probability +Mutate first 12 only +Dataset size +Conformation Sampling +Start avg. MSE +End avg. MSE +Diff. Start/End MSE +Best avg. MSE +Best individual MSE +Start avg. RMSD +End avg. RMSD +Diff. Start/End RMSD +Best avg. RMSD +Best individual RMSD + +avg. of run 32-35 +APK +- +- +0.1 +0.1 +no +34 +intermediate +1.2388 +0.5018 +0.7370 +0.4999 +0.4965 +1.8967 +1.8979 +-0.0012 +1.8294 +1.5099 + +avg. of run 36-39 +APK +- +- +0.1 +0.1 +no +34 +comprehensive +1.2199 +0.5338 +0.6862 +0.5338 +0.5316 +1.8022 +1.8070 +-0.0048 +1.6579 +1.3405 + +Table 4.9: This table shows the parameters and the results for the average of runs 32-35 and + +36-39. Parameters denoted by ‘- ’are not available for the chosen kernel method + +4.1.9 Reruns + +The only run resulting in an considerably lower average RMSD then all other runs was run +12 with a final average RMSD of 1.3813 (see figure 4.3 and table 4.3). To check if this was +a random result or if the constellation of kernel, dataset and parameters lead to models us- +ing conformations with a low RMSD to the active structure I reran the specific parameter set +of run 12 four times with either of both conformation sampling parameters intermediate and +comprehensive. The averaged results of these runs are shown in figure 4.9 and table 4.9 + +As one can see the average RMSD stagnates at 1.8 which is also the mean value for the +RMSD of all possible combinations of conformers. The decline and immediate return to the +mean RMSD between generation 25 and 50 is also visible for both results. + +This proves that run 12 was a random result with the GA finding a local minimum. With a +value of 0.567 the MSE of run 12 is even higher then the average MSE for both of the 4 runs +with 0.5018 and 0.5338. + +4.2 Implicit Conformation Sampling + +The runs of the optimization with the implicit conformation sampling were done parallel to the +runs with precomputed conformation sampling. Therefore the results of the runs with precom- +puted conformation sampling influenced the decisions made for the parameters and dataset size +for the runs with implicit conformation sampling. One run with implicit conformation sam- +pling on the full dataset took up to two weeks on a Xeon quadcore server. This is why there are +fewer results for the implicit conformation sampling. + +47 + + 4 Results + +(a) This figure shows the results for the RBF kernel with +B = 1000 and sigma = 100 on the full dataset with im- +plicit conformation sampling + +(b) This figure shows the results for the RBF with B = +1000 on the full dataset with implicit conformation sam- +pling + +(c) This figure shows the results for the PPK with B = 10 +on the full dataset with implicit conformation sampling + +(d) This figure shows the results for the PPK with B = +10 on the full dataset with implicit conformation sam- +pling + +Figure 4.10: These figures show the results of the runs with implicit conformation sampling on + +the full dataset and the use of the PPK and RBF kernel. + +48 + + 4.2 Implicit Conformation Sampling + +Parameter / Run Nr. +Kernel method +RDF B factor +RBF Sigma factor +Smoothing factor +Mutation Probability +Mutate first 12 only +Conformation Sampling +Dataset size +Start avg. MSE +End avg. MSE +Diff. Start/End MSE +Best avg. MSE +Best individual MSE +Start avg. RMSD +End avg. RMSD +Diff Start/End RMSD +Best avg. RMSD +Best individual RMSD + +01i +RBF +1000 +100 +- +0.1 +no +implicit +100 +1.1411 +0.5331 +0.608 +0.5311 +0.5285 +1.8724 +1.7978 +0.0746 +1.6873 +1.5876 + +02i +PPK +10 +- +- +0.1 +no +implicit +100 +1.0375 +0.171 +0.8665 +0.171 +0.1638 +1.8826 +1.9955 +-0.1129 +1.8246 +1.5268 + +03i +PPK +10 +- +- +0.1 +no +implicit +100 +1.1491 +0.519 +0.6301 +0.519 +0.5142 +1.9039 +1.8523 +0.0516 +1.8425 +1.4942 + +04i +PPK +10 +- +- +0.1 +no +implicit +100 +1.0389 +0.3874 +0.6515 +0.3874 +0.3808 +1.8894 +1.8909 +-0.0015 +1.8498 +1.6142 + +Table 4.10: This table shows the parameters and the results for run 01i, run 02i, run 03i and run + +04i. Parameters denoted by ‘- ’are not available for the chosen kernel method + +4.2.1 Initial Runs + +The results for the initial runs, 01i and 02i, are shown in figure 4.10 and table 4.10 . Run 03i +and run 04i are later runs with the same parameters as run 02i. As one can see the average MSE +is decreasing. This shows that the optimization is functional. But in comparison to the runs +with precomputed conformation sampling shown in the preceding section the average MSE +decreases more slowly and is has not reached a minimum at the end of the run. This can be +assumed due to the average MSE still decreasing in generation 150 to 200 and not reaching an +even level. The final average MSE of the runs was 0.5331, 0.1710, 0.5190 and 0.3874. This +is the range of the results for the average MSE from the runs with precomputed conformation +sampling. + +Further noticeable is the fact that the average RMSD shows almost no change after genera- +tion 50 in all four runs stagnating for many generations. The mean RMSD over all generations +of all four runs is 1.859, which is near the overall mean of 1.81 of all possible conformations. In +addition to the best individual RMSD this can be explained by the small chance of a mutation +occurring at the rotatable bonds of the molecules with known active structure.This low chance +of a mutation is a result of the molecules with known active structure having fewer rotational +bonds then the molecules without known active structure. Therefore the chance of a mutation +occurring on a molecule without known active structure is increased in relation to the runs with +precomputed conformation sampling where the mutation chances were equally distributed. + +In addition all four runs lack the initial decrease of the average RMSD between generation + +25 and 50 seen in the runs with precomputed conformation sampling. + +49 + + 4 Results + +(a) This figure shows the results for the first run with the +PPK and B = 10 on the reduced dataset of 34 molecules +with implicit conformation sampling + +(b) This figure shows the results for the second run +with the PPK and B = 10 on the reduced dataset of 34 +molecules with implicit conformation sampling + +(c) This figure shows the results for the first run with the +PPK and B = 10 on the reduced dataset of 56 molecules +with implicit conformation sampling + +(d) This figure shows the results for the secondt run +with the PPK and B = 10 on the reduced dataset of 56 +molecules with implicit conformation sampling + +Figure 4.11: These figures show the results of the runs with reduced datasets, implicit confor- + +mation sampling an the use of the PPK. + +50 + + 4.2 Implicit Conformation Sampling + +Parameter / Run Nr. +Kernel method +RDF B factor +RBF Sigma factor +Smoothing factor +Mutation Probability +Mutate first 12 only +Conformation Sampling +Dataset size +Start avg. MSE +End avg. MSE +Diff. Start/End MSE +Best avg. MSE +Best individual MSE +Start avg. RMSD +End avg. RMSD +Diff Start/End RMSD +Best avg. RMSD +Best individual RMSD + +05i +PPK +10 +- +- +0.1 +yes +implicit +100 +1,687 +0,6932 +0,9938 +0,673 +0,6693 +1,8592 +2,0149 +-0,1557 +1,8592 +1,5489 + +06i +PPK +10 +- +- +0.1 +yes +implicit +100 +1,73 +0,7425 +0,9875 +0,7398 +0,7352 +1,8605 +2,0571 +-0,1966 +1,8605 +1,5543 + +07i +PPK +10 +- +- +0.1 +yes +implicit +100 +1,5033 +0,9929 +0,5104 +0,989 +0,9827 +1,8487 +1,9715 +-0,1228 +1,8487 +1,5698 + +08i +PPK +10 +- +- +0.1 +yes +implicit +100 +1,5079 +0,9555 +0,5524 +0,9475 +0,9459 +1,8546 +1,8685 +-0,0139 +1,7359 +1,5687 + +Table 4.11: This table shows the parameters and the results for Run 04 through Run 09. Param- + +eters denoted by ‘- ’are not available for the chosen kernel method + +4.2.2 Reduced Dataset and Fixed Conformation + +In run 05 to run 08 I combined the several changes. First I reduced the dataset to 56 and 34 +molecules including the 12 with known active structure. The second change was to fix the +conformation of the molecules with unknown active structure to the conformation with the +lowest relative energy and allowing mutation only at rotational bonds of the molecules with +known active conformation. Run 07 was interrupted at generation 116 due to a server crash an +could not be resumed. + +The results for the four runs with this configuration are shown in figure 4.11 and table 4.11. +One can see that the average MSE declines faster (within the firt 50 generation) than in the +previous runs with implicit conformation sampling to a final value of 0.6932, 0.7425, 0.9938 +and 0.9555. These higher average MSE values can be explained by the fixed conformations +and the resulting missing possibility for optimization. + +One can see the effect of allowing mutation only on the 12 molecules with known conforma- +tion. The best individual RMSD is lower then the average RMSD for almost every generation +in all four runs. This can be explained by the higher mutation rate resulting in individuals with +conformations with a lower RMSD to the active structures. + +51 + + 5 Discussion + +The hypothesis that the best achievable models to predict activity include the active structures +of the training molecules, can not be confirmed in this work. The average RMSD over all +runs is almost exactly the average RMSD over all possible sets of conformations to the active +structure(See figure 5.1). While some runs show a RMSD below the 5% quantile they still +are within the normal distribution and are countered by the runs with a RMSD above average. +Though models were found with a a low average RMSD the optimization in most cases returned +to models with an RMSD near the average value. The reasons for these results can come from +two directions. They can be either chemically or mathematically qualified. + +One possible reason is, that to many factors determining the active structure are missing +from the models I created. For example the solvent of the molecules, in this case water, is not +included in the model at all. But as studies have shown the solvent often has a great influence +on the activity and the active structure of a molecule. It can change the molecules conformation +to a more fitting one or even be part of the active site itself by filling the space not occupied +by the ligand. Therefore disregarding the solvent may lead to a model with a feature space not +having enough information about the active complex. + +Figure 5.1: This figure shows the diagram for the mean values over all runs. One can clearly see +the average RMSD stagnating at 1.81 over the whole run while the MSE declines +to a value of about 0.4 + +A second reason may be that only part of the molecules conformations are critical for the +activity while another, possibly larger part can take up a random, probably energetically min- +imal, conformation. However this would only account for a part of the normal distribution +of the RMSD values. The ‘active’ part of the molecule conformations chosen for the model +would have a distinctly lower average RMSD to the active conformation resulting in the overall +RMSD being lower than mean of the normal distribution. For the dataset used in this work, this +can be ruled out because all 12 molecules with known active structure are entirely integrated in +the active process and have no parts which can take on free conformations. + +52 + + Another reason for the model consisting of conformations with an average RMSD to the +active structure may come from the used kernel methods in combination with the molecules in +the dataset. Regardless of the chemical properties the molecules in the dataset often consisted +of several ring systems. These ring systems contribute the same partial results to all kernel +values for all different combinations of conformations due to the fact that they are rigid and do +not change partial results between different conformations. To rule this out one would have to +repeat the experiments with a dataset of molecules with less rigid parts or with a kernel method +that prioritizes longer distances within the conformations. + +The most important and apparent reason though is based on the principle of the SVR. On +optimizing over the activity prediction with the activity value being the same for each con- +former of a given molecule, it is clear that to achieve a maximal generalization the process will +pick that conformation with the best representation of the whole conformational space of the +molecule. In the conformational hypersphere this will be a conformation near the center of the +sphere. Which in this case means a conformation with a maximal ‘similarity’ to all other con- +formations of that molecule. Or in other words, a conformation with a minimal average RMSD +to all other conformers. In most cases this would not be the active conformation. For the 12 +molecules with known active structure I used in this work, the average distance (i.e. RMSD) +from the active conformation to the center of the conformational hypersphere was 1.81 ˚A. + +Not regarding the resulting average RMSD values, the PPK kernel yielded the best MSE +with values as low to 0.01 in contrast to the RDF kernel with MSE values only in range of +0.5 and the APK with MSE values in the range of 0.3. Furthermore the PPK had the steepes +decent of the MSE values reaching an almost even level at generation 25-50, whereas the APK +needed more generations. The resulting models of the implicit conformation sampling were +less significant because in most runs the optimization process was not finished. This can be +explained by the mutation probability only being set to 0.1 and the number of points being +about 10 times as much as with the precomputed conformation sampling. One can see that by +reducing the possible mutations as in the final runs with implicit conformation sampling and +fixed conformers the MSE also decreases more rapidly. + +53 + + 6 Prospects + +Following the results of this work models for activity prediction provide the best results not +by using the active structures but a conformation with minimal distance to all possible confor- +mations of the respective molecules. To confirm these results one would have to run further +experiments with other kernels and data sets. In these experiments one would have to calculate +the distances of the best resulting conformations for activity prediction not only to the active +conformation but to all possible conformation, or at least an equally distributed set over the +conformational space. These new model would be expected to provide the best results if they +were based on these ‘average’ conformations and not on the active structures. + +If proven correct one would have to rethink the use of active conformations in 3D QSAR +models in favor of more generalized conformations. Further this would suggest a method of +finding a conformation near the center of the conformational hypersphere without calculating +all pairwise distances of all possible conformations. + +If proven wrong one would have to revise the results of this work and further investigate +the reasons for the average RMSD of the best achievable models constantly being the exact +RMSD of the active conformations to the middle of the proposed conformational hypersphere. +Therefore one would have to copile a new set of molecules with known active structures. Where +the set would include more and diverse active conformations to cover a wider range of the +chemspace. + +54 + + Bibliography + +[Bau09] L.; Heine-A.; Smolinski M.; Hangauer D.; Klebe G. Baum, B.; Muley. Think +twice: understanding the high potency of bis(phenyl)methane inhibitors of throm- +bin. J.Biol.Mol, 391:552–564, 2009. + +[Ber77] + +T.F.; Williams-G.J. Meyer E.E. Jr.; Brice M.D.; Rodgers J.R.; Kennard O.; Shi- +manouchi T.; Tasumi M. Bernstein, F.C.; Koetzle. The protein data bank: A +J. of Mol. Biol., +computer-based archival file for macromolecular structures. +112:535, 1977. + +[BGV92] B.E. Boser, I.M. Guyon, and Vapnik V.N. Annual Workshop on Computational +Learning Theory, chapter Proceedings of the fifth annual workshop on Computa- +tional learning theory, pages 144–152. ACM, 1992. + +[Boe99] + +J.; Klebe G Boehm, M.;Stuerzebecher. Three-dimensional qantitive structure activ- +ity relationship analyses using comparative molecular file analysis and comparative +molecular similarity indices analysis to elucidate selectivity differences of inhibitors +binding to trypsin, thrombin, and factor xa. Journal of Medical Chemistry, 42:458– +477, 1999. + +[Cha05] Q Chang. Scaling gaussian rbf kernel width to improve svm classification. Neural +Networks and Brain, 2005. ICNN&B ’05. International Conference on, pages 19– +22, 2005. + +[CL01] + +Chih-Chung Chang and Chih-Jen Lin. LIBSVM: a library for support vector +machines, 2001. Software available at http://www.csie.ntu.edu.tw/ +˜cjlin/libsvm. + +[Cou04] Chaok; Dill Ken A. Coutsias, Evangelos A.; Seok. Using quaternions usings rmsd. + +J.Comput. Chem, 25:1849–1857, 2004. + +[Cou05] Chaok; Dill Ken A. Coutsias, Evangelos A.; Seok. Rotational superposition and +least sequares: the svd and quaternions approach yield identical results. reply to the +preceeding comment by g. kneller. J. Comput. Chem., 26:1663–1665, 2005. + +[CV95] C. Cortes and V. Vapnik. Support-vector networks. Machine Learning, 20:273–297, + +1995. + +[Dia76] R. Diamond. On the comparison of conformations using linear and quadratic trans- + +formations. Acta Cryst, 32:1–10, 1976. + +[Dix06] A.; Knoll E.; Rao S.; Schaw D. Friesner R.A. Dixon, S.; Smondyrev. Phase: a new +engine for pharmacophore perception, 3d qsar model developement and 3d database +screening. J. Comput.-Aided Mol. Design, 20(10):647–671, 2006. + +55 + + Bibliography + +[Eki04] + +S. Ekins. Predicting undesirable drug interactions with promisscuous proteins in +silico. Drug Dicovery Today, 9:276–285, 2004. + +[Fis94] + +E. Fischer. Einfluss der konfiguration auf die wirkung der enzyme. Berichte der +deutschen chemischen Gesellschaft, 27:2985–2993, 1894. + +[Fle89] + +R. Fletcher. Practical Mehods of Optimization. John Wiley and Sons, New York, +1989. + +[Fri04] + +J.L.; Murphy R.B.; Halgren T.A.; Klicic J.J.; Mainz D.T.; Repasky M.P.; Knoll E.H. +Shelley M.; Perry J.K.; shaw D.E.; Francis P.; Shenkin P.S. Friesner, R.A.; Banks. +Glide: a new approach for rapid, accurate doachin and coring. 1- method and as- +sessment of doching accuracy. J.Med.Chem, 47(7):1739–49, 2004. + +[Gas96] + +J.; Schuur J.; Selzer P.; Steinhauer L.; Steinhauer V. Gasteiger, J.; Sadowski. Chem- +ical information in 3d space. J. Chem. Inf. Comput. Sci ., 36:1030–1037, 1996. + +[Gas97] + +J.; Selzer P.; Steinhauer L.; Steinhauer V. Gasteiger, J.; Schuur. Finding the 3d +structure of a molecule in its ir spectrum. Fresenius J. Anal. Chem., 359:50–55, +1997. + +[Guy93] B.; Vapnik V.N. Guyon, I.; Boser. Advances in Neural Information Processing +Systems, chapter Automtic capactiy tuning of very large VC-dimension classifiers, +pages 147–155. Morgan Kaufmann, San Mateo, CA, 1993. + +[Ham66] Sir. Hamilton, William Rowan. Elements of Quaternions. Longmans, Green & Co., + +London, 1866. + +[Han69] C. Hansch. A quantitative approach to biochemical structure-activity relationships. + +Acc. Chem. Res., 2:232–239, 1969. + +[Har94] George K.; Kauffman Louis H. Hart, John C.; Francis. Visualizing quaternion rota- + +tion. Transactions on Graphics, 13:256–276, 1994. + +[Hem99] Markus C.; Steinhauer V.; Gasteiger J. Hemmer. Deriving the 3d structure of organic +molecules from their infrared spectra. Vibrational Spectroscopy, 19:151–164, 1999. + +[HG04] H.Z. Hao and M. Genton. Compactly supported radial basis function kernels. 2004. + +[Hol75] + +John H. Holland. Adaptation in Natural and Artificial Systems. Univ. Michigan +Press., 1975. + +[Jah09] G.; Fechner N.; Zell A. Jahn, A.; Hinselmann. Optimal assignment methods for +ligand-based virtual screening. Journal of Chemoinformatics, 1:14, 2009. + +[Jeb04] + +R.; Howard A. Jebara, T.; Kondor. Probability product kernels. Journal of Machine +Learning Research, 5:819–844, 2004. + +[Jor88] + +J.T. Jorgensen, T.L.; Tirado-Rives. The opls potential functions for proteins. energy +minimization for crystals of cyclic peptides and crambin. J.Am.Chem.Soc., 110:165, +1988. + +56 + + Bibliography + +[Jor96] + +[JZ10] + +D.S.; Tirado-Rives J. Jorgensen, W.L.; Maxwell. Development and testing of the +opls all-atom force field on cornformational energetcs and properties of organic liq- +uids. J.Am.Chem.Soc., 118:11225–11235, 1996. + +G.; Fechner-N.; Henneges C. Jahn, A.; Hinselmann and A. Zell. Probabilistic model- +ing of conformational space for 3d machine learning approaches. Mol. Inf., 29:441– +455, 2010. + +[Kab76] Wolfgang Kabsch. A solution for the best rotation to relate two sets of vectors. Acta + +Crystallographica, 32(5)A:922–923, 1976. + +[Kat00] R.; Luong-C.; Radika K.; Martelli A.; Sprengeler P.A.; Wang J.; Chan H.; +Wong L Katz, B.A.; Mackman. +Structural basis for selectivity of a small +molecule, s1-binding, submicromolar inhibitor of urokinase-type plasminogen ac- +tivator. Chem.Biol., 7:299–312, 2000. + +[Kat01a] K.; Luong-C.; Rice M.J.; Mackman R.L.; Sprengeler P.A.; Spencer J.; Hataye J.; +Janc J.; Link J.; Litvak J.; Rai R.; Rice K.; Sideris S.; Verner E.; Young W. Katz, +B.A.; Elrod. A novel serine protease inhibition motif involving a multi-centered +short hydrogen bonding network at the active site. J.Biol.Mol, 307:1451–1486, +2001. + +[Kat01b] P.A.; Luong-C.; Verner E.; Elrod K.; Kirtley M.; Janc J.; Spencer J.R.; Breit- +enbucher J.G.; Hui H.; McGee D.; Allen D.; Martelli A.; Mackman R.L. Katz, +B.A.; Sprengeler. Engineering inhibitors highly selective for the s1 sites of ser190 +trypsin-like serine protease drug targets. Chem.Biol., 8:1107–1121, 2001. + +[Kat03] K.; Verner-E.; Mackman R.L.; Luong C.; Shrader W.D.; Sendzik M.; Spencer J.R.; +Sprengeler P.A.; Kolesnikov A.; Tai V.W.-F.; Hui H.C.; Breitenbucher J.G.; Allen +D.; Janc J.W. Katz, B.A.; Elrod. Elaborate manifold of short hydrogen bond ar- +rays mediating binding of active site-directed serine protease inhibitors. J.Biol.Mol, +329:93–120, 2003. + +[Kat04] C.; Ho-J.D.; Somoza J.R.; Gjerstad E.; Tang J.; Williams S.R.; Verner E.; Mackman +R.L.; Young W.B.; Sprengeler P.A.; Chan H.; Mortara K.; Janc J.W.; McGrath M.E. +Katz, B.A.; Luong. Dissecting and designing inhibitor selectivity determinants at +the s1 site using an artificial ala190 protease (ala190 upa). J.Biol.Mol, 344:527– +547, 2004. + +[Kea89] Simon K. Kearsley. On the orthogonal transformation used for structural compari- + +son. Acta Crystallographica, 45(2)A:208–210, 1989. + +[Kel06] + +P.; Schalon-C.; Bret G.; Foata N.; Rognan D. Kellenberg, E.; Muller. sc-pdb: an +annotated database of druggable binding sites from the protein data bank. Journal +of Chemical Information and Modeling, 46(2):717–727, 2006. + +[Kos58] + +Jr. Koshland, D. E. Application of a theory of enzyme specificity to protein synthe- +sis. Proc. Natl. Acad. Sci. U.S.A., 44:98–104, 1958. + +[Kos94] + +Jr. Koshland, D. E. +Angew.Chem.Int.Ed.Engl, 33:2375–2378, 1994. + +The key and lock theory and the induced fit + +theory. + +57 + + Bibliography + +[Mac84] A. L. Mackay. Quaternion transformation of molecular orientation. Acta Crystallo- + +graphica Section A, 40(2):165–166, Mar 1984. + +[Mat96] R.; Costanzo-M.J.; Maryanoff B.E.; Tulinsky A Matthews, J.H.; Krishnan. Crystal +structures of thrombin with thiazole-containing inhibitors: probes of the s1’ binding +site. Biophys.J,, 71:2830–2839, 1996. + +[McL72] A.D. McLachlan. A mathematical procedure for superimposing atomic coordinates + +of proteins. ActaCryst, 28:656–657, 1972. + +[OW91] T.I. Oprea and C.L. Walter. Reviews in Computational Chemistry, chapter Theoreti- +cal and practical aspects of thee-dimensional quantitative structure-activity relation- +ships, pages 127–182. Wiley-VCH: New York, 1991. + +[Sad94] + +[Sch96] + +[Sel97] + +J. Sadowski, J.; Wagener M.; Gasteiger. Corina: Automatic generation of high- +quality 3d-molecular models for application in qsar. In 10th European Symposium +on Structure-Activity Relationships: QSAR and Molecular Modelling, 1994. + +P.; Gasteiger J Schuur, J.H.; Selzer. The coding of the three-dimensional structure +of molecules by molecular transforms and its application to structure - spectra cor- +relations and studies of biological activity. J. Chem. Inf. Comput. Sci., 36:334–344, +1996. + +J.H.; Gasteiger Selzer, P.; Schuur. Software Development in Chemistry 10, vol- +ume 10, chapter Simulation of IR Spectra with Neural Networks Using the 3D- +MoRSE Code, page 293. Gesellschaft Deutscher Chemiker: Frankfurt am Main, +1997. + +[Sew07] Martin Sewell. Kernel methods. Technical report, Department of Computer Science + +University College London, 2007. + +[Sho85] K. Shoemaker. Animating rotation with quaternion curves. Comput. Graph., + +19:245–254, 1985. + +[SI08a] New York Schroedinger Inc. LigPrep, V2.1. 2008. + +[SI08b] New York Schroedinger Inc. MacroModel, V9.6. 2008. + +[SJ93] M. Stone and P. Jonathan. Statistical thinking and techniques for qsar related studies. + +1 general theory. J. Chemom., 7:455–475, 1993. + +[SOW04] Jeffrey J. Sutherland, Lee A. O’Brian, and Donald F. Weaver. A comparison of +methods for modeling quantitative structure-activity relationship. J. Med. Chem., +47:5541–5554, 2004. + +[Ste03] Y.; Kuhn S.; Horlacher O.; Luttmann E.; Willighagen E. Steinbeck, C.; Han. The +chemistry development kit (cdk): an open source java library for chemo- and bioin- +formatics. J Chem Inf Comput Sci, 43(2):493–500, 2003. + +[Ste06] + +C.; Kuhn S.; Floris M.; Guha R. Steinbeck, C.; Hoppe. Recent development of the +chemistry development kit (cdk) - an open source library for chemo- and bioinfor- +matics. Curr Pharm Des, 12(17):2111–2120, 2006. + +58 + + Bibliography + +[Vap82] V. Vapnik. Estimation of dependencies bade on empirical data. Springer Verlag, + +1982. + +[Vap95] V. Vapnik. The Nature of Statistical Learning Theroy. Springer Verlag, 1995. + +[VC64] V. Vapnik and A. Chervenonkis. A note on one class perceptrons. Automation and + +Remote Control, 25, 1964. + +[VC74] V. Vapnik and A. Chervonenkis. Theory of Pattern Recognition. Nauka (Russia), + +1974. + +[VL63] V. Vapnik and A. Lerner. Pattern recognition using generalized portrait method. + +Automation and Remote Control, 24, 1963. + +[WS10] + +P.; Murphy R.B.; Sherman W.; Friesner R.A. Watts, K.S.; Dalal and J.C. Shelley. +Confgen: A conformational search method for efficient gerneration of bioactive con- +formers. J.Chem.Inf.Model., 50:534–546, 2010. + +[XG02] Y.; Ming L. Xi, C.;Lin and K. Gilson. The binding database: data management and + +interface design. Bioinformatics, 18(1):130–139, 2002. + +[Zam76] A. Zamora. + +An algorithm for finding the smallest set of smalles rings. + +J.Chem.Inf.Comput.Sci., 16(1):40–43, 1976. + +59 + + List of Figures + +1.1 Overlay of Thrombin inhibitors . . . . . . . . . . . . . . . . . . . . . . . . . . +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . +1.2 QSAR process . + +. + +. + +. + +. + +. + +2 +2 + +. . + +6 +. +. +. . +2.1 SVR . +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 +2.2 GA individuals +. +2.3 GA mutation operators . +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 +2.4 Thrombin-Hirudin complex . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 + +. . . . . . . . . . . . . . . . . . . . . . . . . . . . + +. . +. + +. +. + +. +. + +. +. + +. + +. + +. + +examples for RDF . +overlay of RDF functions . +curve approximation . +. + +3.1 flowchart of the overall process . . . . . . . . . . . . . . . . . . . . . . . . . . 14 +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 +3.2 +. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 +3.3 +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 +3.4 +3.5 Atom Pair Kernel +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 +12 structures with known active conformation . . . . . . . . . . . . . . . . . . 22 +3.6 +example for implicit conformation sampling encoding . . . . . . . . . . . . . . 25 +3.7 +exapmle of rotatable bonds . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 +3.8 + +. +. + +. + +. + +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 +results of the initial runs +4.1 +results of reduced dataset with ppk and rbf . . . . . . . . . . . . . . . . . . . . 32 +4.2 +results of reduced dataset with APK . . . . . . . . . . . . . . . . . . . . . . . 34 +4.3 +results for alternative parameters for the PPK . . . . . . . . . . . . . . . . . . 36 +4.4 +results for alternative parameters for the APK . . . . . . . . . . . . . . . . . . 38 +4.5 +results of increased mutation rate . . . . . . . . . . . . . . . . . . . . . . . . . 40 +4.6 +results of alternative conformation sampling . . . . . . . . . . . . . . . . . . . 42 +4.7 +results of alternative mutation operator . . . . . . . . . . . . . . . . . . . . . . 44 +4.8 +4.9 +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 +results for the reruns +4.10 results for initial runs with implicit conformation sampling . . . . . . . . . . . 48 +4.11 results for runs with implicit conformation sampling, reduced dataset and fixed + +. + +. + +conformation . . + +. . + +. . + +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 + +5.1 mean over all runs . + +. + +. + +. + +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 + +60 + + List of Tables + +3.1 +3.2 +3.3 + +table of compiled structures . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 +table of parameters for conformer generation . . . . . . . . . . . . . . . . . . 24 +table of parameters for the SVR . . . . . . . . . . . . . . . . . . . . . . . . . 27 + +results of the initial runs +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 +4.1 +results of reduced dataset with ppk and rbf . . . . . . . . . . . . . . . . . . . . 33 +4.2 +results of reduced dataset with APK . . . . . . . . . . . . . . . . . . . . . . . 35 +4.3 +results for alternative parameters for the PPK . . . . . . . . . . . . . . . . . . 37 +4.4 +results for alternative parameters for the APK . . . . . . . . . . . . . . . . . . 39 +4.5 +results of increased mutation rate . . . . . . . . . . . . . . . . . . . . . . . . . 41 +4.6 +results of alternative conformation sampling . . . . . . . . . . . . . . . . . . . 43 +4.7 +results of alternative mutation operator . . . . . . . . . . . . . . . . . . . . . . 45 +4.8 +4.9 +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 +results for the reruns +4.10 results for initial runs with implicit conformation sampling . . . . . . . . . . . 49 +4.11 results for runs with implicit conformation sampling, reduced dataset and fixed + +. + +. + +conformation . . + +. . + +. . + +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 + +61 + + \ No newline at end of file diff --git a/StilVorlagen/Protokoll Genetik Praktikum I.md b/StilVorlagen/Protokoll Genetik Praktikum I.md new file mode 100644 index 0000000..1b5d300 --- /dev/null +++ b/StilVorlagen/Protokoll Genetik Praktikum I.md @@ -0,0 +1,1472 @@ +Protokoll + +Spezialpraktikum Genetik + +04.05.09 – 18.05.09 + +Christoph Schwörer + + + + + + + Inhaltsverszeichnis + +Inhalt +1. + +Einleitung ......................................................................................................................................... 3 + +1.2 + +1.3 + +Allgemein ................................................................................................................................. 3 + +Beschreibung der Versuche ..................................................................................................... 3 + +1.2.1 + +Versuch 1: Phänotypisierung von GBF1 knock-out Pflanzen.......................................... 3 + +1.2.2 + +Versuch 2: Promotor CAT2: GUS Reportergenanalysen .................................................. 3 + +1.2.3 + +Versuch 3: Expressionsanalysen in gbf1 KO Pflanzen ..................................................... 3 + +1.2.4 + +Versuch 4: Klonierung ..................................................................................................... 4 + +2. Materialien und Methoden ............................................................................................................. 5 + +2.1 + +Versuch 1: gbf1 knock out Pflanzen Typisierung ..................................................................... 5 + +2.1.1 + +Versuchsdurchführung .................................................................................................... 5 + +2.2 + +Versuch 2: Promotor CAT2: GUS Reportergenanalysen .......................................................... 5 + +2.2.1 + +Versuchsdurchführung .................................................................................................... 5 + +2.2.2 + +Verwendete Mittel .......................................................................................................... 7 + +2.3 + +Versuch 3 Expressionsanalyse in gbf1 KO Pflanzen ................................................................. 8 + +2.3.1 + +Versuchsdurchführung .................................................................................................... 8 + +2.3.2 + +Verwendete Materialien ................................................................................................. 9 + +2.4 + +Versuch 4: Klonierung ........................................................................................................... 10 + +2.4.1 + +Versuchsdurchführung .................................................................................................. 10 + +2.4.2 + +Verwendete Materialien ............................................................................................... 10 + +3 + +Ergebnisse...................................................................................................................................... 12 + +3.1 + +3.2 + +3.3 + +3.4 + +Versuch 1: gbf1 knock out Pflanzen Typisierung ................................................................... 12 + +Versuch 2: Promotor CAT2: GUS Reportergenanalysen ........................................................ 25 + +Versuch 3: Expressionsanalyse in gbf1 KO Pflanzen ............................................................. 28 + +Klonierung ............................................................................................................................. 34 + +4 + +Diskussion ...................................................................................................................................... 35 + +4.1 + +4.2 + +4.3 + +4.4 + +GBP1 Pflanzen KO Typisierung .............................................................................................. 35 + +Versuch 2: Promotor CAT2: GUS Reportergenanalysen ........................................................ 35 + +Versuch 3: Expressionsanalyse in gbf1 KO Pflanzen ............................................................. 35 + +Versuch 4: Klonierung ........................................................................................................... 35 + +Seite 2 + + + + + + 1. Einleitung + +1.2 Allgemein +Das Thema des Spezialpraktikums Genetik war die Seneszenz bei Pflanzen. Also die +Alterserscheinungen wie das Absterben alter Blätter und das Bilden von Knospen und +Früchten. Gesteuert werden diese Prozesse genetisch aber auch in Abhängigkeit von der +Energiebilanz der Pflanze. Sie sind zudem stark abhängig von Umweltfaktoren wie Hitze, +Wassermangel etc. Untersuchungen besagen, dass beim einsetzen der Seneszenz auch der +Spiegel der Radikale, in diesem Fall H2O2 stark ansteigt. Eine der Katalasen welche für den +Abbau von Radikalen zuständig ist, ist CAT2, welches durch ein Auftreten von GBF1(G-box +binding factor 1) nach unten reguliert wird. Zudem liegen Informationen vor welche zeigen, +dass CAT2 in älteren pflanzen stark nach unten reguliert wird. Mit den folgenden Versuchen +soll nun ein Zusammenhang zwischen der Expression von GBF1 in älteren Pflanzen und +deren Seneszenzerscheinungen untersucht werden. Hierzu wurden nun 3 Pflanzereihen +verwendet eine Reihe Col0 Wildtyp Arabidopsis Pflanzen und je eine Reihe Ex und Int +Planzen bei denen das Gen für GBF1 jeweils im Extron oder Intron ausgeschaltet wurde. + +1.3 Beschreibung der Versuche + +1.2.1 Versuch 1: Phänotypisierung von GBF1 knock-out Pflanzen +Dieser Versuch bestand aus 2 Teilen. Zum einen sollten die Pflanzen in ihrem Wachstum +beobachtet und jede Woche Photografiert werden , zudem sollte ihr Chlorophylgehalt +bestimmt werden. Zum anderen sollte eine Auswahl der Pflanzen mit Abscicinsäure +besprüht werden welche die Wirkung von Phytohormen in Pflanzen unterdrückt und einen +natürlichen Wachstumsinhibitor darstellt. Diese sollten dann wiederum im Vergleich zu den +Wildtypflanzen in ihrem Wachstum beobachtet werden. + +1.2.2 Versuch 2: Promotor CAT2: GUS Reportergenanalysen +Bei diesem Versuch sollten die Protoplasten von transgenen Pcat2:GUS Pflanzen, +Arabidopsis thaliana, isoliert werden. Diese Protoplasten sollten anschließend zum Einen +mit einem leeren 35 S Vektor (PY01) und zum Anderen mit einem 35 S:GBF 1 Vektor +transformiert werden. Da das Reportergen GUS hinter einem CAT2 Promotor bei Zugabe von +GBF1 reduziert exprimiert wird, wurde bei Verwendung des 35S Vektors auch eine +Reduktion der GUS Aktivität im Vergleich zur Verwendung des PY01 Vektors erwartet. + +1.2.3 Versuch 3: Expressionsanalysen in gbf1 KO Pflanzen +Bei diesem Versuch sollten wöchentlich Blattproben der Pflanzen entnommen werden um +daraus RNA zu +isolierte RNA sollte dann aufgereinigt und zu cDNA +umgeschrieben werden. Mit der cDNA sollte dann eine RT-PCR durchgeführt werden. Zur +Kontrolle wurden hierbei Actin Primer verwendet und für den von GBF1 die vorliegenden + +isolieren. Die + +Seite 3 + + + + + GBF1 Primer. Erwartet wurde ein Nachweis von GBF1 in den Col0 Pflanzen in den anderen +beiden Reihen wurde kein GBF1 erwartet. + +1.2.4 Versuch 4: Klonierung +Bei diesem Versuch sollte das sich in einem Blueskriptvektor befindliche gbf2 Gen in einen +cf203 GFP-Vektor kloniert werden. Dafür sollte der Vektor mit designten Primern mittels PCR +amplifiziert und das PCR-Produkt anschließend gelelektrophoretisch aufgetrennt werden. +Um das Amplifikat aufzureinigen und den Blueskript-Vektor zu entfernen sollte dann eine +Gelextraktion durchgeführt werden. Anschließend sollte sowohl das Amplifikat, als auch der +cf203 GFP-Vektor einem Doppelverdau mit den Restriktionsenzymen KpnI und BamHI +unterzogen und ligiert werden. Nach der darauffolgenden Transformation in kompetente E. +coli Bakterien sollte zuerst eine Kolonien-PCR, dann eine Plasmid-Mini-Prep durchgeführt +werden. + +Seite 4 + + + + + + 2. Materialien und Methoden + +2.1 + +Versuch 1: gbf1 knock out Pflanzen Typisierung + +2.1.1 Versuchsdurchführung + +Die Pflanzen wurden sowohl mit einer Digitalkamera als auch mit einem Flachbettscanner +wöchentlich aufgenommen. Hierbei wurde jeweils die ganze Pflanze wie auch jeweils 3 +junge, mittelalte und alte Blätter der ersten Rosette gescannt. Zudem wurde +Pflanzenmaterial zur späteren Verwendung eingefroren. + +Anschließend wurde die Chlorophylkonzentration der Pflanzen gemessen. Hierzu wurde +Pflanzenmaterial in 0,2ml 25mM Kalium Phosphat Puffer (pH 7,0), welcher 2mM EDTA +enthielt homogenisiert. Danach wurde 0,8 ml Aceton hinzugegeben und für 1h bei +Raumtemperatur stark geschüttelt. Die Lösung wurde anschließend bei 14000 u/min für 30 +min zentrifugiert. Der Chlorophylgehalt des Überstandes wurde danach im Photometer +gemessen. Aus der Menge an Pflanzenmaterial und der gemessenen Menge an Chlorophyll +wurde nun die Chlorophyllkonzentration errechnet. + +Zusätzlich wurden über die komplette Zeit des Praktikums 9 Pflanzen (3 von jeder +Pflanzenreihe aus Col0 Int und Ex) in Intervallen mit Abscisinsäure besprüht. Gleichzeitig +wurden 9 Pflanzen zur Kontrolle nicht besprüht unter gleichen Bedingungen gehalten. + +2.2 Versuch 2: Promotor CAT2: GUS Reportergenanalysen + +2.2.1 Versuchsdurchführung +Von den Verwendeten Pflanzen wurden beim ersten Versuchsdurchlauf 40 mittelgroße und +beim 2. Durchlauf 40 große Blätter mit einer Rasierklinge in kleine (ca. 1mm) breite Streifen +geschnitten zusammen mit 20 ml Enzymlösung auf eine Petrischale gegeben. Beim ersten +Versuchsdurchlauf wurde nun 1 Stunde verdaut, anschließend Vakuuminfiltriert und +schließlich 2 weitere Stunden verdaut. Beim zweiten Durchlauf wurde zuerst +Vakuuminfiltriert und anschließend für 3h verdaut. Die Vakuuminfiltration lief für 20 min bei +200 mBar. Nun wurde die Lösung mit einem 45µm Filter filtriert und die filtrierte Lösung für +2 min in einem Falcon Tube bei 2500 u\min zentrifugiert. Der Überstand wurde daraufhin +abpippetiert und das verbleibende Protoplastenpallet +in 10ml eiskalter W5 Lösung +resuspendiert. Die Lösung wurde für 30 min auf Eis gehalten und anschließend abermals für +2 min bei 2500 u\min abzentrifugiert und in 1,5ml MMg gelöst. + +Zur PEG Transfektion wurden 200µl der gelösten Protoplasten zusammen mit 10µg DNA in +ein Eppendorf Gefäß umpippetiert und anschließend 220µl PEG Lösung hinzugegeben. Diese +Lösung wurde anschließend bei 25°C für 30min inkubiert und danach mit 2ml W5 Lösung +versetzt um den Transfektionsprozess anzuhalten. Danach wurde für 2min bei 100g (1500 +u\min) abzentrifugiert und der Überstand verworfen. Die Lösung wurde nun mit 1ml W5 + +Seite 5 + + + + + Puffer versetzt und für 20h im Dunkeln über Nacht inkubiert. Es wurden jeweils 3 Proben mit +dem PY01 Vektor, 3 mit dem P35S Vektor sowie eine mit dem CF 203 Vektor angefertigt. + +Die inkubierten Lösungen wurden nun für 2 Tests verwendet, ein GUS assay und eine protein +quantifiaction. Die Vorbereitung war hierfür bei beiden Tests gleich. Die Lösung wurde mit +10ml fall buffer versetzt und bei 400g für 5min zentrifugiert, der Überstand wurde +verworfen. Die Protoplasten wurden nun in ein 1.5ml Eppendorfgefäß überführt und +nochmals bei 10000g für 10 sec zentrifugiert, Der Überstand wurde abermals verworfen. Die +Protoplasten wurden nun mit 36µl protein extraction buffer und 7µl protease inhibitor +gelöst und im Eisbad gemörsert. Die Lösung wurde nun bei 14000 u\min für 10 min +zentrifugiert und der Überstand in ein neues Gefäß überführt. + +Bei der protein quantification wurde nun 5µl Lösung mit 995µl Bradford 1:5 in einer Küvette +versetzt und 5min ruhen gelassen. Zudem wurde ein blank mit 995µl Bradford 1:5 und 5µl +protein extraction buffer / protease inhibitor Gemisch erstellt. Die vorbereiteten Küvetten +wurden nun im Photometer bei einer Wellenlänge von 595nm gemessen. + +Zur GUS quantification wurden 2 Messreihen erstellt. Bei beiden wurde 90µl assay buffer mit +10µl Probe versetzt. Anschließend wurde eine Messreihe 60 min bei 37°C inkubiert und +danach mit 900µl 0,2 M Na2CO3 versetzt um die Reaktion zu stoppen. Die andere Messreihe +wurde nicht inkubiert. Zudem wurde wiederum ein blank mit 90 µl Assay buffer 10 µl protein +extraction buffer und 900 µl Na2CO3 erstellt. Von beiden Messreihen und dem blank +wurden nun 1µl auf eine Microtiterplatte pippetiert und im Plattenphotometer die +Extinkiton bei 355 nm und die Emission 460 bei nm gemessen. + +Seite 6 + + + + 2.2.2 Verwendete Mittel +W5 Lösung (1l): + +154 mM NaCl (8,900g) + +125mM CaCl2 (13,873g) + +5mM KCl (0,372g) + +5mM Glukose (0,990g) + +MMg Lösung (0,5l): + +Essay Buffer: + +10ml GUS puffer + +7 µl Mercaptoethanol + +4mg 4MUG (gelöst in 10 µl DMSO) + +Fall Buffer (500ml): + +0,5M Mannitol (45,5 g) + +15mM MgCl2 • 6H20 (1,524g) + +15mM MgCl2 (3,75 ml 2M NgCl2) + +0,1% MES (0,500g) + +0,5 M Mannitol (46,042g) + +pH 5,8 + +autoklaviert + +0,1% MES (0,5g) + +pH 5,8 + +sterile filtrate + +Extraction Buffer (10ml): + +PEG/Ca Lösung (100ml): + +50mM Tris pH 7,5 (0,5ml 1M Tris) + +40%PEG 4000 (40g) + +100mM NaCl (1ml 1M NaCl) + +0,4M Mannitol (7,285g) + +0,1% Triton X-100 (10µl Triton 100-X) + +0,1M Ca(NO3)2 • 4H2O (2,361g) + +Protease Inhibitor (7x) + +pH 8-9 mit 1-2 Tropfen KOH + +autoklaviert + +gefroren aufbewahren + +GUS Buffer (500ml): + +2,05g Na2HPO4 + +1,27g NaH2PO4 + +10ml 0,5M EDTA + +0,5ml Triton X-100 + +0,5g N-Lauroylsarcosine Sodium Salz (=0,1%) + +Seite 7 + + + + + + + + + + + + + + + 2.3 + +Versuch 3 Expressionsanalyse in gbf1 KO Pflanzen + +2.3.1 Versuchsdurchführung + +RNA Aufbereitung: Zur Aufarbeitung der RNA wurde folgendermaßen vorgegangen. Zu Beginn wurde +das gefrorene Blattmaterial in, mit flüssigem Stickstoff gekühlten, Reibeschalen gemörsert und mit 1ml +Cell-Lysis-Lösung in ein 2ml Eppendorfgefäß überführt und homogenisiert. Zusätzlich wurden 500 µl +Protein-DNA-Precipitation Lösung gegeben und nach 10maligem invertieren für 10min ins Eisbad +gestellt. Schließlich wurden die Proben für 10min im Kühlraum bei 14000 u\min zentrifugiert. + +1ml des Überstandes aurde nun in ein neues 2ml Eppendorfgefäß überführt, mit 1ml 100% Isopropanol +versetzt und nach mehrmaligem invertieren für 5min bei max u\min im Kühlraum zentrifugiert. Der +Überstand wurde verworfen das Eppendorfgefäß auf einem Filterpapier abgetupft. Nun wurde der +restliche 1ml Überstand der Proben zusammen mit 1ml 100% Isopropanol in das bereits verwendete +Eppendorfgefäß überführt und wiederum für 5min bei max u\min im Kühlraum zentrifugiert. Der +Überstand wurde verworfen, das verbleibende Pellet mit 1ml 70% EtOH mehrmals invertiert und dann +2min bei max u\min im Kühlraum zentrifugiert. Das verbleibende EtOH wurde verworfen und das +zurückbleibende Pellet auf dem Heizblock bei 40°C getrocknet. + +Anschließend wurde die verbleibende DNA verdaut. Um dies zu erreichen wurde das Pellet in 6 µl 10x +Puffer +MgCL gelöst, mit 4 µl DNaseI versetzt und für 30min bei 37°C auf den Heizblock gelegt. Nun +wurde 1µl EDTA 25mM hinzugefügt und für 10min bei 65°C auf dem Heizblock denaturiert. +Abschließend wurde jeweils 1µl der Lösung auf dem NanoDrop Gerät gemessen um die RNA +Konzentration zu bestimmen und die Proben auf Ein Gel aufgetragen um zu prüfen in welchen Proben +die gewünschte RNA zu finden war. Als positivkontrolle und marker wurde hierbei jeweils der Lamda +DNA/Hind III Marker, 2 verwendet. + +cDNA Umwandlung: Um nun die RNA in cDNA umzuwandeln wurde ein iScript Reaction Mix verwendet. +Hierbei wurden 4µl 5x iScript Reaction Mix, 1µl reverser Transcriptase und eine Menge X (wobei X +=1µg/RNA Konzentration der entprechenden Probe) zusammengebracht und mit autoklaviertem auf +20µl Gesamtvolumen aufgefüllt. Die Proben wurden nun für jeweils 5min bei 25°C, 30min bei 42°C und +5min bei 85°C auf dem Heizblock erhitzt. + +Semi-quantitative RT PCR: zur Amplifikation der cDNA wurde die DNA 1:10 verdünnt. Anschließend +wurden jeweils 2 Versuchsreihen durchgeführt. Jeweils eine mit Actin und eine mit GBF1 Primern. +Hierzu wurde jeweils ein MM (s.u.) angesetzt wobei die jeweiligen primer verwendet wurden. Wichtig +hierbei war, um eine Gleichverteilung der DNA zu gewärhleisten, dass der MM bis auf die Primer jeweils +für die Actin und die GBF1 Probe gemeinsam angesetzt wurde dann halbiert und mit den +entsprechenden Primern versetzt. Die Proben wurden dann durch das PCR Programm laufen gelassen +bei 60°C Annealingtemperatur für 30sec und 72°C Elongationstemperatur für 30sec für insgesamt 25 +Zyklen. + +Gelelektrophorese: Abschließend wurde jeweils 5µl Probe mit 0,5µl Pufferlösung versetzt und auf ein +Agarosegel aufgetragen. An dieses wurde 30min eine Spannung von 100Volt angelegt. + +Seite 8 + + + + + 2.3.2 Verwendete Materialien +MasterMix [MM] (10µl) + +1 µl 10xPuffer (high specific) + +0,4 µl DNTPs (10mM) + +0,1 µl Control TAQ (incl. Polymerase) + +0,5 µl verdünnte cDNA (bei Durchlauf 2 wurden 5µl verwendet) + +1 µl Primer Forward + +1 µl Primer Backward + +5,9 µl H2O (Bei Durchlauf 2 wurden 1,4 µl verwendet) + +Agarosegel: + +30ml 1x TAE Puffer und 0,3g Agarose zusammen aufkochen + +1µl Ethidiumbromid (1%) + +Gel gießen und mit 1xTAE Puffer auffüllen.(170ml) + +Seite 9 + + + + + + + + 2.4 + +Versuch 4: Klonierung + +2.4.1 Versuchsdurchführung + +Am Anfang wurde die vorhandene GBF2 Sequenz durch eine PCR amplifiziert. Hierbei wurde der 50µl +Ansatz(siehe 2.4.2) in folgendem PCR Programm eingesetzt: 2 min bei 95°C, 30 sec bei 95°C, 30 sec +Annealing, 1 min Elongation bei 72°C und 7min bei 72°C. + +Die DNA wurde nun in 10µl H2O gefällt und zusammen mit 1µl loading buffer für 30 min bei 100V auf +ein Agarosegel aufgetragen. Anschließend wurde das gewünschte Fragment mit dem QIAquick Gel +Extraction Kit Protokoll aus dem Gel geschnitten. Nun wurde zum einen der cf203 Vector und das +Template in einem 100µl Ansatz für 3h bei 37°C verdaut und anschließend die Ligation des Vectors und +des geschnittenen Templates in einem 10µl Ansatz üernacht bei 4°C durchgeführt. + +Zur Transformation wurden nun zuerst 50µl kompetente Zellen und 5µl Ligation für 20 min auf Eis +gestellt. Um die Zellen aufnahmefähig für Plasmide zu machen wurden sie 1 Minute 42 C ausgesetzt +(Hitzeschock). Nun wurden 250µl LB Medium hinzugegeben und für 1h schüttelnd bei 37°C inkubiert. +Anschließend wurde die gesamte Probe auf einer LBSpec Platte ausplattiert und über Nacht bei 37°C +inkubiert. + +Insgesamt wurden je Platte 16 Kolonien kepickt und in je 7µl H2O in einem PCR Tube gelöst. Zusätzlich +wurden die Pippettenspitzen nach jedem Lösten auf einer frischen LBSpec Platte ausgestrichen. Die +gelösten Proben wurden nun zusammen mit einem Mastermix in ein PCR Gerät gegeben. + +2.4.2 Verwendete Materialien +Agarosegel: + +30ml 1x TAE Puffer und 0,3g Agarose zusammen aufkochen +1µl Ethidiumbromid +Gel gießen und mit 1xTAE Puffer auffüllen.(170ml) + +50µl Ansatz: + +5µl 10X Puffer +0,5µl LA Taq (proofreading) +2µl Template +2µl dNTP +2,5µl Primer Forward +2,5µl Primer Reverse +35,5µl H2O + +100µl Ansatz: + +50µl Gelextrakt +10µl 10x Tango/KpnI Puffer +5µl KpnI +5µl BamHI + +Seite 10 + + + + + + 30µl H20 + +10µl Ansatz: + +1µl 10x Puffer +1µl Ligase +1µl verdauter Vektor +7µl Gelextrakt + +Mastermix: + +0,1µl Polymerase +1 µl 10 x Puffer +0,4 µl dNTPs +0,7 µl Primer Forward +0,7 µl Primer Reverse + +Seite 11 + + + + + + + + + + 3 Ergebnisse + +3.1 Versuch 1: gbf1 knock out Pflanzen Typisierung + +Col0 4W von oben + +Col0 4W von unten + +Ex 4w von oben + +Ex 4W von unten + +Seite 12 + + + + + + + + + + Int 4W von oben + +Int 4W von unten + +Col0 5W von oben + +Col0 5w von unten + +Seite 13 + + + + + + + + + + Ex 5W von oben + +Ex 5W von unten + +Int 5W von oben + +Int 5W von unten + +Seite 14 + + + + + + + + + + Col0 6W von oben + +Col0 6W von unten + +Col0 6W einzelne Blätter von oben + +Col0 6W einzelne Blätter von unten + +Seite 15 + + + + + + + + + + + Ex 6W von oben + +Ex 6W von unten + +Ex 6W einzelne Blätter von oben + +Ex 6W einzelne Blätter von unten + +Seite 16 + + + + + + + + + + + Int 6W von oben + +Int 6W von unten + +Int 6W einzelne Blätter von oben + +Int 6W einzelne Blätter von oben + +Seite 17 + + + + + + + + + + Col0 7W von oben + +Col0 7W von unten + +Col0 7W von oben + +Seite 18 + + + + + + + + Ex 7W von oben + +Ex 7W von unten + +Ex 7W einzelne Blätter von oben + +Seite 19 + + + + + + + + Int 7W von oben + +Int 7W von unten + +Int 7W einzelne Blätter von oben + +Seite 20 + + + + + + Oben Abgebildet sind die Bilder der Pflanzen über den Wachstumzeitraum von Woche 4 bis 7. Es sind +jeweils 2 Bilder von je 3 Pflanzen der Reichen Col0, Int und Ex. Die Blattmenge und die Zunahme +derBlattmenge über den betrachteten Zeitraum ist bei allen 3 Reihen gleich stark. Achtet man nun auf +Seneszenzerscheinungen wie z.B. braune und abgestorbene Blätter und Vergleicht die verschiednen +Reihen untereinander so fällt auf, dass alle 3 Versuchreihen die gleichen Erscheinungen in gleichem +Ausmaß zeigen oder nicht zeigen. Nachfolgend abgebildet sind nun die Ergebnisse der Messung des +Chlorophylgehaltes der einzelnen Reihen in der 6. Woche. + +Col0 6W + +Chlorophylgehalt + +Gew. in g + +Pflanze 1 + +Pflanze 2 + +Pflanze 3 + +Jung +Mittel +Alt +Jung +Mittel +Alt +Jung +Mittel +Alt + +0,01 +0,06 +0,08 +0,01 +0,06 +0,1 +0,04 +0,01 +0,07 + +c (mg/l)= (D x +1000)/34,5 + +(0,1/Gew)*c + +62,087 +59,739 +21,507 +31,536 +42,609 +50,319 +76,493 +26,145 +26,493 + +620,870 +99,565 +26,884 +315,362 +71,014 +50,319 +191,232 +261,449 +37,847 + +D652 +2,142 +2,061 +0,742 +1,088 +1,47 +1,736 +2,639 +0,902 +0,914 + +Mittelwert: +Standartab + +Jung +375,821 +221,108 + +Mittel +144,010 +102,703 + +Alt +38,350 +11,725 + +INT 6W + +Chlorophylgehalt + +c (mg/l)= (D + +Pflanze 1 + +Pflanze 2 + +Pflanze 3 + +Jung +Mittel +Alt +Jung +Mittel +Alt +Jung +Mittel +Alt + +Gewicht in g +0,02 +0,1 +0,01 +0,02 +0,1 +0,1 +0,02 +0,04 +0,03 + +D +1,988 +2,028 +1,278 +2,011 +1,47 +2,56 +1,64 +1,655 +0,902 + +(0,1/Gew)*c +288,116 +58,783 +370,435 +291,449 +42,609 +74,203 +237,681 +119,928 +87,150 + +57,623 +58,783 +37,043 +58,290 +42,609 +74,203 +47,536 +47,971 +26,145 + +Jung + +Mittel + +Alt + +Mittelwert: +Standartabw + +272,415 +30,127 + +73,773 +40,781 + +177,262 +167,417 + +Seite 21 + + + + + + Ex 6W + +Chlorophylgehalt + +Pflanze 1 + +Pflanze 2 + +Pflanze 3 + +Jung +Mittel +Alt +Jung +Mittel +Alt +Jung +Mittel +Alt + +Gewicht in g +0,01 +0,01 +0,03 +0,02 +0,06 +0,08 +0,02 +0,03 +0,08 + +c (mg/l)= (D +x + +D + +(0,1/Gew)*c + +1,088 +1,655 +0,781 +0,781 +1,351 +1,693 +1,278 +1,736 + +31,536 +47,971 +22,638 +22,638 +39,159 +49,072 +37,043 +50,319 + +315,362 +159,903 +113,188 +37,729 +48,949 +245,362 +123,478 +62,899 + +Jung + +Mittel + +Alt + +Mittelwert: +Standartabw + +179,275 +93,461 + +158,857 +142,157 + +90,584 +60,436 + +Col0 6W + +INT 6W + +Ex 6W + +700,000 + +600,000 + +500,000 + +400,000 + +300,000 + +200,000 + +100,000 + +0,000 + +Jung + +Mittel + +Alt + +Chlorophylkonzentration nach Alter und Reihe mit Standartabweichung + +Betrachtet man den Chlorophyllgehalt und dessen Abnahme nach Alter der Blätter so lässt sich sagen, +dass die Abnahme in der Col0 Reihe stärker ausfällt. Dies lässt auf einen funktionierenden GBF1 +Knockout schließen Knockout da hierbei das Chlorophyll in älteren Blättern nicht so schnell abgebaut +wird wie in Wildtyppflanzen. + +Die 2te Chlorophyll Messung lässt sich aufgrund fehlender Gewichtsmessungen des Blattmaterials nicht +auswerten + +Seite 22 + + + + + + 400,000 + +350,000 + +300,000 + +250,000 + +200,000 + +150,000 + +100,000 + +50,000 + +0,000 + +Jung + +Mittel + +Alt + +Regressionsgerade der Chlorophylkonzentration + +Col0 6W + +INT 6W + +Ex 6W + +Col0 6W + +INT 6W + +Ex 6W + +Seite 23 + + + + + + Mit und ohne Aba besprühte Pflanzen im Vergleich vom 05.05.2009 + +Mit und ohne Aba besprühte Pflanzen im Vergleich vom 18.05.2009 + +Man erkennt deutlich die Wachstumsinhibitorische Wirkung der Abscisinsäure. Die behandelten +Bplanzen weisen ein deutlich geringeres Wachstum auf als die Unbehandelten. Im Vergleich der 3 +Pflanzenreihen zeigt sich die Wirkung auf die Col0 Pflanzen am deutlichsten. + +Seite 24 + + + + + + 3.2 Versuch 2: Promotor CAT2: GUS Reportergenanalysen + +Abbildung der Isolierten Protoplasten. Man deutlich erkennen, dass hierbei genügend funktionelle +Protoplasten isoliert wurden. + +Ergebnisse der Bradford Messung + +Seite 25 + + + + + 35S +577425 +500170 + +35S +680432 +563390 +Ergebnisse des Gus Essay + +35S +61627 +60455 + +Py01 +616945 +616249 + +Py02 +619922 +584727 + +Py03 +612286 +555998 + +Blank +558312 + +Zur Berechnung der spezifischen GUS Aktivität wurde folgende Formel verwendet: + +AGUS (nmol/mg x min) = (KMU (nM) x VKü (ml) x VF x UF (1l/1000ml)) / (PM (mg) x t (min) + +Wobei: + +AGUS +KMU +VKü +VF +UF +PM +T + +spezifische GUS-Aktivität +gemessene MU Konzentration +Volumen in Küvette +Verdünnungsfaktor +Umrechnungsfaktor +Proteinmenge im Ansatz +Reaktionszeit + +nmol/(mg x min) +nM + +ml + +1l / 1000ml +mg + +min + +Welche mit eingesetzten Werten zu folgendem Ergebnis führt: + +35 S +35 S +35 S + +PYO1 +PYO1 +PYO1 + +KMU +77255 +117042 +11717 + +696 +35195 +56288 + +V KÜ VF +0,2 100 +0,2 100 +0,2 100 + +UF + +PM +0,001 0,29814 +0,001 0,28109 +0,001 0,35108 + +0,2 100 +0,2 100 +0,2 100 + +0,001 0,24083 +0,001 0,29908 +0,001 0,17595 + +T +60 +60 +60 + +60 +60 +60 + +AGUS +86,37441 +138,7954 +11,12472 + +0,9633351 +39,225848 +106,63636 + +Mittelwert + +35 S +PYO1 + +78,764845 +48,941846 + +Standard +abweichung +52,398346 +43,684454 + +Seite 26 + + + + + + + + + + + + + + + + + + + + + + + + + + + i + +) +n +m +* +g +m +( +/ +l +o +m + +90 + +80 + +70 + +60 + +50 + +40 + +30 + +20 + +10 + +0 + +PYO1 + +35 S + +Die Annahme, dass das, hinter einen CAT2 Promoter geschaltete, Reportergen GUS bei Zugabe von GBF1 +redzuiert exprimiert wird, konnte mit den vorliegenden Ergebnissen leider nicht bestätigt werden. In +den hier abgebildeten Ergebnissen ist sogar gegenteiliges der Fall. Hier wurde GUS bei denjenigen +Protoplasten die einen leeren Vektor ohne GFB1 Gen enthielten weniger stark exprimiert als bei +denjenigen mit vorhandenem GBF1 Gen. + +Seite 27 + + + + + 3.3 Versuch 3: Expressionsanalyse in gbf1 KO Pflanzen + +Seite 28 + + + + + Seite 29 + + + + + + Seite 30 + + + + + + Seite 31 + + + + + + Oben abgebildet sind alle im Verlauf des Versuchs produzierten Gelbilder. Die mit „RNA“ beschrifteten +Bilder sind jeweils die Kontrollen zum prüfen ob verwendbare RNA vorhanden war. Die mit X markierten +Proben wurden hierbei jeweils für verwendbar befunden zur Umwandlung in cDNA weiter verendet. In +manchen Fällen erkennt man hierbei die zwei obersten Banden welche die vorhandene 18S und 25S +RNA darstellen. Die immer sichbaren starken dunklen Banden ganz unten bilden jeweils die defekte +degradierte RNA. Die mit cDNA markierten Bilder sind die jeweils nach der RT PCR aufgetragenen +Proben. Die verwendeten Primer sind hierbei auf dem Bild vermerkt. Die untersten Banden stellen auf +diesen Bildern die komplementären Primer dar die sich aneinander gelagert haben und keine Expression +darstellen. Falls darüber eine zweite Bande zu sehen ist so stellt dies eine jeweilige positive Expression +der dem Primer entsprechenden cDNA dar. Einzig der Fall der verwendeten Probe „Col 5C“ auf Bild B5 +stellt sich als unerklärbar dar da hier eine GBF1 Bande aber keine Actin Bande zu sehen ist, welche aber +zu sehen sein sollte. Das Ergebnis wird daher nicht als positiv bewertet. Die einzige positive Bewertung +für eine GBF1 Expression stellt die Probe Int 8W von Bild B9 dar, da hier eine Actin Expression sowie eine +sehr geringe GBF1 Expression zu sehen ist. Dies dürfte aber aufgrund des Knockouts in den Int Pflanzen +nicht der Fall sein. + +Seite 32 + + + + + + + Eine Zusammenstellung der Auswertung der Bilder und der gemessenen RNA-Konzentration und +Reinheit findet sich in folgender Tabelle: + +Probe + +RNA Isoliert + +RNA +Konzentration + +Reinheit +(260/280) + +Actin + +GBF1 + +Col0 4W +Col0 5W +Col0 6W +Col0 7W + +Int 4W +Int 5W +Int 6W +Int 7W +Int 8Wa +Int 8Wb + +Ex 4W +Ex 5W +Ex 6W +Ex 7W + +positiv + +0,256 + +n.v. + +positiv +positiv +positiv +positiv +positiv +positiv + +positiv +positiv +positiv +positiv + +0,66 +873,2 +0,066 +0,66 +210,4 +122,7 + +0,66 +0,07 +230,4 +0,91 + +n.v. +2,1 positiv + +n.v. positiv +1,76 positiv +1,94 + +n.v. positiv +2,01 + +2,1 positiv +1,95 positiv + +positiv + +Seite 33 + + + + + + 3.4 Klonierung + +Man erkennt deutlich, dass keine einzelnen Banden erkennbar sind und die Kolonie PCR somit in diesem +Fall fehlgeschlagen ist. + +Abgebildet sind die Ergebnisse der PCR auf die Miniprep. Auch hier sieht man an den fehlenden Banden +bei Verwendung der Control TAQ, dass die Klonierung nicht funktioniert hat, die PCR als solche aber sehr +wohl wie man an den deutlich sichtbaren Banden bei verwendung der LA-TAQ sieht. + +Seite 34 + + + + + + + + + + 4 Diskussion + +4.1 GBP1 Pflanzen KO Typisierung +Da sowohl Pflanzenwachstum als auch Seneszenzerscheinungen in allen 3 Pflanzereihen gleich war +lassen sich leider keine Aussagen treffen. Möglicherweise treten hier die erwarteten Effekte aber auch +erst in späteren Wochen auf. Die erhaltenen Ergebnisse entsprachen beim Chlorophylgehalt als auch +beim Pflanzenwachstum der mit Aba besprühten Pflanzen jedoch den Erwartungen. Die Ergebnisse der +zweiten Chlorophylmessung waren leider aufgrund fehlender Messungen nicht auswertbar. + +4.2 Versuch 2: Promotor CAT2: GUS Reportergenanalysen +Die Ergebnisse in diesem Versuch konnten die Erwartungen leider nicht erfüllen. So waren die meisten +Messungen aufgrund von Fehlern nicht auswertbar obwohl die isolierten Protoplasten gut aussahen. Es +wird vermutet dass bei den letzten Messungen Pippetierfehler aufgetreten sind oder Gefäße und +Beschriftungen vertausc ht wurden. Dies kann aber nicht bestätigt werden. + +4.3 Versuch 3: Expressionsanalyse in gbf1 KO Pflanzen +Auch dieser Versuch konnte die Erwartungen nicht erfüllen und die Theoretischen Ergebnisse nicht bestätigen. Zu +einem großen Teil wird das auf die Minderwertige RNA nach Isolierung zurückzuführen sein. Hier wurden +eventuell prozedurale Fehler gemacht wie z.B. ein zeitweises auftauen des Blattmaterial führte. Dies wiederum +erzeugte Stress für Pflanzen und führte womöglich zu einer Ausschüttung von Nukleasen. Zudem zeigen die +Ergebnisse ein Vorhandensein des GBF1 Gens in den KO Pflanzen was wiederum an den Ergebnissen zweifeln +lässt, da dies + +4.4 Versuch 4: Klonierung +Dieser Versuch ist fehlgeschlagen. Zum einen waren die verwendeten LBSpec Platten zeitweise nicht +auffindbar und zum anderen evtl auch zu alt da nicht wie erwartet einzelne Resistente Kolonien +gewachsen sind sondern ein ganzer Rasen. Zudem können Fehler bei der Plasmidisolierung aufgetreten +sein, was das totale Fehlen der Plasmide bei der Miniprep erklären würde- + +Seite 35 + + + + + \ No newline at end of file diff --git a/StilVorlagen/Protokoll Versuch A - Nerv V2.md b/StilVorlagen/Protokoll Versuch A - Nerv V2.md new file mode 100644 index 0000000..b19d70b --- /dev/null +++ b/StilVorlagen/Protokoll Versuch A - Nerv V2.md @@ -0,0 +1,624 @@ +Versuch A: + +Nervenphysiologie + + 1 + +Durchgeführt am: + +Do. 1.4.04 + +Gruppe B2D + +Kersting, Daniel +Maslesa, Senid +Schwörer, Christoph + +Quelle: http://www.egbeck.de/skripten/bilder/frosch.gif (bearbeitet) + +Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 + + + + + + + + + + + 2 + +1. Einführung + +Die schnelle interne Informationsweiterleitung jedes mehrzelligen tierischen Lebewesens beruht +auf Nerven. Dies sind spezielle Zellen deren Membran durch eine ungleiche Verteilung von Na+ +Cl- K+ und Anionen polarisiert werden. Damit die weitergeleiteten Informationen in Form von +Änderungen der Polarisation der Zellmembran größere Distanzen innerhalb des Organismus +zurücklegen zu können besteht eine Nervenzelle aus einem Zellkern in den viele Dendriten +münden, die diese Polarisationsänderung zur Zelle hin leiten, und einem aus der Zelle +ausgehenden Axon das am Axonhügel beginnt und an dessen Ende sich eine Schnittstelle zur +Informationsweitergabe befindet. Meist ist diese Schnittstelle eine Synapse die den geleiteten +Reiz an eine weitere Nervenzelle weitergibt. Es existieren aber auch andere Enden wie z.B. eine +Motorische Endplatte. +Die „Information“ die durch diese Nervenzelle weitergegeben wird ist in Form von plötzlichen +Ladungsänderungen der Zellmembran realisiert. Diese Ladungsänderungen, die AP (Aktions- +Potential) genannt werden, sind jedoch immer gleich stark (Alles oder nichts Gesetz) so dass eine +Codierung der Information anders erfolgen muss. Dies geschieht über die Frequenz mit der +Reize geleitet werden. Da jedoch die Veränderung der Polarisation mit der eine Information +geleitet wird durch einen Ausgleich der Na+ Ionen an der Zellmembran geschieht, und diese +Depolarisation der Zellmembran erst wieder durch einen Ausstrom von K+ Ionen kompensiert +werden muss kann die Frequenz mit der Reize geleitet werden nicht unbegrenzt hoch sein. Die +maximale Frequnz wird durch die sogenannte „Absolute Refraktärzeit“ der Nervenzelle +bestimmt. Diese Zeit ist die Zeit die benötigt wird um ein erneute SAP auszulösen. Die Relative +Refraktärzeit hingegen ist diejenige Zeit in der zwar schon wieder ein SAP ausgelöst werden +kann die Repolarisation der Zellmembran jedoch noch nicht vollständig ist so dass ein größerer +Reiz benötigt wird um ein SAP auszulösen. + +Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 + + + + + + 3 + +2. Passive Eigenschaften der Nervenzellmembran + +2.1 Aufbau/Methoden: + +In diesem Versuch wird die passive Membraneigenschaft einer Nervenzelle gemessen. Dabei +benutzen wir ein Modell der Nervenzellmembran (Kette von RC-Gliedern) Jedes Glied dieser +Kette repräsentiert einen kleinen Membranabschnitt mit Membranwiderstand und +Membrankapazität. Den Innenwiderstand bildet die "Intrazellulärflüssigkeit" in verbindet die +einzelnen Glieder. Der Außenwiderstand der Extrazellulärflüssigkeit wird als sehr klein +angenommen. + +Aufbau: + +Quelle: Script zum Versuch + +2.2 Ergebnisse: + +Abstand +0 +Amplitude [V] 7 + +2 + +1 +2,75 1,1 + +2.3 Diskussion: + +4 + +3 +0,45 0,17 0,05 0,045 + +5 + +6 + +Wenn man die Ergebnistabelle betrachtet erkennt man, dass die Amplitude sehr schnell stark abnimmt. +Dies ist auf den hohen „Innenwiederstand“ der Intrazellulärflüssigkeit zurückzuführen. Vergleicht man +die sich ergebende Kurve mit denen aus der Literatur für eine echte Nervenzelle so stellt man fest dass +das Modell sehr genau der Realität entspricht. + +Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 + + + + + + + + + + + + 4 + +3. Präperation + +3.1 Präparation des Nervus ischiadicus + +Ein Frosch wird dekapitiert, sein Rückenmark zerstört, enthäutet und mit Ringerlösung +abgespült. +Die Bauchhöhle des Frosches wird geöffnet und die Eingeweide entnommen. Die Ischiadicus- +Nerven werden mit einem Bindfaden abgebunden und bis zum Eintritt in den Oberschenkel +freipräpariert. +Anschließend wird er in eine Petrischale mit Ringerlösung gelegt, da dies eine optimale +Umgebung für den Nerv ist. + +3.2 Versuchsaufbau Ableitapparatur + +Quelle: Script zum Versuch + +Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 4 Messung des Reizartefakts + +4.1 Methoden/Aufbau: + +Ein mit Ringer angefeuchteter Faden wir in die Ableitkammer gelegt und mit einigen Reizen +angeregt. + + 5 + +4.2 Ergebnisse: + +Hier War kein Ausdruck vorhanden + +4.1 Diskussion: + +Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 + + + + + + + + + + + + + + 6 + +5. Ableitung eines fortgeleiteten diphasischen +Summenaktionspotentials bei unterschiedlichen +Reizstärken + +5.1 Methoden/Aufbau: + +Ein Summenaktionspotential (SAP) entsteht bei gleichzeitiger Erregung mehrerer (sämtlicher) +Axone eines Nerven. Es wird extrazellulär abgeleitet. Die Amplitude hängt von der +Reizamplitude ab. Bei der Reizamplitude unterscheidet man zwischen der Schwellenreizstärke, +der kleinsten Reizamplitude, die noch ein meßbares SAP auslöst und der Maximalreizstärke, der +Reizamplitude, ab der eine weitere Reizstärkung keine größere SAP-Amplitude auslöst. + +Zunächst wird schrittweise die Reizamplitude erhöht. + +5.2 Ergebnisse: + +AP: 5 fach verstärkt 5mV +Reiz: 50 mV +Zeit 0,2ms + +Reiz: 500 mV +AP: 50mV + +Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 7 + +Reiz: 2V +AP:100mV + +Amplitude des SAP’s in Abhängigkeit von der Reizamplitude: + +Reiz[v] +0 +SAP [mV] 0 + +0,08 0,3 +125 +4 + +1 +250 + +3,5 +280 + +5 +280 + +Diagramm über die Zunahme der SAP-Amplitude in Abhängigkeit von der Reizamplitude: + +5.3 Diskussion: + +Im obigen Diagramm kann sowohl die untere als auch die obere Reizschwelle von 0.08V und 3.5V +sehr gut erkennen. Bei einem Schwellreiz von 0.08V werden nur sehr wenige Nervenzellen erregt, +vermutlich sogar nur eine einzige. Entsprechend schwach ist auch die gemessene Reizantwort. Je +stärker nun gereizt wird desto mehr einzelne Nervenzellen werden erregt und bilden AP’s die als SAP +abgeleitet werden. Ab einer Reizstärke von ca. 3.5V werden alle Nervenzellen des Nervs erregt und +eine noch weitere Verstärkung des Reizes bringt nichts. + +Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 + +-500501001502002503000123456Amplitude [V]SAP [mV] + + + + + + + + + + + + + + + + + + + + + + + + + + + 8 + +6. Bestimmung der Geschwindigkeit der +Erregungsleitung + +6.1 Aufbau/Methoden: + +Hier messen wir, wie groß die Geschwindigkeit ist, mit der Aktionspotentiale im Froschnerven +weitergeleitet werden. Dabei wird der Reiz einmal nahe am Reizort und einmal in einem +weiteren Abstand vom Reizort (1cm) registriert. Aus dem Abstand zwischen den beiden +Ableitelektrodenpaaren (s) und dem ermittelten Zeitunterschied (t) zwischen den abgeleiteten +SAP’s kann die Leitungsgeschwindigkeit (v) errechnet werden (v=s/t). + +6.2 Ergebnisse: + +Zeit: 0,2ms Reiz: 2mV AP: 20mV + +Der zeitliche Abstand mit dem die beiden AP’s gemessen wurden beträgt ca. 0,3 ms. Unter +Verwendung der oben angegeben Formel v=s/t (v=1cm/0,3ms) erhält man eine +Leitungsgeschwindigkeit von 33,3m/s. + +6.3 Diskussion: + +Betrachtet man die beiden Schaubilder stellt man im rechten, also der weiter vom Reiz entfernten Ableitung +eine deutliche „Ablachung“. Diese entsteht durch die unterschiedliche Leitgeschwindigkeit der in der +Nerfenfaser liegenden Axone. So treffen die erzeugten einzelnen AP’s nach einer gewissen Distanz nicht mehr +exakt zur selben Zeit ein, wie es im linken Schaubild der Fall ist sondern über einen Zeitraum verteilt der mit +der Distanz zur Reizquelle immer größer wird. Dies führt zur Abflachung des abgeleiteten SAP’s. + +Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 + + + + + + + + + + + + + + + + + 9 + +7. Bestimmung der Refraktärzeit beim +Froschnerv + +7.1 Aufbau/Methoden: + +Die Refraktärzeit eines Nerven ist die Zeitspanne, in der er überhaupt nicht (absolute +Refraktärzeit) oder aber nur mit höheren Reizamplituden (relative +Refraktärzeit) erneut erregt werden kann. + +Zur Messung werden zwei Reize (Doppelreize) gesendet, deren zeitlicher Abstand +(Doppelreizabstand) variiert werden kann. Mit dem zweiten Reiz wird das refraktäre Verhalten +des Nervs nach dem ersten Reiz bestimmt. + +7.2 Ergebnisse: + +Zeit: 0,2ms +AP: 100mV +Reiz: 2V + +Zeit: 0,5ms +AP: 2mv + +Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 10 + +AP: 20mV + +Reizabstand [ms] 0,3ms +SAP [mV] + +0mV + +4ms +60mV + +1,5ms +2mV +Schwelle +absolut/ +relativ + +16ms +80mV +Ende +relativ + +7.3 Diskussion: + +Die gemessene absolute Refraktärzeit lag bei 1.5 ms Dies ist die Zeit in der die Na+ Kanäle der +Membran zeitlich und mechanisch gesteuert geschlossen sind um das Potential an der Membran, +durch den K+ Ausstrom, unter den Schwellwert sinken zu lassen da sonst durch das anliegende +Potential schon beim Ausstrom der K+ Ionen ein erneutes AP ausgelöst würde. Die relative +Refraktärzeit die zwischen 1.5 und 16 ms ist die Zeit in der durch den erhöhten K+ Ausstrom +beim Vorhergehenden AP das Membranpotential Hyperpolarisiert wird und somit ein größerer +Reiz notwenig ist um ein erneutes AP zu erzeugen. + +Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 11 + +8. Umwandlung des diphasischen SAPs in ein +monophasisches SAP + +8.1 Aufbau/Methoden: + +Diphasisches SAP: Die Erregungswelle wandert entlang der Axone über zwei Ableitelektroden +hinweg. Zuerst wird die erste Elektrode und dann die zweite Elektrode negativ gegenüber der +jeweils anderen. +Monophasisches SAP: Die zweite Elektrode wird an eine unerregbare Stelle des Nerven gelegt. + +Der Nerv wird zwischen den beiden Ableitelektroden dadurch unerregbar gemacht, dass er dicht +vor der zweiten Elektrode mit einer Pinzette kräftig gequetscht wird. + +8.2 Ergebnisse: + +Reiz: 100mV +AP: 100mV +Zeit: 0,5ms + +8.3 Diskussion: + +Durch das Abklemmen des Nerv zwischen der ersten und der zweiten elektrode kann das AP die +zweite Elektrode ncith mehr erreichen und die Ableitelektroden werden nur ein mal negativ zu +anderen gepolt. Man erkennt dies gut daran, dass auf dem Schaubild lediglich ein ausschlag +nach unten zu sehen ist und anschließend nicht (wie in den vorherigen Schaubildern) ein +leichterer Ausschlag nach oben. + +Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 9. Leitungsanästhesie am peripheren Nerven + +9.1 Aufbau/Methoden: + +Lokalanästhetika sind Medikamente, die eine reversible Blockade der Nervenleitung bewirken. +Der Nerv wird in der Ableitkammer im Bereich zwischen Reiz - und Ableitelektroden +mit Xylocain besprüht. Dann wird im Abstand von 30 Sekunden mehrere Messungen gemacht + + 12 + +9.2 Ergebnisse: + +Messreihe: + +0,5ms – Reiz: 1V AP: 100mV + +9.3 Diskussion: + +Man sieht dass die sedative Wirkung erst nach ca. 4 min. eintritt, und auch das nicht zu 100% +Im Gegensatz zu anderen Betäubungsmitteln wie zb Äther ist Xylocain nicht für eine +Vollnarkose geeignet und wird auch nur zur lokalen Betäubung von Schleimhäuten verwendet. + +Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 + + + + + + + + + + + + + + + 13 + +10. Anhang + +10.1 Quellenangaben: + +Soweit nicht gesondert darauf hingewiesen ist, sind alle Bilder/Abbildungen selbst angefertigt +(Fotos während dem Versuch, sowie eingescannte Oszilloskopausdrucke) + +Für das biologische Hintergrundwissen sind folgende Bücher verwendet worden: +Prof. Werner A. Müller, Tier und Humanphysiologie, Springerverlag 2. Auflage +Neil A. Campbell, Biologie, Spektrum, 1997 + +Tierphysiologischer Kurs / Versuch A – Nervenphysiologie / Gruppe B2D / Tübingen 2004 + + + + + + + + + \ No newline at end of file diff --git a/StilVorlagen/Protokoll des Versuchs Reaktionskinetik (eigenes)_korrigiert.md b/StilVorlagen/Protokoll des Versuchs Reaktionskinetik (eigenes)_korrigiert.md new file mode 100644 index 0000000..9df6f5c --- /dev/null +++ b/StilVorlagen/Protokoll des Versuchs Reaktionskinetik (eigenes)_korrigiert.md @@ -0,0 +1,172 @@ +Reaktionskinetik + + +Versuchsdurchführung + +Vor dem Versuch wurde vom Betreuer die Referenzlösung, bestehend aus 2650µl Puffer, 100µl Semicarbazid-HCl, 200µl NAD und 10µl GSH, in die Referenzküvette pipettiert und der Nullabgleich des Spektrometers durchgeführt. +Wir führten 11 Enzymtests durch. Zunächst wurden 2500µl Puffer, 100µl Semicarbazid-HCL, 200µl NAD, 10µl GSH und 100µl Ethanol-Testlösung gemischt und zum Temperaturausgleich im Spektrometer äquibriliert. Danach wurde die entsprechende Menge an Ethanol hinzugegeben. Im ersten Versuch 0µl Ethanol hinzugegeben und in den weiteren Versuchen immer 10µl mehr. Das Gemisch wurde dann in den Spektrometer gegeben und 240s lang die Extinktion gemessen. + +Auswertung + + + + +Auswertung 1) +Ethanol Volumen V [µl] +Stoffmenge Ethanol n [µmol] +ges. Probenvolumen V [ml] +Ethanol-konzentration cs [mmol/l] +1/Ethanol- konzentration 1/cs [l/mmol] +0 +0,00 +2,96 +0,00 +inf +10 +173,28 +2,96 +58,54 +0,0171 +20 +346,56 +2,96 +117,08 +0,0085 +30 +519,84 +2,96 +175,62 +0,0057 +40 +693,12 +2,96 +234,16 +0,0043 +50 +866,40 +2,96 +292,70 +0,0034 +60 +1039,68 +2,96 +351,24 +0,0028 +70 +1212,96 +2,96 +409,78 +0,0024 +80 +1386,24 +2,96 +468,32 +0,0021 +90 +1559,52 +2,96 +526,86 +0,0019 +100 +1732,80 +2,96 +585,40 +0,0017 +Tabelle 1: Messprotokoll I + +Ethanol Volumen V [µl] +?E/?t (min-1) +v0 (µmol l-1 min-1) +1/v0 (l min µmol-1) +v0/cs (10-3 min-1) +0 +0,0084 +0,00026 +3846,15 +Inf +10 +0,0101 +0,00034 +1515,15 +0,000002 +20 +0,1926 +0,00554 +180,50 +0,000019 +30 +0,4092 +0,01148 +87,10 +0,000027 +40 +0,4385 +0,01196 +83,61 +0,000022 +50 +0,6109 +0,01683 +59,41 +0,000024 +60 +0,6084 +0,01665 +60,06 +0,000020 +70 +0,6593 +0,01817 +55,03 +0,000018 +80 +0,6354 +0,01738 +57,53 +0,000016 +90 +0,7997 +0,02272 +44,01 +0,000017 +100 +0,8794 +0,02440 +40,98 +0,000017 +Tabelle2: Messprotokoll II (?E/?t wurde durch lineareRegression bestimmt) + +Auswertung 2) + Diagramm 1: Lineweaver-Burk + +Steigung m = 0,00000965* 10-3 * min-1 +y-Achsenabschnitt b = 0,00288 µmol/l + KM = 0,0033 mmol/l + v0,max = 347,22 l*min/µmol + + + +Auswertung 3) + + Diagramm 2: Eadie-Hofstee + +Steigung m = -861,76 *10-3 *min-1 +y-Achsenabschnitt b = 0,37 µmol* l-1 * min-1 + KM: = 861,76 mmol*l-1 + v0,max: = b + +Auswertung 03) + + Diagramm 3: Michaelis Menten + +KM: 0,015 +V0,max: 0,03 + + + +Auswertung 04) +Die Michaelis-Menten-Auftragung ist sehr einfach, da die maximale Geschwindigkeit und die Konstante einfach aus der Formel abgelesen werden können, somit ist diese Variante genauer und erfordert kaum Rechenzeit. +Bei Lineweaver-Burk und Eadie-Hofstee werden die Werte mit Hilfe der Ausgleichsgeraden ermittelt. Hierbei muss beachtet werden, dass die Ausgleichsgeraden verschieden aufgetragen werden können (z.B. linear oder logarithmisch). Dadurch ergeben sich unterschiedliche Werte und es können durch ungenaues Ablesen Rundungsfehler entstehen. + +Auswertung 05) +Die Geschwindigkeitskontante k hängt exponentiell von der Umgebungstemperatur der Lösung T ab, in folgender Form: k=k0 exp(-EA/RT). Diese Konstante fließt in die Michaelis-Menten-Gleichung ein, welche wiederum die Reaktionsgeschwindigkeit beeinflusst. Eine Änderung der Temperatur bedingt also eine Änderung der Reaktionsgeschwindigkeit. Da im Versuch Lösungen mit verschiedenen Temperaturen gemischt wurden, finden kontinuierliche Änderungen der Temperatur statt; um dieses zu verhindern wird die gesamte Lösung temperiert, bevor die Reaktion startet. Damit ist gewährleistet, dass keine Änderung der Temperatur mehr stattfindet und somit die Reaktionsgeschwindigkeit nur noch von der Änderung der Stoffmenge abhängt. diff --git a/StilVorlagen/Protokoll_Psycho.md b/StilVorlagen/Protokoll_Psycho.md new file mode 100644 index 0000000..f6396aa --- /dev/null +++ b/StilVorlagen/Protokoll_Psycho.md @@ -0,0 +1,855 @@ +Protokoll + +Psychophysik +Reflexe +Sensomotorik + +Dienstag 30.03.2004 + +Gruppe B2D + +Christoph Schwörer +Daniel Kersting +Senid Maslesa + + + + + + + + Prolog + +Die Psychophysik, auch subjektive Sinnesphysiologie genannt, unterscheidet sich zur + +objektiven Sinnesphysiologie darin, dass die durch Reize verursacht Erregung nicht im + +Körper direkt (z.B. Versuch Insekten ERG) gemessen werden sondern die Stärke der + +Empfindung durch eine Versuchsperson angegeben wird. + +Trotz der Subjektivität der Messungen existieren aber auch in der Psychophysik bestimmte + +allgemein gültige Gesetzte und Rechenregeln. So setzt beispielsweise die Steven’sche +Potenzfunktion (E = k(S-S0)n mit E = Empfindungsintensität; n = ein vom Receptortyp + +abhängiger positiver Wert; S = Reizwert; S0 = Schwellwert) den Empfindungswert zum + +Reizwert in Proportion. + + Es gibt aber auch Reize die nicht nur zu einer Empfindung führen sondern auch zu einer + +direkten (meist Motorischen) Reaktion des Körpers führen. Diese unwillkürlichen, mit kurzer + +Latenz ablaufenden Reaktionen werden Reflexe genannt. + + + Versuchsteil I: + +Bestimmung der absoluten Hörschwelle des Menschen + +Einleitung + +Der Mensch ist in der Lage Frequenzen von ca. 15 Hz bis 17-21 kHz wahrzunehmen. Der + +beim Sprechen verwendete Bereich („Sprachbereich“) liegt hierbei zwischen 300 Hz und + +5000 Hz. + +Nicht jede Frequenz ist bei gleich niedrigem Schalldruckpegel hörbar. So erfordert es + +wesentlich geringeren Schalldruckpegel um Frequenzen im Sprachbereich wahrzunehmen als + +außerhalb dieses Frequenzbereichs. + +Der minimale Schalldruckpegel ab dem eine bestimmte Frequenz hörbar ist wird Hörschwelle + +genannt. + +Methode + +In diesem Versuch wird der Versuchsperson ein Köpfhörer aufgesetzt der mit einem + +Reizgenerator verbunden ist. Dieser kann Impulse in einem Frequenzbereich von 15 Hz bis + +>30 kHz bei verschiedenem Schalldruck erzeugen. + +Nun werden verschieden Frequenzen, anfangend bei 20 Hz (50, 100, 200, 500, 1000, 2000, + +5000, 10000 Hz) bei einem eindeutig hörbaren Schalldruckpegel eingestellt und anschließend + +der Schalldruckpegel gesenkt bis die Frequenz von der Versuchsperson eindeutig nicht mehr + +wahrgenommen werden kann. Anschließend wird der Schalldruckpegel wieder gesteigert bis + +die Versuchsperson die Impulse wieder hören kann (Dieser eingestellte Schalldruckpegel + +sollte jedoch geringer liegen als der zuvor eingestellte maximale Pegel). Diese Prozedur wird + +solange auf und ab wiederholt bis man eine Genauigkeit von 0.5 dB SPL erreicht hat. Das + +Angewandte Verfahren wird als „Staircase Prozedur“ bezeichnet. + +Die bei den verschiednen Frequenzen gemessenen Schalldruckpegel werden zur Auswertung + +protokolliert. + +Anschließend werden noch die oberen und unteren absoluten Hörschwellen gemessen indem + +ein Schalldruckpegel von 95 dB SPL am Gerät eingestellt wird und die Frequenz solange + +gesteigert bzw. gesenkt wird, bis kein Ton mehr hörbar ist. + + + + Ergebnisse: + +100 + +50 + +0 + +-50 + +20 + +50 100 200 500 100 200 500 100 + +Beide Ohren 55 +52 +linkes Ohr +54 +rechtes Ohr + +39 +40 +42 + +24 +17 +19 + + Abb. 1.1 + +25 -1,5 -11 -11 -17 -9,5 +-4 +19 +-6 +22 + +-12 -14 +-8 +-4 + +-9 +-2 + +3 +-5 + +Erwartungsgemäß war das Hörvermögen der Testperson im Sprachbereich am besten, d.h. es + +wird der niedrigste Schalldruckpegel benötigt um noch etwas wahrzunehmen. Außerhalb des + +Sprachbereichs steigt die Kurve zu beiden Seiten hin an. + +Die absolute obere Hörschwelle der Testperson lag bei 20700 Hz. + +Die absolute untere Hörschwelle der Testperson lag bei 15 Hz (Niedrigst mögliche + +Einstellung des Testgerätes, es ist also durchaus möglich das die tatsächliche absolute untere + +Hörschwelle noch tiefer liegt als im Versuch bestimmt.) + +Diskussion: + +Wenn man die Kurve aus Abb. 1.1 mit Literaturwerten vergleicht lässt sich eine grobe + +Übereinstimmung im Kurvenverlauf feststellen. Allerdings liegen die gemessenen Wert um + +ein Stück nach unten verschoben. Weiterhin fällt auf, dass bei dem Versuch mit beiden Ohren + +meist ein besseres Ergebnis erzielt wurde als nur mit einem Ohr. + +Die absolute Hörschwelle der Testperson liegt sehr hoch jedoch noch gut im Bereich des + +Möglichen. + + + + Versuchsteil II: + +Akustische Richtungslokalisation beim Menschen + +Einleitung: + +Um auf Gefahren außerhalb seines Gesichtsfeldes reagieren zu können ist es unverzichtbar + +eine ungefähre Richtung des gehörten angeben zu können. So gehört die + +Richtungslokalisation zu einer der wichtigsten Fähigkeiten des Menschen. Dies wird + +ermöglicht durch das „binaurale“ hören, also das hören mit 2 Ohren. Das binaurale hören wird + +durch 2 Faktoren bestimmt. Zum einen durch die Zeitliche Verzögerung mit der ein + +akustischer Reiz an beiden Ohren wahrgenommen wird. Wenn ein Geräusch beispielsweise + +von rechts kommt so wird der Reiz zuerst am rechten Ohr und mit kurzer Verzögerung erst + +am linken Ohr wahrgenommen. Der zweite bestimmende Faktor ist die Lautstärke des + +Geräuschs, also der Schalldruck im Ohr. Der Reiz scheint immer aus der Richtung zu + +kommen aus der er lauter wahrgenommen wird. So ein Reiz der auf dem linken Ohr lauter + +wahrgenommen wird als auf dem rechten, „von links“ kommen. + +Teil 1: Bestimmung der binauralen Zeitdifferenzschwelle + +Methode: + +Der Versuchsperson werden Kopfhörer aufgesetzt die mit einem Reizgenerator verbunden + +sind der ein kurzes Klicken erzeugt. Am Reizgenerator lassen sich für den rechten und linken + +Kanal der Kopfhörer verschiedene Verzögerungen (Im Bereich zwischen 0-9999µs) + +einstellen. Nun wird am Reizgenerator ein fester wert von 1000µs Verzögerung für das rechte + +Ohr eingestellt und die Verzögerung am linken Ohr um +- 100µs Variiert. Die + +Versuchsperson, die nicht weiß wie das gerät eingestellt ist, muss nun angeben ob das + +Geräusch von links oder rechts kommt. Die Angabe „Mitte“ ist hierbei nicht zulässig. + +Protokolliert werden nun die Angaben der Versuchsperson bei zufällig eingestellten werden + +im oben angegeben Testbereich und anschließend ausgewertet. + + + + + Ergebnisse: + +Abb. 2.1 + +Wie man aus dem Schaubild (Abb. 2.1) erkennen kann ist beim „Mittelpunkt ein + +Vorzeichenfehler aufgetreten. Dieser liegt bei –22 und nicht bei 22. Als Kriterium für ein + +„sicheres“ Ergebnis bei einem psychophysischen Versuch wird eine 75% Schwelle gesetzt. + +Bei der Versuchsperson liegt diese schwelle bei –28,24µs nach links und –14,76µs. Die + +binaurale Zeitdifferenzschwelle entspricht dem Zeitabstand der subjektiven Mitte zum 75%- + +Wert, für den Probanden also 6,75µs + +Der Winkel zur Vorrausrichtung berechnet sich wie folgt: + +sin α=∆l/d + +∆t=∆l/c (cid:198) ∆l=∆t*c + +Also ist: sin α= (∆t*c)/d, wobei: + +α der gesuchte Winkel zur Vorrausrichtung, + +∆t die Zeitverzögerung (in diesem Fall 6,75µs), + +c die Schallgeschwindigkeit in der Luft (330m/s) und + +d der durchschnittliche Ohrenabstand beim Menschen (20 cm) ist. + +Es ergibt sich: sin α = (6,75µs * 330m/s) / 20cm = 0,0111 (cid:198) α =0,64° + + + + Teil 2: Die relative Bedeutung von Schalldruck und Laufzeitunterschieden für das + +Richtungshören beim Menschen („trading Messung“) + +Methode: + +Wie auch beim vorigen Versuch werden der Versuchsperson auch diesmal Kopfhörer + +aufgesetzt und ein seitlich verzögertes Geräusch vorgespielt. Allerdings wird diesmal nicht + +die Verzögerung verändert sondern die Lautstärke auf der „verzögerten“ Seite, solange bis die + +Versuchsperson angibt, das Geräusch käme aus der Mitte. Die so ermittelten Werte werden in + +ein Diagramm eingetragen und anschließen wird eine Ausgleichsgerade ermittelt und + +eingezeichnet. + +Ergebnisse: + +Tabelle 1.1 + +Verzögerung + +-100 +-50 +0 +50 +100 + +1 +-9 +-7,5 +0 +3 +1,5 + +Durchgänge +3 +-7,5 +-1,5 +4,5 +0 +7,5 + +2 +-6 +-4,5 +0 +3 +1,5 + +4 +-9 +-3 +3 +4,5 +7,5 + +5 +-6 +-6 +1,5 +6 +4,5 + +Mittelwert + +-7,5 +-4,5 +1,8 +3,3 +4,5 + +0 + +50 + +100 + +150 + +6 +4 +2 +0 +-2 +-4 +-6 +-8 +-10 + +-150 + +-100 + +-50 + +Abb. 2.2 + +Diskussion: + + + + + + + + Versuchsteil III: + +Reflexe – motorische Reaktionen auf Sinneseindrücke + +Einleitung: + +Als Reflex bezeichnet man eine direkte, nur schwer Ermüdbare und willentlich nicht + +unterdrückbare Reaktion eines Organismus auf einen äußeren Reiz. Dieser Reflex läuft bei + +gleichem Reiz immer gleich ab. Durch sehr kurze Verschaltungswege im Nervensystem + +laufen Reflexe sehr schnell ab. Man Unterscheidet hierbei zwischen monosynaptischen und + +polysynaptischen Reflexen. + +Bei einem monosynaptischen Reflex findet die Verschaltung direkt im Rückenmark über eine + +einzige Synapse statt. Bei einem polysynaptischen Reflex findet die Verschaltung über + +mehrer Synapsen im Rückenmark statt. Bei manchen polysynaptischen Reflexen können diese + +auch erst im Hirn verschaltet werden. + +Ein + +durch + +einen + +Receptor + +Wahrgenommener Reiz wird über + +einen Nerv + +in das Rückenmark + +geleitet und dort Verschaltet. Der + +Zellkörper dieses „afferenten“ Nervs + +liegt + +im + +Spinalganglion Von + +welchem aus das Axon des Nervs + +durch die hintere Wurzel + +ins + +Rückenmark geleitet wird. Seine + +Synaptische Endigung hat der Nerv + +Im Vorderhorn der „grauen + +Substanz“. Von dort aus wird der + +Abb 3.1 + +Reiz über einen Nerv der an der „vorderen Wurzel“ aus dem Rückenmark austritt an den + +Effektor weitergeleitet. Bei einem sogenannten Eigenreflex liegen Receptor und Effektor im + +gleichen Organ. Bei einem Fremdreflex liegen Receptor und Effektor in unterschiedlichen + +Organen.. + +Methode: + +Durchgeführt wurde der sogenannte Patellarsehnenreflex. Hierbei wurde die Ferse der + +Versuchsperson mit Kontaktgel bestrichen und mit einem Elektrischen Kontakt in + +Verbindung gebracht. Um die Kontaktschleife zu schließen musste die Versuchsperson den + +zweiten Kontakt in der Hand halten. Die Zwei Kontakte waren über einen Zeitmesser + +miteinander verbunden. Nun wurde der Versuchsperson mit einem Hammer an dem sich ein + + + + dritter Kontakt befand unterhalb der Kniescheibe auf die Pattelarsehne geschlagen. Dieser + +Kontakt setze den Zeitmesser in Gang. Die Unterbrechung der Kontaktschleife durch das nach + +vorne zucken des Unterschenkels durch den ausgelösten Reflex beendete die Zeitmessung + +wieder. In diesem Zustand wurde der Versuch 16 mal wiederholt und die Ergebnisse notiert. + +(Tabelle 3.1) Anschließend musste die Versuchsperson den Ganzen Körper in eine + +Grundspannung versetzten und der Versuch wurde weitere 16 Male wiederholt und die + +Ergebnisse notiert.(Tabelle 3.1) Anschließend wurde das Knie der Versuchsperson mit dem + +Hammer nur berührt um der Versuchsperson ein Signal zu geben ohne einen Reflex + +auszulösen. Die Person sollte so schnell wie möglich den Kontakt der Ferse unterbrechen,. + +Dieser Versuch wurde weitere 16 mal wiederholt und die Ergebnisse notiert.(Tabelle 3.1). + +Tabelle 3.1 + +Durchgänge + +entspannt + +116 +182 +154 +152 +177 +218 +255 +143 +210 +218 +155 +236 +259 +267 +179 +322 +202,69 +51,93 + +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 +11 +12 +13 +14 +15 +16 + +Mittlewert +Standartabweichung + +Diskussion: + +Reaktionszeit +angespannt willentlich +146 +156 +128 +118 +113 +122 +154 +126 +133 +134 +120 +189 +118 +220 +161 +137 +142,19 +27,13 + +310 +291 +473 +338 +312 +364 +375 +431 +312 +379 +377 +363 +468 +357 +480 +310 +371,25 +58,21 + +Man erkennt deutlich die Abweichungen zwischen entspannter und angespannter + +Körperhaltung. Diese liegen weit jenseits der 5% die allgemein als „Standartabweichung“ + +zulässig sind. Beim Wilkoxon Verfahren lagen beide Messreihen außerhalb dieser + +Maximalabweichung. Die Messergebisse sind im unwillkürlichen Bereich recht hoch aber + +noch im vertretbaren Bereich. Die willkürliche Reaktion ist erwartungsgemäß extrem niedrig. + +Die starke Standartabweichung weißt auf eine erhöhte körperliche Unruhe hin. + + + + + Versuchsteil IV: + +Sensomotorische Integration + +Einleitung: + +Methode: + +Bei diesem Versuch wurde der Kopf der Testperson mit Hilfe eines Gestells so fixiert, dass + +die Augen 57cm entfernt vom Bildschirm lagen. Anschließend wurde ein Infrarotsensor am + +linken Auge angebracht der die Augenbewegung maß und an einen Computer weitergab. Es + +wurden 4 verschiedene Versuchsreihen durchgeführt. Jeweils eine zur Linearität der + +Augenbewegung, zur glatten Augenbewegung, zur Augenbewegung beim Lesen und eine zu + +den Sakkaden des Auges. Beim Versuch zur Linearität musste die Versuchsperson jeweils + +einen weißen Balken auf dem Monitor Fixieren der in 2° Schritten von –10° bis +10° + +eingeblendet wurde fixieren. Anschließend wurde die glatte Augenbewegung in drei + +Versuchen gemessen. Hierbei musste die Versuchsperson zuerst einen Weißen Punkt auf + +schwarzem Hintergrund fixieren, der sich mit sinusförmiger Geschwindigkeit im –10° bis + ++10° Bereich bewegte. Beim 2. Versuch wurde der Monitor abgeschaltet und die + +Versuchsperson sollte versuchen die Augenbewegung im vorhergehenden Versuch zu + +wiederholen. Beim 3. Versuch wurde der Monitor wieder eingeschaltet und die + +Versuchsperson musste den selben Punkt auf einem Strukturierten Hintergrund verfolgen. + +Nun wurde der Versuchsperson zu dem Versuch der Augenbewegungen beim Lesen ein + +normaler Deutscher Text eingeblendet und die Augenbewegungen beim lesen aufgezeichnet. + +Anschließend wurden der Versuchsperson ein englischer Text, ein Gedicht und ein Text mit + +schweren Rechtschreibfehlern eingeblendet und die Augenbewegungen wiederum + +aufgezeichnet. + +Ergebnisse: + +9000 +8000 +7000 +6000 +5000 +4000 +3000 +2000 +1000 +0 + +-15 + +-10 + +-5 + +0 + +5 + +10 + +15 + +Abb. 4.1(X-Achse: Ausrichtung [°] Y-Achse: Horiz. Augenposition[mm]) + + + + + + In Abb. 4.1 dargestellt ist der lineare Zusammenhang zwischen tatsächlicher und gemessener + +Augenbewegung. Man erkennt auf beiden Seiten der Achse ein recht lineares Messergebnis. + +Die Verschiebung der Geraden nach links lässt auf eine Verschiebung des Messmittelpunktes + +schließen. + +Abb. 4.2 (Lineare Augenbewegung bei eingeschaltetem Bildschirm) + +Wie man deutlich erkennt braucht die Versuchsperson ca. 1 Sekunde um den Punkt zu + +fokussieren und dem Punkt mit den Augen zu folgen. Ist dies aber erst einmal erfolg bleibt die + +Augenbewegung, bis auf einen kurzen Ausschlag bei Sekunde 6 sehr nah der tatsächlichen + +Bewegung des Punktes. Dieser kurze Ausschlag wird sehr vermutlich ein kurzer Lidschlag + +der Testperson sein. + + + + + + + + + Abb. 4.3 (Lineare Augenbewegung bei ausgeschaltetem Monitor) + +Man erkennt deutlich, dass die Augenbewegung nicht mehr linear sondern sehr sprunghaft + +verlief. Die Geschwindigkeit des Punktes wurde recht gut eingehalten jedoch wird der + +Ausschlag nach rechts bzw. links zum Ende hin immer größer. + + + + + + Abb. 4.4 (Lineare Augenbewegung auf strukturiertem Hintergrund) + +Im Vergleich mit Abb. 4.2 sieht man, dass es ca. die doppelte Zeit, also 2 Sekunden, dauert + +bis die Versuchsperson den sich bewegenden Punkt auf dem Strukturierten Hintergrund + +ausgemacht hat und ihn fokussiert. Ist dies aber einmal geschehen folgt der Fokus fast ideal + +dem Punkt. + + + + + + Abb. 4.5 (Augenbewegung bei einem deutschen, recht einfachem Text) + +Man erkennt, dass beim lesen sas Wort meist sehr schnell mit dem Auge überflogen wird, der + +Fokus dann aber eine kurze Zeit am Wortende bleibt. Da es sich um einen recht einfachen + +Text handelt gibt es so gut wie keine Rücksprünge innerhalb einer Zeile um einen Teil erneut + +zu lesen. + + + + + Abb. 4.6 (Augenbewegung bei einem englischen normal schweren Text) + +Auch dieser Text konnte von der Versuchsperson ohne größere Schwierigkeiten gelesen + +werden. Es gibt jedoch einige stellen an denen der Fokus des auges zurück sprang um einen + +Teil des bereits gelesenen erneut zu lesen. Man kann daraus schließen dass die + +Versuchsperson mit dem englischen nicht so vertaut ist wie mit Deutsch und bei manchen + +Worten Verständnis- bzw. Identifikations-Probleme auftreten. + + + + Abb. 4.6 (Augenbewegung beim lesen eines Gedichts) + +Man erkennt, dass das Auge beim lesen des Gedicht länger auf einem Wort verweilte und + +auch öfters zurück sprang. Dies lässt sich wohl damit erklären, dass es beim lesen des + +Gedichts länger dauert das aktuelle Wort in Zusammenhang mit dem ganzen Text zu bringen, + +was aber auch nicht immer sofort gelingt, so dass Teile des Textes erneut gelsen werden + +müssen um den Sinn zu erkennen. + + + + + Abb. 4.7 (Augenbewegung beim lesen eines Textes mit schweren Rechtschreibfehlern) + +Es wird hier ein deutlicher Unterschied zu den obigen Texten bemerkbar. Für die einzelnen + +Worte benötigte die Versuchsperson wesentlich länger und sie musste sehr oft bereits gelsene + +Teile wiederholen. Hier wird auch eine deutliche Zeitverschiebung zwischen „lesen“ und + +„verstehen“ erkennbar da oft Worte mit Fehlern überlesen werden und erst am Ende des + +Satzes springt das Auge auf die fehlerhafte Stelle zurück. + + + + + Abb. 4.8 (Aufzeichnung der Latenz der Sakkaden des Auges bei –10° bis +10°) + +Man erkennt eine deutliche Ballung der Messewerte bei ca. 150ms was darauf hindeutet, dass + +es sich um einen unwillkürlichen Reflex handelt und nicht um eine willentliche Handlung. + +Betrachtet man die Mittelwerte so lässt sich ein leichter Anstieg von links nach rechts + +feststellen was vermutlich an der Messung am linken Auge liegt. + + + + + + + + + + + Abb. 4.9 (Links: Geschwindigkeit der Augenbewegung in Abhängigkeit der Amplitude + Rechts: Latenz der Augenbewegung in Abhängigkeit der Amplitude) + +Auf dem linken Schaubild erkennt man, dass die Geschwindigkeit mit derr sich Auge bewegt + +unabhängig von der Strecke ist die es zurücklegen muss. Auf dem rechten Schaubild erkennt + +man die Latenz bis zur erneuten Fokussierung des Auges auf einen Punkt im Abstand der + +Amplitude zur ursprünglichen Fokussierung des Auges. Bringt man die beiden Schaubilder in + +Verbindung so lässt sich feststellen, dass je größer die Amplitude, also je weiter der „neue“ + +Punkt als Abbild auf der Netzhaut von der Fovea (also dem Ursprünglichen Fokus des Auges) + +entfernt ist, die Latenz bis sich das Auge reagiert in einer logarithmus-ähnlichen Kurve + +abgebildet wird. Dies liegt vermutlich an der immer größer werdenden Querverschaltung der + +Sehzellen je weiter diese von der Fovea entfernt liegen, da es dann länger dauert bis der neue + +Fokuspunkt „errechnet“ wurde. + + + + + 4.10 (Abbildung der Sakkaden des Auges gegen [s]) + +Hier sieht man alle Sakkaden des Auges der Testperson übereinandergelagert. Man erkennt + +deutlich eine Verdichtung etwas ober- und unterhalb der Stellen an denen eigentlich der Punkt + +aufgetaucht ist, dies lässt sich auf eine ungenügende Kalibrierung des Messgeräts und vor + +allem auf eine zu starke Verstärkung der Messdaten zurückführen. Die ungefähre Latenz liegt + +bei 150-200 ms. Dies berechnet sich aus dem Auftauchen des Punktes (roter Strich bei 0.2s) + +und dem Beginn der Augenbewegung (bei ca. 400ms). Vgl. hierzu Abb. 4.8. + + + + Abb. 4.11 (Durchschnittliche Genauigkeit der Sakkaden bei gegebenem Auslenkungsgrad) + +Das alle gemessenen Durchschnittswerte im positiven Bereich liegen verstärkt die + +Vermutung, dass die Verstärkung am Messgerät zu stark eingestellt war. Vgl. hierzu Abb. + +4.10. + + + + Literatur: + +Adolf Faber, Der Körper des Menschen, 13. Auflage + +N.A. Campbell, Biologie, 6. Auflage + + + + + \ No newline at end of file diff --git a/StilVorlagen/Seminar System Imunology - Ausarbeitung.md b/StilVorlagen/Seminar System Imunology - Ausarbeitung.md new file mode 100644 index 0000000..bc896ca --- /dev/null +++ b/StilVorlagen/Seminar System Imunology - Ausarbeitung.md @@ -0,0 +1,457 @@ +Seminar System Immunology + +Experimental techniques to acquire +high‐throughput quantitative data + +Author + +Christoph Schwörer + +Betreuer + +Sven Nahnsen + +13.11.2008 + + + + + + + + + + + + 1. Introduction + +In the past few years System Biology has emerged from the field of computational biology. The +processing power of new computers and the development of new techniques led to new +approaches in the understanding the complete picture of what happens inside a single cell or +an entire organism. Instead of looking at one particular reaction, interaction of between single +proteins or even a whole pathway we now want to look at the status of a whole cell at once. +Thus we can come to understand the interaction of whole Pathways or the complete cellular +reaction to a certain stimulus. + +But to build these new models we need reliable statistics. In order to get to these reliable +statistics we need many sets of data from different sources. One of the reasons is why there +have been several new techniques developed to acquire data in huge amounts. Which is why +they are called high throughput methods. Because they process whole experiments at once, +like screening the genome for a certain sequence. This report will now give an introduction to +the basic techniques used to prepare these high throughput methods as well as an introduction +to the most important high throughput methods. + + + + 2. Basic techniques + +In order to conduct high throughput experiments we have to prepare them carefully. This +means we have to separate cells from one and another if we want to test only certain cells with +specific properties. Or we have to separate certain compartments within a cell if we want to +test them alone. On the other hand we have to provide certain cells with these wanted +properties in order to do comparison tests. In this chapter we will now discuss the basic +techniques used to prepare high throughput experiments. + +2.1 Restriction Enzymes / Gel Electrophoresis + +Gel electrophoresis can be used for +two different purposes. On the one +hand it can be used to identify the +relationship between different cell +lines on the other it can be used to +break down the isolate short strands +of DNA for further use. + +The first step in this procedure is to +break down the very large strands of +cellular DNA into short fragments. +This is accomplished by restriction +enzymes. +enzymes +Restriction +recognize short sequences of double +stranded DNA, which are typically +about 10 to 12 basepairs long, and +these specific +cut +sequences. There exist about several hundred different restriction enzymes which all have +different recognition sites. + +Figure 1: Agarose Gel with luminescent DNA strands + +the DNA at + +After the DNA is completely digested by a restriction enzyme the solution is put on an agarose +gel. The gel is then applied with an electrical field so DNA strands are pulled to the electrodes. +In dependency of their length and charge the different DNA strands will travel at different +speed so that after a given time they separate and reach different points in the gel. With the +addition of luminescent chemicals the strands can be made visible so that they form a pattern +of strands on the agarose gel (see figure 1) + + + + + + 2.2 1D/2D Protein Gels + +Gel electrophoresis can not only be used to +separate DNA strands but it can also be used +to separate proteins. The problem is that +there are so many proteins within a cell with +approximately the same size that it is almost +impossible to separate them by size only. +That is why one has to use another criterion +to separate the proteins further. In this case +2D electrophoresis uses +the different +isoelectric points of the proteins which they +reach at different ph‐values (O’Farrel 1975). +In the procedure the first step is to linearize +the proteins because in their natural tertiary +structure they won’t fit through the pores of +the gel. So all the intramolecular bonds which +give the protein its form have to be broken. +(E.g. H‐H bonds or sulfuric bonds) The next step is to separate the proteins by size as it is done +with the DNA on a polyacrylamid gel which is applied with an electrical field. After the second +step another gel with a ph gradient is put on the first and because of their charge the proteins +begin to travel to their isoelectric point. Afterwards the gel with the previously luminescent +marked proteins is visualized. + +Figure 2: 2D Protein gel. Each dot represents one protein. + +2.3 Cloning Vectors an DNA Libraries + +Cloning Vectors are short DNA fragments (up to 19 kbp), as for example the ones we have +retrieved with the restriction enzyme/gel electrophoresis technique. To analyze these DNA +fragments and the genes on them we have to bring them into a living environment. Because +DNA is the same in all living beings they can be inserted into bacteria which then express the +proteins encoded on the DNA strands. + +This is achieved by transformation where the DNA fragments, which are called cloning vectors, +are added to a solution of bacteria cells. The cloning vectors can now penetrate the cells +surface and get into the cell. There the original bacterial DNA plasmid is cut with the same +restriction enzyme used to obtain the cloning vectors. Now there is a chance that the cloning +vector is inserted into the plasmid by recombining the cut locations called sticky ends. + +After the cloning vector is inserted the cells proliferate and are later separated by the newly +resistances) +new +obtained + +properties + +antibiotic + +through + +DNA. + +(e.g. + +the + + + + + 2.4 Hybridization and Blotting + +Another basic problem is to identify whether a specific DNA sequences or protein is present in a +given DNA/protein sample. + +For DNA the technique at hand is the so called Southern Blotting (Southern 1975). A given DNA +sample is first put through a gel electrophoresis to separate the DNA strands by size and is then +washed on a nylon patch to fixate the strands. Afterwards the nylon patch is incubated at up to +80°C to break the hydrogen bonds so that the DNA gets single stranded. Now the nylon patch is +washed again with a solution of hybridization probes, which are short fragments of the +complementary DNA we want to test for. These probes are radioactively marked and will +hybridize with the single stranded target DNA. Now the nylon patch is pressed against a X‐ray +film where the hybridized probes will be visualized. + +To test for the existence of specific proteins a similar technique is used which is named Western +Blotting. Like Southern Blotting first the given protein sample is separated using 2D +electrophoresis and then washed onto a carrier patch. In order to test for the targeted protein +this technique uses marked antibodies as probes. Those marked probes can then again be +visualized with an X‐ray film. + +2.5 Centrifugation + +One of the oldest techniques used for the separation of cell compartments is centrifugation. +There the centrifugal force is used for the separation. More exactly the fact that molecules with +different density will have different sedimentation rates. So that after a given time the +compartments will be separated. Hereby the Sedimentation rate is measured in Svedenberg +m +units: + +1( + +r + +r + +) + +/ + += + +S + +V +² + +w + +r + += + +par + +sol +f + +Where m is the mass of the particle, f the friction of the medium and r sol/ r par the density of +the medium/particle + +2.6 Column Chromatography + +In column chromatography the molecules one wants to separate are washed through a solid carrier +material. Because of the different size and shape of the different molecules they arrive at different +times at the bottom of the column. A more sophisticated method is also available where the carrier +material is spiked with antibodies for a target protein. The antibodies will bind to target protein and +hold it back while everything else is washed through. Then a solution is washed through which will +loosen the protein form the antibodies and the protein can be retrieved. + + + + + + +- + 3. Advanced Techniques + +After having prepared the proteins or DNA we want to test we now need to have methods so +that we can retrieve data from a large number of parallel experiments. To get confirmation or +even more data to create statistics we need to do several of the same experiment at once. The +techniques used for this purpose are called high throughput experiments because of the sheer +amount of parallel processing and data we get. + +3.1 PCR (Polymerase Chain Reaction) + +PCR is not an experiment to retrieve data +but more a method to amplificate DNA we +already have prepared to an amount where +it can be used in later high throughput +techniques. (Saiki et al. 1985) Simply put +PCR duplicates the amount of DNA per +cycle. The first step is to heat the DNA +solution so that the hydrogen bonds +between the two DNA strands is broken an +the DNA gets single stranded. Then primers +are added to the solution which will +hybridize with the single stranded DNA +while the solution is cooling down. Now the +DNA‐polymerase kicks in and extends the + +single stranded DNA with primer to a new +double stranded DNA strand. This leads to the duplication of DNA with each cycle so that after +a few cycles there is sufficient DNA to use in a high throughput experiment. + +Figure 3: PCR + +3.2 DNA-/Protein Chips (Microarrays) + +Microarrays are a newly developed method to test the expressions of thousands of genes at +once (Cahill and Nordhoff 2003). There are two different types of microarrays, DNA‐chips and +protein‐chips. While DNA chips test for the occurrence of mRNA in a cell, protein‐chips test for +the occurrence of proteins. Both methods applied to the same cell will lead to different +expression patterns because there are several factors influencing the translation from mRNA to +proteins. Both methods work in a similar way. + + + + + + + DNA chips are carrier spotted with cDNA primers +from exons which one can get from a DNA library. +Those chips are then incubated with DNA reversely +transcribed from the target cells mRNA. This DNA is +also marked with fluorescing dye so that the +coloring of the chip reveals the expression of the +correspondent genes. As you can see in fig.4 with the +use of different dyes one can also do comparrison +expereriments on one microarray. + +Protein‐chips on the other hand are carriers spotted +with binding partners for proteins which can be +other proteins, antibodies, DNA or drugs. But +protein‐chips are not that easy to apply because +different proteins have different optimal conditions +(e.g ph‐value) so that one has to find a sufficient +compromise to acquire usable data. + +3.3 Yeast Two-hybridization + +Figure 4: Heatplot of a comparative microarray with two +sources + +The yeast‐two‐hybrid system is a technique used to test if two proteins, prey and bait, interact. +(Uetz et al.2000) It uses the fact that the Gala4 Transcription factor consists of two parts. Those +two parts are fused to either of the proteins one wants to test. If bait and prey do interact they +come close together. When this happens the two parts of Gala4 TF also come close enough +together so that it can +the +promote +expression of a given +reporter gene which is +promoted by Gala4. +For screening purposes +this technique can be + +Figure 5: Yeast-two-hybrid system + +extended to a high +throughput technique + +by adding multiple prey proteins or even multiple bait proteins. + + + + 3.4 Mass Spectrometry + +Mass spectrometry allows the identification of proteins through their mass/charge ratio +(Abersold & Mann 2003). In a mass spectrometer basically the digested protein is ionized by an +ion source and the fragments are accelerated through a magnet onto a mass analyzer. The +detector then delivers a fingerprint of the +containing fragments. This fingerprint is now +compared to the precomputed theoretical +fingerprints from a protein database. + +There are different methods available for +the ionization or the mass analysis. The two +methods for ionization are ESI (Electrospray +ionization) which is used to ionize proteins +out of solutions and MALD (matrix assisted +laser desorption/ionization) which is used +on proteins in dry crystals. + +Figure 6: Mass spectrometer + +For the mass analysis there exist four basic +types. The first is the sector field analyzer +which is depicted in fig.6. It measures the +deviation of a fragment from its trajectory +according to the fact that heavier fragments +won’t be deviated so much then lighter +fragments. The second type of analyzer is the TOF (time of flight) analyzer which measures the +time between entrance in the magnetic field and impact on the analyzer. This type also bases +on the fact that heavier fragments won’t accelerate so fast then lighter ones because of their +inertia. The third type is the quadrupole which allows only fragments to pass that have a +specific mass/charge ratio. The quadrupole is used to measure the quantity of the targeted +fragment. The last type is the Fourier transform ion cyclotron. Here the ions are accelerated in +circular magnetic field. It measures the radius and the frequency of the flying fragments and +computes from that the mass fingerprint. This is also by far the most accurate and sensitive +type of analyzer. + + + 3.5 Transgenic Animals + +Transgenic animals are animals who’s DNA have been altered. Either by inserting foreign DNA +or by willingly cutting out specific genes. Either of both happens with the firs stem cell before it +begins to proliferate. There are two ways of getting the foreign DNA into the cell. The first is to +directly inject it into the cell, which is called DNA microinjection. The second is to use an altered +retrovirus which infects the cell. + +Transgenic animals are mostly used as knockout animals where one specific gene is cut out to +identify its function. + +3.6 RNA Interference + +RNA interference is mechanism inhibiting DNA expression where a double stranded RNA has +been inserted into a cell (Fire et al. 1998). It is part of the cells defense system against viruses or +other genomic material. The double stranded RNA is recognized by an endoribonuclease called +DICER. DICER cuts the dsRNA into short strings (~20bps) which are then assembled to RISC +(RNA‐induced silencing complex). The RISC complex then recognizes the correspondent mRNA +and cuts it into short pieces which are then digested thus inhibiting the translation of this +mRNA. + +In opposition to transgenic animals this method is usable in high throughput experiments +where many cells and/or genes can be inhibited at once. The only problem with RNA +interference studies is that longer dsRNA strands lead to an interferon response in mammalian +cells. This is why in these cases synthetically produced siRNA strands are used.(Dykxoorn et al. +2003) + +4. Discussion and Conclusion + +As shown in the chapters above there are several techniques available to acquire high +throughput data. The most upcoming are surely the microarray and the DNA interference +techniques. What all techniques have in common is that they are very expensive to conduct +either in the individual experiment like microarrays or in the needed infrastructure and +machinery like a mass spectrometer. What they also have in common is that every one of them +needs a lot of processing power to analyze the results. Not only to fit the data into models but +simply to handle the sheer amount of data. This processing power is only available to everyone +since the last few years. As research goes on and the field of system biology will surely grow it +stands to hope that in mass production the techniques will be more affordable. + + + + + + + 5. References + +5.1 Literature + +Cahill, D.J. and Nordhoff, E. Protein arrays and their role in proteomics (2003) Adv. Biochem. +Eng. Biotechnol. 83, 177‐87. + +Dykxoorn, D.M., Nivina, C.D. and Sharp, P.A. Killing the messenger: short RNAs that silence gene +expression.(2003) Nat. Rec. Mol. Cell. Biol. 4, 457-67 + +E.Klipp, R.Herwig, A.Kowald, C.Wierling, H.Lehrbach +System Biology in Practice. Concepts,Implementation and Application, (2005)Wiley-VCH 109- +133 + +Fire, A., Xu, S., Montgomery, M.K., Kostas, S.A., Driver, S.E., and Mello, C.C. Potent and specific +genetic interference by double stranded RNA in Caenorhabditis elgeans (1998) Nature 391, 806‐ +11 + +O’Farrel. P.H. High resolution two-dimensional electrophpresis of proteins(1975) J. Biol. Chem +250, 4007-4021 + +Ruedi Aebersold & Matthias Mann +Mass spectrometry-based proteomics (2003) Nature 422, 198-207 + +Saiki, R.K., Scharf, S., Faloona, F., Mullis,K.B., Horn, G.T., Erlich, H.A. and Arnheim, N. Enzamtic +amplification of beta globin genomic sequences and restriction site analysis for diagnosis of +sickle cell anemia.(1985) Science 230, 1350-1354 + +Southern, E.M. Detection of specific sequences among DNA fragments separated by gel +electrophpresis (1975) J. Mol. Biol. 98, 503-517 + +Uetz, P., Giot, L., Cagney, G. Mansfield, T.A., Judson, R.S., Knight, J.R., Lockshon, D., Narayan, V., +Srinivasan, M., Pochart, P., Qureshi‐Emili, A., Li, Y., Goodwin, B., Conover, D., Kalbfleisch, T., +Vijayadamo‐Dar, G., Yang, M. Johnston, M., Fields, S., and Rothenberg J.M. A comprehensive +analysis of protein-protein interaction in Saccharomyces cerivisiae (2000) Nature 403, 623‐7 + + + + 5.2 Figures + +Fig. 1: http://upload.wikimedia.org/wikipedia/commons/6/60/Gel_electrophoresis_2.jpg + +Fig. 2: http://upload.wikimedia.org/wikipedia/de/b/b2/2D‐Gel.jpg + +Fig. 3: http://www.obgynacademy.com/basicsciences/fetology/genetics/images/pcr.png + +Fig. 4: http://www.bio.davidson.edu/COURSES/genomics/2005/Durnbaugh/microarray.jpg + +Fig. 5: http://upload.wikimedia.org/wikipedia/en/e/e4/Three‐hybrid‐system.svg + +Fig. 6: +http://upload.wikimedia.org/wikipedia/commons/b/b8/Mass_spectrometer_schematics.png + + + + \ No newline at end of file diff --git a/StilVorlagen/Splitstree.md b/StilVorlagen/Splitstree.md new file mode 100644 index 0000000..f0114a2 --- /dev/null +++ b/StilVorlagen/Splitstree.md @@ -0,0 +1,862 @@ +Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +SplitsTree and +Phylogenetic Networks + +Betreuer: +Tobias Klöpper + +- 1 - + + + + + + + + + + + + + + + + + + + + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +Inhaltsverzeichnis + +2.1 +2.2 +2.3 +2.4 +2.5 + +1. Einleitung ....................................................................................................... 3 +2. Theorie............................................................................................................ 4 +Evolutionäre Verbindungen in Netzwerken........................................................... 4 +Die „Split De-composition“ Theorie...................................................................... 5 +Buneman Bäume .................................................................................................... 6 +Split decomposition................................................................................................ 7 +Von schwach kompatiblen Splits zu Netzwerken .................................................. 9 +3. Anwendung................................................................................................... 11 +Das SplitsTree Programm .................................................................................... 11 +Beispiel: mtDNA Datensatz ................................................................................. 11 +Beispiel 2: HIV-1 Datensatz ................................................................................ 13 +4. Quellenangaben: ........................................................................................... 15 + +3.1 +3.2 +3.3 + +- 2 - + + + + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +1. Einleitung + +In den vergangenen Jahrzehnten ist man, nach der Entdeckung der DNA, immer +mehr dazu übergegangen Organismen nicht nur anhand ihrer phänotypischen +Eigenschaften sondern auch anhand ihres Genotyps zu vergleichen. Mittlerweile +gibt es einige gute Verfahren die die Ähnlichkeit und den Verwandtschaftsgrad +zweier oder auch mehrerer Organismen bestimmen. So ist die Maus genetisch +dem Menschen sehr ähnlich und eignet sich damit auch als Forschungsobjekt. +Um diese komplexen Verwandtschaften nun auch graphisch übersichtlich +darzustellen, benötigt man ausgereifte mathematische Verfahren. +Ein Programm, das einige dieser Verfahren, die aus einem gegebenen Datensatz +einen graphisch übersichtlichen Zusammenhang liefern, ist SplitsTree (Huson +1998), welches, wie der Name schon sagt, aus einer gegebenen Datenmenge +einen Phylogenetischen Baum oder Netzwerk aufbaut. Diese Phylogenetischen +Netzwerke können zur visuellen Analyse der erhaltenen Daten genutzt werden. +SplitsTree bietet die Möglichkeit Bäume, ähnlich dem unten abgebildeteten +Beispiel, oder Netzwerke über eine beliebige Eingabe an Taxa und den damit +verbundenen Daten zu erstellen. + +- 3 - + + + + + + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +2. Theorie + +dargestellt + +2.1 Evolutionäre Verbindungen in Netzwerken +Der klassische Weg evolutionäre Zusammenhänge eines gegebenen Datensatzes +an Taxa zu veranschaulichen ist ein binärer Baum, hierbei sind interne Knoten +als mögliche Vorfahren dargestellt und die Blätter stellen die aktuell +existierenden Taxa dar. +Für den Fall, dass die verwandtschaftlichen Zusammenhänge gar keinen Baum +bilden bei dem es immer nur genau 2 Nachfahren gibt, wäre ein Baum mit einer +unbestimmten Anzahl Ästen je Knoten ein adäquates Mittel. +Aber selbst dieser Fall ist in der Biologie noch nicht allgemein genug. Als +Beispiel sei hier die Interaktion von Bakterien genannt bei denen es innerhalb +einer Generation zu Hybridisierungen und Rekombinationen kommen kann. Ein +Baum eignet sich hierbei nur bedingt um die vollständigen Beziehungen korrekt +darzustellen, da ein Baum unter der +Bedingung aufgebaut wird, dass +einmal getrennte Äste später nicht +mehr zusammen geführt werden oder +interagieren. +Dieser Fall kann, wie in Abb. 2.1, +vereinfacht +werden. +Hierbei werden die Knoten 1, 2, 3, 4 +als Vorfahren und die Blätter 5, 6 und +7 als real existierende Taxa betrachtet. +Wie bei einem Baum mit einer +Wurzel geht man hierbei davon aus, +dass 1 den Ursprungsknoten darstellt. Der Unterschied zwischen diesem +Netzwerk und einem normalen Baum ist, dass es hier zu einem Ringschluss der +Knoten 1-4 kommt. Derartige Netzwerke eignen sich nicht nur für spezielle +Arten von Evolution, wie der im obigen Beispiel genannten Rekombination von +Bakterien, sondern können in all jenen Fällen verwendet werden wo es +unangebracht ist Daten in eine Baumstruktur zu zwingen. Es gibt zwar auch bei +anderen Programmen als SplitsTree die Möglichkeit sich Daten +in +verschiedenen Arten von Bäumen anzeigen zu lassen aber dennoch kann es +vorkommen, dass keiner dieser Bäume die Zusammenhänge korrekt wiedergibt. +Es mag sogar soweit kommen, dass erst in einem Netzwerk in dem Ringschlüsse +erlaubt sind die eigentliche Struktur der Evolution anschaubar und begreifbar +wird. Ein Beispiel hierfür wäre der Gebrauch von Netzwerken zur +„Phylogenetischen Analyse“ der Canterbury Tales (Barrbook et. Al. 1998.) +Die Frage die sich nun stellt ist, welche Netzwerke es gibt und für welche Arten +von Daten sie geeignet sind. So werden zum Beispiel für die Darstellung der +Evolution von mtDNA häufig median Netzwerke benutzt. Wir konzentrieren uns +hier jedoch auf eine spezielle Art des Zugangs zur Phylogenetischen Analyse, + +(Abb. 2.1) + +- 4 - + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +dem SplitsTree Programm (Huson 1998). Die hierbei erzeugten SplitGraphen +basieren hauptsächlich auf Distanzen die mit der Split-decomposition Theorie +errechnet wurden (Bandelt, Dress 1992/1993). Dieser Theorie widmen wir uns +nun im folgenden Kapitel. +Weitere Beschreibungen hierzu findet man auch in Dress, Huson, Multon +(1996), Page, Holmes (1998), und Swafford et. Al. (1996). + +2.2 Die „Split De-composition“ Theorie +Der wichtigste Punkt der Split de-composition Theorie ist, dass ein Netzwerk in +sogenannte Splits zerlegt werden kann. Würde man z.B in dem in Abb. 2.2 +dargestellten Baum (TX) eine beliebige Kante entfernen, so erhielte man 2 +disjunkte Teilbäume A und B. Entfernte man beispielsweise die Kante f so +erhielte man +Bipartitionen +A={1,2,3) und B={4,5}.Wie man sieht +jede Kante genau +induziert hierbei +einen Split. Die Menge aller durch die +Kanten erzeugten Splits wird Σ(X) +|Σ| genau die +ist +genannt, hierbei +Anzahl der Kanten des Baumes. + +die + +Zwei Splits U={A,B} und V={K,L) heißen kompatibel falls gilt: + +(Abb. 2.2) + +{ +! +U∈∅∃ + +LBKBLAKA +, + +, + +, + +U + +U + +U + + } + +U + +Es muss also genau eine der Schnittmengen aus U V leer sein. Andernfalls +heißen die beiden Splits „nicht kompatibel“. +Ein Split bei dem min. eine der beiden Partitionen genau 1 Element enthält +bezeichnet man als trivialen Split. +Einen maßgeblichen Beitrag leistete 1971 Bunman indem er bewies, dass die +Vereinigung aller Splits genau dann mit der Vereinigung aller Kanten eines +Phylogenetischen Baumes übereinstimmte wenn alle Splits paarweise +kompatibel sind. + +Die Vereinigung aller paarweiser kompatibler Splits stimmt genau mit der +Vereinigung aller Kanten eines Phylogenetischen Baumes überein. + +Man kann um einen Baum, der die evolutionäre Entwicklung eines gegebenen +Datensatzes an Taxa darstellt, zu erstellen nach kompatiblen Splits dieser Taxa +suchen. +Zu beachten sei hier, dass es für z.B. 5 Taxa 15 mögliche Splits und für n Taxa + mögliche Splits gibt. Um einen vollständigen binären Baum +2 +aufzubauen, muss man hierzu nach 2n-3 kompatiblen aus den oben genannten + +−−n +)1 + +1 + +( + +- 5 - + + + + + + + + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +( + +1 + +−−n +)1 + + möglichen Splits heraussuchen. So gibt es zu 15 Taxa 27 kompatible +2 +Splits von 16.383 möglichen. Man muss also nun eine Möglichkeit finden +möglichst einfach zu einem optimalen Ergebnis zu kommen. Am effizientesten +ist es hierbei nach auffälligen Splits zu suchen, und, obwohl es auch hierzu +mehrere Wege gibt wird im Folgenden nur auf den von Buneman (1971) weiter +eingegangen, da dieser auch gleichzeitig eine gute Basis liefert um die „Split- +decomposition“ Theorie zu verstehen. + +2.3 Buneman Bäume +Um überhaupt einen derartigen Baum aufbauen zu können, benötig man eine +vollständige Distanzmatrix die jedem Paar an Taxa einen Wert zuordnet: + +R →× XXd : + +Man definiert β(uv|xy) über den Split S={A,B} wobei u,v ∈A und x,y ∈B als: + +( +uv +β + +| + +xy + +) += + +min( + +uxd +,( + +) + ++ + +vxdvyd +), +),( + +,( + ++ + +uyd +,( + +)) + +− + +yxd +,(( + +) + ++ + +vud +,( + +)) + +Der Buneman Index + +Sβ des Splits S ist definiert als: + +2/1 + +min + +uvβ +( + +| + +xy + +) + + über alle u,v ∈A und x,y ∈B + +Beispiel: + +Td + +Betrachtet man den in Abb. 2.2 dargestellten Baum so ist die Distanz zweier +Taxa definiert als die Summe der Gewichtungen auf dem Weg zwischen +(2,5) = 2+3+3+1 = 9. +beiden. So ist die Distanz +Will man nun β für alle möglichen Paare eines Splits S={{1,2},{3,4,5}} +berechnen so ergibt sich +β(12,34) = 6; +β(12,35) = 6 und +β(12,45) = 12. +Somit ist der Buneman Index βS = ½ * 6 = 3. + +Der wichtigste Fakt aber den Buneman hierbei herausfand ist: + +Für einen Satz an Taxa für den die Distanzmatrix bestimmt ist gilt: +Die Vereinigung aller Splits für die βS > 0 gilt, sind kompatibel und lassen +sich somit als Baum repräsentieren. + +Somit ist βS ein wichtiges Kriterium um zu entscheiden welche Splits wesentlich +sind und somit einen Baum konstruieren lassen. +Ein derartiger Baum, dessen Äste jeweils dem Gewicht βS der durch sie +erzeugten Splits entsprechen, wird Buneman Baum genannt. Die Entfernungen +der gewichteten Äste entsprichen hierbei den errechneten Distanzen der +Matrix d. + +- 6 - + + + + + + + + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +Jede Methode die einen Baum aus genetischen Distanzen errechnet, sollte +folgenden Kriterien entsprechen: + +1. Die Methode angewandt auf die genetischen Distanzen eines + +gewichteten Baumes T sollte den Baum T ausgeben. + +2. Die Methode angewandt auf genetische Distanzen sollte von diesen +„kontinuierlich“ abhängen. Das heißt kleine Änderungen an d sollten +auch nur kleine Änderungen an T zur Folge haben und nicht das +komplette Erscheinungsbild des Baumes ändern. + +3. Es sollte möglich sein die Methode effizient zu implementieren. +4. Der ausgegebene Baum T sollte unabhängig von der Reihenfolge der + +Eingabe der Taxa sein. + +Dies sind zwar gute Kriterien, jedoch entsprechen selbst einige der gängigsten +Methoden zur Rekonstruktion eines Baumes aus gegebenen genetischen +Distanzen nicht diesen Bedingungen. UPGMA beispielsweise entspricht nicht +immer Kriterium 1 und Neighbour Joining (NJ) entspricht nicht immer den +Kriterien 2 und 4. Genauer beschrieben wird dies in Moulton, Steel (1999). +Obwohl der Aufbau eines Buneman Baumes allen diesen Kriterien entspricht +sind die erzeugten Bäume nicht immer vollständig aufgelöst, da, wegen der +Sortierung nach den Minima der vorkommenden β , oft zu viele Splits verworfen +werden, so dass der Baum aufgelöster erscheint als er nach den vorliegenden +Daten tatsächlich ist. Das folgende Kapitel befasst sich nun mit genau einer +solchen Möglichkeit dieses Problem zu beheben, der Split decomposition. + +2.4 Split decomposition +Im Gegensatz zu der Methode von Buneman wird bei der Split decomposition +nun durch eine Änderung ein neuer Index definiert. Hierbei ist: α(uv|xy) +mit Split S={A,B} wobei u,v ∈A und x,y ∈B definiert als: + +( +α + +xy + +| + +uv + +) + += + +max{ + +uxd +,( + +) + ++ + +vxdvyd +), +),( + +,( + ++ + +uyd +,( + +)) + +− + +yxd +,(( + +) + ++ + +vud +,( + +)) + +Der Isolation Index + +Sα ist definiert als: + +2/1 + +min + +uvα +( + +| + +xy + +) + + über alle u,v ∈A und x,y ∈B + +Beispiel: + +Betrachtet man den in Abb. 2.3 dargestellten Netzwerk N mit den Taxa 1,2,3,4 +so ist auch hier die geringste Entfernung zweier Taxa zueinander die geringste +Summe der gewichteten Kanten des Netzwerks. Es kann allerdings, im +Gegensatz zu Bäumen, wie auch in diesem Beispiel vorkommen, dass zwei +unterschiedliche Pfade von Kanten beide die geringste Gewichtung haben. + +- 7 - + + + + + + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +So ist beispielsweise die Entfernung d N (1,3)=1+3+4+5=13. Um zu diesem +Ergebnis zu gelangen kann man aber 2 verschiedenen Pfaden folgen, nämlich +zuerst dem senkrechten und dann dem waagerechten oder umgekehrt. Will +man nun für den Split S={{1,4}{2,3}} den Isolation Index +Sα von S berechnen +Sα = 3. Und für den Split T={{1,2}{3,4}} ist +so ergibt sich aus α(14|23) = 6 ⇒ +Tα = 4. Hierbei fällt auf, dass die berechneten Indizes genau den Gewichtungen +der parallel verlaufenden Kanten entspricht. + +(Abb. 2. 3) + +Isolation + +Aus diesem Beispiel lassen sich nun 2 +wichtige Dinge erkennen. Erstens, führt +die Entfernung parallel verlaufender +Kanten zu einer Splittung des Netzwerks, +Index genau dem +dessen +Gewicht der jeweils entfernten Kanten +entspricht. Und zweitens sieht man, dass +die Splits S und T nicht mehr kompatibel +sind und somit auch nicht zu einem Baum +gehören können. Das bedeutet nun, dass +Splits mit positivem Isolation Index im Gegensatz zu Splits mit positivem +Buneman Index nicht mehr unbedingt kompatibel sein müssen. Da kein Vorteil +darin liegt mehr Splits als notwenig zu behalten wird nun allen verbleibenden +Splits mit Hilfe der spectral analyse ein Wert über ihre Wichtigkeit +zugewiesen. +Berechnet man hier z.B, wie in Abb. 2.3 zu sehen, den Isolation Index eines +Splits U={{1,3}{2,4}} so ergibt sich αU=0. Da αU hiermit kein positiver Index +aus der Menge der Taxa {1,2,3,4} ist gehört es auch nicht dazu. Geht man nun +weiter und berechnet die Isolation Indizes und die Buneman Indizes der in Abb. +2.4 dargestellten A, B und C so sieht man, dass man mit dem Isolation Index +sowohl A als auch B behalten würde und nur C verworfen würde, beim +Buneman Index hingegen würden C und auch B verworfen und nur A behalten. +Kombiniert man nun A und B miteinander erhält man wieder das in Abb.2.3 +dargestellte Netzwerk welches eine Mischung aus A und B darstellt und keinem +von beiden eine Priorität einräumt. + +- 8 - + + + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +(Abb2.4) + +Aus dieser Dissonanz zwischen den immer kompatiblen Splits eines postiven +Buneman Indexes und den nicht gezwungenermaßen kompatiblen Splits eines +positiven Isolation Indexes erklärt sich nun die neue Definition einer schwachen +Kompatibilität. + +Drei Splits sind schwach kompatibel, falls mindestens eine Schnittmenge +aus der Splits S={A,B}, T={C,D} und U={E,F} leer ist: + +1 + +{ +II∈∅≤ + +EDBFCBFDAECA +, +} + +, + +, + +II + +II + +II + +Die wichtigsten Schlüsse die man nun aus dieser schwachen Kompatibilität +ziehen kann sind folgende: + +• Hat X n Elemente so ist die Anzahl der Splits mit positivem Isolation + +Index maximal n(n-1)/2. + +• Diese können effizient berechnet werden. +• Alle 4 der oben geforderten Ansprüche an ein derartiges Verfahren wird + +genüge getan. + +2.5 Von schwach kompatiblen Splits zu Netzwerken +Nachdem man nun zu einem solchen Satz an schwach kompatiblen Splits den +jeweiligen Isolation Index berechnet hat muss man eine Möglichkeit finden +diese in einem gewichteten Netzwerk darzustellen. Im Allgemeinen kann dies +immer unter der Verwendung von Median Netzwerken erreicht werden, bei +diesen besteht aber das Problem, dass sie nicht immer auch planar sind und +somit schwer zu zeichnen. Sofern die berechneten Spilts aber zyklisch sind + +- 9 - + + + + + + + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +besteht die Möglichkeit diese in einem sogenannten äußeren Planaren +Netzwerk darzustellen. Diese Netzwerke sind es auch, die im Allgemeinen von +dem Programm SplitsTree erzeugt werden. + +Die Menge der Splits eines gegebenen Sets an Taxa ist zyklisch, falls diese +auf einem Kreis so angeordnet werden können, dass sich jeder Split durch +eine Linie darstellen lässt + +(Abb. 2.5) + +Betrachtet man nun das in Abb. 2.5. dargestellt Beispiel so sieht man, dass jede +gepunktete Linien einen Split darstellt. Fügt man nun jedem, der in Teil A durch +eine gepunktete Linie eingegrenzten Bereiche, einen Knoten hinzu und +verbindet diese so kommt man zu Abb2.5B. Man sieht, dass Teil C nun schon +dem originalen Netzwerk das in Teil C abgebildet ist ähnelt, man erreicht dies +indem man die Ecken nun leicht anpasst, so dass diese parallel zueinander +verlaufen. Die Methode die hier in diesem Beispiel verwendet wurde basiert auf +dem Prinzip der De Bruijn dualisation. +Ordnet man nun jeder Kante den Wert des ihres Splits entsprechenden Isolation +Indexes zu so lässt sich aus diesem Gewichteten Netzwerk ein repräsentativer +Wert der Distanz dN errechnen. Ist das mit Hilfe eines positiven Isolation Index +der Splits erzeugte Netzwerk zyklisch, so stellt dN einen Näherungswert der +wirklichen Distanz d dar. Die verbleibende Differenz zwischen d und dN wird +als split-prime-residue (d- dN) bezeichnet und ist genau dann 0 falls die +erzeugten dN der eigentlich errechneten d entsprechen. +Das Maß für die Genauigkeit diese Näherung der dN an d wird definiert als +Fit Index: + +fi + += + +)( + +∑ − +( +dd +∑ + +N +,( +yxd + +, +yx + +) + +) + +%100* + + für alle x,y aus X + +- 10 - + + + + + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +3. Anwendung + +3.1 Das SplitsTree Programm +Erhältlich sind mehrere Versionen von SplitsTree, die aktuellste Release +Version 3.2 ist verfügbar für Win32 und Unix. Für MacOS ist die Version 2 +verfügbar. Eine Java basierte Version 4 Namens Jsplits ist im Betastadium. Alle +Versionen sind verfügbar unter: + +http://www-ab.informatik.uni-tuebingen.de/software/splits/ + +Für die Version 3.2 für Win32 wird zudem noch die TCL/TK Erweiterung +TCL805.exe benötigt. Diese ist zu finden unter http://www.scriptics.com. +Zudem müssen noch die Dateien TCL80.dll und TK80.dll in den SplitsTree +Ordner kopiert werden. + +3.2 Beispiel: mtDNA Datensatz + +(Abb. 3.1) + +- 11 - + + + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +Abb. 3.1 stellt einen mit SplitsTree erstellten Split Graphen dar, dessen Fit Index +wie in der Statusleiste angegeben bei 79,2% liegt. D.h. 80% der angegebenen +Distanzen sind noch korrekt und 20% der Distanzen weichen von ihrer +eigentlich errechneten Distanz ab. Man kann nun leider nicht generell sagen +welcher Fit Index für einen SplitGraphen gut ist. Erfahrungsgemäss werden +Netzwerke die bei über 80% liegen als akzeptabel betrachtet. Bei Fit Indizes von +70% und weniger kann man davon ausgehen, dass zu viele verworfen wurden +um noch ein Netzwerk darstellen zu können, als dass man das Netzwerk noch +verwenden könnte. +Man darf davon ausgehen, dass bei einem hohen Fit Index die Ergebnisse +anderer Methoden die auf Entfernungen basieren, wie z.B. NJ, sehr ähnlich +aussehen würden. Im Folgenden sieht man in Abb3.2 den gleichen Datensatz an +Taxa, diesmal allerdings als Buneman Baum aufgebaut. + +(Abb. 3.2) + +- 12 - + + + + + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +3.3 Beispiel 2: HIV-1 Datensatz + +(Abb. 3.3) + +In Abb. 3.3 nun dargestellt sieht man das Netzwerk der aus einem HIV Set +erstellt wurde. Das Netzwerk ist zwar zum größten Teil baumartig und der Fit +Index von 88,2% bestätigt die Korrektheit der Darstellung. Im Gegensatz zum +ersten Beispielt tritt hier jedoch eine Ungenauigkeit im Netzwerk vor den Taxa +U27399 und U43368 auf. Des Weiteren ist der Zentrale Knoten mit einem Grad +von 6 auffällig. Dies lässt auf einen Konflikt der Daten schließen, so dass sich +dieser Knoten nicht weiter auflösen lässt. +Bei den bisherigen beiden Beispielen wurde nun die Distanz schlicht mit der +Hamming Methode berechnet welche die Anzahl der Unterschiede zwischen +zwei Sequenzen als deren Entfernung ausgibt. +Es ist nun aber auch möglich schon im Voraus mit einer Methode berechneten +Distanzmatrizen in SplitsTree einzubinden und zu verwenden. Dazu müssen die +zu importierenden Daten lediglich im Nexus Dateiformat bereitgestellt werden. + +- 13 - + + + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +Wie man in Abb. 3.4 leicht erkennt wurde diese nicht aus einem baumartigen +Datenset erzeugt sondern aus HCV Daten (Allain et al. 2000) einer Studie über +die Immunantwort auf Hepatitis C. Eine baumartige Darstellung dieses +Netzwerkes wäre, im Gegensatz zur dieser Abbildung, nur unzureichend. Zumal +der Split Index von 96,3% auf eine nahezu korrekte Darstellung der errechneten +Distanzen hinweist. Man kann nun das dargestellte Netzwerk grob in drei +Einheiten aufteilen. Hierbei wurde die mit 603 gekennzeichneten Taxa aus +einem Donor entnommen und die mit 163 und 31 gekennzeichneten aus zwei +unterschiedlichen Rezipienten. Des Weiteren beachte man den Knoten der mit +in zweierlei Weise +31/7,31/13 gekennzeichnet +beachtenswert. Die doppelte Kennzeichnung weist darauf hin, dass kein +Splitindex eines Splits gefunden wurde der diese zwei Taxa trennen würde. Die +Tatsache, dass dieser Knoten ein interner Knoten und kein Blatt ist deutet darauf +hin, dass es sich hierbei um einen Vorfahr der an den Blättern dieses +Teilnetzwerks vorhandenen Taxa handelt.- + +ist. Dieser + +ist gleich + +Weitere Beispiele +zur Analyse von +Daten findet man +in Dopaz et al. +(1993) +und +Nielst- +Plikat, +und +Struwe +Meyerhans(1997) +. + +(Abb 3.4) + +- 14 - + + + + + + + + + + + + + + + + + + + + Proseminar: Grundlagen der Bioinformatik +Thema: SplitsTree and Phylogenetic Networks + +Christoph Schwörer + +Quellenangaben: + +Verwendete Abbildungen: + +The Phylogenetic Handbook, M.Salemi, +A-M. Vandamme, Cambridge University Press, 2003 + +Verwendete Literatur: + +The Phylogenetic Handbook, M.Salemi, +A-M. Vandamme, Cambridge University Press, 2003 + +Studienarbeit zum Vergleich prokaryotischer Gnome, +A. Auch, Uni Tübingen , 2003 + +- 15 - + + + + + + + \ No newline at end of file diff --git a/StilVorlagen/Studienarbeit.md b/StilVorlagen/Studienarbeit.md new file mode 100644 index 0000000..d841a75 --- /dev/null +++ b/StilVorlagen/Studienarbeit.md @@ -0,0 +1,900 @@ +Protein Similarity Measures as Kernels for +Proteochemometrics + +Christoph Schw¨orer + +1. November 2009 + + 2 +2 + +3 +3 +4 +4 +5 +5 +6 +7 +7 +7 +8 +9 +10 +11 +12 +13 + +14 + +22 + +Inhaltsverzeichnis + +1 Einleitung + +1.1 Versuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . + +2 Methodik + +Substitution Kernel + +2.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . +. . . . . . . . . . . . . . . . . . . . . . . . . . +2.2 Verwendete Kernel +. . . . . . . . . . . . . . . . . . . . . . . +2.2.1 Tanimoto Kernel +2.2.2 Missmatch Kernel +. . . . . . . . . . . . . . . . . . . . . . +2.2.3 Gappy Kernel . . . . . . . . . . . . . . . . . . . . . . . . . +. . . . . . . . . . . . . . . . . . . . . +2.2.4 +2.2.5 Alignment Kernel +. . . . . . . . . . . . . . . . . . . . . . +Implementierung der Kernel . . . . . . . . . . . . . . . . . . . . . +. . . . . . . . . . . . . . . . . . . . . . . +2.3.1 Tanimoto Kernel +. . . . . . . . . . . . . . . . . . . . . . +2.3.2 Missmatch Kernel +2.3.3 Gappy Kernel . . . . . . . . . . . . . . . . . . . . . . . . . +. . . . . . . . . . . . . . . . . . . . . +2.3.4 +. . . . . . . . . . . . . . . . . . . . . . +2.3.5 Alignment Kernel +2.4 Die Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . +. . . . . . . . . . . . . . . . . . . . . . . +2.5 verwendete Programme + +Substitution Kernel + +2.3 + +3 Ergebnisse + +4 Diskussion + +1 + + Kapitel 1 + +Einleitung + +1.1 Versuche + +2 + + Kapitel 2 + +Methodik + +2.1 SVM + +Eine Support Vektor Machine (SVM) ist ein Verfahren aus dem Bereich der +Mustererkennung zur Klassifikation von Objekten. Diese Objekte werden hier- +bei durch ihre Eigenschaften (features) (zB. L¨ange, Gewicht oder Sequenzfolge) +und ihre Klasse repr¨asentiert. Bei einer Gegebenen Anzahl d an Eigenschaften +k¨onnen diese als d-dimensionaler Vektor dargestellt werden. Der d-dimensionale +Raum der Eigenschaftsvektoren wird Eigenschaftsraum (feature space) χ ge- +nannt. +Das Ziel einer SVM ist es nun anhand gegebener Trainingsvektoren deren Klas- +se bereits bekannt ist unbekannte Objekte korrekt zu klassifizieren. Man hat +Beispielsweise 2 Klassen von l Objekten mit einer Anzahl d an Eigenschaften x +die als Paare (xi, yi), i = 1, . . . , n mit (cid:126)xl ∈ Rdund yi ∈ {−1, 1}n gegeben sind. +Sind die Datenpunkte im Eigenschaftsraum χ linear separierbar durch eine Hy- +perebene so ist das Problem trivial (Siehe Abb 2.1A). Sind die Daten aber nicht +linear separierbar (Siehe Abb 2.1B) so muss folgendes Optimierungsproblem + +Abbildung 2.1: Beispiel f¨ur linear separierbare Daten (A) und nicht linear sepa- +rierbare Daten (B) + +3 + + gel¨ost werden (Boser et al. 1992; Cortes, C. and Vapnik, V., 1995): + +minw,b,ξ + +1 + +2 wT w + C (cid:80)l + +i=1 ξi + +mit der Bedingung yi(wT φ(xi) + b‘1 − ξi, + +ξi‘0. + +(2.1) + +C > 0 ist eine positive Konstante die als Strafparameter dient. Die Trainings- +vektoren wi werden zudem auf einen h¨oher dimensionalen Vektorraum durch die +Funktion φ : Rd1 → Rd2 , w → φ(w); d2 > d1 abgebildet um in diesem h¨oher +dimensionalen Raum eine Hyperebene zu finden die ihn linear separiert. Da die +Daten xi im Algorithmus zur L¨osung des oben genannten Problems nur in der +Form eines Skalarproduktes (cid:104)xi, xj(cid:105) im Raum Rd1 eingehen ist es m¨oglich diese +durch ein Skalarprodukt (cid:104)φ(xi), φ(xj)(cid:105) im Raum Rd2 zu berechnen. Hierzu kann +nun eine positiv-semidefinite Kernelfunktion verwendet werden mit: + +k(xi, xj) = (cid:104)φ(xi), φ(xj)(cid:105) + +(2.2) + +Die in dieser Arbeit verwendeten Kernelfunktionen werden im folgenden Ab- +schnitt erl¨autert. + +2.2 Verwendete Kernel + +2.2.1 Tanimoto Kernel + +Der einfachste implementierte Kernel ist der Tanimoto Kernel. Hierbei wird ein +|Σ|k-dimensionaler Vektorraum ¨uber {0,1} verwendet. Jede Koordinate wird +durch ein m¨ogliches k-mer α indexiert. Tritt das k-mer α auf, so wird der Wert +der Koordiante 1 ansonsten bleibt sie 0. Dies f¨uhrt zu folgender feature map: + +wobei + +ΦT animoto + +k + +(x) = (φα(x))α∈Σl + +φα(x) = + +(cid:26) 1, +0, + +falls α in x vorkommt +sonst + +(2.3) + +(2.4) + +F¨ur eine Sequenz x beliebiger L¨ange wird diese feature map nun ¨uber die Sum- +mation der einzelnen Vektoren f¨ur alle k-mere in x gebildet: + +ΦT animoto + +k + +(x) = + +(cid:88) + +ΦT animoto + +k + +(α) = X + +(2.5) + +k−mere α in x + +Der Tanimoto Koeffizienl T (X, Y ) f¨ur zwei Sequenzen x und y wird nun errech- +net durch den Tanimotokoeffizienten von X und Y + +T (X, Y ) = + +X · Y +||X||2 + ||Y ||2 − X · Y + +(2.6) + +Damit ergibt sich abschließend der Tanimoto Kernel + +kT animoto +k + +(x, y) = T (X, Y ) = T (ΦT animoto + +k + +(x), ΦT animoto +k + +(y)) + +(2.7) + +4 + + 2.2.2 Missmatch Kernel + +Zur Erh¨ohung des Realit¨atsgrads und der Ann¨aherung an die nat¨urlichen Gege- +benheiten muss es jedoch m¨oglich sein einen gewissen Grad von Ungenauigkeit +zu erm¨oglichen. Ein Kernel der dies erreicht darf also nicht nur abh¨angig von +genauen Vergleichen sein sondern muss ein Maß an ¨Ahnlichkeit implementie- +ren. Eine einfache M¨oglichkeit dieser Implementation ist es missmatches beim +Vergleich von k-meren zu erlauben. In Leslie et al. (2003b) wird hierzu ein +(k.m)-missmatch Kernel ¨uber eine feature map ΦM issmatch +realisiert. F¨ur ein +missmatch neigh- +gegebenes k-mer α = α1α2α3...αk, αi ∈ Σ wird hierzu ein +” +borhood“Nk,m(α) definiert. Dies ist die Menge aller k-mere die sich an maximal +m Stellen vom k-mer α unterscheiden. Die featur map f¨ur α ist demnach definiert +als: + +(l,m) + +wobei + +ΦM issmatch + +(k,m) + +(α) = (φβ(alpha))β∈Σk + +φβ(x) = + +(cid:26) 1, +0, + +falls β ∈ N(k,m)(α) +sonst + +(2.8) + +(2.9) + +Wie schon beim Tanimoto Kernel wird auch hier wieder f¨ur eine Sequenz x be- +liebiger L¨ange die map durch Addition der einzelnen feature Vektoren gebildet: + +ΦM issmatch + +(k,m) + +(x) = + +(cid:88) + +ΦM issmatch + +(k,m) + +(α) + +(2.10) + +k−mere α∈x + +Im Gegensatz zum Tanimoto Kernel werden aber mehrfach vorkommende k- +mere auch mehrfach gewertet. Jedes k-mer tr¨agt somit zu allen Werten sei- +missmatch neighborhood“ bei. In diesem Fall Stellt die β Koordinate von +nes +” +ΦM issmatch +(x) also die Anzahl derjenigen k-mere in x dar, die maximal an m +(k,m) +Stellen abweichen. Der (k, m)-missmatch Kernel kM issmatch +(x, y) kann also dar- +gestellt werden als das Skalarprodukt der feature Vektoren von x und y: + +(k,m) + +kM issmatch +(k,m) + +(x, y) = (cid:104)ΦM issmatch + +(k,m) + +(x), ΦM issmatch +(k,m) + +(y)(cid:105) + +(2.11) + +2.2.3 Gappy Kernel + +Alternativ zu missmatches m¨ussen in einem biologisch motivierten Kernel auch +L¨ucken erlaubt werden. Diese M¨oglichkeit ist mit dem Gappy Kernel gegeben. +Wie auch die beiden vorhergehenden Kernel wird f¨ur den (g, l)-gappy string +kernel (Leslie and Kuang, 2003) der gleiche |Σ|l-dimensionale Merkmalsraum +gappy“ matches +verwendet. In diesem Fall aber basiert die feature map auf +” +von g-meren zu l-meren (wobei g > l). Hierbei ist G(g,l)(α) die Menge aller +l-mere die als Teilfolgen der L¨ange l (mit g − l L¨ucken) aus einem gegeben g- +mer α = α1α2 . . . αg, αi ∈ Σ durch Konkatenation von Zeichen aus g gewonnen +werden k¨onnen. Wobei f¨ur alle Stringpositionen αi, αj gelten muß: i < j falls +i < j in g. Somit ergibt sich die feature map: + +wobei + +ΦGappy +(g,l) + +(α) = (φβ(α))β∈Σl + +φβ(α) = + +(cid:26) 1, +0, + +falls β ∈ G(g,l)(α) +sonst + +(2.12) + +(2.13) + +5 + + Hierbei tr¨agt wieder jede Teilfolge zum Wert aller feature Vektoren bei in denen +sie vorkommt. Die feature map wird dann wieder erweitert auf eine beliebig +lange Sequenz x indem ¨uber alle feature Vektoren aller g-mere in x summiert +wird: + +ΦGappy +(g,l) + +(x) = + +(cid:88) + +φGappy +(g,l) + +(α) + +(2.14) + +Der (g, l)-gappy kernel kGappy +(g,l) +dukt der feature Vektoren zweier Sequenzen x und y: + +(x) wird wiederum erneut definiert als Skalarpro- + +g−mere α∈x + +kGappy +(g,l) + +(x, y) = (cid:104)ΦGappy + +(g,l) + +(x), ΦGappy + +(g,l) + +(y)(cid:105) + +(2.15) + +2.2.4 Substitution Kernel + +Eine erweiterte Variante des mismatch Kernels ist der substitution kernel (Les- +lie and Kuang, 2003). Anstelle des mismatch neighborhood wird hier jedoch ein +similarity neighborhood verwendet. Dieses basiert auf einem probabilistischen +Model zum Austausch von Zeichen in den betrachteten Sequenzen. Hierzu wer- +den paarweise Werte S(a, b) verwendet die sich aus gesch¨atzten evolution¨aren +Austauschwahrscheinlichkeiten ableiten (Henikoff and Hennikoff, 1992; Schwartz +and Dayhoff, 1978; Altschul et al., 1990). Um solch eine Matrix S zu generieren +werden einzelne Bl¨ocke von von Sequenzen homologer Proteine verglichen und +ein log odds-Ratio errechnet: + +S(i, j) = + +(cid:19) + +(cid:18) 1 +λ + +log + +(cid:19) + +(cid:18) pij +qi ∗ qj + +(2.16) + +wobei pij die Wahrscheinlichkeit darstellt die Aminos¨auren i und j in einem +Alignment zu finden. qi und qj hingegen bezeichnen die H¨aufigkeiten der Ami- +nos¨auren. λ ist der Normalisierungsfaktor. Man definiert nun also den mutation +neighborhood M(k,σ)(α) eines k-mers α = a1a2 . . . ak folgendermaßen: + +M(k,σ)(α) = + +(cid:110) + +β = b1b2 . . . bk ∈ Σk : + +(cid:88) + +(cid:111) + +S(ak, bk) + +(2.17) + +Dabei l¨asst sich σ = σ(N ) w¨ahlen, so dass maxα∈Σk |Mk,σ(α)| < N . Dies +erm¨oglicht eine Kontrolle ¨uber die Gr¨oße des mutation neighborhood. Die sub- +stitution feature map definiert sich nun wie folgt: + +wobei + +ΦSubstitution + +(k,σ) + += + +(cid:88) + +(φβ(α)β∈Σk ) + +k−mere α∈x + +φβ(α) = + +(cid:26) 1, +0, + +falls β ∈ M(k,σ)(α) +sonst + +(2.18) + +(2.19) + +Der substitution kernel kSubstitution +als: + +(k,σ) + +ist damit ¨uber das Skalarprodukt definiert + +kSubstitution +(k,σ) + += (cid:104)ΦSubstitution +(k,σ) + +(x), ΦSubstitution +(k,σ) + +(y)(cid:105) + +(2.20) + +6 + + 2.2.5 Alignment Kernel + +Im Gegensatz zu den bisher angef¨uhrten Kerneln stellt der Alignment Kernel +keinen direkten ¨Ahnlichkeitsvergleich zweier Sequenzen dar. Vielmehr wird die- +ser Kernel durch Faltung mehrere local alignments gebildet da ein einzelnes local +alignment keinen g¨ultigen Kernel darstellt.(Vert, Jean-Philippe; Siago, Hiroto; +Akutsu, Tatsuya). Im folgenden wird nun ein g¨ultiger local alignment Kernel +definiert. +Gegeben sei hierzu eine Substitutionsmatrix S und eine gap penalty Funktion +g. Zus¨atzlich werden drei Kernel auf Basis einer Funktion aus S und g definiert. +Der erste Kernel k0 ist hierbei ein konstante Abbildung von auf 1 welche f¨ur +diejenigen Sequenzteile verwendet werden die außerhalb des matchings liegen: + +k0(x, y) := 1, ∀(x, y) ∈ χ2 + +(2.21) + +Der zweite Kernel ka wird zur Berechnung der ¨Ahnlichkeit von allinierten Sym- +bolen mit Hilfe von S verwendet: + +k(β) +a (x, y) := + +(cid:26) 0, + +exp(βS(x, y)), + +falls |x| (cid:54)= 1 oder |y| (cid:54)= 1 +sonst + +(cid:27) + +, ∀(x, y) ∈ χ2 + +(2.22) +mit β ≥ 0 als Parameter. Der dritte Kernel kg dient abschließend zur Darstellung +der gap penalty: + +k(β)g(x, y) := exp[β(g(|x|) + g(|y|))] +wobei β ≥ 0 den gleichen Parameter wie in (2.20) bezeichnet und g eine g¨ultige +gap penalty Funktion . +Diese 3 Kernel werden nun durch Faltung zu einem g¨ultigen Kernel kn zusam- +mengef¨ugt: + +(2.23) + +k(β) +(n) := k0 ∗ + +a ∗ k(β) +k(β) + +g + +(cid:16) + +(cid:17)(n−1) + +∗ k(β) + +a ∗ k0 + +(2.24) + +Dieser Kernel definiert nun die ¨ahnlichkeit von zwei Strings x und y mit einem +local alignment der L¨ange n. Hierbei werden durch den Kernel alle m¨oglichen +a ∗ (k(β) +Dekompositionen von x und y erfasst. Dabei ist k0 der initiale Teil, (k(β) +) +Die Verteilung aller local alignments von genau n Symbolen die durch (n − 1) +gaps getrennt werden und das abschließende k0 der finale Teil. +Um nun bei einem Vergleich zweier Strings alle m¨oglichen lokalen alignments +zu ber¨ucksichtigen ist es Notwendig ¨uber alle n zu summieren so dass sich der +endg¨ultige local alignment kernel k(β) + +g + +LA ergibt: + +k(β) +LA := + +∞ +(cid:88) + +i=0 + +k(i) + +(2.25) + +2.3 + +Implementierung der Kernel + +2.3.1 Tanimoto Kernel + +Um eine effiziente Berechnung zu gew¨ahrleisten wird eine Trie-Datenstruktur +verwendet. Hierbei wird jeweils ein Trie f¨ur jede der Sequenzen x und y gebil- +det. Die Tiefe des Tries entspricht dem Parameter k der verwendeten k-mere. +Jeder innere Knoten des Tries hat maximal |Σ| (im Fall von Aminos¨auren also + +7 + + Abbildung 2.2: Beispiel f¨ur 2 Tries und deren Tanimoto Koeffizienzen + +20) ¨Aste. der Pfad von der Wurzel des Baumes zu einem Blatt entspricht ei- +nem in der zugeh¨origen Sequenz auftretenden k-mer. An jedem inneren Knoten +wird beim Aufbau des Tries ¨uberpr¨uft ob ein k-mer mit der entsprechenden Zei- +chenfolge erweitert um ein Symbol aus Σ in der Sequenz existiert.Falls ja wird +der Trie um dieses Symbol erweitert. Die Bl¨attern des Tries, also jeweils ein +m¨ogliches k-mer, entsprechen hierbei also den Koordinaten der Vektoren des +Tanimoto Koeffizienten. Nach dem Aufbau der Tries wird der Tanimoto Ko- +effizient T (X, Y ) (Siehe Formel 2.4) der beiden Sequenzen anhand ihrer Tries +errechnet. Mehrfach auftretende k-mere werden bei diesem Trie und so auch im +Tanimoto Koeffizien auf eins reduziert. + +2.3.2 Missmatch Kernel + +Auch der mismatch Kernel nutzt zur Berrechnung eine Trie Struktur ¨ahnlich +der des Tanimoto Kernels. Im Gegensatz zu dem beim Tanimoto Koeffizienten +verwendeten Trie sollen aber bei dem hier verwendeten Trie auch alle mehrfach +vorkommenden k-mere gewertet werden. Hierzu wird jedem Knoten (auch den +Bl¨attern) eine Liste mit Pointern aller n-mere (wobei n die Tiefe des aktuel- +len Knotens ist) zugewiesen, die dem Pfad des Knotens von der Wurzel aus +entsprechen oder maximal m missmatches aufweisen. Es wird dazu bei jedem +erweitern des Tries um ein Symbol am aktuellen Knoten f¨ur jedes n-mer der + +8 + + Abbildung 2.3: Teil des (6,1)-missmatch trees f¨ur die Sequenz ATGACATT. Es +werden l-mere der L¨ange 6 mit mit max. 1 missmatch berechnet. Der hier darge- +stellte Pfad zeigt den Teilbaum aller mit l-mer features mit Pr¨afix AL. In jedem +Knoten werden zu allen g¨ultigen Pr¨afixen die Anzahl an missmatches zwischen +dem Pr¨afix einer l-mer Instanz und dem Pr¨afix eines features gespeichert sowie +ein Pointer zum Startpunkt des jeweiligen Pr¨afixes. + +Liste des Vorg¨angerknotens geschaut ob das (n+1)-mer noch innerhalb der m +missmatches liegt. Ist dies der Fall wird es in die Liste ¨ubernommen; ist dies +nicht der Fall wird es nicht ¨ubernommen. Die Liste der (n+1)-mere ist allso +in jedem Fall eine valide Teilmenge der Liste des Knotens des vorhergehenden +n-mers. Erreicht man auf diese Weise ein Blatt so ist die Liste der l-mere also +eine g¨ultige Liste aller l-mere die maximal m mismatches zum gesuchten l-mer +α aufweisen. +F¨ur eine Sequenz x sind also alle g¨ultigen l-mere die in N(l,m)(α) liegen also +¨aquivalent zu allen l-meren in den Listen des Bl¨attes des Tries mit dem Pfad α. +Alle l-mere der Liste tragen somit zur α Koortinate des feature vektors Φ(x) bei. +Man kann also nun einfach die Beitr¨age aller auftretenden Instanzen Summieren +und somit den Wert des Kernels aktualisieren: + +k(x, y) := k(x, y) + nα(x) ∗ nα(y) + +(2.26) + +wobei nα(x) und nα(y) die Anzahl der Instanzen, einschließlich missmatches, +eines l-mers α in x und y sind. + +2.3.3 Gappy Kernel + +Wie bei den beiden vorhergehenden Kerneln wird auch f¨ur den (g, l)-gappy +Kernel ein Baum mit Tiefe l verwendet bei dem jeder innere Knoten |Σ| ¨Aste +hat. Der Aufbau des Baumes wird durch ein depth first traversal realisiert. +¨Ahnlich dem Missmatch Kernel wird jedem besuchten Knoten eine Liste mit +Pointern zu g-meren zugewiesen die dem aktuellen Pr¨afix, mit maximal g − l +gaps, entsprechen. F¨ur jedes g-mer wird hierbei zus¨atzlich ein Pointer zur letzten +g¨ultigen Position, also dem ersten Symbol nach letzen g¨ultigen Position des +Mutterknotens das der Bezeichnung des Astes entspricht, gespeichert. An der +Wurzel sind diese Pointer also alle 0 da noch keine Symbole in den g-meren +abgearbeitet wurden. +Bei jedem Schritt in den Baum hinein werden jeweils nur diejenigen g-mere + +9 + + Abbildung 2.4: Teil eines (6,3)-gappy trees f¨ur die Sequenz ATGACATT. An +jedem Knoten werden die noch g¨ultigen g-mere gespeichert sowie die erste Stelle +des Auftretens des aktuellen Symbols nach dem letzten g¨ultigen Symbol. Im +gezeigten Bsp wird der Baum f¨ur das l-mer AAT gezeigt. + +weitergegeben bei denen die letzte g¨ultige Position innerhalb des g-mers lag. +Wird kein g¨ultiges Symbol, das heißt ein Symbol das der Markierung des Astes +entspricht, zwischen dem letzten g¨ultigen und dem Ende des g-mers gefunden so +wird dieses verworfen. Findet man jedoch ein g¨ultiges Symbol so wird das g-mer +zusammen mit dem neuen Pointer an den Kindknoten weitergegeben. Wird bei +einem Schritt kein g-mer weitergegeben so muß dieser Teilbaum nicht weiter +bearbeitet werden. +Zum update des Kernelwertes f¨ur x und y muß nun nur f¨ur jedes feature k- +mer die Summe der g¨ultigen Pointer am, dem k-mer entsprechenden Blatt, zum +Kernelwert addiert werden. + +2.3.4 Substitution Kernel + +Die Berechnung des Substitution Kernels ¨ahnelt der des missmatch Kernels. +Auch hier wird ein trie der Tiefe l verwendet. An jedem Knoten der Tiefe d +wird eine Liste mit Pointern zu allen l-meren gespeichert. Zudem wird noch zu +jeder l-mer Instanz α die aktuelle mutation score (cid:80)d +i=1 S(ai, bi) im Verh¨altnis +zum aktuellen Pr¨afix des Pfades b1b2 . . . bd gespeichert. Bei jedem Schritt in den +Baum hinein wird an der Kante mit Beschriftung b der Tiefe d+1 zu jeder l-mer +Instanz α der Wert S(a, b) zur aktuellen mutation score addiert und zusammen +mit der l-mer Instanz α an den Kindknoten weitergegeben. Wie bei den bisheri- +gen Kerneln wird nun der Kernel Wert f¨ur ein l-mer erneuert indem die Summe +aller g¨ultigen Instanzen (also mit mutation score < σ) von l-meren im trie an +den Bl¨attern zum Kernel Wert f¨ur x und y addiert wird. + +10 + + Abbildung 2.5: Beispiel f¨ur einen Substitution Kernel Trie der Tiefe 6 f¨ur das +Pr¨afix ANC. Die Werte f¨ur S(x,y) sind aus der BLOSUM62 (Siehe Tabelle 2.1) +entnommen. + +2.3.5 Alignment Kernel + +Da eine naive Berechnung des Kernels nach 2.23 zu einer exponentiellen Zu- +nahme der Komplexit¨at in Abh¨angigkeit von |x| und |y| f¨uhrt wurde einen +dynamic programming Ansatz gew¨ahlt. Hierbei handelt sich um eine Abwand- +lung des klassischen Smith-Waterman Algorithmus f¨ur affine gap penalties. Hier- +zu seien (x, y) ∈ χ2 zwei Sequenzen und g eine affine gap penalty Funktion mit + +g(n) = + +(cid:26) 0 + +d + e(n − 1) + +falls n = 0 , oder +falls n ≥ 1 + +(2.27) + +dann ist der LA Kernel kβ + +LA(x, y) f¨ur x und y gleichwertig mit + +kβ +LA(x, y) = 1 + X2(|x| , |y|) + Y2(|x| , |y|) + M (|x| , |y|) + +(2.28) + +wobei M (i, j), X(i, j), Y (i, j), X2(i, j) und Y2(i, j) f¨ur 0 ≤ i ≤ |x|, und 0 ≤ j ≤ +|y| rekursiv definiert sind als + + + + + + +M (i, 0) = M (0, j) = 0, +X(i, 0) = X(0, j) = 0, +Y (i, 0) = Y (0, j) = 0, +X2(i, 0) = Y2(0, j) = 0, +Y2(i, 0) = Y2(0, j) = 0, + +(2.29) + +und + + + + + +M (i, j) = exp(βS(xi, yj))[1 + X(i − 1, j − 1) + Y (i − 1, j − 1) + M (i − 1, j − 1)], +X(i, j) = exp(βd)M (i − 1, j) + exp(βe)X(i − 1, j), +Y (i, j) = exp(βd)[M (i, j − 1) + X(i, j − 1)] + exp(βe)Y (i, j − 1), +X2(i, j) = M (i − 1, j) + X2(i − 1, j), +Y2(i, j) = M (i, j − 1) + X2(i, j − 1) + Y2(i, j − 1), + +(2.30) +β ist hierbei der frei w¨ahlbare Parameter, S ist die in Tabelle 2.1 gezeigte BLO- +SUM62 Matrix, d und e sind die gap open und gap extension penalties. Zur + +11 + + A R N D C Q E G H I L K M F P S T W Y V B Z X * +A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 +R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 +N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 +D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 +C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 +Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 +0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 +E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 +G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 +H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 +1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 +-1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 +I +L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 +2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 +K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 +5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 +M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 +F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 +1 3 -1 -3 -3 -1 -4 +0 6 -4 -2 -2 +P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 +1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 +S +T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 +W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 +Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 +2 7 -1 -3 -2 -1 -4 +V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 +1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 +B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 +Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 +X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 +-4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1 + +Tabelle 2.1: Die BLOSUM62. Die Angegebenen Werte geben die log odds Ratio +der Aminos¨auren der Zeilen und Spalten an + +Normierung der Ergebnisse und um das sogenannte diagonal dominance Pro- +blem zu vermeiden wird jeder Kernel wert kβ +LA(x, y) durch folgende Formel +aktualisiert + +ln kβ + +LA(x, y) + +(2.31) + +˜kβ +LA(x, y) = + +2.4 Die Daten + +1 +β + +Der in dieser Arbeit verwendete Datensatz bezieht sich auf den in (Rausch, C.; +Weber, T.; Kohlbacher, O; Wohlleben, W. und Huson, D.; 2005) verwendeten +Datensatz an NRPS Proteinen. NRPS steht f¨ur nonribosomalproteinsynthetase +und Bezeichnet eine Familie von Proteinen in Bakterien und Pilzen die durch +einzelnes Anf¨ugen von Aminos¨auren an eine Kette ein Protein erzeugen. In den +meisten F¨allen sind dies Peptidantibiotika die spezielle nicht kanonische Ami- +nos¨auren verwenden. Die NRPS Proteine sind nach der Art ihres spezifischen +Substrates in 8 Klassen aufgeteilt: + +• aliphatische Kettenenden mit Wasserstoffbr¨ucken Donor + +• apolare, aliphatische Seitenketten + +12 + + • aromatische Seitenketten + +• lange positiv geladene Seitenketten + +• aliphate oder phenyle mit OH Gruppen + +• polare ungeladene (Cys) + +• zyklische Aliphate + +• hydroxy benzoe S¨auren und derivate + +Der vollst¨andige Datensatz enth¨alt 339 Sequenzen. + +2.5 verwendete Programme + +Zu Analyse der berechneten Kerneldaten aus den vorgestellten Kerneln wurde +das Programm LibSVM (frei erh¨altlich unter: http://www.csie.ntu.edu.tw/ cj- +lin/libsvm/) verwendet. Insbesondere der Programmteil svm-train der es erm¨oglich +sowohl vorberechnete Kernel zu verwenden als auch eine direkte n-fache Kreuz- +validierung erm¨oglich. Hierzu m¨ussen die Parameter −t 4 und −v [n] verwendet +werden. Bei der Auswertung der Kernel wurde im weiteren Verlauf der Parame- +ter n immer mit 5 gew¨ahlt. Als Ausgabe erfolgt das Ergebnis der Kreuzvalidie- +rung in % sowie eine Datei die das Model der SVM zur weiteren Verwendung +innerhalb des Programms enth¨alt. + +13 + + Kapitel 3 + +Ergebnisse + +14 + + Abbildung 3.1: blabla + +15 + + Abbildung 3.2: blabla + +16 + + Abbildung 3.3: blabla + +17 + + Abbildung 3.4: blabla + +18 + + Abbildung 3.5: blabla + +19 + + Abbildung 3.6: blabla + +20 + + Abbildung 3.7: blabla + +21 + + Kapitel 4 + +Diskussion + +22 + + \ No newline at end of file diff --git a/StilVorlagen/Vorprotokolll PC-Praktikum Versuchstag 1 - Kinetik2.md b/StilVorlagen/Vorprotokolll PC-Praktikum Versuchstag 1 - Kinetik2.md new file mode 100644 index 0000000..c29c3f8 --- /dev/null +++ b/StilVorlagen/Vorprotokolll PC-Praktikum Versuchstag 1 - Kinetik2.md @@ -0,0 +1,489 @@ +Christoph Schwörer Vorprotokoll zum 1.Versuchstag +Benedikt Zimmermann + +des PC-Praktikums + +6.Juli 2005 + +Kinetik einer enzymkatalysierten Reaktion + +Versuchsziel + +Gegenstand dieses Versuchs ist die kinetische Analyse einer +enzymkatalytischen Alkohol-Oxidation unter Verwendung der +Alkoholdehydrogenase. Mit Hilfe von grundlegenden Gesetzen der +Reaktionskinetik, wie z.B. der Arrhenius-Gleichung und der Michaelis- +Menten-Gleichung, werden die ablaufenden Prozesse unter verschiedenen +Gesichtspunkten betrachtet. + +Theoretische Grundlagen + +Der nachfolgende Versuch setzt einige Definitionen aus den Bereichen der +Kinetik, der Enzymkatalyse sowie der Spektroskopie voraus. + +Reaktionsgeschwindigkeit v + +Die Reaktionsgeschwindigkeit wird am anschaulichsten über eine Änderung +der Stoffmenge von Edukten und Produkten in einem Zeitablauf definiert, +also + +v= + +−dnA +dt + += + +dnB +dt + +. In diesem Fall ist A Edukt und B Produkt. + +Für einen allgemeineren Ansatz wird die Reaktionszahl ξ verwendet, die auch +stöchiometrische Koeffizienten brücksichtigt. Es gelten + +d= + +dni +vi + +und v= + +d +dt + += + +dni +vi∗dt + +. + +Wenn Reaktionen mit einem konstanten Volumen V ablaufen, kann eine +Reaktionsvariable x eingeführt werden, die eine Definition der +Reaktionsgeschwindigkeit über eine Stoffmengenkonzentrationsänderung + + +V + += + +dci +vi + +folgt + +erlaubt. Aus dx=d + +v= + +dx +dt + += + +dci +vi∗dt + +. + +Reaktionsgeschwindigkeitskonstante k + +Die Reaktionsgeschwindigkeitskonstante k stellt den Proportionalitätsfaktor +für die Beziehung zwischen Reaktionsgeschwindigkeit v und den +Konzentrationen ci der Edukte. Es gilt: + +v= + +dx +dt + +=k∗cA + +a∗cB + +b∗... + +. Die Exponenten a, b, ... dieser Gleichung geben + +neben der Reaktionsordnung der einzelnen Komponenten auch die Summe +der Exponenten bezogen auf die Gesamtreaktion an. + +- 1 - + + Christoph Schwörer Vorprotokoll zum 1.Versuchstag +Benedikt Zimmermann + +des PC-Praktikums + +6.Juli 2005 + +Temperaturabhängigkeit der Reaktionsgeschwindigkeit + +Die Arrhenius-Gleichung bringt die Reaktionstemperatur T, die +Aktivierungsenergie EA sowie k in Beziehung: + +v 0= + + v 0,max∗c s + K M cs + += + +v0, max +K M +cs + +1 + + + +k 0: reaktionsspezifisch ; R : allgemeine Gaskonstante ; E A : Aktivierungsenergie + +Die Reaktionsgeschwindigkeit nimmt also mit steigender +Reaktionstemperatur zu. + +Michaelis-Menten-Gleichung + +Die Michaelis-Menten-Gleichung + +v 0= + + v 0,max∗c s + K M cs + += + +v 0, max +K M +c s + +1 + + + +beschreibt das Verhältnis der Reaktionsgeschwindigkeit und der +Substratkonzentration zu der Michaelis-Konstante, die definiert ist als + +K M= + +k −1k 2 +k 1 + +. + +Um die Michaelis-Menten-Gleichung zu linearisieren, d.h. um die +reaktionsspezifischen Größen K M und v 0,max zu bestimmen, gibt es +verschiedene Ansätze. Einer davon ist die Methode nach Lineweaver-Burk. + +Hierbei wird nach Bildung des Kehrwerts + +mx + b geschrieben, wobei v0, max= + +1 +b + +für + +1 +v 0 + +1 +c s + +die Gleichung als Gerade y = + +=1 und K M= + +m +b + +. + +Spektroskopie + +Mit Hilfe der Spektroskopie ist es möglich, die Stoffkonzentration einer Probe +und deren Änderung während einer Reaktion anhand der gemessenen +Extinktion zu bestimmen. Dies geschieht über das Lambert-Beer'sche Gesetz, +nach dem die Extinktion einer Substanz stets E=,i∗ci∗d ist. Hierbei ist ε +der mediumspezifische Extinktionskoeffizient, c die Konzentration und d die +Schichtdicke der Probe. +Extinktionen verhalten sich beim Mischen von Substanzen additiv, d.h. das +Gesetz hat dann folgenden Form: +E=∑ i∗ci∗d + +- 2 - + + Christoph Schwörer Vorprotokoll zum 1.Versuchstag +Benedikt Zimmermann + +des PC-Praktikums + +6.Juli 2005 + +Vorfragen + +1. + +Ethanol- +Ethanol- +volumen +volumen +V[V[μμl]l] + +Stoffmenge +Stoffmenge +Ethanol +Ethanol +n[n[μμmol]mol] + +ges. Proben- +ges. Proben- +volumen +volumen +cs[mmol /l] +cs[mmol /l] + +Ethanol- +Ethanol- +konzentration +konzentration + +1/Ethanol- +1/Ethanol- +konzentration +konzentration + +1 + +2 + +5 + +10 + +20 + +50 + +17,1326 + +34,2652 + +85,6631 + +171,3262 + +342,6525 + +856,6312 + +100 + +1713,2624 + +3,001 + +3,002 + +3,005 + +3,010 + +3,020 + +3,050 + +3,100 + +5,708 + +11,42 + +28,51 + +56,91 + +113,5 + +280,9 + +552,6 + +0,1752 + +0,08756 + +0,03508 + +0,01757 + +0,008811 + +0,003560 + +00,1810 + +Ethanol=0,7893g/cm3 (bei 20°C) +MEthanol=2∗12,011g/mol6∗1,0079g/mol15,999g/mol=46,07g/mol + +n= + +m +M +m=∗V + +Mit obigen Werten ergibt sich beispielsweise für die Stoffmenge von 1μl +Ethanol n=0,7893g/cm3∗1 l/46,07g/mol=17,1326 mol . + +2. Einheiten für Gleichung 4: + +Die Änderung der Stoffmenge besitzt die Einheit [mol]. Die +Stöchiometriezahl hat keine Einheit. Mit der Zeiteinheit [s] hat die +Reaktionsgeschwindigkeit v somit die Einheit [mol/s]. + +Einheiten für Gleichung 6: +Die Änderung in der Konzentration hat die Einheit [mol/l]. Die +Stöchiometriezahl ist auch hier einheitenlos. Analog zu oben ergibt +sich mit der Zeiteinheit [s] die Reaktionsgeschwindigkeit v mit +[mol/l*s]. + +3. Die kinetische Kontrolle einer Reaktion kommt bei niedrigen + +Temperaturen zum Tragen. Hierbei wird das kinetisch bevorzugte +Produkt gebildet, das über den Reaktionsweg mit der geringeren +Aktivierungsenergie entsteht. +Bei thermodynamischer Kontrolle hingegen wird das stabilere Produkt +gebildet. Es handelt sich dabei um eine stärker exergonische Reaktion. + +- 3 - + + + + Christoph Schwörer Vorprotokoll zum 1.Versuchstag +Benedikt Zimmermann + +des PC-Praktikums + +6.Juli 2005 + +4. Bei einer Reaktion 1.Ordnung besitzt die Geschwindigkeitskonstante k + +die Dimension + +1 +s + +. Im Grenzfall der unendlich hohen Temperatur + +T∞K konvergiert k gegen k0 . Es gilt ferner + +limT 0 k=0 . + +5. Die Molekularität ist ein Maß für die an einer Elementarreaktion + +beteiligten Teilchen. Im Gegensatz hierzu versteht man unter der +Ordnung einer Reaktion die Summe der Exponenten der +Konzentrationen der an der Reaktion beteiligten Edukte. + +6. Die Konzentration des Eduktes C nimmt im Verlauf der Reaktion ab, + +während die Konzentrationen von A und B solange zunehmen, bis die +Substratsättigung erreicht wird. + +7. Für die Intensität eines Lichtstrahls bei Austritt aus einem durch die + +Konzentration c und Schichtdicke d bestimmten Medium, gilt mit der +Eintrittsintensität I0 und dem Proportionalitätsfaktor ε: + +Id=I0∗10−∗c∗d +Id +I0 + +=10−∗c∗d log + +I0 +Id +Id +I0 +Dies ist das Lambert-Beer'sche Gesetz. + +=−∗c∗d log + +=∗c∗d=E + +□ + +8. Voraussetzungen des Lambert-Beer'schen Gesetzes: + +- paralleler Einfall monochromatischen Lichts +- Vermeidung von Streuung und Reflexion +- benötigt verdünnte Lösungen + +Abweichungen des Lambert-Beer'schen Gesetzes: +– + +Fluoreszenz oder Phosphoreszenz in der Probe +Siebeffekt durch inhomogene Verteilung des absorbierenden +Stoffes + +– + +– zu niedrige Stoffkonzentration + +9. Gemeinsamkeiten: + +- Reduzierung der Aktivierungsenergie +- Katalysator befindet sich in der gleichen Phase wie die Reaktanten + +Unterschiede: +- Möglichkeit der Substratsättigung bei heterogener und +enzymatischer Katalyse +- Bei der heterogenen Katalyse erfolgt die Reaktion nur an der +Phasengrenze +- Ausbildung des Enzym-Substrat-Komplexes nur bei der +Enzymkatalyse + +- 4 - + + + + + + Christoph Schwörer Vorprotokoll zum 1.Versuchstag +Benedikt Zimmermann + +des PC-Praktikums + +6.Juli 2005 + +10. Die Michaelis-Konstante K M= + +k −1k 2 +k 1 + +hat die Dimension + +l +mol + +. + + 11. Die maximale Anfangsgeschwindigkeit ist abhängig von der + +Reaktionsgeschwindigkeitskonstanten k2 der Dissoziation (d.h. also +der Geschwindigkeitskonstante des Zerfalls) des Enzym-Substrat- +Komplexes und der Ausgangskonzentration des Enzyms. + +12. Gemäß dem Lambert-Beer'schen Gesetz gehen in die Extinktion einer + +Probe die Konzentration der einzelnen Komponten ci +Schichtdicke der Probe d und der mediumspezifische Koeffizient ε ein, +so dass sich insgesamt folgende Formel ergibt: + E=∑ i∗c i∗d + +, die + +- 5 - + + \ No newline at end of file diff --git a/Stilvorlage.md b/Stilvorlage.md new file mode 100644 index 0000000..30781fa --- /dev/null +++ b/Stilvorlage.md @@ -0,0 +1,184 @@ +# Stilvorlage + +Leitfaden, um den Schreibstil der in `StilVorlagen` vorhandenen Dokumente für KI-gestützte Generierung nachzuahmen. Die Regeln beruhen auf folgenden Quellen (vollständige Texte liegen als `.md` vor): + +- Ausarbeitung.md +- DIL_M4_Study Paper_Schwörer_Führung und Schlüsselqualifikation.md +- Diplomarbeit.md +- Protokoll des Versuchs Reaktionskinetik (eigenes)_korrigiert.md +- Protokoll Genetik Praktikum I.md +- Protokoll Versuch A - Nerv V2.md +- Protokoll_Psycho.md +- Seminar System Imunology - Ausarbeitung.md +- Splitstree.md +- Studienarbeit.md +- Vorprotokolll PC-Praktikum Versuchstag 1 - Kinetik2.md + +## 1. Gemeinsame Stilprinzipien + +1. **Sachlich und direkt:** Kurze bis mittlere Absätze, nüchterner Ton, Fokus auf Fakten und Beobachtungen. Emotionale Sprache vermeiden. +2. **Chronologische Struktur:** Beschreibe Vorgehen Schritt für Schritt (Vorbereitung → Durchführung → Auswertung). Bei theoretischen Arbeiten: Kontext → Problem → Methode → Ergebnis. +3. **Explizite Überschriften:** Jede Sektion erhält eine klare Überschrift (z.B. "Einleitung", "Vorbereitung", "Versuchsdurchführung", "Ergebnis"). +4. **Kompakte Sätze mit Fachterminologie:** Begriffe wie "Ligand", "Extinktion", "Kontextfenster" oder "Traceability" werden ohne weitere Popularisierung genutzt. +5. **Listen für Kernaussagen:** Risiken, Ziele, Materialien, Fragen etc. werden häufig als Bullet- oder Nummernlisten dargestellt. +6. **Zeitform und Perspektive:** Vergangene Versuche im Präteritum ("wir führten durch"), allgemeine Beschreibungen im Präsens. Häufig "wir" oder passive Konstruktionen. +7. **Keine Gender-Doppelpunkt-Formen:** Personengruppen werden ohne Doppelpunkte oder Binnen-I angesprochen (z.B. "Entwickler" statt "Entwickler:innen"), analog zu den Vorlagendokumenten. + +## 2. Strukturbausteine pro Dokumenttyp + +### 2.1 Wissenschaftliche Ausarbeitungen (Ausarbeitung, Seminararbeit, Studienarbeit, Diplomarbeit) + +- **Deckblatt-Informationen:** Institution, Lehrstuhl, Titel, Autor:in, Datum. +- **Einleitung:** Kontext, Relevanz, Zielsetzung in 1–3 Absätzen. +- **Theorie-/Methodenteil:** Beschreibt z.B. Autodock-Energiefunktionen, Kernel-Methoden oder High-Throughput-Techniken. +- **Abschnittstitel wie „Vorbereitung“, „Methodik“, „Ergebnisse“, „Diskussion“** mit kurzen Übergängen. +- **Aufzählungen** für Komponentenlisten (H-Brücken, vdW-Wechselwirkungen etc.). + +### 2.2 Protokolle und Praktikumsberichte (Genetik, Reaktionskinetik, Nerv, Psycho, Vorprotokoll) + +- **Meta-Block am Anfang:** Titel "Protokoll", Praktikum, Datum, Gruppe, beteiligte Personen. +- **Kurze Einführung** zum Zweck des Versuchs ("Die schnelle interne Informationsweiterleitung … beruht auf Nerven"). +- **Materialien/Methoden** als Fließtext oder nummerierte Unterabschnitte. +- **Durchführung in Vergangenheit**, oft mit konkreten Mengen- und Zeitangaben ("2500 µl Puffer … 240 s Extinktion"). +- **Kapitelstruktur:** Häufige Reihenfolge „Prolog → Versuchsteil I/II … → Einleitung → Methode → Ergebnisse/Auswertung“. Abschnittsüberschriften stehen meist allein in einer Zeile, manchmal mit Doppelpunkt („Versuchsteil I:“). +- **Auswertung/Ergebnis** folgt mit knapper Interpretation sowie Tabellen mit Spaltenüberschriften und Einheiten. + +### 2.3 Seminar- und Proseminarunterlagen (Splitstree, Seminar System Immunology) + +- **Doppelte Titelzeilen** („Proseminar: Grundlagen der Bioinformatik / Thema: …“). +- **Betreuerangabe** direkt nach dem Titel. +- **Inhaltsverzeichnis** mit nummerierten Kapiteln und Seiten. +- **Abschnittstitel mit Nummerierung** (1., 2., 2.1, …) in Tabellenform oder als Listen. + +### 2.4 Persönliche Reflexions-/Leadership-Notizen (DIL_M4_Study …) + +- **Kurzer Claim oder Frage** („Wer bin ich – und wenn ja, wie viele?“). +- **Selbstreflexive Passagen** in Ich-Form möglich, dennoch sachlich. + +## 3. Sprachliche Muster + +- **Einführungssätze:** "Unsere Aufgabe bestand darin …", "Die schnelle interne Informationsweiterleitung …", "Ziel ist es …" +- **Verbindungswörter:** "Zunächst", "Anschließend", "Darüber hinaus", "Hierzu", "In diesem Versuch". +- **Mess- und Mengenangaben:** Immer in SI-Einheiten mit Zahlenwert und Einheit (µl, s, °C). +- **Umlaute konsequent nutzen** (ä, ö, ü, ß); beim Kopieren auf Konsistenz achten. +- **Fachliche Präzision vor rhetorischer Ausschmückung.** + +### 3.1 Häufig verwendete Floskeln und Satzschablonen + +- **Kontextsetzung:** "Dieses Dokument beschreibt …", "Im Rahmen des Praktikums wurde … durchgeführt.", "Der vorliegende Abschnitt fasst … zusammen." +- **Aufgabeneinstieg:** "Unsere Aufgabe bestand darin …", "Ziel der Messreihe war …", "Der Versuch diente dazu …" +- **Vorbereitungsphase:** "Vor dem Versuch wurde … eingestellt.", "Zunächst wurden … pipettiert und äquilibriert." +- **Durchführung:** "Anschließend gaben wir … hinzu und starteten die Messung.", "Der Prozess wurde in n Schritten wiederholt." +- **Ergebnisformeln:** "Der beste Lauf erreichte …", "Die Messreihe zeigte …", "Die Abweichung lag unter …" +- **Interpretation/Fazit:** "Die Ergebnisse bestätigen …", "Die Limitation liegt in …", "Damit ist die Grundlage für … geschaffen." +- **Wissensüberleitung:** "Auf Basis dieser Beobachtungen …", "Im nächsten Abschnitt wird … beschrieben." +- **Stakeholder-/Rollenbezug:** "Betreuer: …", "Gruppe B2D", "Autor: Christoph Schwörer" – meist als separate Zeilen im Kopfbereich. + +### 3.2 Wortwahl und Satzstellung (Diplomarbeit, Splitstree, Studienarbeit) + +- **Deutschsprachige wissenschaftliche Wendungen:** + - Häufige Einleitungen sind „In den vergangenen Jahrzehnten ist man …“, „Mittlerweile gibt es …“, „Als Beispiel sei hier … genannt“ (Splitstree.md:3, Splitstree.md:17). + - Formulierungen wie „Hierbei wird … dargestellt“, „Hierzu kann … verwendet werden“, „Dies führt zu …“ strukturieren Argumentationsketten (Studienarbeit.md:48). + - Definitionen folgen dem Muster „Eine Support Vektor Machine (SVM) ist …“ oder „Der klassische Weg … ist …“, wobei erklärende Nebensätze das Verb ans Satzende stellen (Studienarbeit.md:58, Splitstree.md:33). + - Aussagen zu Ergebnissen nutzen „Die Ergebnisse zeigen, dass …“, „Damit eignet sich … als …“, „Somit lässt sich … beobachten“. +- **Angloamerikanische Passagen (Diplomarbeit.md):** + - Der Abstract verwendet selbstreferenzielle Sätze wie „In this work I tried to find …“, „The intent was to see if …“, „The results will show that …“ und kombiniert simple past mit future forms, um Ziel und Ausblick zu koppeln. + - Listen von Methoden werden mit „The first being …, the second …“ eingeleitet; Adverbien wie „concurrent“, „implicitly“ und „respectively“ dienen zur Präzisierung. + - Passive Formulierungen („was attained“, „is used“) dominieren Beschreibungen technischer Abläufe. +- **Wortstellungen und Übergänge:** + - Parataxen mit Doppelpunkt (z.B. „Beispielsweise …:“, „Hierzu kann …:“) leiten Aufzählungen oder Gleichungen ein. + - Einschübe in Klammern dienen der Quellenangabe („(Boser et al. 1992; Cortes and Vapnik 1995)“) oder definieren Symbole. + - Lange Fachsätze trennen Gedanken über Zeilenumbrüche, behalten jedoch das Verb am Satzende, wenn ein Nebensatz vorangestellt ist („Da …, muss … gelöst werden.“). +- **Lexikalische Besonderheiten:** + - Technische Begriffe (z.B. „Quantitative Structure-Activity Relationship“, „Split decomposition“, „feature map“) werden unverändert übernommen, teils mit deutscher Umgebung. + - Maße/Variablen werden konsequent benannt („k-mer“, „RMSD“, „µl“, „s“), häufig zusammen mit erklärenden Textfragmenten („Dies führt zu folgender feature map:“). + - Eigennamen und Rollen erscheinen als separate Zeilen (z.B. Betreuer:innen, Beginn-/Enddatum in Diplomarbeit.md:9). +- **Tonfall:** + - Neutral, teilweise beschreibend-narrativ („Ein Programm, das … ist SplitsTree …“), ohne rhetorische Fragen oder Umgangssprache. + - Selbstreferenzen werden sparsam genutzt („In dieser Arbeit …“, „Diese Studie untersucht …“), in englischen Abschnitten aber durchaus in Ich-Form („I tried to find …“). + +### 3.3 Beispielabschnitte zur Stilnachbildung + +> **Splitstree (Einleitung):** +> „In den vergangenen Jahrzehnten ist man, nach der Entdeckung der DNA, immer mehr dazu übergegangen Organismen nicht nur anhand ihrer phänotypischen Eigenschaften sondern auch anhand ihres Genotyps zu vergleichen. Mittlerweile gibt es einige gute Verfahren die die Ähnlichkeit und den Verwandtschaftsgrad zweier oder auch mehrerer Organismen bestimmen.“ + +Merkmale: zweigliedrige Einleitung (historischer Kontext → aktueller Stand), kaum Kommata zwischen Nebensätzen, direkte Überleitung auf Methode. + +> **Studienarbeit (Methodik):** +> „Eine Support Vektor Machine (SVM) ist ein Verfahren aus dem Bereich der Mustererkennung zur Klassifikation von Objekten. Diese Objekte werden hierbei durch ihre Eigenschaften … und ihre Klasse repräsentiert. Sind die Datenpunkte … linear separierbar … so ist das Problem trivial … Sind die Daten aber nicht linear separierbar … so muss folgendes Optimierungsproblem gelöst werden.“ + +Merkmale: Definition + Bedingungssätze, Kombination aus erklärenden Nebensätzen und kurzen Hauptsätzen, konsequente Verwendung mathematischer Verweise. + +> **Diplomarbeit (Zusammenfassung, ins Deutsche übertragen):** +> „Diese Arbeit untersucht, ob sich 3D-QSAR-Modelle verbessern lassen, wenn Konformationen mithilfe genetischer Algorithmen optimiert und verschiedene Kernelverfahren kombiniert werden. Der erste Ansatz nutzt vorab berechnete Konformationen, der zweite erzeugt sie implizit während der Optimierung. Die Ergebnisse zeigen, dass Modelle mit guter Generalisierung häufig nicht die aktive Konformation selbst, sondern Strukturen mit minimalem durchschnittlichem Abstand nutzen.“ + +Merkmale: Dreisatz aus Zielsetzung, Vorgehen, Ergebnis; knappe Verbphrasen („untersucht“, „nutzt“, „zeigen“); keine Ich-Form mehr, obwohl Original englisch war. + +> **Protokoll Psychophysik (Prolog + Versuchsteil):** +> „Die Psychophysik, auch subjektive Sinnesphysiologie genannt, unterscheidet sich zur objektiven Sinnesphysiologie darin, dass … Trotz der Subjektivität der Messungen existieren … allgemein gültige Gesetze. … Versuchsteil I: Bestimmung der absoluten Hörschwelle … Der minimale Schalldruckpegel ab dem eine bestimmte Frequenz hörbar ist wird Hörschwelle genannt.“ + +Merkmale: längere, kommagetrennte Sätze, Fachbegriffe sofort erklärt, Abschnittstitel mit Doppelpunkten, Wechsel zwischen Erläuterung und kurzen Definitionen („Der minimale … wird … genannt.“). + +### 3.4 Sprachführung für deutschsprachige Ergebnisse + +- Auch wenn Ausgangsdaten englische Passagen enthalten, sollen generierte Texte vollständig deutsch sein. Übernehme lediglich Strukturmerkmale (z.B. Abstract-Logik, Kapitelreihenfolge) und übersetze Fachtermini nur dann, wenn es etablierte deutsche Begriffe gibt; sonst bleiben englische Fachwörter stehen („Kernel“, „Support Vector Machine“). +- Englische Quellenangaben bleiben im Original (Autor:innen + Jahr), werden jedoch in deutsche Satzstruktur eingebettet („(Boser et al. 1992; Cortes und Vapnik 1995)“). +- Vermeide Ich-Form aus der Diplomarbeit, nutze stattdessen „diese Arbeit“ oder Passive. + +## 4. Formatierungsrichtlinien + +| Element | Vorgabe | +|---------------------------|-------------------------------------------------------------------------| +| Überschriften | Markdown `#`, `##`, ggf. `###`, analog zu Vorlagekapiteln | +| Absätze | Leerzeile zwischen Absätzen, keine eingerückten Zeilen | +| Listen | `-` oder `*` für Bullets, nummerierte Listen für Schritte oder Fragen | +| Tabellen | Nach Bedarf, insbesondere für Parameterübersichten | +| Hervorhebungen | Sparsam `**Fett**` zur Kennzeichnung wichtiger Begriffe | +| Meta-Daten | Block aus kurzen Zeilen (Titel, Datum, Autor, Gruppe) am Dokumentanfang | +- **Bullet-Stil:** In technischen Ausarbeitungen werden häufig Asterisk-Listen eingesetzt („* H-Brücken“). Bei nummerierten Datenreihen Tabellen nutzen, keine Mischformen. + +### 4.1 Layoutmuster und visuelle Elemente + +- **Inhaltsverzeichnisse:** Nummerierte Kapitel mit Punktketten und Seitenzahlen am rechten Rand (z.B. „1. Einleitung …… 3“). Zwischenüberschriften (2.1, 2.2 …) stehen unterhalb und übernehmen dieselbe Formatierung. +- **Seitenzählung:** In einigen Vorlagen stehen Seitenzahlen mittig oder als „- 3 -“ unterhalb eines Blocks. Bei Bedarf kann diese Darstellung übernommen werden, insbesondere bei Seminararbeiten. +- **Doppelte Titelzeilen:** Für Proseminare/Seminare: „Proseminar: … / Thema: …“ in zwei Zeilen, gefolgt von Autor:in und Betreuer:in. +- **Blockangaben:** Abschnitte wie „Betreuer:“, „Begonnen am:“, „Beendet am:“ oder „Durchgeführt am:“ werden als eigenständige Zeilen mit Doppelpunkt geführt, häufig mit Leerzeile dazwischen. +- **Tabellen- und Abbildungslisten:** Überschriften „List of Figures“/„List of Tables“ (können auf Deutsch als „Abbildungsverzeichnis“, „Tabellenverzeichnis“ umgesetzt werden) mit zweispaltiger Auflistung. +- **Mathematische Einbettungen:** Gleichungen oder Formeln werden nach einem Doppelpunkt eingeführt und ggf. nummeriert; erläuternde Sätze folgen unmittelbar darunter. + +## 5. Textbausteine pro Abschnitt + +- **Einleitung/Vorbereitung:** + - „Dieses Dokument beschreibt …“ + - „Im Rahmen des Praktikums wurde … durchgeführt.“ +- **Material/Methoden:** + - „Es wurden X µl Y-Lösung mit Z µl … gemischt.“ + - „Als Messgerät kam … zum Einsatz.“ +- **Ergebnisse/Auswertung:** + - „Die Messreihe zeigte …“ + - „Der beste Lauf erreichte einen RMSD von …“ +- **Diskussion/Fazit:** + - „Die Ergebnisse bestätigen …“ + - „Die Limitation liegt in …“ + +## 6. Prompt-Vorlage für KI-Systeme + +``` +Schreibe einen Abschnitt im Stil der HNU-Stilvorlagen. Beachte: +- Sachlicher, präziser Ton +- Klare Überschrift +- Kurzer Kontextabsatz, gefolgt von Aufzählung oder nummeriertem Ablauf +- Verwende Fachtermini und genaue Mengenangaben, falls relevant +- Schließe mit einem knappen Fazit oder Verweis auf den nächsten Schritt +``` + +## 7. Qualitätscheckliste + +- [ ] Enthält das Dokument eine Meta- oder Einleitungssektion mit Kontext? +- [ ] Sind alle Fachbegriffe korrekt und einheitlich geschrieben? +- [ ] Werden Prozesse chronologisch geschildert? +- [ ] Sind Messwerte und Einheiten vorhanden, wo nötig? +- [ ] Gibt es eine klare Trennung von Vorbereitung, Durchführung, Ergebnis? +- [ ] Wurden Listen eingesetzt, wenn mehrere Punkte genannt werden? + +Diese Stilvorlage dient als Referenzdatei für zukünftige KI-Prompts. Ergänzungen können direkt in `Stilvorlage.md` vorgenommen werden, sobald neue Textquellen ausgewertet wurden. diff --git a/claude_Inhalt.md b/claude_Inhalt.md new file mode 100644 index 0000000..b3ae196 --- /dev/null +++ b/claude_Inhalt.md @@ -0,0 +1,42 @@ +### 1. Einleitung (ca. 8 Seiten) +1.1 Ausgangssituation und Motivation +1.2 Problemstellung +1.3 Zielsetzung +1.4 Forschungsleitfragen +1.5 Aufbau der Arbeit + +### 2. Theoretische Grundlagen (ca. 12 Seiten) +2.1 Requirements Engineering und Reverse Requirements Engineering +2.2 Large Language Models im Software Engineering +2.3 Legacy-Modernisierung und Stand der Forschung + +### 3. Fallstudie c-entron GmbH (ca. 6 Seiten) +3.1 Unternehmenskontext und Legacy-Software +3.2 Migrationsstrategie und spezifische Herausforderungen + +### 4. Konzeption und methodisches Vorgehen (ca. 12 Seiten) +4.1 Forschungsdesign und Vorgehensmodell +4.2 Prozessmodell für KI-gestütztes Reverse Requirements Engineering +4.3 Technologieauswahl und LLM-Konfiguration +4.4 Stakeholder-Einbindung und Datengrundlage + +### 5. Prototypische Umsetzung (ca. 10 Seiten) +5.1 Architektur des LLM-Agenten +5.2 Toolchain-Integration +5.3 Governance, Datenschutz und IP + +### 6. Evaluation (ca. 12 Seiten) +6.1 Evaluationskriterien und Messgrößen +6.2 Durchführung und Ergebnisse +6.3 Qualitative Bewertung durch Experten + +### 7. Diskussion (ca. 8 Seiten) +7.1 Interpretation der Ergebnisse +7.2 Chancen und Grenzen des Ansatzes +7.3 Implikationen für Forschung und Praxis + +### 8. Fazit und Ausblick (ca. 4 Seiten) +8.1 Zusammenfassung und Beantwortung der Forschungsfragen +8.2 Handlungsempfehlungen für c-entron GmbH +8.3 Ausblick und zukünftige Forschung + diff --git a/kapitel_1_einleitung.md b/kapitel_1_einleitung.md new file mode 100644 index 0000000..b1de615 --- /dev/null +++ b/kapitel_1_einleitung.md @@ -0,0 +1,101 @@ +# 1. Einleitung + +## 1.1 Ausgangssituation und Motivation + +Die digitale Transformation stellt mittelständische Softwareunternehmen vor vielfältige Herausforderungen. Insbesondere gewachsene Legacy-Systeme, die über Jahre hinweg kontinuierlich erweitert wurden, erfordern zunehmend eine strategische Neuausrichtung. Diese Systeme bilden häufig das Rückgrat geschäftskritischer Prozesse, ihre technologische Basis entspricht jedoch nicht mehr den Anforderungen moderner Cloud- und Web-Architekturen. Die Migration solcher Systeme gestaltet sich komplex, da historisch gewachsene Funktionalitäten oft nicht vollständig dokumentiert sind und implizites Wissen bei einzelnen Entwickler:innen oder langjährigen Mitarbeiter:innen verankert ist. + +Die c-entron GmbH steht exemplarisch für diese Herausforderung. Das mittelständische Softwareunternehmen mit Sitz in Ulm entwickelt und vertreibt seit über zwei Jahrzehnten eine Windows-basierte ERP-Software, die speziell für IT-Systemhäuser konzipiert wurde. Die Software deckt ein breites Funktionsspektrum ab – von der Auftragsverwaltung über Lagerhaltung bis hin zur Fakturierung und Projektabrechnung. Über die Jahre ist eine umfangreiche, funktionsreiche Lösung entstanden, die bei der Zielgruppe etabliert ist und einen hohen Reifegrad aufweist. + +Mit einer expansiven Vertriebsstrategie und dem Ziel, neue Marktsegmente zu erschließen, steht die c-entron GmbH jedoch vor der Notwendigkeit, ihre Software-Architektur grundlegend zu modernisieren. Die native Windows-Anwendung stößt an Grenzen der Skalierbarkeit – sowohl in der Entwicklung als auch im Betrieb und Roll-out. Kunden erwarten zunehmend webbasierte, plattformunabhängige Lösungen mit modernen Benutzeroberflächen und flexiblen Deployment-Optionen. Eine Migration zu einer modernen, webbasierten Plattform ist daher unumgänglich geworden. + +Diese Modernisierung erfordert jedoch nicht lediglich eine technologische Neuentwicklung, sondern setzt eine umfassende Analyse der bestehenden Funktionalität voraus. Genau hier zeigt sich eine zentrale Herausforderung vieler Legacy-Systeme: Die funktionalen und nicht-funktionalen Anforderungen wurden über die Jahre nie systematisch dokumentiert. Was im Code implementiert ist, existiert oft nicht in strukturierter Form als Anforderungsspezifikation. Dies erschwert eine gezielte und vollständige Migration erheblich. + +Parallel zu dieser praktischen Herausforderung hat sich in den letzten Jahren ein neues technologisches Paradigma etabliert: Large Language Models (LLMs) wie GPT-4, Claude oder Code-Llama haben gezeigt, dass sie in der Lage sind, Code zu verstehen, zu analysieren und zu dokumentieren. Diese Modelle bieten potenziell neue Möglichkeiten, die Lücke zwischen implizitem Wissen in Codebasen und expliziter Anforderungsdokumentation zu schließen. Der Einsatz von LLMs für Reverse Requirements Engineering – also die nachträgliche Extraktion von Anforderungen aus bestehendem Code – ist jedoch noch wenig erforscht und in der Praxis kaum systematisch erprobt. + +Genau an dieser Schnittstelle zwischen praktischem Bedarf und technologischer Innovation setzt die vorliegende Arbeit an. Sie untersucht, wie KI-gestützte Verfahren eingesetzt werden können, um aus Legacy-Software strukturierte Requirements zu extrahieren und damit eine fundierte Basis für Migrationsprojekte zu schaffen. Die Arbeit adressiert damit sowohl eine wissenschaftliche Forschungslücke als auch einen konkreten Anwendungsfall mit hoher praktischer Relevanz für mittelständische Softwareunternehmen. + +## 1.2 Problemstellung + +Die zentrale Problemstellung dieser Arbeit ergibt sich aus der fehlenden Anforderungsdokumentation der bestehenden ERP-Software der c-entron GmbH. Diese Situation ist symptomatisch für viele über Jahre gewachsene Softwaresysteme: Während der kontinuierlichen Weiterentwicklung lag der Fokus auf der Implementierung neuer Features und der Behebung von Fehlern. Anforderungen wurden primär implizit durch Code-Commits, Ticket-Systeme und direktes Kundenfeedback kommuniziert, jedoch nicht systematisch in Form strukturierter Requirements erfasst. + +Die fehlende Dokumentation erschwert die gezielte Migration erheblich, da sowohl funktionale Redundanzen als auch implizit verankerte Prozesse nur durch aufwendige manuelle Analysen identifiziert werden können. Konkret führt dies zu folgenden Problemen: + +**Re-Implementationsfehler und unvollständige Migration:** Ohne vollständige Kenntnis aller implementierten Funktionen besteht das Risiko, dass bei der Neuentwicklung Features übersehen oder falsch interpretiert werden. Insbesondere Edge Cases, Sonderfälle und historisch gewachsene Workarounds sind häufig nur im Code ersichtlich und werden in manuellen Reviews leicht übersehen. Dies kann dazu führen, dass geschäftskritische Prozesse bei Kunden nach der Migration nicht mehr korrekt funktionieren. + +**Hohe technische Schuld und Ineffizienzen:** Die Analyse und das Verständnis der Legacy-Codebasis binden erhebliche Entwicklungsressourcen. Entwickler:innen müssen Code lesen, verstehen und dokumentieren – ein zeitintensiver Prozess, der vom eigentlichen Entwickeln der neuen Lösung ablenkt. Zudem besteht die Gefahr, dass veraltete oder redundante Funktionalitäten unreflektiert in die neue Architektur übernommen werden, anstatt sie kritisch zu hinterfragen und zu modernisieren. + +**Implizites Wissen und Wissenstransfer:** Ein erheblicher Teil des Domänenwissens ist bei einzelnen langjährigen Mitarbeiter:innen verankert, die die Entstehungsgeschichte bestimmter Features kennen. Dieses implizite Wissen ist schwer zu erfassen und zu formalisieren. Bei Personalwechseln oder in größeren Teams führt dies zu Wissenslücken und Abhängigkeiten von Einzelpersonen. + +**Komplexität gewachsener Codebasen:** Die über Jahre gewachsene Codebasis der c-entron GmbH weist typische Charakteristika von Legacy-Systemen auf: verschachtelte Abhängigkeiten, historisch bedingte Architekturentscheidungen, unterschiedliche Code-Stile verschiedener Entwicklungsphasen und eine enge Kopplung an spezifische Technologien. Diese Komplexität erschwert nicht nur das Verständnis, sondern auch die Extraktion klarer, modularer Anforderungen für die Neuimplementierung. + +**Fehlende Traceability:** Ohne strukturierte Requirements fehlt die Nachvollziehbarkeit, warum bestimmte Funktionen existieren, welche Geschäftsprozesse sie unterstützen und welche Stakeholder-Anforderungen sie erfüllen. Dies erschwert sowohl die Priorisierung im Migrationsprojekt als auch die spätere Wartung und Weiterentwicklung der neuen Software. + +Die manuelle Erhebung und Dokumentation aller Anforderungen wäre mit einem prohibitiv hohen Aufwand verbunden. Hier könnten KI-gestützte Verfahren, insbesondere Large Language Models mit ihren Code-Verständnis-Fähigkeiten, einen wesentlichen Beitrag leisten. Die zentrale Fragestellung ist daher, inwieweit LLMs in der Lage sind, aus bestehendem Quellcode systematisch und strukturiert Requirements zu extrahieren, die als Grundlage für eine Neuentwicklung dienen können. + +Diese Problemstellung ist nicht nur für die c-entron GmbH relevant, sondern betrifft eine Vielzahl mittelständischer Softwareunternehmen, die vor ähnlichen Modernisierungsherausforderungen stehen. Die Entwicklung eines systematischen, KI-gestützten Ansatzes für Reverse Requirements Engineering könnte daher einen signifikanten Beitrag zur Bewältigung dieser weit verbreiteten Herausforderung leisten. + +## 1.3 Zielsetzung + +Das übergeordnete Ziel dieser Masterarbeit ist die Entwicklung, Implementierung und Evaluation eines KI-gestützten Verfahrens für Reverse Requirements Engineering bei Legacy-Software. Konkret soll ein LLM-basierter Agent konzipiert und prototypisch umgesetzt werden, der in der Lage ist, aus der bestehenden Codebasis der c-entron GmbH strukturierte, vollständige und nachvollziehbare Requirements zu extrahieren. + +Die Arbeit verfolgt dabei mehrere spezifische Teilziele: + +**Konzeptionelle Entwicklung eines Prozessmodells:** Es soll ein theoretisch fundiertes und praktisch anwendbares Prozessmodell entwickelt werden, das beschreibt, wie Unternehmen systematisch den Übergang von Legacy-Software zu modernen Architekturen mithilfe von KI-gestützter Anforderungserhebung gestalten können. Dieses Prozessmodell soll die verschiedenen Phasen – von der Vorbereitung über die Analyse bis zur Validierung – strukturieren und Best Practices sowie kritische Erfolgsfaktoren identifizieren. + +**Technologische Evaluation und Auswahl:** Im Rahmen der Arbeit sollen aktuelle Large Language Models hinsichtlich ihrer Eignung für das Reverse Requirements Engineering evaluiert werden. Dabei sind Kriterien wie Code-Verständnis, Kontextfenster-Größe, Kontrollierbarkeit, Datenschutz-Compliance und Kosten zu berücksichtigen. Die Evaluation soll zu einer begründeten Auswahl eines Hauptmodells sowie gegebenenfalls ergänzender Modelle für spezifische Teilaufgaben führen. + +**Prototypische Implementierung eines LLM-Agenten:** Basierend auf der Konzeption soll ein funktionsfähiger Prototyp entwickelt werden, der die Codebasis der c-entron GmbH analysieren und daraus Requirements extrahieren kann. Der Agent soll dabei sowohl funktionale als auch nicht-funktionale Anforderungen identifizieren, diese strukturiert beschreiben und mit Traceability-Metadaten anreichern, die eine Nachvollziehbarkeit zur Codebasis ermöglichen. + +**Integration von Stakeholder-Wissen:** Da nicht alle Anforderungen – insbesondere nicht-funktionale Aspekte wie Performance-Erwartungen, Sicherheitsanforderungen oder Usability-Präferenzen – vollständig aus dem Code ableitbar sind, soll ein hybrider Ansatz verfolgt werden. Durch strukturierte Interviews mit relevanten Stakeholdern (Entwickler:innen, Product Owner, Kunden) sollen diese Aspekte erhoben und mit den KI-generierten Requirements abgeglichen und angereichert werden. + +**Systematische Evaluation:** Die Qualität der extrahierten Requirements soll anhand definierter Kriterien systematisch evaluiert werden. Dabei sollen sowohl quantitative Metriken (z.B. Vollständigkeit im Vergleich zu einem Referenzset, Anzahl identifizierter Requirements) als auch qualitative Bewertungen durch Expert:innen der c-entron GmbH einfließen. Zentrale Evaluationskriterien sind Vollständigkeit, Verständlichkeit, Redundanzfreiheit, Stakeholder-Alignment und Aufwandsreduktion im Vergleich zu rein manuellen Verfahren. + +**Governance und Compliance:** Da der Einsatz externer KI-Dienste mit sensiblen Codedaten verbunden ist, sollen auch Aspekte des Datenschutzes, des IP-Schutzes und der IT-Sicherheit adressiert werden. Die Arbeit soll Handlungsempfehlungen ableiten, wie Unternehmen KI-gestützte Analysen unter Einhaltung regulatorischer Anforderungen und Sicherheitsrichtlinien durchführen können. + +**Praxistransfer und Handlungsempfehlungen:** Die Erkenntnisse aus der prototypischen Umsetzung und Evaluation sollen in konkrete Handlungsempfehlungen für die c-entron GmbH überführt werden. Dabei geht es sowohl um die operative Nutzung des entwickelten Ansatzes im Migrationsprojekt als auch um die potenzielle Integration in bestehende Toolchains (z.B. Jira, Confluence). Zudem soll die Übertragbarkeit auf andere Kontexte und Unternehmensgrößen diskutiert werden. + +Zusammenfassend verfolgt die Arbeit das Ziel, einen wissenschaftlich fundierten und praktisch erprobten Beitrag zur Bewältigung einer zentralen Herausforderung bei der Modernisierung von Legacy-Software zu leisten: die systematische und effiziente Rekonstruktion von Anforderungen durch den Einsatz moderner KI-Technologien. + +## 1.4 Forschungsleitfragen + +Zur strukturierten Bearbeitung der Zielsetzung werden folgende Forschungsleitfragen formuliert, die sich an den zentralen Aspekten der Arbeit orientieren: + +**F1: Wie können Large Language Models systematisch für Reverse Requirements Engineering in Legacy-Software eingesetzt werden?** + +Diese Frage adressiert die grundlegende Konzeption des Ansatzes. Sie umfasst sowohl die technische Ebene (Wie müssen LLMs konfiguriert und gesteuert werden? Welche Prompt-Engineering-Strategien sind erfolgreich?) als auch die methodische Ebene (Welche Schritte sind notwendig? Wie wird der Prozess strukturiert? Welche Rolle spielen menschliche Expert:innen?). Die Beantwortung dieser Frage erfordert die Entwicklung eines Prozessmodells, das beschreibt, wie der KI-Einsatz in den Gesamtkontext der Anforderungserhebung eingebettet wird. + +**F2: Welche funktionalen und nicht-funktionalen Anforderungen lassen sich durch eine Kombination aus KI-gestützter Codeanalyse und Stakeholder-Interviews extrahieren?** + +Diese Frage fokussiert auf die inhaltliche Dimension der extrahierten Requirements. Sie untersucht, welche Arten von Anforderungen durch LLMs aus Code identifizierbar sind und wo die Grenzen der automatisierten Extraktion liegen. Insbesondere soll analysiert werden, wie funktionale Requirements (Was soll das System tun?) und nicht-funktionale Requirements (Wie soll das System beschaffen sein?) aus unterschiedlichen Quellen – Code, Dokumentation, Interviews – zusammengeführt werden können. Die hybride Vorgehensweise aus KI-Analyse und menschlichem Input steht hier im Fokus. + +**F3: Wie bewerten Fachexpert:innen die Qualität und Vollständigkeit der durch KI gewonnenen Requirements?** + +Diese Frage adressiert die Evaluation des entwickelten Ansatzes aus Sicht der praktischen Anwendbarkeit. Sie untersucht, inwieweit die extrahierten Requirements den Qualitätsansprüchen von Software-Entwickler:innen, Projektmanager:innen und anderen Stakeholdern genügen. Dabei sollen sowohl objektive Kriterien (z.B. Vollständigkeit im Vergleich zu einem Referenzset) als auch subjektive Einschätzungen (Verständlichkeit, Präzision, Nützlichkeit für die Weiterentwicklung) erfasst werden. Diese Frage ist zentral für die Beurteilung, ob der entwickelte Ansatz in der Praxis eingesetzt werden kann. + +**F4: Welche Chancen und Grenzen ergeben sich beim KI-gestützten Requirements Engineering in Legacy-Umgebungen?** + +Diese Frage nimmt eine kritisch-reflektierende Perspektive ein und untersucht sowohl die Potenziale als auch die Limitationen des Ansatzes. Chancen können sich etwa in der Effizienzsteigerung, der Systematisierung oder der Entdeckung bisher unbekannter Abhängigkeiten ergeben. Grenzen zeigen sich möglicherweise bei implizitem Wissen, das nicht im Code abgebildet ist, bei der Zuverlässigkeit von LLM-Ausgaben (Halluzinationen) oder bei spezifischen technischen Einschränkungen (Kontextfenster-Größe, Kosten). Die Beantwortung dieser Frage liefert wichtige Erkenntnisse für die Einordnung der Ergebnisse und die Ableitung von Handlungsempfehlungen. + +Diese vier Forschungsleitfragen strukturieren die Arbeit und leiten sowohl die theoretische Fundierung als auch die empirische Untersuchung. Ihre Beantwortung erfolgt durch die Kombination aus Literaturanalyse, technologischer Evaluation, prototypischer Implementierung und systematischer Validierung im Unternehmenskontext der c-entron GmbH. + +## 1.5 Aufbau der Arbeit + +Die vorliegende Arbeit ist in acht Kapitel gegliedert, die aufeinander aufbauen und einen systematischen Weg von der theoretischen Fundierung über die praktische Umsetzung bis zur kritischen Reflexion beschreiben. + +**Kapitel 1 – Einleitung** führt in die Thematik ein, beschreibt die Ausgangssituation der c-entron GmbH, formuliert die Problemstellung und leitet daraus die Zielsetzung sowie die Forschungsleitfragen ab. + +**Kapitel 2 – Theoretische Grundlagen** schafft das theoretische Fundament der Arbeit. Es werden zunächst die Konzepte des Requirements Engineering und des Reverse Requirements Engineering erläutert, wobei der Fokus auf Qualitätskriterien für Requirements und den besonderen Herausforderungen bei Legacy-Software liegt. Anschließend wird der Stand der Technik zu Large Language Models im Software Engineering aufgearbeitet. Dabei werden die Funktionsweise, Fähigkeiten und Grenzen aktueller Modelle (GPT-4o, Claude 3.5, Code-Llama) diskutiert. Das Kapitel schließt mit einer systematischen Analyse des Forschungsstands zu KI-gestütztem Requirements Engineering und Legacy-Modernisierung ab und identifiziert die Forschungslücke, die diese Arbeit adressiert. + +**Kapitel 3 – Fallstudie c-entron GmbH** stellt den Unternehmenskontext detailliert vor. Es beschreibt das Geschäftsmodell, die Zielgruppe und die technologischen Charakteristika der bestehenden ERP-Software. Die geplante Migrationsstrategie wird ebenso erläutert wie die spezifischen Herausforderungen, die sich aus der gewachsenen Codebasis ergeben. Dieses Kapitel schafft das Verständnis für den konkreten Anwendungsfall und die praktischen Rahmenbedingungen der Arbeit. + +**Kapitel 4 – Konzeption und methodisches Vorgehen** entwickelt das zentrale Prozessmodell für KI-gestütztes Reverse Requirements Engineering. Zunächst werden die Anforderungen an das Verfahren definiert – sowohl funktional als auch nicht-funktional. Anschließend wird das Prozessmodell mit seinen verschiedenen Phasen, Aktivitäten und Rollen beschrieben. Die Technologieauswahl und -evaluation wird dokumentiert, wobei die Entscheidung für spezifische LLMs begründet wird. Das Kapitel beschreibt zudem die methodische Einbindung von Stakeholdern durch Interviews und die Integration der Datengrundlagen (Code-Repositories, Dokumentation, Ticket-Systeme). + +**Kapitel 5 – Prototypische Umsetzung** dokumentiert die technische Implementierung des LLM-Agenten. Es wird die Architektur des Systems beschrieben, einschließlich der einzelnen Komponenten für Code-Analyse, Requirements-Extraktion und Traceability. Die Integration in bestehende Toolchains (Jira, Confluence) wird konzeptionell skizziert. Zudem werden die getroffenen Maßnahmen zu Governance, Datenschutz und IP-Schutz dargelegt, um den Einsatz im Unternehmenskontext rechtskonform zu gestalten. + +**Kapitel 6 – Evaluation** präsentiert die systematische Bewertung des entwickelten Ansatzes. Nach Darstellung des Evaluationsdesigns und der definierten Qualitätskriterien (Vollständigkeit, Verständlichkeit, Redundanzfreiheit, Stakeholder-Alignment, Aufwandsreduktion) werden die Durchführung und die Ergebnisse der Evaluation detailliert beschrieben. Dies umfasst sowohl quantitative Messungen als auch qualitative Expertenreviews. Die Ergebnisse werden strukturiert aufbereitet und bilden die empirische Basis für die nachfolgende Diskussion. + +**Kapitel 7 – Diskussion** interpretiert die Evaluationsergebnisse vor dem Hintergrund der Forschungsleitfragen. Es werden die Potenziale des KI-gestützten Ansatzes erörtert – etwa in Bezug auf Effizienzgewinne, Systematisierung und Vollständigkeit. Gleichzeitig werden Limitationen kritisch reflektiert, darunter technische Einschränkungen, Zuverlässigkeitsfragen und organisatorische Voraussetzungen. Das Kapitel leitet aus den Erkenntnissen Implikationen sowohl für die wissenschaftliche Forschung als auch für die praktische Anwendung in Unternehmen ab. + +**Kapitel 8 – Fazit und Ausblick** fasst die zentralen Erkenntnisse der Arbeit zusammen und beantwortet die eingangs formulierten Forschungsleitfragen. Es werden konkrete Handlungsempfehlungen für die c-entron GmbH formuliert, die sowohl den operativen Einsatz des Prototyps als auch die Weiterentwicklung des Ansatzes betreffen. Das Kapitel schließt mit einem Ausblick auf zukünftige Forschungsfelder und Entwicklungsperspektiven im Bereich KI-gestütztes Requirements Engineering. + +Diese Gliederung gewährleistet eine systematische Bearbeitung der Forschungsfragen und verbindet theoretische Fundierung mit praktischer Anwendung. Die Fallstudie bei der c-entron GmbH dient dabei als roter Faden, der alle Kapitel miteinander verknüpft und die wissenschaftlichen Erkenntnisse in einen konkreten Praxiskontext einbettet. \ No newline at end of file diff --git a/kapitel_1_einleitung_adapted.md b/kapitel_1_einleitung_adapted.md new file mode 100644 index 0000000..6e6b809 --- /dev/null +++ b/kapitel_1_einleitung_adapted.md @@ -0,0 +1,57 @@ +# 1. Einleitung + +## 1.1 Ausgangssituation und Motivation + +In den vergangenen Jahren hat die digitale Transformation mittelständische Softwareanbieter gezwungen, ihre gewachsenen Systeme neu zu bewerten. Besonders ERP-Lösungen, die über Jahrzehnte in Windows-Umgebungen gepflegt wurden, stoßen bei Cloud-, Web- und Mobile-Szenarien an technische sowie organisatorische Grenzen. Dokumentierte Architekturentscheidungen sind selten, implizites Wissen steckt in Source-Control-Systemen oder bei einzelnen Entwickler:innen. + +Die c-entron GmbH in Ulm repräsentiert diesen Kontext. Das Unternehmen betreibt seit über zwanzig Jahren eine Windows-basierte ERP-Suite für IT-Systemhäuser. Die Lösung deckt Auftragsabwicklung, Lager, Fakturierung und Projektabrechnung ab, ist aber eng mit der bisherigen Client/Server-Architektur gekoppelt. Kunden fordern inzwischen plattformunabhängige Oberflächen, Self-Service-Funktionen und flexible Betriebsmodelle. Die bestehende Anwendung limitiert Skalierung, Deployment und Benutzerführung, wodurch eine Migration auf eine webbasierte Plattform zwingend erforderlich wird. + +Parallel dazu hat sich ein neues Instrumentarium etabliert. Large Language Models wie GPT-4, Claude oder Code Llama können Quellcode analysieren, Muster erkennen und textuell beschreiben. Damit entsteht die Chance, fehlende Anforderungsdokumentationen zumindest teilweise aus dem Code heraus zu rekonstruieren. Die praktische Nutzung dieses Potenzials ist bislang kaum erforscht – insbesondere nicht in mittelständischen Legacy-Projekten. Diese Arbeit adressiert genau diese Lücke und untersucht, wie KI-gestützte Verfahren für eine systematische Anforderungsextraktion eingesetzt werden können. + +## 1.2 Problemstellung + +Im Projektumfeld der c-entron GmbH fehlen strukturierte Requirements für die bestehende ERP-Lösung. Die Analyse der Legacy-Codebasis ist zeitintensiv, personengebunden und anfällig für Auslassungen. Daraus ergeben sich mehrere Risiken: + +- **Re-Implementationsfehler:** Edge Cases, Workarounds und kundenindividuelle Anpassungen sind nur im Code sichtbar. Ohne vollständige Erfassung drohen Funktionsverluste nach der Migration. +- **Technische Schuld:** Entwickler:innen investieren viel Zeit in das Verständnis historischer Strukturen, statt aktiv an der neuen Plattform zu arbeiten. Veraltete Muster werden unreflektiert übernommen. +- **Implizites Wissen:** Domänenwissen liegt bei wenigen langjährigen Mitarbeitenden. Personalwechsel führen zu Wissensverlust und Verzögerungen. +- **Komplexität der Codebasis:** Verschachtelte Abhängigkeiten, unterschiedliche Stile und technologiebedingte Zwänge erschweren eine modulare Anforderungsableitung. +- **Fehlende Traceability:** Ohne Zuordnung zwischen Code und Geschäftsprozess fehlt die Grundlage für Priorisierung, Testkonzeption und spätere Wartung. + +Eine rein manuelle Rekonstruktion aller Anforderungen wäre wirtschaftlich kaum tragbar. Deshalb soll geprüft werden, ob KI-gestützte Verfahren Requirements so extrahieren können, dass sie als belastbare Basis für die Modernisierung dienen. + +## 1.3 Zielsetzung + +Diese Arbeit verfolgt das Ziel, ein vollständiges Vorgehen für KI-gestütztes Reverse Requirements Engineering im Umfeld eines mittelständischen ERP-Herstellers zu entwickeln und zu bewerten. Die Teilziele lauten: + +- Entwicklung eines Prozessmodells, das Vorbereitung, Analyse, Validierung und Übergabe strukturiert. +- Evaluation aktueller LLMs hinsichtlich Kontextfenster, Codeverständnis, Steuerbarkeit, Kosten und Datenschutz. +- Prototypische Umsetzung eines Agenten, der Quellcode verarbeitet, Requirements formuliert und Traceability-Informationen hinterlegt. +- Integration von Stakeholder-Wissen durch Interviews, um nicht direkt aus dem Code ableitbare Anforderungen zu ergänzen. +- Definition eines Evaluationsrahmens mit quantitativen und qualitativen Kriterien (Vollständigkeit, Verständlichkeit, Redundanzfreiheit, Aufwandseinsparung). +- Ableitung von Governance- und Compliance-Leitlinien für den sicheren Umgang mit sensiblen Kundendaten. +- Formulierung konkreter Handlungsempfehlungen für die c-entron GmbH sowie Übertragbarkeit auf ähnliche Unternehmen. + +## 1.4 Forschungsleitfragen + +Die Zielsetzung wird über vier Forschungsleitfragen strukturiert: + +- **F1 – Einsatz von LLMs im Reverse Requirements Engineering:** Welche Prozessschritte, Steuerungsmechanismen und Kontrollpunkte sind notwendig, um LLMs reproduzierbar einzusetzen? +- **F2 – Kombination von KI-Analyse und Stakeholder-Input:** Welche funktionalen und nicht-funktionalen Anforderungen lassen sich aus Code extrahieren, und welche Informationen müssen über Interviews ergänzt werden? +- **F3 – Qualitätsbewertung der generierten Requirements:** Wie beurteilen Fachexpert:innen Vollständigkeit, Verständlichkeit, Nützlichkeit und Aufwandseinsparung der KI-Ergebnisse? +- **F4 – Chancen und Grenzen des Ansatzes:** Welche Effizienzgewinne sind realistisch, wo liegen technische oder organisatorische Limitierungen, und welche Risiken (z.B. Halluzinationen, Datenschutz) müssen adressiert werden? + +## 1.5 Aufbau der Arbeit + +Die Arbeit ist in acht Kapitel gegliedert und folgt dem in den Vorlagen üblichen Aufbau: + +1. **Einleitung:** Kontext, Problemstellung, Ziele und Forschungsfragen. +2. **Theoretische Grundlagen:** Requirements Engineering, Reverse Engineering, Large Language Models sowie Qualitätssicherungskriterien. +3. **Fallstudie c-entron GmbH:** Unternehmensprofil, Produktarchitektur, Migrationsdruck und Rahmenbedingungen. +4. **Konzeption und methodisches Vorgehen:** Prozessmodell, Technologieauswahl, Stakeholder-Einbindung und Datenbasis. +5. **Prototypische Umsetzung:** Architektur und Funktionsweise des LLM-Agenten sowie Integration in bestehende Toolchains. +6. **Evaluation:** Vorgehen, Metriken, Ergebnisse und Expertenfeedback. +7. **Diskussion:** Interpretation der Resultate, Limitationen und Implikationen für Forschung und Praxis. +8. **Fazit und Ausblick:** Zusammenfassung, Beantwortung der Forschungsfragen und Perspektiven für weitere Arbeiten. + +Damit entsteht eine nachvollziehbare Linie von der Ausgangssituation über das Konzept bis zur Validierung. diff --git a/masterarbeit_style.typ b/masterarbeit_style.typ index 4d5c17e..90d655e 100644 --- a/masterarbeit_style.typ +++ b/masterarbeit_style.typ @@ -1,4 +1,4 @@ -#let thesis_meta(title, subtitle: none, author, degree, supervisor, submission_date) = ( +#let thesis_meta(title, subtitle, author, degree, supervisor, submission_date) = ( title: title, subtitle: subtitle, author: author, @@ -27,12 +27,12 @@ #v(3cm) #text(size: 12pt)[Autor: #meta.author] #v(2mm) - #text(size: 12pt)[Betreuung: #meta.supervisor] + #text(size: 12pt)[Betreuer: #meta.supervisor] #v(2mm) #text(size: 12pt)[Abgabedatum: #meta.submission_date] #v(2cm) - #text(size: 10pt)[Hochschule Neu-Ulm - Fakultaet fuer Wirtschaftswissenschaften] + #text(size: 10pt)[University of Applied Sciences Neu-Ulm] ] ] @@ -40,9 +40,9 @@ #set page(numbering: none) #set text(font: "Times New Roman", size: 11pt) #set par(leading: 14pt) - #heading(level: 1)[Eigenstaendigkeitserklaerung] + #heading(level: 1)[Eigenständigkeitserklärung] - Hiermit versichere ich, die vorliegende Masterarbeit selbstaendig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel verwendet zu haben. Alle woertlich oder sinngemaess uebernommenen Textstellen sind als solche gekennzeichnet. + Hiermit versichere ich, die vorliegende Masterarbeit selbstständig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel verwendet zu haben. Alle wörtlich oder sinngemäß übernommenen Textstellen sind als solche gekennzeichnet. #v(2cm) #align(left)[ @@ -53,7 +53,7 @@ ] #let abstract(content) = [ - #set page(numbering: "arabic") + #set page(numbering: "1") #set text(font: "Times New Roman", size: 11pt) #set par(justify: true, leading: 14pt) #content @@ -63,23 +63,24 @@ #set page( paper: "a4", margin: (top: 25mm, bottom: 25mm, inside: 30mm, outside: 20mm), - numbering: "arabic" + numbering: "1" ) #set text(font: "Times New Roman", size: 11pt) #set par(justify: true, leading: 14pt, first-line-indent: 5mm) #set list(indent: 6mm, spacing: 2mm) - #set heading(numbering: "1.", depth: 3) + #set enum(numbering: "a)") + #set heading(numbering: "1.1.1", depth: 3) #show heading.where(level: 1): it => [ #set text(size: 16pt, weight: "bold") - #it.body + #it ] #show heading.where(level: 2): it => [ #set text(size: 13pt, weight: "semibold") - #it.body + #it ] #show heading.where(level: 3): it => [ #set text(size: 12pt, weight: "semibold") - #it.body + #it ] ] diff --git a/simple_style.typ b/simple_style.typ new file mode 100644 index 0000000..6f79f85 --- /dev/null +++ b/simple_style.typ @@ -0,0 +1,44 @@ +#let set_simple_layout(doc) = { + set page( + paper: "a4", + margin: (top: 25mm, bottom: 25mm, inside: 25mm, outside: 20mm), + numbering: "1" + ) + set text(font: "Helvetica", size: 11pt) + set par(justify: true, leading: 14pt, first-line-indent: 4mm) + set list(indent: 5mm, spacing: 1.5mm) + set heading(numbering: "1.1.1", depth: 3) + + // Make headings visually distinct without extra boilerplate. + show heading.where(level: 1): it => [ + #set text(size: 18pt, weight: "bold") + + ] + show heading.where(level: 2): it => [ + #set text(size: 14pt, weight: "semibold") + + ] + show heading.where(level: 3): it => [ + #set text(size: 12pt, weight: "bold") + ] + doc +} + +#let simple_title_page(title, author, date: none) = [ + #set page(numbering: none) + #align(center)[ + #v(6cm) + #text(size: 26pt, weight: "bold")[#title] + #v(6mm) + #text(size: 14pt, weight: "medium")[Autor: #author] + #if date != none [ + #v(3mm) + #text(size: 12pt)[Datum: #date] + ] + ] +] + +#let simple_style = ( + layout: set_simple_layout, + title_page: simple_title_page, +) diff --git a/simple_style_demo.typ b/simple_style_demo.typ new file mode 100644 index 0000000..cf83778 --- /dev/null +++ b/simple_style_demo.typ @@ -0,0 +1,29 @@ +#import "simple_style.typ": set_simple_layout, simple_style + +#let author = "Max Mustermann" + +#(simple_style.title_page)( + "Einfaches Typst-Beispiel", + author, + date: datetime.today().display() +) + +#pagebreak() + +#show: set_simple_layout + +#set text(font: "Helvetica") + +#heading(level: 1)[Einleitung] +Dies ist ein kompaktes Beispiel für einen eigenen Typst-Stil. Die Layout-Einstellungen werden in *simple_style.typ* gebündelt, und der Autor #author wird automatisch eingefügt. + +#heading(level: 2)[Motivation] +Eigene Styles helfen dabei, mehrere Dokumente einheitlich zu formatieren, ohne jedes Mal alle Einstellungen wiederholen zu müssen. + +#heading(level: 3)[Listen] +- Einheitliche Schrift +- Konsistente Abstände +- Automatische Nummerierung + +#heading(level: 1)[Weitere Inhalte] +Nutze dieselben Funktionen für Kapitel wie für normale Texte. Die Nummerierung passt sich automatisch an, sobald mehr Abschnitte hinzukommen.