Files
Masterarbeit/StilVorlagen/Studienarbeit.md
2025-11-08 20:36:02 +01:00

900 lines
23 KiB
Markdown
Raw Permalink Blame History

This file contains invisible Unicode characters
This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
Protein Similarity Measures as Kernels for
Proteochemometrics
Christoph Schw¨orer
1. November 2009
2
2
3
3
4
4
5
5
6
7
7
7
8
9
10
11
12
13
14
22
Inhaltsverzeichnis
1 Einleitung
1.1 Versuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Methodik
Substitution Kernel
2.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Verwendete Kernel
. . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Tanimoto Kernel
2.2.2 Missmatch Kernel
. . . . . . . . . . . . . . . . . . . . . .
2.2.3 Gappy Kernel . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
2.2.4
2.2.5 Alignment Kernel
. . . . . . . . . . . . . . . . . . . . . .
Implementierung der Kernel . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Tanimoto Kernel
. . . . . . . . . . . . . . . . . . . . . .
2.3.2 Missmatch Kernel
2.3.3 Gappy Kernel . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
2.3.4
. . . . . . . . . . . . . . . . . . . . . .
2.3.5 Alignment Kernel
2.4 Die Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
2.5 verwendete Programme
Substitution Kernel
2.3
3 Ergebnisse
4 Diskussion
1
Kapitel 1
Einleitung
1.1 Versuche
2
Kapitel 2
Methodik
2.1 SVM
Eine Support Vektor Machine (SVM) ist ein Verfahren aus dem Bereich der
Mustererkennung zur Klassifikation von Objekten. Diese Objekte werden hier-
bei durch ihre Eigenschaften (features) (zB. L¨ange, Gewicht oder Sequenzfolge)
und ihre Klasse repr¨asentiert. Bei einer Gegebenen Anzahl d an Eigenschaften
k¨onnen diese als d-dimensionaler Vektor dargestellt werden. Der d-dimensionale
Raum der Eigenschaftsvektoren wird Eigenschaftsraum (feature space) χ ge-
nannt.
Das Ziel einer SVM ist es nun anhand gegebener Trainingsvektoren deren Klas-
se bereits bekannt ist unbekannte Objekte korrekt zu klassifizieren. Man hat
Beispielsweise 2 Klassen von l Objekten mit einer Anzahl d an Eigenschaften x
die als Paare (xi, yi), i = 1, . . . , n mit (cid:126)xl ∈ Rdund yi ∈ {1, 1}n gegeben sind.
Sind die Datenpunkte im Eigenschaftsraum χ linear separierbar durch eine Hy-
perebene so ist das Problem trivial (Siehe Abb 2.1A). Sind die Daten aber nicht
linear separierbar (Siehe Abb 2.1B) so muss folgendes Optimierungsproblem
Abbildung 2.1: Beispiel f¨ur linear separierbare Daten (A) und nicht linear sepa-
rierbare Daten (B)
3
gel¨ost werden (Boser et al. 1992; Cortes, C. and Vapnik, V., 1995):
minw,b,ξ
1
2 wT w + C (cid:80)l
i=1 ξi
mit der Bedingung yi(wT φ(xi) + b1 ξi,
ξi0.
(2.1)
C > 0 ist eine positive Konstante die als Strafparameter dient. Die Trainings-
vektoren wi werden zudem auf einen h¨oher dimensionalen Vektorraum durch die
Funktion φ : Rd1 → Rd2 , w → φ(w); d2 > d1 abgebildet um in diesem h¨oher
dimensionalen Raum eine Hyperebene zu finden die ihn linear separiert. Da die
Daten xi im Algorithmus zur L¨osung des oben genannten Problems nur in der
Form eines Skalarproduktes (cid:104)xi, xj(cid:105) im Raum Rd1 eingehen ist es m¨oglich diese
durch ein Skalarprodukt (cid:104)φ(xi), φ(xj)(cid:105) im Raum Rd2 zu berechnen. Hierzu kann
nun eine positiv-semidefinite Kernelfunktion verwendet werden mit:
k(xi, xj) = (cid:104)φ(xi), φ(xj)(cid:105)
(2.2)
Die in dieser Arbeit verwendeten Kernelfunktionen werden im folgenden Ab-
schnitt erl¨autert.
2.2 Verwendete Kernel
2.2.1 Tanimoto Kernel
Der einfachste implementierte Kernel ist der Tanimoto Kernel. Hierbei wird ein
|Σ|k-dimensionaler Vektorraum ¨uber {0,1} verwendet. Jede Koordinate wird
durch ein m¨ogliches k-mer α indexiert. Tritt das k-mer α auf, so wird der Wert
der Koordiante 1 ansonsten bleibt sie 0. Dies f¨uhrt zu folgender feature map:
wobei
ΦT animoto
k
(x) = (φα(x))α∈Σl
φα(x) =
(cid:26) 1,
0,
falls α in x vorkommt
sonst
(2.3)
(2.4)
F¨ur eine Sequenz x beliebiger L¨ange wird diese feature map nun ¨uber die Sum-
mation der einzelnen Vektoren f¨ur alle k-mere in x gebildet:
ΦT animoto
k
(x) =
(cid:88)
ΦT animoto
k
(α) = X
(2.5)
kmere α in x
Der Tanimoto Koeffizienl T (X, Y ) f¨ur zwei Sequenzen x und y wird nun errech-
net durch den Tanimotokoeffizienten von X und Y
T (X, Y ) =
X · Y
||X||2 + ||Y ||2 X · Y
(2.6)
Damit ergibt sich abschließend der Tanimoto Kernel
kT animoto
k
(x, y) = T (X, Y ) = T (ΦT animoto
k
(x), ΦT animoto
k
(y))
(2.7)
4
2.2.2 Missmatch Kernel
Zur Erh¨ohung des Realit¨atsgrads und der Ann¨aherung an die nat¨urlichen Gege-
benheiten muss es jedoch m¨oglich sein einen gewissen Grad von Ungenauigkeit
zu erm¨oglichen. Ein Kernel der dies erreicht darf also nicht nur abh¨angig von
genauen Vergleichen sein sondern muss ein Maß an ¨Ahnlichkeit implementie-
ren. Eine einfache M¨oglichkeit dieser Implementation ist es missmatches beim
Vergleich von k-meren zu erlauben. In Leslie et al. (2003b) wird hierzu ein
(k.m)-missmatch Kernel ¨uber eine feature map ΦM issmatch
realisiert. F¨ur ein
missmatch neigh-
gegebenes k-mer α = α1α2α3...αk, αi ∈ Σ wird hierzu ein
borhood“Nk,m(α) definiert. Dies ist die Menge aller k-mere die sich an maximal
m Stellen vom k-mer α unterscheiden. Die featur map f¨ur α ist demnach definiert
als:
(l,m)
wobei
ΦM issmatch
(k,m)
(α) = (φβ(alpha))β∈Σk
φβ(x) =
(cid:26) 1,
0,
falls β ∈ N(k,m)(α)
sonst
(2.8)
(2.9)
Wie schon beim Tanimoto Kernel wird auch hier wieder f¨ur eine Sequenz x be-
liebiger L¨ange die map durch Addition der einzelnen feature Vektoren gebildet:
ΦM issmatch
(k,m)
(x) =
(cid:88)
ΦM issmatch
(k,m)
(α)
(2.10)
kmere α∈x
Im Gegensatz zum Tanimoto Kernel werden aber mehrfach vorkommende k-
mere auch mehrfach gewertet. Jedes k-mer tr¨agt somit zu allen Werten sei-
missmatch neighborhood“ bei. In diesem Fall Stellt die β Koordinate von
nes
ΦM issmatch
(x) also die Anzahl derjenigen k-mere in x dar, die maximal an m
(k,m)
Stellen abweichen. Der (k, m)-missmatch Kernel kM issmatch
(x, y) kann also dar-
gestellt werden als das Skalarprodukt der feature Vektoren von x und y:
(k,m)
kM issmatch
(k,m)
(x, y) = (cid:104)ΦM issmatch
(k,m)
(x), ΦM issmatch
(k,m)
(y)(cid:105)
(2.11)
2.2.3 Gappy Kernel
Alternativ zu missmatches m¨ussen in einem biologisch motivierten Kernel auch
L¨ucken erlaubt werden. Diese M¨oglichkeit ist mit dem Gappy Kernel gegeben.
Wie auch die beiden vorhergehenden Kernel wird f¨ur den (g, l)-gappy string
kernel (Leslie and Kuang, 2003) der gleiche |Σ|l-dimensionale Merkmalsraum
gappy“ matches
verwendet. In diesem Fall aber basiert die feature map auf
von g-meren zu l-meren (wobei g > l). Hierbei ist G(g,l)(α) die Menge aller
l-mere die als Teilfolgen der L¨ange l (mit g l L¨ucken) aus einem gegeben g-
mer α = α1α2 . . . αg, αi ∈ Σ durch Konkatenation von Zeichen aus g gewonnen
werden k¨onnen. Wobei f¨ur alle Stringpositionen αi, αj gelten muß: i < j falls
i < j in g. Somit ergibt sich die feature map:
wobei
ΦGappy
(g,l)
(α) = (φβ(α))β∈Σl
φβ(α) =
(cid:26) 1,
0,
falls β ∈ G(g,l)(α)
sonst
(2.12)
(2.13)
5
Hierbei tr¨agt wieder jede Teilfolge zum Wert aller feature Vektoren bei in denen
sie vorkommt. Die feature map wird dann wieder erweitert auf eine beliebig
lange Sequenz x indem ¨uber alle feature Vektoren aller g-mere in x summiert
wird:
ΦGappy
(g,l)
(x) =
(cid:88)
φGappy
(g,l)
(α)
(2.14)
Der (g, l)-gappy kernel kGappy
(g,l)
dukt der feature Vektoren zweier Sequenzen x und y:
(x) wird wiederum erneut definiert als Skalarpro-
gmere α∈x
kGappy
(g,l)
(x, y) = (cid:104)ΦGappy
(g,l)
(x), ΦGappy
(g,l)
(y)(cid:105)
(2.15)
2.2.4 Substitution Kernel
Eine erweiterte Variante des mismatch Kernels ist der substitution kernel (Les-
lie and Kuang, 2003). Anstelle des mismatch neighborhood wird hier jedoch ein
similarity neighborhood verwendet. Dieses basiert auf einem probabilistischen
Model zum Austausch von Zeichen in den betrachteten Sequenzen. Hierzu wer-
den paarweise Werte S(a, b) verwendet die sich aus gesch¨atzten evolution¨aren
Austauschwahrscheinlichkeiten ableiten (Henikoff and Hennikoff, 1992; Schwartz
and Dayhoff, 1978; Altschul et al., 1990). Um solch eine Matrix S zu generieren
werden einzelne Bl¨ocke von von Sequenzen homologer Proteine verglichen und
ein log odds-Ratio errechnet:
S(i, j) =
(cid:19)
(cid:18) 1
λ
log
(cid:19)
(cid:18) pij
qi qj
(2.16)
wobei pij die Wahrscheinlichkeit darstellt die Aminos¨auren i und j in einem
Alignment zu finden. qi und qj hingegen bezeichnen die H¨aufigkeiten der Ami-
nos¨auren. λ ist der Normalisierungsfaktor. Man definiert nun also den mutation
neighborhood M(k,σ)(α) eines k-mers α = a1a2 . . . ak folgendermaßen:
M(k,σ)(α) =
(cid:110)
β = b1b2 . . . bk ∈ Σk :
(cid:88)
(cid:111)
S(ak, bk)
(2.17)
Dabei l¨asst sich σ = σ(N ) w¨ahlen, so dass maxα∈Σk |Mk,σ(α)| < N . Dies
erm¨oglicht eine Kontrolle ¨uber die Gr¨oße des mutation neighborhood. Die sub-
stitution feature map definiert sich nun wie folgt:
wobei
ΦSubstitution
(k,σ)
=
(cid:88)
(φβ(α)β∈Σk )
kmere α∈x
φβ(α) =
(cid:26) 1,
0,
falls β ∈ M(k,σ)(α)
sonst
(2.18)
(2.19)
Der substitution kernel kSubstitution
als:
(k,σ)
ist damit ¨uber das Skalarprodukt definiert
kSubstitution
(k,σ)
= (cid:104)ΦSubstitution
(k,σ)
(x), ΦSubstitution
(k,σ)
(y)(cid:105)
(2.20)
6
2.2.5 Alignment Kernel
Im Gegensatz zu den bisher angef¨uhrten Kerneln stellt der Alignment Kernel
keinen direkten ¨Ahnlichkeitsvergleich zweier Sequenzen dar. Vielmehr wird die-
ser Kernel durch Faltung mehrere local alignments gebildet da ein einzelnes local
alignment keinen g¨ultigen Kernel darstellt.(Vert, Jean-Philippe; Siago, Hiroto;
Akutsu, Tatsuya). Im folgenden wird nun ein g¨ultiger local alignment Kernel
definiert.
Gegeben sei hierzu eine Substitutionsmatrix S und eine gap penalty Funktion
g. Zus¨atzlich werden drei Kernel auf Basis einer Funktion aus S und g definiert.
Der erste Kernel k0 ist hierbei ein konstante Abbildung von auf 1 welche f¨ur
diejenigen Sequenzteile verwendet werden die außerhalb des matchings liegen:
k0(x, y) := 1, ∀(x, y) ∈ χ2
(2.21)
Der zweite Kernel ka wird zur Berechnung der ¨Ahnlichkeit von allinierten Sym-
bolen mit Hilfe von S verwendet:
k(β)
a (x, y) :=
(cid:26) 0,
exp(βS(x, y)),
falls |x| (cid:54)= 1 oder |y| (cid:54)= 1
sonst
(cid:27)
, ∀(x, y) ∈ χ2
(2.22)
mit β ≥ 0 als Parameter. Der dritte Kernel kg dient abschließend zur Darstellung
der gap penalty:
k(β)g(x, y) := exp[β(g(|x|) + g(|y|))]
wobei β ≥ 0 den gleichen Parameter wie in (2.20) bezeichnet und g eine g¨ultige
gap penalty Funktion .
Diese 3 Kernel werden nun durch Faltung zu einem g¨ultigen Kernel kn zusam-
mengef¨ugt:
(2.23)
k(β)
(n) := k0
a k(β)
k(β)
g
(cid:16)
(cid:17)(n1)
k(β)
a k0
(2.24)
Dieser Kernel definiert nun die ¨ahnlichkeit von zwei Strings x und y mit einem
local alignment der L¨ange n. Hierbei werden durch den Kernel alle m¨oglichen
a (k(β)
Dekompositionen von x und y erfasst. Dabei ist k0 der initiale Teil, (k(β)
)
Die Verteilung aller local alignments von genau n Symbolen die durch (n 1)
gaps getrennt werden und das abschließende k0 der finale Teil.
Um nun bei einem Vergleich zweier Strings alle m¨oglichen lokalen alignments
zu ber¨ucksichtigen ist es Notwendig ¨uber alle n zu summieren so dass sich der
endg¨ultige local alignment kernel k(β)
g
LA ergibt:
k(β)
LA :=
(cid:88)
i=0
k(i)
(2.25)
2.3
Implementierung der Kernel
2.3.1 Tanimoto Kernel
Um eine effiziente Berechnung zu gew¨ahrleisten wird eine Trie-Datenstruktur
verwendet. Hierbei wird jeweils ein Trie f¨ur jede der Sequenzen x und y gebil-
det. Die Tiefe des Tries entspricht dem Parameter k der verwendeten k-mere.
Jeder innere Knoten des Tries hat maximal |Σ| (im Fall von Aminos¨auren also
7
Abbildung 2.2: Beispiel f¨ur 2 Tries und deren Tanimoto Koeffizienzen
20) ¨Aste. der Pfad von der Wurzel des Baumes zu einem Blatt entspricht ei-
nem in der zugeh¨origen Sequenz auftretenden k-mer. An jedem inneren Knoten
wird beim Aufbau des Tries ¨uberpr¨uft ob ein k-mer mit der entsprechenden Zei-
chenfolge erweitert um ein Symbol aus Σ in der Sequenz existiert.Falls ja wird
der Trie um dieses Symbol erweitert. Die Bl¨attern des Tries, also jeweils ein
m¨ogliches k-mer, entsprechen hierbei also den Koordinaten der Vektoren des
Tanimoto Koeffizienten. Nach dem Aufbau der Tries wird der Tanimoto Ko-
effizient T (X, Y ) (Siehe Formel 2.4) der beiden Sequenzen anhand ihrer Tries
errechnet. Mehrfach auftretende k-mere werden bei diesem Trie und so auch im
Tanimoto Koeffizien auf eins reduziert.
2.3.2 Missmatch Kernel
Auch der mismatch Kernel nutzt zur Berrechnung eine Trie Struktur ¨ahnlich
der des Tanimoto Kernels. Im Gegensatz zu dem beim Tanimoto Koeffizienten
verwendeten Trie sollen aber bei dem hier verwendeten Trie auch alle mehrfach
vorkommenden k-mere gewertet werden. Hierzu wird jedem Knoten (auch den
Bl¨attern) eine Liste mit Pointern aller n-mere (wobei n die Tiefe des aktuel-
len Knotens ist) zugewiesen, die dem Pfad des Knotens von der Wurzel aus
entsprechen oder maximal m missmatches aufweisen. Es wird dazu bei jedem
erweitern des Tries um ein Symbol am aktuellen Knoten f¨ur jedes n-mer der
8
Abbildung 2.3: Teil des (6,1)-missmatch trees f¨ur die Sequenz ATGACATT. Es
werden l-mere der L¨ange 6 mit mit max. 1 missmatch berechnet. Der hier darge-
stellte Pfad zeigt den Teilbaum aller mit l-mer features mit Pr¨afix AL. In jedem
Knoten werden zu allen g¨ultigen Pr¨afixen die Anzahl an missmatches zwischen
dem Pr¨afix einer l-mer Instanz und dem Pr¨afix eines features gespeichert sowie
ein Pointer zum Startpunkt des jeweiligen Pr¨afixes.
Liste des Vorg¨angerknotens geschaut ob das (n+1)-mer noch innerhalb der m
missmatches liegt. Ist dies der Fall wird es in die Liste ¨ubernommen; ist dies
nicht der Fall wird es nicht ¨ubernommen. Die Liste der (n+1)-mere ist allso
in jedem Fall eine valide Teilmenge der Liste des Knotens des vorhergehenden
n-mers. Erreicht man auf diese Weise ein Blatt so ist die Liste der l-mere also
eine g¨ultige Liste aller l-mere die maximal m mismatches zum gesuchten l-mer
α aufweisen.
F¨ur eine Sequenz x sind also alle g¨ultigen l-mere die in N(l,m)(α) liegen also
¨aquivalent zu allen l-meren in den Listen des Bl¨attes des Tries mit dem Pfad α.
Alle l-mere der Liste tragen somit zur α Koortinate des feature vektors Φ(x) bei.
Man kann also nun einfach die Beitr¨age aller auftretenden Instanzen Summieren
und somit den Wert des Kernels aktualisieren:
k(x, y) := k(x, y) + nα(x) nα(y)
(2.26)
wobei nα(x) und nα(y) die Anzahl der Instanzen, einschließlich missmatches,
eines l-mers α in x und y sind.
2.3.3 Gappy Kernel
Wie bei den beiden vorhergehenden Kerneln wird auch f¨ur den (g, l)-gappy
Kernel ein Baum mit Tiefe l verwendet bei dem jeder innere Knoten |Σ| ¨Aste
hat. Der Aufbau des Baumes wird durch ein depth first traversal realisiert.
¨Ahnlich dem Missmatch Kernel wird jedem besuchten Knoten eine Liste mit
Pointern zu g-meren zugewiesen die dem aktuellen Pr¨afix, mit maximal g l
gaps, entsprechen. F¨ur jedes g-mer wird hierbei zus¨atzlich ein Pointer zur letzten
g¨ultigen Position, also dem ersten Symbol nach letzen g¨ultigen Position des
Mutterknotens das der Bezeichnung des Astes entspricht, gespeichert. An der
Wurzel sind diese Pointer also alle 0 da noch keine Symbole in den g-meren
abgearbeitet wurden.
Bei jedem Schritt in den Baum hinein werden jeweils nur diejenigen g-mere
9
Abbildung 2.4: Teil eines (6,3)-gappy trees f¨ur die Sequenz ATGACATT. An
jedem Knoten werden die noch g¨ultigen g-mere gespeichert sowie die erste Stelle
des Auftretens des aktuellen Symbols nach dem letzten g¨ultigen Symbol. Im
gezeigten Bsp wird der Baum f¨ur das l-mer AAT gezeigt.
weitergegeben bei denen die letzte g¨ultige Position innerhalb des g-mers lag.
Wird kein g¨ultiges Symbol, das heißt ein Symbol das der Markierung des Astes
entspricht, zwischen dem letzten g¨ultigen und dem Ende des g-mers gefunden so
wird dieses verworfen. Findet man jedoch ein g¨ultiges Symbol so wird das g-mer
zusammen mit dem neuen Pointer an den Kindknoten weitergegeben. Wird bei
einem Schritt kein g-mer weitergegeben so muß dieser Teilbaum nicht weiter
bearbeitet werden.
Zum update des Kernelwertes f¨ur x und y muß nun nur f¨ur jedes feature k-
mer die Summe der g¨ultigen Pointer am, dem k-mer entsprechenden Blatt, zum
Kernelwert addiert werden.
2.3.4 Substitution Kernel
Die Berechnung des Substitution Kernels ¨ahnelt der des missmatch Kernels.
Auch hier wird ein trie der Tiefe l verwendet. An jedem Knoten der Tiefe d
wird eine Liste mit Pointern zu allen l-meren gespeichert. Zudem wird noch zu
jeder l-mer Instanz α die aktuelle mutation score (cid:80)d
i=1 S(ai, bi) im Verh¨altnis
zum aktuellen Pr¨afix des Pfades b1b2 . . . bd gespeichert. Bei jedem Schritt in den
Baum hinein wird an der Kante mit Beschriftung b der Tiefe d+1 zu jeder l-mer
Instanz α der Wert S(a, b) zur aktuellen mutation score addiert und zusammen
mit der l-mer Instanz α an den Kindknoten weitergegeben. Wie bei den bisheri-
gen Kerneln wird nun der Kernel Wert f¨ur ein l-mer erneuert indem die Summe
aller g¨ultigen Instanzen (also mit mutation score < σ) von l-meren im trie an
den Bl¨attern zum Kernel Wert f¨ur x und y addiert wird.
10
Abbildung 2.5: Beispiel f¨ur einen Substitution Kernel Trie der Tiefe 6 f¨ur das
Pr¨afix ANC. Die Werte f¨ur S(x,y) sind aus der BLOSUM62 (Siehe Tabelle 2.1)
entnommen.
2.3.5 Alignment Kernel
Da eine naive Berechnung des Kernels nach 2.23 zu einer exponentiellen Zu-
nahme der Komplexit¨at in Abh¨angigkeit von |x| und |y| f¨uhrt wurde einen
dynamic programming Ansatz gew¨ahlt. Hierbei handelt sich um eine Abwand-
lung des klassischen Smith-Waterman Algorithmus f¨ur affine gap penalties. Hier-
zu seien (x, y) ∈ χ2 zwei Sequenzen und g eine affine gap penalty Funktion mit
g(n) =
(cid:26) 0
d + e(n 1)
falls n = 0 , oder
falls n ≥ 1
(2.27)
dann ist der LA Kernel kβ
LA(x, y) f¨ur x und y gleichwertig mit
LA(x, y) = 1 + X2(|x| , |y|) + Y2(|x| , |y|) + M (|x| , |y|)
(2.28)
wobei M (i, j), X(i, j), Y (i, j), X2(i, j) und Y2(i, j) f¨ur 0 ≤ i ≤ |x|, und 0 ≤ j ≤
|y| rekursiv definiert sind als


M (i, 0) = M (0, j) = 0,
X(i, 0) = X(0, j) = 0,
Y (i, 0) = Y (0, j) = 0,
X2(i, 0) = Y2(0, j) = 0,
Y2(i, 0) = Y2(0, j) = 0,
(2.29)
und


M (i, j) = exp(βS(xi, yj))[1 + X(i 1, j 1) + Y (i 1, j 1) + M (i 1, j 1)],
X(i, j) = exp(βd)M (i 1, j) + exp(βe)X(i 1, j),
Y (i, j) = exp(βd)[M (i, j 1) + X(i, j 1)] + exp(βe)Y (i, j 1),
X2(i, j) = M (i 1, j) + X2(i 1, j),
Y2(i, j) = M (i, j 1) + X2(i, j 1) + Y2(i, j 1),
(2.30)
β ist hierbei der frei w¨ahlbare Parameter, S ist die in Tabelle 2.1 gezeigte BLO-
SUM62 Matrix, d und e sind die gap open und gap extension penalties. Zur
11
A R N D C Q E G H I L K M F P S T W Y V B Z X *
A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4
R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4
N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4
C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4
Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1
0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4
E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4
H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4
1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4
-1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3
I
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2
2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4
5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3
1 3 -1 -3 -3 -1 -4
0 6 -4 -2 -2
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4
1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4
S
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2
2 7 -1 -3 -2 -1 -4
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2
1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4
B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4
Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4
-4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1
Tabelle 2.1: Die BLOSUM62. Die Angegebenen Werte geben die log odds Ratio
der Aminos¨auren der Zeilen und Spalten an
Normierung der Ergebnisse und um das sogenannte diagonal dominance Pro-
blem zu vermeiden wird jeder Kernel wert kβ
LA(x, y) durch folgende Formel
aktualisiert
ln kβ
LA(x, y)
(2.31)
˜
LA(x, y) =
2.4 Die Daten
1
β
Der in dieser Arbeit verwendete Datensatz bezieht sich auf den in (Rausch, C.;
Weber, T.; Kohlbacher, O; Wohlleben, W. und Huson, D.; 2005) verwendeten
Datensatz an NRPS Proteinen. NRPS steht f¨ur nonribosomalproteinsynthetase
und Bezeichnet eine Familie von Proteinen in Bakterien und Pilzen die durch
einzelnes Anf¨ugen von Aminos¨auren an eine Kette ein Protein erzeugen. In den
meisten F¨allen sind dies Peptidantibiotika die spezielle nicht kanonische Ami-
nos¨auren verwenden. Die NRPS Proteine sind nach der Art ihres spezifischen
Substrates in 8 Klassen aufgeteilt:
• aliphatische Kettenenden mit Wasserstoffbr¨ucken Donor
• apolare, aliphatische Seitenketten
12
• aromatische Seitenketten
• lange positiv geladene Seitenketten
• aliphate oder phenyle mit OH Gruppen
• polare ungeladene (Cys)
• zyklische Aliphate
• hydroxy benzoe S¨auren und derivate
Der vollst¨andige Datensatz enth¨alt 339 Sequenzen.
2.5 verwendete Programme
Zu Analyse der berechneten Kerneldaten aus den vorgestellten Kerneln wurde
das Programm LibSVM (frei erh¨altlich unter: http://www.csie.ntu.edu.tw/ cj-
lin/libsvm/) verwendet. Insbesondere der Programmteil svm-train der es erm¨oglich
sowohl vorberechnete Kernel zu verwenden als auch eine direkte n-fache Kreuz-
validierung erm¨oglich. Hierzu m¨ussen die Parameter t 4 und v [n] verwendet
werden. Bei der Auswertung der Kernel wurde im weiteren Verlauf der Parame-
ter n immer mit 5 gew¨ahlt. Als Ausgabe erfolgt das Ergebnis der Kreuzvalidie-
rung in % sowie eine Datei die das Model der SVM zur weiteren Verwendung
innerhalb des Programms enth¨alt.
13
Kapitel 3
Ergebnisse
14
Abbildung 3.1: blabla
15
Abbildung 3.2: blabla
16
Abbildung 3.3: blabla
17
Abbildung 3.4: blabla
18
Abbildung 3.5: blabla
19
Abbildung 3.6: blabla
20
Abbildung 3.7: blabla
21
Kapitel 4
Diskussion
22