Masterarbeit/StilVorlagen/Studienarbeit.md

Protein Similarity Measures as Kernels for
Proteochemometrics

Christoph Schw¨orer

1. November 2009

2
2

3
3
4
4
5
5
6
7
7
7
8
9
10
11
12
13

14

22

Inhaltsverzeichnis

1 Einleitung

1.1 Versuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 Methodik

Substitution Kernel

2.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Verwendete Kernel
. . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Tanimoto Kernel
2.2.2 Missmatch Kernel
. . . . . . . . . . . . . . . . . . . . . .
2.2.3 Gappy Kernel . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
2.2.4
2.2.5 Alignment Kernel
. . . . . . . . . . . . . . . . . . . . . .
Implementierung der Kernel . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Tanimoto Kernel
. . . . . . . . . . . . . . . . . . . . . .
2.3.2 Missmatch Kernel
2.3.3 Gappy Kernel . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
2.3.4
. . . . . . . . . . . . . . . . . . . . . .
2.3.5 Alignment Kernel
2.4 Die Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
2.5 verwendete Programme

Substitution Kernel

2.3

3 Ergebnisse

4 Diskussion

1

Kapitel 1

Einleitung

1.1 Versuche

2

Kapitel 2

Methodik

2.1 SVM

Eine Support Vektor Machine (SVM) ist ein Verfahren aus dem Bereich der
Mustererkennung zur Klassiﬁkation von Objekten. Diese Objekte werden hier-
bei durch ihre Eigenschaften (features) (zB. L¨ange, Gewicht oder Sequenzfolge)
und ihre Klasse repr¨asentiert. Bei einer Gegebenen Anzahl d an Eigenschaften
k¨onnen diese als d-dimensionaler Vektor dargestellt werden. Der d-dimensionale
Raum der Eigenschaftsvektoren wird Eigenschaftsraum (feature space) χ ge-
nannt.
Das Ziel einer SVM ist es nun anhand gegebener Trainingsvektoren deren Klas-
se bereits bekannt ist unbekannte Objekte korrekt zu klassiﬁzieren. Man hat
Beispielsweise 2 Klassen von l Objekten mit einer Anzahl d an Eigenschaften x
die als Paare (xi, yi), i = 1, . . . , n mit (cid:126)xl ∈ Rdund yi ∈ {−1, 1}n gegeben sind.
Sind die Datenpunkte im Eigenschaftsraum χ linear separierbar durch eine Hy-
perebene so ist das Problem trivial (Siehe Abb 2.1A). Sind die Daten aber nicht
linear separierbar (Siehe Abb 2.1B) so muss folgendes Optimierungsproblem

Abbildung 2.1: Beispiel f¨ur linear separierbare Daten (A) und nicht linear sepa-
rierbare Daten (B)

3

gel¨ost werden (Boser et al. 1992; Cortes, C. and Vapnik, V., 1995):

minw,b,ξ

1

2 wT w + C (cid:80)l

i=1 ξi

mit der Bedingung yi(wT φ(xi) + b‘1 − ξi,

ξi‘0.

(2.1)

C > 0 ist eine positive Konstante die als Strafparameter dient. Die Trainings-
vektoren wi werden zudem auf einen h¨oher dimensionalen Vektorraum durch die
Funktion φ : Rd1 → Rd2 , w → φ(w); d2 > d1 abgebildet um in diesem h¨oher
dimensionalen Raum eine Hyperebene zu ﬁnden die ihn linear separiert. Da die
Daten xi im Algorithmus zur L¨osung des oben genannten Problems nur in der
Form eines Skalarproduktes (cid:104)xi, xj(cid:105) im Raum Rd1 eingehen ist es m¨oglich diese
durch ein Skalarprodukt (cid:104)φ(xi), φ(xj)(cid:105) im Raum Rd2 zu berechnen. Hierzu kann
nun eine positiv-semideﬁnite Kernelfunktion verwendet werden mit:

k(xi, xj) = (cid:104)φ(xi), φ(xj)(cid:105)

(2.2)

Die in dieser Arbeit verwendeten Kernelfunktionen werden im folgenden Ab-
schnitt erl¨autert.

2.2 Verwendete Kernel

2.2.1 Tanimoto Kernel

Der einfachste implementierte Kernel ist der Tanimoto Kernel. Hierbei wird ein
|Σ|k-dimensionaler Vektorraum ¨uber {0,1} verwendet. Jede Koordinate wird
durch ein m¨ogliches k-mer α indexiert. Tritt das k-mer α auf, so wird der Wert
der Koordiante 1 ansonsten bleibt sie 0. Dies f¨uhrt zu folgender feature map:

wobei

ΦT animoto

k

(x) = (φα(x))α∈Σl

φα(x) =

(cid:26) 1,
0,

falls α in x vorkommt
sonst

(2.3)

(2.4)

F¨ur eine Sequenz x beliebiger L¨ange wird diese feature map nun ¨uber die Sum-
mation der einzelnen Vektoren f¨ur alle k-mere in x gebildet:

ΦT animoto

k

(x) =

(cid:88)

ΦT animoto

k

(α) = X

(2.5)

k−mere α in x

Der Tanimoto Koeﬃzienl T (X, Y ) f¨ur zwei Sequenzen x und y wird nun errech-
net durch den Tanimotokoeﬃzienten von X und Y

T (X, Y ) =

X · Y
||X||2 + ||Y ||2 − X · Y

(2.6)

Damit ergibt sich abschließend der Tanimoto Kernel

kT animoto
k

(x, y) = T (X, Y ) = T (ΦT animoto

k

(x), ΦT animoto
k

(y))

(2.7)

4

2.2.2 Missmatch Kernel

Zur Erh¨ohung des Realit¨atsgrads und der Ann¨aherung an die nat¨urlichen Gege-
benheiten muss es jedoch m¨oglich sein einen gewissen Grad von Ungenauigkeit
zu erm¨oglichen. Ein Kernel der dies erreicht darf also nicht nur abh¨angig von
genauen Vergleichen sein sondern muss ein Maß an ¨Ahnlichkeit implementie-
ren. Eine einfache M¨oglichkeit dieser Implementation ist es missmatches beim
Vergleich von k-meren zu erlauben. In Leslie et al. (2003b) wird hierzu ein
(k.m)-missmatch Kernel ¨uber eine feature map ΦM issmatch
realisiert. F¨ur ein
missmatch neigh-
gegebenes k-mer α = α1α2α3...αk, αi ∈ Σ wird hierzu ein
”
borhood“Nk,m(α) deﬁniert. Dies ist die Menge aller k-mere die sich an maximal
m Stellen vom k-mer α unterscheiden. Die featur map f¨ur α ist demnach deﬁniert
als:

(l,m)

wobei

ΦM issmatch

(k,m)

(α) = (φβ(alpha))β∈Σk

φβ(x) =

(cid:26) 1,
0,

falls β ∈ N(k,m)(α)
sonst

(2.8)

(2.9)

Wie schon beim Tanimoto Kernel wird auch hier wieder f¨ur eine Sequenz x be-
liebiger L¨ange die map durch Addition der einzelnen feature Vektoren gebildet:

ΦM issmatch

(k,m)

(x) =

(cid:88)

ΦM issmatch

(k,m)

(α)

(2.10)

k−mere α∈x

Im Gegensatz zum Tanimoto Kernel werden aber mehrfach vorkommende k-
mere auch mehrfach gewertet. Jedes k-mer tr¨agt somit zu allen Werten sei-
missmatch neighborhood“ bei. In diesem Fall Stellt die β Koordinate von
nes
”
ΦM issmatch
(x) also die Anzahl derjenigen k-mere in x dar, die maximal an m
(k,m)
Stellen abweichen. Der (k, m)-missmatch Kernel kM issmatch
(x, y) kann also dar-
gestellt werden als das Skalarprodukt der feature Vektoren von x und y:

(k,m)

kM issmatch
(k,m)

(x, y) = (cid:104)ΦM issmatch

(k,m)

(x), ΦM issmatch
(k,m)

(y)(cid:105)

(2.11)

2.2.3 Gappy Kernel

Alternativ zu missmatches m¨ussen in einem biologisch motivierten Kernel auch
L¨ucken erlaubt werden. Diese M¨oglichkeit ist mit dem Gappy Kernel gegeben.
Wie auch die beiden vorhergehenden Kernel wird f¨ur den (g, l)-gappy string
kernel (Leslie and Kuang, 2003) der gleiche |Σ|l-dimensionale Merkmalsraum
gappy“ matches
verwendet. In diesem Fall aber basiert die feature map auf
”
von g-meren zu l-meren (wobei g > l). Hierbei ist G(g,l)(α) die Menge aller
l-mere die als Teilfolgen der L¨ange l (mit g − l L¨ucken) aus einem gegeben g-
mer α = α1α2 . . . αg, αi ∈ Σ durch Konkatenation von Zeichen aus g gewonnen
werden k¨onnen. Wobei f¨ur alle Stringpositionen αi, αj gelten muß: i < j falls
i < j in g. Somit ergibt sich die feature map:

wobei

ΦGappy
(g,l)

(α) = (φβ(α))β∈Σl

φβ(α) =

(cid:26) 1,
0,

falls β ∈ G(g,l)(α)
sonst

(2.12)

(2.13)

5

Hierbei tr¨agt wieder jede Teilfolge zum Wert aller feature Vektoren bei in denen
sie vorkommt. Die feature map wird dann wieder erweitert auf eine beliebig
lange Sequenz x indem ¨uber alle feature Vektoren aller g-mere in x summiert
wird:

ΦGappy
(g,l)

(x) =

(cid:88)

φGappy
(g,l)

(α)

(2.14)

Der (g, l)-gappy kernel kGappy
(g,l)
dukt der feature Vektoren zweier Sequenzen x und y:

(x) wird wiederum erneut deﬁniert als Skalarpro-

g−mere α∈x

kGappy
(g,l)

(x, y) = (cid:104)ΦGappy

(g,l)

(x), ΦGappy

(g,l)

(y)(cid:105)

(2.15)

2.2.4 Substitution Kernel

Eine erweiterte Variante des mismatch Kernels ist der substitution kernel (Les-
lie and Kuang, 2003). Anstelle des mismatch neighborhood wird hier jedoch ein
similarity neighborhood verwendet. Dieses basiert auf einem probabilistischen
Model zum Austausch von Zeichen in den betrachteten Sequenzen. Hierzu wer-
den paarweise Werte S(a, b) verwendet die sich aus gesch¨atzten evolution¨aren
Austauschwahrscheinlichkeiten ableiten (Henikoﬀ and Hennikoﬀ, 1992; Schwartz
and Dayhoﬀ, 1978; Altschul et al., 1990). Um solch eine Matrix S zu generieren
werden einzelne Bl¨ocke von von Sequenzen homologer Proteine verglichen und
ein log odds-Ratio errechnet:

S(i, j) =

(cid:19)

(cid:18) 1
λ

log

(cid:19)

(cid:18) pij
qi ∗ qj

(2.16)

wobei pij die Wahrscheinlichkeit darstellt die Aminos¨auren i und j in einem
Alignment zu ﬁnden. qi und qj hingegen bezeichnen die H¨auﬁgkeiten der Ami-
nos¨auren. λ ist der Normalisierungsfaktor. Man deﬁniert nun also den mutation
neighborhood M(k,σ)(α) eines k-mers α = a1a2 . . . ak folgendermaßen:

M(k,σ)(α) =

(cid:110)

β = b1b2 . . . bk ∈ Σk :

(cid:88)

(cid:111)

S(ak, bk)

(2.17)

Dabei l¨asst sich σ = σ(N ) w¨ahlen, so dass maxα∈Σk |Mk,σ(α)| < N . Dies
erm¨oglicht eine Kontrolle ¨uber die Gr¨oße des mutation neighborhood. Die sub-
stitution feature map deﬁniert sich nun wie folgt:

wobei

ΦSubstitution

(k,σ)

=

(cid:88)

(φβ(α)β∈Σk )

k−mere α∈x

φβ(α) =

(cid:26) 1,
0,

falls β ∈ M(k,σ)(α)
sonst

(2.18)

(2.19)

Der substitution kernel kSubstitution
als:

(k,σ)

ist damit ¨uber das Skalarprodukt deﬁniert

kSubstitution
(k,σ)

= (cid:104)ΦSubstitution
(k,σ)

(x), ΦSubstitution
(k,σ)

(y)(cid:105)

(2.20)

6

2.2.5 Alignment Kernel

Im Gegensatz zu den bisher angef¨uhrten Kerneln stellt der Alignment Kernel
keinen direkten ¨Ahnlichkeitsvergleich zweier Sequenzen dar. Vielmehr wird die-
ser Kernel durch Faltung mehrere local alignments gebildet da ein einzelnes local
alignment keinen g¨ultigen Kernel darstellt.(Vert, Jean-Philippe; Siago, Hiroto;
Akutsu, Tatsuya). Im folgenden wird nun ein g¨ultiger local alignment Kernel
deﬁniert.
Gegeben sei hierzu eine Substitutionsmatrix S und eine gap penalty Funktion
g. Zus¨atzlich werden drei Kernel auf Basis einer Funktion aus S und g deﬁniert.
Der erste Kernel k0 ist hierbei ein konstante Abbildung von auf 1 welche f¨ur
diejenigen Sequenzteile verwendet werden die außerhalb des matchings liegen:

k0(x, y) := 1, ∀(x, y) ∈ χ2

(2.21)

Der zweite Kernel ka wird zur Berechnung der ¨Ahnlichkeit von allinierten Sym-
bolen mit Hilfe von S verwendet:

k(β)
a (x, y) :=

(cid:26) 0,

exp(βS(x, y)),

falls |x| (cid:54)= 1 oder |y| (cid:54)= 1
sonst

(cid:27)

, ∀(x, y) ∈ χ2

(2.22)
mit β ≥ 0 als Parameter. Der dritte Kernel kg dient abschließend zur Darstellung
der gap penalty:

k(β)g(x, y) := exp[β(g(|x|) + g(|y|))]
wobei β ≥ 0 den gleichen Parameter wie in (2.20) bezeichnet und g eine g¨ultige
gap penalty Funktion .
Diese 3 Kernel werden nun durch Faltung zu einem g¨ultigen Kernel kn zusam-
mengef¨ugt:

(2.23)

k(β)
(n) := k0 ∗

a ∗ k(β)
k(β)

g

(cid:16)

(cid:17)(n−1)

∗ k(β)

a ∗ k0

(2.24)

Dieser Kernel deﬁniert nun die ¨ahnlichkeit von zwei Strings x und y mit einem
local alignment der L¨ange n. Hierbei werden durch den Kernel alle m¨oglichen
a ∗ (k(β)
Dekompositionen von x und y erfasst. Dabei ist k0 der initiale Teil, (k(β)
)
Die Verteilung aller local alignments von genau n Symbolen die durch (n − 1)
gaps getrennt werden und das abschließende k0 der ﬁnale Teil.
Um nun bei einem Vergleich zweier Strings alle m¨oglichen lokalen alignments
zu ber¨ucksichtigen ist es Notwendig ¨uber alle n zu summieren so dass sich der
endg¨ultige local alignment kernel k(β)

g

LA ergibt:

k(β)
LA :=

∞
(cid:88)

i=0

k(i)

(2.25)

2.3

Implementierung der Kernel

2.3.1 Tanimoto Kernel

Um eine eﬃziente Berechnung zu gew¨ahrleisten wird eine Trie-Datenstruktur
verwendet. Hierbei wird jeweils ein Trie f¨ur jede der Sequenzen x und y gebil-
det. Die Tiefe des Tries entspricht dem Parameter k der verwendeten k-mere.
Jeder innere Knoten des Tries hat maximal |Σ| (im Fall von Aminos¨auren also

7

Abbildung 2.2: Beispiel f¨ur 2 Tries und deren Tanimoto Koeﬃzienzen

20) ¨Aste. der Pfad von der Wurzel des Baumes zu einem Blatt entspricht ei-
nem in der zugeh¨origen Sequenz auftretenden k-mer. An jedem inneren Knoten
wird beim Aufbau des Tries ¨uberpr¨uft ob ein k-mer mit der entsprechenden Zei-
chenfolge erweitert um ein Symbol aus Σ in der Sequenz existiert.Falls ja wird
der Trie um dieses Symbol erweitert. Die Bl¨attern des Tries, also jeweils ein
m¨ogliches k-mer, entsprechen hierbei also den Koordinaten der Vektoren des
Tanimoto Koeﬃzienten. Nach dem Aufbau der Tries wird der Tanimoto Ko-
eﬃzient T (X, Y ) (Siehe Formel 2.4) der beiden Sequenzen anhand ihrer Tries
errechnet. Mehrfach auftretende k-mere werden bei diesem Trie und so auch im
Tanimoto Koeﬃzien auf eins reduziert.

2.3.2 Missmatch Kernel

Auch der mismatch Kernel nutzt zur Berrechnung eine Trie Struktur ¨ahnlich
der des Tanimoto Kernels. Im Gegensatz zu dem beim Tanimoto Koeﬃzienten
verwendeten Trie sollen aber bei dem hier verwendeten Trie auch alle mehrfach
vorkommenden k-mere gewertet werden. Hierzu wird jedem Knoten (auch den
Bl¨attern) eine Liste mit Pointern aller n-mere (wobei n die Tiefe des aktuel-
len Knotens ist) zugewiesen, die dem Pfad des Knotens von der Wurzel aus
entsprechen oder maximal m missmatches aufweisen. Es wird dazu bei jedem
erweitern des Tries um ein Symbol am aktuellen Knoten f¨ur jedes n-mer der

8

Abbildung 2.3: Teil des (6,1)-missmatch trees f¨ur die Sequenz ATGACATT. Es
werden l-mere der L¨ange 6 mit mit max. 1 missmatch berechnet. Der hier darge-
stellte Pfad zeigt den Teilbaum aller mit l-mer features mit Pr¨aﬁx AL. In jedem
Knoten werden zu allen g¨ultigen Pr¨aﬁxen die Anzahl an missmatches zwischen
dem Pr¨aﬁx einer l-mer Instanz und dem Pr¨aﬁx eines features gespeichert sowie
ein Pointer zum Startpunkt des jeweiligen Pr¨aﬁxes.

Liste des Vorg¨angerknotens geschaut ob das (n+1)-mer noch innerhalb der m
missmatches liegt. Ist dies der Fall wird es in die Liste ¨ubernommen; ist dies
nicht der Fall wird es nicht ¨ubernommen. Die Liste der (n+1)-mere ist allso
in jedem Fall eine valide Teilmenge der Liste des Knotens des vorhergehenden
n-mers. Erreicht man auf diese Weise ein Blatt so ist die Liste der l-mere also
eine g¨ultige Liste aller l-mere die maximal m mismatches zum gesuchten l-mer
α aufweisen.
F¨ur eine Sequenz x sind also alle g¨ultigen l-mere die in N(l,m)(α) liegen also
¨aquivalent zu allen l-meren in den Listen des Bl¨attes des Tries mit dem Pfad α.
Alle l-mere der Liste tragen somit zur α Koortinate des feature vektors Φ(x) bei.
Man kann also nun einfach die Beitr¨age aller auftretenden Instanzen Summieren
und somit den Wert des Kernels aktualisieren:

k(x, y) := k(x, y) + nα(x) ∗ nα(y)

(2.26)

wobei nα(x) und nα(y) die Anzahl der Instanzen, einschließlich missmatches,
eines l-mers α in x und y sind.

2.3.3 Gappy Kernel

Wie bei den beiden vorhergehenden Kerneln wird auch f¨ur den (g, l)-gappy
Kernel ein Baum mit Tiefe l verwendet bei dem jeder innere Knoten |Σ| ¨Aste
hat. Der Aufbau des Baumes wird durch ein depth ﬁrst traversal realisiert.
¨Ahnlich dem Missmatch Kernel wird jedem besuchten Knoten eine Liste mit
Pointern zu g-meren zugewiesen die dem aktuellen Pr¨aﬁx, mit maximal g − l
gaps, entsprechen. F¨ur jedes g-mer wird hierbei zus¨atzlich ein Pointer zur letzten
g¨ultigen Position, also dem ersten Symbol nach letzen g¨ultigen Position des
Mutterknotens das der Bezeichnung des Astes entspricht, gespeichert. An der
Wurzel sind diese Pointer also alle 0 da noch keine Symbole in den g-meren
abgearbeitet wurden.
Bei jedem Schritt in den Baum hinein werden jeweils nur diejenigen g-mere

9

Abbildung 2.4: Teil eines (6,3)-gappy trees f¨ur die Sequenz ATGACATT. An
jedem Knoten werden die noch g¨ultigen g-mere gespeichert sowie die erste Stelle
des Auftretens des aktuellen Symbols nach dem letzten g¨ultigen Symbol. Im
gezeigten Bsp wird der Baum f¨ur das l-mer AAT gezeigt.

weitergegeben bei denen die letzte g¨ultige Position innerhalb des g-mers lag.
Wird kein g¨ultiges Symbol, das heißt ein Symbol das der Markierung des Astes
entspricht, zwischen dem letzten g¨ultigen und dem Ende des g-mers gefunden so
wird dieses verworfen. Findet man jedoch ein g¨ultiges Symbol so wird das g-mer
zusammen mit dem neuen Pointer an den Kindknoten weitergegeben. Wird bei
einem Schritt kein g-mer weitergegeben so muß dieser Teilbaum nicht weiter
bearbeitet werden.
Zum update des Kernelwertes f¨ur x und y muß nun nur f¨ur jedes feature k-
mer die Summe der g¨ultigen Pointer am, dem k-mer entsprechenden Blatt, zum
Kernelwert addiert werden.

2.3.4 Substitution Kernel

Die Berechnung des Substitution Kernels ¨ahnelt der des missmatch Kernels.
Auch hier wird ein trie der Tiefe l verwendet. An jedem Knoten der Tiefe d
wird eine Liste mit Pointern zu allen l-meren gespeichert. Zudem wird noch zu
jeder l-mer Instanz α die aktuelle mutation score (cid:80)d
i=1 S(ai, bi) im Verh¨altnis
zum aktuellen Pr¨aﬁx des Pfades b1b2 . . . bd gespeichert. Bei jedem Schritt in den
Baum hinein wird an der Kante mit Beschriftung b der Tiefe d+1 zu jeder l-mer
Instanz α der Wert S(a, b) zur aktuellen mutation score addiert und zusammen
mit der l-mer Instanz α an den Kindknoten weitergegeben. Wie bei den bisheri-
gen Kerneln wird nun der Kernel Wert f¨ur ein l-mer erneuert indem die Summe
aller g¨ultigen Instanzen (also mit mutation score < σ) von l-meren im trie an
den Bl¨attern zum Kernel Wert f¨ur x und y addiert wird.

10

Abbildung 2.5: Beispiel f¨ur einen Substitution Kernel Trie der Tiefe 6 f¨ur das
Pr¨aﬁx ANC. Die Werte f¨ur S(x,y) sind aus der BLOSUM62 (Siehe Tabelle 2.1)
entnommen.

2.3.5 Alignment Kernel

Da eine naive Berechnung des Kernels nach 2.23 zu einer exponentiellen Zu-
nahme der Komplexit¨at in Abh¨angigkeit von |x| und |y| f¨uhrt wurde einen
dynamic programming Ansatz gew¨ahlt. Hierbei handelt sich um eine Abwand-
lung des klassischen Smith-Waterman Algorithmus f¨ur aﬃne gap penalties. Hier-
zu seien (x, y) ∈ χ2 zwei Sequenzen und g eine aﬃne gap penalty Funktion mit

g(n) =

(cid:26) 0

d + e(n − 1)

falls n = 0 , oder
falls n ≥ 1

(2.27)

dann ist der LA Kernel kβ

LA(x, y) f¨ur x und y gleichwertig mit

kβ
LA(x, y) = 1 + X2(|x| , |y|) + Y2(|x| , |y|) + M (|x| , |y|)

(2.28)

wobei M (i, j), X(i, j), Y (i, j), X2(i, j) und Y2(i, j) f¨ur 0 ≤ i ≤ |x|, und 0 ≤ j ≤
|y| rekursiv deﬁniert sind als






M (i, 0) = M (0, j) = 0,
X(i, 0) = X(0, j) = 0,
Y (i, 0) = Y (0, j) = 0,
X2(i, 0) = Y2(0, j) = 0,
Y2(i, 0) = Y2(0, j) = 0,

(2.29)

und





M (i, j) = exp(βS(xi, yj))[1 + X(i − 1, j − 1) + Y (i − 1, j − 1) + M (i − 1, j − 1)],
X(i, j) = exp(βd)M (i − 1, j) + exp(βe)X(i − 1, j),
Y (i, j) = exp(βd)[M (i, j − 1) + X(i, j − 1)] + exp(βe)Y (i, j − 1),
X2(i, j) = M (i − 1, j) + X2(i − 1, j),
Y2(i, j) = M (i, j − 1) + X2(i, j − 1) + Y2(i, j − 1),

(2.30)
β ist hierbei der frei w¨ahlbare Parameter, S ist die in Tabelle 2.1 gezeigte BLO-
SUM62 Matrix, d und e sind die gap open und gap extension penalties. Zur

11

A R N D C Q E G H I L K M F P S T W Y V B Z X *
A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4
R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4
N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4
C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4
Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1
0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4
E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4
H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4
1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4
-1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3
I
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2
2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4
5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3
1 3 -1 -3 -3 -1 -4
0 6 -4 -2 -2
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4
1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4
S
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2
2 7 -1 -3 -2 -1 -4
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2
1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4
B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4
Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4
-4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

Tabelle 2.1: Die BLOSUM62. Die Angegebenen Werte geben die log odds Ratio
der Aminos¨auren der Zeilen und Spalten an

Normierung der Ergebnisse und um das sogenannte diagonal dominance Pro-
blem zu vermeiden wird jeder Kernel wert kβ
LA(x, y) durch folgende Formel
aktualisiert

ln kβ

LA(x, y)

(2.31)

˜kβ
LA(x, y) =

2.4 Die Daten

1
β

Der in dieser Arbeit verwendete Datensatz bezieht sich auf den in (Rausch, C.;
Weber, T.; Kohlbacher, O; Wohlleben, W. und Huson, D.; 2005) verwendeten
Datensatz an NRPS Proteinen. NRPS steht f¨ur nonribosomalproteinsynthetase
und Bezeichnet eine Familie von Proteinen in Bakterien und Pilzen die durch
einzelnes Anf¨ugen von Aminos¨auren an eine Kette ein Protein erzeugen. In den
meisten F¨allen sind dies Peptidantibiotika die spezielle nicht kanonische Ami-
nos¨auren verwenden. Die NRPS Proteine sind nach der Art ihres speziﬁschen
Substrates in 8 Klassen aufgeteilt:

• aliphatische Kettenenden mit Wasserstoﬀbr¨ucken Donor

• apolare, aliphatische Seitenketten

12

• aromatische Seitenketten

• lange positiv geladene Seitenketten

• aliphate oder phenyle mit OH Gruppen

• polare ungeladene (Cys)

• zyklische Aliphate

• hydroxy benzoe S¨auren und derivate

Der vollst¨andige Datensatz enth¨alt 339 Sequenzen.

2.5 verwendete Programme

Zu Analyse der berechneten Kerneldaten aus den vorgestellten Kerneln wurde
das Programm LibSVM (frei erh¨altlich unter: http://www.csie.ntu.edu.tw/ cj-
lin/libsvm/) verwendet. Insbesondere der Programmteil svm-train der es erm¨oglich
sowohl vorberechnete Kernel zu verwenden als auch eine direkte n-fache Kreuz-
validierung erm¨oglich. Hierzu m¨ussen die Parameter −t 4 und −v [n] verwendet
werden. Bei der Auswertung der Kernel wurde im weiteren Verlauf der Parame-
ter n immer mit 5 gew¨ahlt. Als Ausgabe erfolgt das Ergebnis der Kreuzvalidie-
rung in % sowie eine Datei die das Model der SVM zur weiteren Verwendung
innerhalb des Programms enth¨alt.

13

Kapitel 3

Ergebnisse

14

Abbildung 3.1: blabla

15

Abbildung 3.2: blabla

16

Abbildung 3.3: blabla

17

Abbildung 3.4: blabla

18

Abbildung 3.5: blabla

19

Abbildung 3.6: blabla

20

Abbildung 3.7: blabla

21

Kapitel 4

Diskussion

22