zoom! zilions of oligos mapped -...
TRANSCRIPT
1
ZOOM!
Zilions Of Oligos Mapped
Janina Biemann
Matrikelnummer: 343823
Westfälische Wilhelms-Universität Münster
Seminar: Biomedical Informatics
Dozenten: Dr. Hans-Ulrich Klein
Prof. Dr. Martin Dugas
Prof. Dr. Xiaoyi Jiang
Betreuer: Christoph Bartenhagen
Abgabe: 21.12.2012
2
Einleitung
Innerhalb der letzten Jahre ist das Interesse an der Analyse und Identifizierung von Genen immer
mehr gestiegen. Mit Hilfe von neuesten Sequenzierungstechniken ist es möglich, ganze
Transkripte zu dekodieren und genetische Karten von ihnen zu erstellen. Auf der Grundlage
dieser neuen Technologie ist es nicht nur möglich, das ganze menschliche Genom zu dekodieren,
sondern auch auf die geringen Unterschiede in den Genen zwischen verschiedenen Individuen
reagieren zu können. Die Abbildung der Genabschnitte durch ihre einzelnen Basenpaare erlaubt
es den Vergleich von gesunden und kranken Genabschnitten zu untersuchen. Durch diesen
Vergleich kann bestimmt werden, ob ein Abschnitt für besondere Krankheiten verantwortlich
sein könnte oder nicht.
Die sogenannten „Next Generation Sequencing Technologies“, also die nächste Generation der
DNA-Sequenzierungstechnologie sind in der Lage, die DNA von Säugetieren schnell und
günstig zu sequenzieren.
Diese Sequenzierungstechnologien nutzen Filterungs-Strategien um die korrekte Position eines
bestimmten Genabschnitts auf einem Referenzgenom zuordnen zu können.
Da immer größerer Datenmengen verarbeitet werden müssen, müssen auch schnellere und
bessere Algorithmen her, die diese Datenmengen verarbeiten können. In dieser Ausarbeitung
wird das Programm ZOOM vorgestellt, welches von der Arbeitsgruppe Lin et al. implementiert
wurde und im August 2008 in der Zeitschrift Bioinformatics publiziert wurde. Heute wird
ZOOM von der Bioinformatics Solutions Inc. vertrieben. ZOOM ist eine Software, die in der
Lage ist die Kartierung von Genabschnitten schnell und bei voller Sensitivität durchzuführen.
ZOOM wird im späteren Verlauf dieser Ausarbeitung basierend auf der Effizienz, der
Schnelligkeit und der Genauigkeit mit anderer Sequenzierungs-Software wie z.B. BLAST,
BLAT, RMAP, Mosaik und ELAND verglichen.
Das ZOOM-Basismodell ist durch ein Paar Erweiterungen auch dazu in der Lage, Indels
(insertions und deletions) zu erlauben und es ist möglich die Kartierungsgenauigkeit an Hand der
Einstufung von Sequenzierungsqualitäten und Pair-End-Daten zu verbessern.
3
Methode
Im Folgenden beziehe ich mich auf das Paper: ZOOM! Zilions Of Oligos Mapped von Lin et al.,
Bioinformatics 2008.
Die Kartierung von reads zu einem Referenzgenom bezieht sich grundlegend darauf, kleinere
reads mit den Nukleotidbasenpaaren des Referenzgenoms abzugleichen, um festzustellen, wo die
korrekte Position des reads liegt. Die Länge der sequenzierten reads kann je nach verwendeter
Software variieren.
Das gewünschte Referenzgenom G wird aus bereits vorhandenen Daten, z.B. aus der Illumina /
Solexa Datenbank, ausgewählt und dient als Vorlage für den Abgleich mit einer großen Menge
von reads R. Ein einzelner read r wird also gegen das Referenzgenom kartiert und das Ziel ist es,
die Zielregion Z auf dem Referenzgenom zu finden. Da z.B. durch Fehler in der Sequenzierung
oder Variationen zwischen den Proben und dem Referenzgenom Fehlstände in den Basenpaaren
entstehen können, wird eine begrenzte Anzahl an Fehlständen f erlaubt, die als Kriterium gilt, ob
ein read eindeutig einer Zielregion zugeordnet werden kann oder nicht. Abbildung 1 zeigt ein
Beispiel der Kartierung, bei der der betrachtete read, bis auf 2 Fehlstände mit dem
Referenzgenom übereinstimmt.
Abb. 1.
Kartierung eines reads
r zu einem Referenz-
genom G, an der
Zielregion Z bei 2
erlaubten Fehlständen
f.
Spaced seeds
Ein read kann auch durch einen binären String der Länge m ausgedrückt werden. Die Positionen,
an denen die Nukleotidbasen übereinstimmen werden mit einer „1“ markiert und die, an denen
4
die Basen nicht übereinstimmen mit einer „0“. Das Gewicht eines Strings wird anhand der
vorhandenen 1´sen errechnet. Bei einem String der Länge 16 mit 13 1´sen erhält man z.B. einen
weight-13-String. [5]
Da nicht immer alle Basenpositionen auf einem read gleich wichtig sind, werden sogenannte
„spaced seeds“ eingeführt. Die spaced seeds wurden erstmals im PatternHunter Paper (Ma et al.,
2002) vorgestellt und im PatternHunter II Paper (Li et al., 2004) optimiert. Ein spaced seed wird
erstellt, indem die verschiedenen Basenpaare als „benötigt“ und „nicht benötigt“ eingeteilt
werden. Dadurch erhält man wieder einen binären String, bei dem dieses Mal die Position der
Nukleotidbase, die mit einer „1“ markiert wird als erforderlich gilt und die Position, die mit einer
„0“ markiert wird als nicht erforderlich gilt. [1,3,5]
Um die Leistung des Programms zu verbessern, hat die Arbeitsgruppe Lin et al. versucht, ein
minimales Set an spaced seeds des Gewichts w zu konstruieren um für eine Region der Länge m
mit f Fehlständen volle Sensitivität zu erreichen. Um diese sogenannte untere Schranke zu finden
waren zwei Einschränkungen nötig:
Das seed Gewicht w sollte nicht zu klein sein, da sonst zu viele falsch Positive auftreten
könnten, die den Kartierungsprozess unnötig verlangsamen könnten
Um so höher das seed Gewicht w ist, um so mehr seeds werden benötigt um volle
Sensitivität zu erreichen. Dies benötigt mehr Speicherplatz und verlangsamt evtl. den
Kartierungsprozess.
Durch diese Einschränkungen war es möglich, eine enge untere Schranke der Anzahl der
benutzten spaced seeds zu finden. LIN(m,f,w) bezeichnet die minimale Anzahl von weight-w-
seeds, die benötigt wird um alle (m,f)-Regionen (also alle Regionen der Länge m mit f
Fehlständen) zu finden. Da die untere Schranke je nach read-Länge und Gewicht variiert, muss
diese Berechnung Fall für Fall durchgeführt werden. Tabelle 1 zeigt die benötigte Anzahl an
spaced seeds bei verschiedenen read-Längen und unterschiedlichem Gewicht. Hier ist klar zu
erkennen, dass die Anzahl der erlaubten Fehlstände erhöht werden muss, wenn die read-Länge
erhöht wird.
5
Tab. 1
Die berechnete Anzahl an
benötigten spaced seeds bei
read-Längen zwischen 25 Bp
und 36 Bp und einem read-
Gewicht zwischen 9 und 16.
ZOOM
ZOOM wurde von der Arbeitsgruppe Lin et al. implementiert und erfasst reads der Illumina /
Solexa 1G Sequenzierungsplattform, welche zu einem Referenzgenom kartiert werden. Der
Schlüssel für die Effizienz und Genauigkeit von ZOOM ist die oben beschriebene spaced seed
Methode. Das Basismodell von ZOOM beruht auf der Erstellung von Hash-Tabellen der
einzelnen spaced seeds. Für gegebene reads, bei denen an der „1“-Position die gleichen
Nukleotidbasen stehen, wird jeweils ein Eintrag in die Hash-Tabelle eingefügt. Diese Einträge
sind sogenannte Hash-Keys nach denen ZOOM das Referenzgenom absucht und sie auf die
verschiedenen Einträge in der Hash-Tabelle einordnet. An folgendem Beispiel ist dieses System
noch einmal verdeutlicht:
Gegeben folgender read der Länge 16: ATGCACGTTACGTAAC
weight-11-seed: 0 1 1 0 1 1 0 1 1 1 0 1 1 1 0 1
Hash-Key: T G A C T T A G T A C
Dieser read wird dann also an der Stelle in der Hash-Tabelle gespeichert, wo TGACTTAGTAC
als Hash-Key gespeichert ist.
Nachdem die Hash-Tabellen der reads erstellt wurden, wird ein Gleitfenster der Größe m
benutzt, um das Referenzgenom zu scannen. Der gleiche Satz von spaced seeds wird auf das
aktuelle Fenster angewandt. Für alle generierten Hash-Keys wird der entsprechende Eintrag aus
der Hash-Tabelle geholt und gegen den Genomabschnitt geprüft. Unter Benutzung geeigneter
spaced seeds verpasst diese Filterungs-Strategie keine wahren Zuordnungen innerhalb der
Fehlstandsschwelle.
6
Die Speichernutzung von ZOOM ist abhängig von der Anzahl der reads, während die Effizienz
davon abhängig ist, wie oft das Referenzgenom abgetastet wird. [4]
Zum ZOOM Basismodell gibt es ein Paar Erweiterungsmodelle, die im Folgenden kurz
vorgestellt werden:
ZOOM-C
ZOOM-C bezieht sich auf die Kartierung der reads mit einem Konfidenzwert. Der
Konfidenzwert wird anhand des sogenannten Basecallingwerts der einzelnen Nukleotidbasen
berechnet. Der Konfidenzwert zeigt die Sequenzierungsqualität der zugehörigen Base eines
reads. Ist der Konfidenzwert hoch, deutet dies eine hohe Sequenzierungsqualität an dieser
Position an, ist der Wert niedrig, eine niedrige.[4] Je nachdem, wie hoch die
Sequenzierungsqualität ist, sind Fehlstände an manchen Positionen schwerwiegender, als an
anderen. An einer Position mit hoher Sequenzierungsqualität ist ein Fehlstand daher weniger
akzeptabel als an einer Position mit niedriger Sequenzierungsqualität. ZOOM-C wird also
Fehlstände an Positionen mit niedriger Sequenzierungsqualität ignorieren, ganz nach dem
Modell von ZOOM, ohne dabei viel Programmeffizienz einzubüßen.
ZOOM-I
ZOOM-I bezieht sich auf die Kartierung der reads unter der Erlaubnis von Indels (insertions und
deletions). ZOOM-I zählt die möglichen Indels auf einem Genom-Segment auf und vergleicht
die mutierten Segmente jeweils mit den read Kandidaten. Da die benutzte Codierung die
Verwendung von bit-Parallelismus beim Vergleich der reads erlaubt, ist dieser Ansatz schneller
als die dynamische Programmierung, wenn die Anzahl der Indels begrenzt ist.
ZOOM-P
ZOOM-P bezieht sich auf die Kartierung mit Pair-End Informationen. Anhand von Pair-End
Informationen ist es einfacher, zum Beispiel Genomumlagerungen und Strukturvariationen zu
finden. ZOOM-P funktioniert nach dem System, dass es die beiden Enden eines
Sequenzabschnitts sequenziert und die dadurch produzierten reads miteinander gepaart werden.
Hier gibt es zwei wichtige Kriterien, die erfüllt sein müssen:
7
Zum einen müssen die reads auf der gleichen Richtung des Referenzgenoms angeordnet
sein.
Zum anderen müssen sie innerhalb des gleichen Entfernungsbereichs liegen (abhängig
von der jeweiligen Sequenzierungstechnologie). [4]
Diese Paarungseinschränkungen helfen dabei, die richtige Position auf dem Referenzgenom zu
finden und reduzieren die Möglichkeit der Zuordnung auf einer zufälligen Position. Nur wenn
die beiden Kriterien eingehalten werden und die Kartierungsdistanz zwischen den beiden Pair-
End-reads innerhalb eines bestimmten Limits liegt, wird diese Kartierungsinformation
gesammelt, ist dies nicht der Fall, werden die gewonnenen Informationen wieder verworfen.
Indels sind bei ZOOM-P auf beiden reads erlaubt.
Ergebnisse
Daten
Im Folgenden beziehe ich mich auf die Daten und die Ergebnisse aus dem Paper: ZOOM!
Zilions Of Oligos Mapped von Lin et al., Bioinformatics 2008.
Bevor es zur Auswertung der Ergebnisse geht, ist es wichtig zu erfahren, mit welchen Daten in
der Studie gearbeitet wurde.
Um die Effizienz und die Genauigeit von ZOOM zu testen, wurden erst experimentelle, reale
Datensätze benutzt und später dann größere Mengen an simulierten Daten.
Verwendete Echtdatensätze:
1. Der BAC-Datensatz, generiert durch Illumina / Solexa 1G am CSHL genome center.
Die zwei Proben der BAC´s decken 162kb Sequenzabschnitte innerhalb der MHC-Region ab.
Insgesamt sind es 3.415.291 reads der Länge 36.
8
Die folgenden drei Zielregionen wurden als Referenzgenom genutzt:
MHC-162kb
Das menschliche Chromosom 6
Alle menschlichen Chromosomen
2. Der ChIP-Seq transcription Datensatz, generiert durch STAT1 ChIP´s unter Benutzung von
mit Gamma-Interferon stimulierten und unstimulierten Hela 3S Zellen. Die Anzahl der
stimulierten reads ist 23.980.365 der Länge 27 und die Anzahl der unstimulierten reads ist
22.175.585 der Länge 27.
Als Referenzgenom wurden alle menschlichen hg18 Chromosomen verwendet.
Simulierte Datensätze:
Um unter Beweis zu stellen, dass ZOOM auch große Datenmengen effizient verarbeiten kann,
wurden Experimente an groß angelegten simulierten Datensätzen durchgeführt. Hierzu wurden
folgende drei Sätze an simulierten Daten generiert und zu großen Referenzgenomen kartiert:
chr6.2X.e2: das menschliche Chromosom 6 (Version hg18) wurde nach dem
Zufallsprinzip mit reads einer Länge von 36 Basenpaaren abgetastet. In jedem read
wurden zwei zufällige Nukleotidbasen ausgewählt und mit gleicher Wahrscheinlichkeit
zu einer der vier Nukleotidbasen mutiert. Insgesamt wurden 9.494.444 reads generiert,
die das Chromosom 6 2-fach abdecken.
chr6.5X.e2: Ähnlich wie bei chr6.2X.e2 mit dem Unterschied der 5-fachen Abdeckung
von Chromosom 6. Hier wurden 23.736.110 reads generiert.
all.0.2X.e2: Ähnlich wie bei den anderen beiden Datensätzen, wurden hier 15.931.849
reads generiert und mit 2 erlaubten Fehlständen zufällig auf den menschlichen
Chromosomen 1-22 abgetastet, bei Bildung der 0,2-fachen Abdeckung des gesamten
menschlichen Genoms.
9
Ergebnisse – simulierte Datensätze:
Anhand dieser simulierten Daten konnte bewiesen werden, wie gut ZOOM skaliert.
In Tabelle 2 ist zu sehen wie viel Zeit es für ZOOM in Anspruch nimmt, die verschiedenen
Datensätze zu kartieren. Hierbei spielen vorallem die Genomgröße und die verschieden hohe
Anzahl an reads eine zentrale Rolle. Es ist eindeutig zu sehen, dass die Kartierung auf das
gesamte menschliche Genom essentiell länger dauert, als die Kartierung auf Chromosom 6. Dies
lässt sich aber einfach auf die Größe des Genoms zurückführen. Um die reads von Chromosom 6
bei 5-facher Abdeckung wieder auf Chromosom 6 zurück zu kartieren, braucht ZOOM nicht
einmal 18 Minuten.
Tab. 2
Die Effizienz von ZOOM wurde auf
simulierten Datensätzen verschiedener
Genomgrößen und Anzahl getesteter
reads überprüft.
Die Zeit ist in folgendem Format
angegeben: hh:mm:ss.
Ergebnisse – Experimentelle, reale Datensätze:
Anhand der experimentellen, realen Datensätzen wurde ZOOM mit anderen Programmen
verglichen. Hauptsächlich ging es darum den Vergleich der Programme im Bereich der
Effizienz, der Genauigkeit und der Abdeckung zu ziehen.
Effizienz:
Die Geschwindigkeit von ZOOM wurde mit der Geschwindigkeit von BLAST, BLAT, RMAP
und Mosaik verglichen. Hierzu wurde der BAC-Datensatz herangezogen. Tabelle 3 zeigt die
Zeit, die gebraucht wurde, um den BAC-Datensatz gegen drei verschiedene Referenzgenome zu
kartieren unter der Erlaubnis von zwei Fehlständen. Es wird ebenfalls die Speichernutzung der
10
Programme bei der Kartierung gezeigt. Tabelle 3 zeigt den eindeutigen Geschwindigkeitsvorteil
von ZOOM gegenüber der anderen Programme.
Tab. 3 Vergleich der Effizienz von ZOOM mit BLAST, BLAT, RMAP und Mosaik unter Verwendung des BAC-
Datensatzes auf drei verschiedenen Referenzgenomen. Die Zeit ist in folgendem Format angegeben: hh:mm:ss.
Desweiteren wurde ZOOM auch mit dem Programm ELAND auf Effizienz verglichen. ELAND
war die bisher effektivste bekannte Software für das Kartieren von reads einer Länge zwischen
15 und 32 Basenpaaren. Da ELAND nur reads der Länge von 15 bis 32 Basenpaaren bearbeiten
kann, wurden in diesem Vergleich alle reads auf eine feste Länge geschnitten und unter
Erlaubnis von 2 Fehlständen zum menschlichen Chromosom 6 kartiert. Abbildung 2 zeigt die
Zeit, die ZOOM und ELAND bei verschiedenen read-Längen für die Kartierung brauchen. Hier
ist ein klarer Geschwindigkeitsvorteil von ZOOM zu vermerken, egal bei welcher der read-
Längen.
Abb. 2
ZOOM und ELAND im Vergleich
der Geschwindigkeiten bei der
Kartierung vom BAC-Datensatz
zum Referenzgenom Chromosom 6
unter Erlaubnis von 2 Fehlständen,
bei unterschiedlicher Länge der
Basenpaaren zwischen 15 und 32
Bp.
11
ELAND und ZOOM wurden auch anhand der Daten aus dem ChIP-Seq.-Datensatz miteinander
verglichen. Da ELAND mit der Größe mancher Datensätze Probleme hat, mussten die Daten aus
dem ChIP-Seq.-Datensatz in zwei Teile geteilt werden, bevor sie kartiert werden konnten.
Tabelle 4 zeigt die benötigte Zeit, die ELAND und ZOOM gebraucht haben, um die beiden
ChIP-Seq.-Datensätze zu kartieren. Dabei ist anzumerken, dass ZOOM keine Probleme damit
hat, die Datensätze komplett zu kartieren. Aus diesem Grund zeigt die Tabelle einmal die
geteilten Datensätze für den Durchlauf in beiden Programmen und einmal die kompletten von
ZOOM kartierten Datensätze. Auch hier ist ZOOM sowohl bei den geteilten Datensätzen, als
auch bei der Kartierung der kompletten Datensätze schneller als ELAND. Die Resultate zeigen
eindeutig, dass es viel Zeit sparen kann, wenn der komplette Datensatz in einem Durchlauf
kartiert wird, anstatt diesen zu teilen.
Tab. 4
Vergleich der Effizienz bei der Kartierung zwei
geteilter ChIP-Seq.-Datensätze mit ZOOM und
ELAND. „All“ zeigt die Kartie-rung der kompletten
Datensätze durch ZOOM.
Die Zeit ist in folgendem Format angegeben:
hh:mm:ss.
Genauigkeit / Sensitivität:
Um die Sensitivität von ZOOM zu testen wurde das Programm SSearch verwendet. Es wurden
wieder die reads der BAC-Daten zur Referenz-Region 162kb-MHC kartiert um herauszufinden,
wie ZOOM mit mehr als 2 Fehlständen und Indels umgehen kann. Das beste Alignmentresultat
mit dem besten Ergebnis für jeden read wurde als Kontrollsatz benutzt und nach dessen Distanz
gruppiert. Die Sensitivität wird nun ermittelt, indem die verwendeten spaced seeds als
Prozentsatz der Alignmentergebnisse innerhalb des Kontrollsatzes ausgewertet werden.
12
Abbildung 3 zeigt die Auswertung der Sensitivität unter Distanzen von 1 bis 5. Folgende spaced
seed wurden verwendet:
s33.w13.r2: Standard seed mit 4 seeds, bei einer read-Länge von 33 und 2 Fehlständen.
s33.w11.r3: Set von 13 seeds, bei einer read-Länge von 33 und 3 erlaubten Fehlständen.
s36.opt: der optimierte spaced seed 1101111011111 um jede Position des reads hashen
zu können.
Auf Abbildung 3 ist zu erkennen, dass sowohl s33.w11.r3 und s36.opt volle Sensitivität für 3
Fehlstände haben. Ist also hohe Sensitivität erwünscht, sollten diese gewählt werden. Der
standard seed s33.w13.r2 liefert immer noch eine ausreichende Sensitivität, selbst wenn die
Distanz höher als 2 ist und Indels vorhanden sind. Der standard seed hat jedoch einen
erheblichen Geschwindigkeitsvorteil gegenüber der beiden anderen.
Eine Frage, die sich die Arbeitsgruppe Lin et al. gestellt hat ist, ob die Möglichkeit besteht, die
gleiche Leistung wie bei s33.w13.r2 mit 4 seeds stattdessen mit 4 zufälligen Projektionen zu
erlangen. Rand.proj.13x4 ist eine solche zufällige Projektion, bei der aber auf Abbildung 3 direkt
sichtbar ist, dass die Sensitivität weitaus schlechter ist als bei s33.w13.r2. Wie auf Abbildung 3
zu erkennen ist, braucht man rand.proj.13x15, welches 15 Projektionen enthält, um überhaupt
ähnliche Sensitivität gewährleisten zu können. Anhand von Abbildung 3 ist klar zu erkennen,
dass verbesserte seeds schneller zu einem besseren Ergebnis führen.
Abb. 3
Sensitivität von verschiedenen seed-
Methoden und zufälligen Projektionen
bei unterschiedlicher Editierungs-
distanz. Reads aus den BAC-Daten
wurden gegen die Referenz-Region auf
162kb-MHC alignt.
13
Abdeckung:
Es wurden 4 Modelle benutzt um den Abdeckungsgrad zu ermitteln.
ELAND.25: Betrachtung der ersten 25 Basenpaare von jedem read während des
Kartierungsschritts. Benutztes Programm: ELAND.
ELAND.32: Betrachtung der ersten 32 Basenpaare von jedem read während des
Kartierungsschritts. Benutztes Programm: ELAND.
ZOOM.m4: s33.w13.r2 Seed Set von ZOOM, bei 4 erlaubten Fehlständen.
ZOOMC12.m4: s33.w13.r2 Seed Set von ZOOM, bei 4 erlaubten Fehlständen auf
Positionen mit einer Sequenzierungsqualität von mindestens 12.
Abdeckungsgrad:
Um den Abdeckungsgrad zu ermitteln, wurden die BAC-Daten auf das menschliche Chromosom
6 kartiert und bewertet. Es wurden nur die reads rausgesucht und gezählt, die eindeutig in der
162kb MHC Referenz-Region von Chromosom 6 kartiert werden konnten, allerdings nur in dem
Fall, wo weniger Fehlstände an der Stelle waren, als an anderen Stellen auf Chromosom 6. Die
Abdeckung steht für die Anzahl der eindeutig kartierten reads an einer bestimmten Position auf
162kb MHC. Abbildung 4 zeigt die Abdeckungskurve für die vier oben genannten Modelle. Hier
ist auch klar zu erkennen, dass ZOOM-C12.m4 die höchste durchschnittliche Abdeckung
erreicht.
Abb. 4
Abdeckungskurve von 4 Modellen
für die 162kb MHC Referenz-
Region. Für jeden Überdeckungs-
wert wird die Anzahl der Posi-
tionen mit diesem Deckungsgrad
gezählt.
14
Kumulierter Abdeckungsgrad:
Die kumulierte Abdeckung steht für die Anzahl der Positionen mit einer Abdeckung von nicht
weniger als einer bestimmten Abdeckungs-Schwelle. Abbildung 5 zeigt die kumulierte
Abdeckungskurve der vier Modelle. Auch hier ist zu erkennen, dass ZOOM-C12.m4 die höchste
kumulierte Abdeckung erreicht.
Abb. 5
Kumulierte Abdeckungskurve von 4
Modellen für die 162kb MHC
Referenz-Region. Für jede
Abdeckungs-Schwelle wird die
Anzahl der Positionen gezählt, deren
Abdeckungsgrad mindestens die
Abdeckungs-Schwelle hat.
Abbildung 4 und 5 lassen zwei Deutungen zu:
Zulassung mehrerer Fehlstände bei höherer Read-Länge (ZOOM) und
Einbeziehung von sequenzierungs Qualitätswerten (ZOOM-C)
könnten die Kartierungsqualität verbessern.
Diskussion und Fazit
Da es in der Sequenzierung von Genen um erhebliche Datenmengen geht, sind die Anfor-
derungen an die Sequenzierungstechniken sehr hoch. Durch immer bessere Algorithmen können
diese Anforderungen erfüllt und verbessert werden. Um die Sequenzierungsdaten analysieren zu
15
können, müssen reads zu einem Referenzgenom kartiert werden. Hierbei sind wenige Fehlstände
erlaubt. Diese Aufgaben übernehmen spezielle Sequenzierungs-Softwares.
Diese Ausarbeitung bezieht sich im Wesentlichen auf das Paper: ZOOM! Zilions Of Oligos
Mapped von Lin et al., Bioinformatics 2008. Es wurde das Programm ZOOM vorgestellt,
welches vorhandene reads zu einem Referenzgenom kartiert. ZOOM kann sowohl reale,
experimentelle Daten verarbeiten, als auch große Mengen an simulierten Daten. Es wurde von
der Arbeitsgruppe Lin et al. implementiert und im späteren Verlauf noch um einige Funktionen
erweitert. Diese Erweiterungen beinhalteten die Kartierung mit einer bestimmten
Sequenzierungsqualität, die Kartierung unter Erlaubnis von Indels und die Kartierung von reads
mit Pair-End Informationen.
Das Basismodell von ZOOM basiert auf der Einteilung der reads auf Hash-Tabellen und der
Zuordnung von sogenannten Hash-Keys. ZOOM nutzt die spaced seed Methode um
verschiedene seeds auf verschiedenen Potisitionen zu entwerfen. Die Arbeitsgruppe um Lin et al.
hat die spaced seed Methode so weit optimiert, dass sie eine untere Schranke von weight-w-
seeds gefunden haben, die benötigt wird um alle (m,f)-Regionen bei 100% Sensitivität finden zu
können. Durch die Erstellung von optimalen seeds hat ZOOM für weniger Speicherverbrauch
und weniger Treffer gesorgt. Dadurch ist die Verarbeitungsgeschwindigkeit natürlich auch
erheblich gestiegen.
ZOOM wurde im späteren Verlauf der Ausarbeitung mit anderen Sequenzierungsprogrammen
wie z.B. BLAST, BLAT, RMAP, ELAND und Mosaik verglichen und es wurde gezeigt, dass
ZOOM sowohl in der Effizienz, als auch in der Genauigkeit vor den anderen gestesteten
Programmen liegt. Was ZOOM vorallem aus den anderen Sequenzierungsprogrammen
herausstechen lässt ist die volle Sensitivität die beim Kartieren der reads gewährleistet werden
kann.
Das Ziel von ZOOM und anderen Sequenzierungsprogrammen ist es, die Wissenschaft im
Bereich Medizin und Forschung in der Zukunft so weit zu verbessern, dass es schneller geht,
mögliche Krankheiten zu entdecken und bekämpfen zu können.
Die Algorithmen, die verwendet werden, um große Datenmengen zu verarbeiten wurden im
Laufe der Zeit immer mehr optimiert. Es wird auch in Zukunft im Sinne der Forschung und der
16
Wissenschaft sein, effizientere und kostengünstigere Programme zu entwickelt, die möglichst
schnell möglichst viele Daten verarbeiten können. ZOOM ist Teil dieser Entwicklung.
17
Quellenangaben
[1] Ma B, Tromp J, Li M.; PatternHunter: faster and more sensitive homology search.;
Bioinformatics 2002 Mar;18(3):440-5.
[2] Hao Lin, Zefeng Zhang, Michael Q. Zhang, Bin Ma, and Ming Li.; ZOOM! Zillions of
Oligos Mapped.; Bioinformatics 2008; 24(21):2431-2437
[3] Li M., Ma B., Kisman D., Tromp J.; Patternhunter II: highly sensitive and fast homology
search.; J Bioinform Comput Biol. 2004 Sep;2(3):417-39.
[4] ZOOM User’s Manual, Command Line Version; © Bioinformatics Solutions Inc. 470 Weber St. N.
Suite 204 Waterloo, Ontario, Canada N2L 6J2
[5] http://www.bioinfor.com/ph/general/method.html (15.12.2012 - 18:45)