zoom! zilions of oligos mapped -...

1

ZOOM!

Zilions Of Oligos Mapped

Janina Biemann

Matrikelnummer: 343823

Westfälische Wilhelms-Universität Münster

Seminar: Biomedical Informatics

Dozenten: Dr. Hans-Ulrich Klein

Prof. Dr. Martin Dugas

Prof. Dr. Xiaoyi Jiang

Betreuer: Christoph Bartenhagen

Abgabe: 21.12.2012

2

Einleitung

Innerhalb der letzten Jahre ist das Interesse an der Analyse und Identifizierung von Genen immer

mehr gestiegen. Mit Hilfe von neuesten Sequenzierungstechniken ist es möglich, ganze

Transkripte zu dekodieren und genetische Karten von ihnen zu erstellen. Auf der Grundlage

dieser neuen Technologie ist es nicht nur möglich, das ganze menschliche Genom zu dekodieren,

sondern auch auf die geringen Unterschiede in den Genen zwischen verschiedenen Individuen

reagieren zu können. Die Abbildung der Genabschnitte durch ihre einzelnen Basenpaare erlaubt

es den Vergleich von gesunden und kranken Genabschnitten zu untersuchen. Durch diesen

Vergleich kann bestimmt werden, ob ein Abschnitt für besondere Krankheiten verantwortlich

sein könnte oder nicht.

Die sogenannten „Next Generation Sequencing Technologies“, also die nächste Generation der

DNA-Sequenzierungstechnologie sind in der Lage, die DNA von Säugetieren schnell und

günstig zu sequenzieren.

Diese Sequenzierungstechnologien nutzen Filterungs-Strategien um die korrekte Position eines

bestimmten Genabschnitts auf einem Referenzgenom zuordnen zu können.

Da immer größerer Datenmengen verarbeitet werden müssen, müssen auch schnellere und

bessere Algorithmen her, die diese Datenmengen verarbeiten können. In dieser Ausarbeitung

wird das Programm ZOOM vorgestellt, welches von der Arbeitsgruppe Lin et al. implementiert

wurde und im August 2008 in der Zeitschrift Bioinformatics publiziert wurde. Heute wird

ZOOM von der Bioinformatics Solutions Inc. vertrieben. ZOOM ist eine Software, die in der

Lage ist die Kartierung von Genabschnitten schnell und bei voller Sensitivität durchzuführen.

ZOOM wird im späteren Verlauf dieser Ausarbeitung basierend auf der Effizienz, der

Schnelligkeit und der Genauigkeit mit anderer Sequenzierungs-Software wie z.B. BLAST,

BLAT, RMAP, Mosaik und ELAND verglichen.

Das ZOOM-Basismodell ist durch ein Paar Erweiterungen auch dazu in der Lage, Indels

(insertions und deletions) zu erlauben und es ist möglich die Kartierungsgenauigkeit an Hand der

Einstufung von Sequenzierungsqualitäten und Pair-End-Daten zu verbessern.

3

Methode

Im Folgenden beziehe ich mich auf das Paper: ZOOM! Zilions Of Oligos Mapped von Lin et al.,

Bioinformatics 2008.

Die Kartierung von reads zu einem Referenzgenom bezieht sich grundlegend darauf, kleinere

reads mit den Nukleotidbasenpaaren des Referenzgenoms abzugleichen, um festzustellen, wo die

korrekte Position des reads liegt. Die Länge der sequenzierten reads kann je nach verwendeter

Software variieren.

Das gewünschte Referenzgenom G wird aus bereits vorhandenen Daten, z.B. aus der Illumina /

Solexa Datenbank, ausgewählt und dient als Vorlage für den Abgleich mit einer großen Menge

von reads R. Ein einzelner read r wird also gegen das Referenzgenom kartiert und das Ziel ist es,

die Zielregion Z auf dem Referenzgenom zu finden. Da z.B. durch Fehler in der Sequenzierung

oder Variationen zwischen den Proben und dem Referenzgenom Fehlstände in den Basenpaaren

entstehen können, wird eine begrenzte Anzahl an Fehlständen f erlaubt, die als Kriterium gilt, ob

ein read eindeutig einer Zielregion zugeordnet werden kann oder nicht. Abbildung 1 zeigt ein

Beispiel der Kartierung, bei der der betrachtete read, bis auf 2 Fehlstände mit dem

Referenzgenom übereinstimmt.

Abb. 1.

Kartierung eines reads

r zu einem Referenz-

genom G, an der

Zielregion Z bei 2

erlaubten Fehlständen

f.

Spaced seeds

Ein read kann auch durch einen binären String der Länge m ausgedrückt werden. Die Positionen,

an denen die Nukleotidbasen übereinstimmen werden mit einer „1“ markiert und die, an denen

4

die Basen nicht übereinstimmen mit einer „0“. Das Gewicht eines Strings wird anhand der

vorhandenen 1´sen errechnet. Bei einem String der Länge 16 mit 13 1´sen erhält man z.B. einen

weight-13-String. [5]

Da nicht immer alle Basenpositionen auf einem read gleich wichtig sind, werden sogenannte

„spaced seeds“ eingeführt. Die spaced seeds wurden erstmals im PatternHunter Paper (Ma et al.,

2002) vorgestellt und im PatternHunter II Paper (Li et al., 2004) optimiert. Ein spaced seed wird

erstellt, indem die verschiedenen Basenpaare als „benötigt“ und „nicht benötigt“ eingeteilt

werden. Dadurch erhält man wieder einen binären String, bei dem dieses Mal die Position der

Nukleotidbase, die mit einer „1“ markiert wird als erforderlich gilt und die Position, die mit einer

„0“ markiert wird als nicht erforderlich gilt. [1,3,5]

Um die Leistung des Programms zu verbessern, hat die Arbeitsgruppe Lin et al. versucht, ein

minimales Set an spaced seeds des Gewichts w zu konstruieren um für eine Region der Länge m

mit f Fehlständen volle Sensitivität zu erreichen. Um diese sogenannte untere Schranke zu finden

waren zwei Einschränkungen nötig:

Das seed Gewicht w sollte nicht zu klein sein, da sonst zu viele falsch Positive auftreten

könnten, die den Kartierungsprozess unnötig verlangsamen könnten

Um so höher das seed Gewicht w ist, um so mehr seeds werden benötigt um volle

Sensitivität zu erreichen. Dies benötigt mehr Speicherplatz und verlangsamt evtl. den

Kartierungsprozess.

Durch diese Einschränkungen war es möglich, eine enge untere Schranke der Anzahl der

benutzten spaced seeds zu finden. LIN(m,f,w) bezeichnet die minimale Anzahl von weight-w-

seeds, die benötigt wird um alle (m,f)-Regionen (also alle Regionen der Länge m mit f

Fehlständen) zu finden. Da die untere Schranke je nach read-Länge und Gewicht variiert, muss

diese Berechnung Fall für Fall durchgeführt werden. Tabelle 1 zeigt die benötigte Anzahl an

spaced seeds bei verschiedenen read-Längen und unterschiedlichem Gewicht. Hier ist klar zu

erkennen, dass die Anzahl der erlaubten Fehlstände erhöht werden muss, wenn die read-Länge

erhöht wird.

5

Tab. 1

Die berechnete Anzahl an

benötigten spaced seeds bei

read-Längen zwischen 25 Bp

und 36 Bp und einem read-

Gewicht zwischen 9 und 16.

ZOOM

ZOOM wurde von der Arbeitsgruppe Lin et al. implementiert und erfasst reads der Illumina /

Solexa 1G Sequenzierungsplattform, welche zu einem Referenzgenom kartiert werden. Der

Schlüssel für die Effizienz und Genauigkeit von ZOOM ist die oben beschriebene spaced seed

Methode. Das Basismodell von ZOOM beruht auf der Erstellung von Hash-Tabellen der

einzelnen spaced seeds. Für gegebene reads, bei denen an der „1“-Position die gleichen

Nukleotidbasen stehen, wird jeweils ein Eintrag in die Hash-Tabelle eingefügt. Diese Einträge

sind sogenannte Hash-Keys nach denen ZOOM das Referenzgenom absucht und sie auf die

verschiedenen Einträge in der Hash-Tabelle einordnet. An folgendem Beispiel ist dieses System

noch einmal verdeutlicht:

Gegeben folgender read der Länge 16: ATGCACGTTACGTAAC

weight-11-seed: 0 1 1 0 1 1 0 1 1 1 0 1 1 1 0 1

Hash-Key: T G A C T T A G T A C

Dieser read wird dann also an der Stelle in der Hash-Tabelle gespeichert, wo TGACTTAGTAC

als Hash-Key gespeichert ist.

Nachdem die Hash-Tabellen der reads erstellt wurden, wird ein Gleitfenster der Größe m

benutzt, um das Referenzgenom zu scannen. Der gleiche Satz von spaced seeds wird auf das

aktuelle Fenster angewandt. Für alle generierten Hash-Keys wird der entsprechende Eintrag aus

der Hash-Tabelle geholt und gegen den Genomabschnitt geprüft. Unter Benutzung geeigneter

spaced seeds verpasst diese Filterungs-Strategie keine wahren Zuordnungen innerhalb der

Fehlstandsschwelle.

6

Die Speichernutzung von ZOOM ist abhängig von der Anzahl der reads, während die Effizienz

davon abhängig ist, wie oft das Referenzgenom abgetastet wird. [4]

Zum ZOOM Basismodell gibt es ein Paar Erweiterungsmodelle, die im Folgenden kurz

vorgestellt werden:

ZOOM-C

ZOOM-C bezieht sich auf die Kartierung der reads mit einem Konfidenzwert. Der

Konfidenzwert wird anhand des sogenannten Basecallingwerts der einzelnen Nukleotidbasen

berechnet. Der Konfidenzwert zeigt die Sequenzierungsqualität der zugehörigen Base eines

reads. Ist der Konfidenzwert hoch, deutet dies eine hohe Sequenzierungsqualität an dieser

Position an, ist der Wert niedrig, eine niedrige.[4] Je nachdem, wie hoch die

Sequenzierungsqualität ist, sind Fehlstände an manchen Positionen schwerwiegender, als an

anderen. An einer Position mit hoher Sequenzierungsqualität ist ein Fehlstand daher weniger

akzeptabel als an einer Position mit niedriger Sequenzierungsqualität. ZOOM-C wird also

Fehlstände an Positionen mit niedriger Sequenzierungsqualität ignorieren, ganz nach dem

Modell von ZOOM, ohne dabei viel Programmeffizienz einzubüßen.

ZOOM-I

ZOOM-I bezieht sich auf die Kartierung der reads unter der Erlaubnis von Indels (insertions und

deletions). ZOOM-I zählt die möglichen Indels auf einem Genom-Segment auf und vergleicht

die mutierten Segmente jeweils mit den read Kandidaten. Da die benutzte Codierung die

Verwendung von bit-Parallelismus beim Vergleich der reads erlaubt, ist dieser Ansatz schneller

als die dynamische Programmierung, wenn die Anzahl der Indels begrenzt ist.

ZOOM-P

ZOOM-P bezieht sich auf die Kartierung mit Pair-End Informationen. Anhand von Pair-End

Informationen ist es einfacher, zum Beispiel Genomumlagerungen und Strukturvariationen zu

finden. ZOOM-P funktioniert nach dem System, dass es die beiden Enden eines

Sequenzabschnitts sequenziert und die dadurch produzierten reads miteinander gepaart werden.

Hier gibt es zwei wichtige Kriterien, die erfüllt sein müssen:

7

Zum einen müssen die reads auf der gleichen Richtung des Referenzgenoms angeordnet

sein.

Zum anderen müssen sie innerhalb des gleichen Entfernungsbereichs liegen (abhängig

von der jeweiligen Sequenzierungstechnologie). [4]

Diese Paarungseinschränkungen helfen dabei, die richtige Position auf dem Referenzgenom zu

finden und reduzieren die Möglichkeit der Zuordnung auf einer zufälligen Position. Nur wenn

die beiden Kriterien eingehalten werden und die Kartierungsdistanz zwischen den beiden Pair-

End-reads innerhalb eines bestimmten Limits liegt, wird diese Kartierungsinformation

gesammelt, ist dies nicht der Fall, werden die gewonnenen Informationen wieder verworfen.

Indels sind bei ZOOM-P auf beiden reads erlaubt.

Ergebnisse

Daten

Im Folgenden beziehe ich mich auf die Daten und die Ergebnisse aus dem Paper: ZOOM!

Zilions Of Oligos Mapped von Lin et al., Bioinformatics 2008.

Bevor es zur Auswertung der Ergebnisse geht, ist es wichtig zu erfahren, mit welchen Daten in

der Studie gearbeitet wurde.

Um die Effizienz und die Genauigeit von ZOOM zu testen, wurden erst experimentelle, reale

Datensätze benutzt und später dann größere Mengen an simulierten Daten.

Verwendete Echtdatensätze:

1. Der BAC-Datensatz, generiert durch Illumina / Solexa 1G am CSHL genome center.

Die zwei Proben der BAC´s decken 162kb Sequenzabschnitte innerhalb der MHC-Region ab.

Insgesamt sind es 3.415.291 reads der Länge 36.

8

Die folgenden drei Zielregionen wurden als Referenzgenom genutzt:

MHC-162kb

Das menschliche Chromosom 6

Alle menschlichen Chromosomen

2. Der ChIP-Seq transcription Datensatz, generiert durch STAT1 ChIP´s unter Benutzung von

mit Gamma-Interferon stimulierten und unstimulierten Hela 3S Zellen. Die Anzahl der

stimulierten reads ist 23.980.365 der Länge 27 und die Anzahl der unstimulierten reads ist

22.175.585 der Länge 27.

Als Referenzgenom wurden alle menschlichen hg18 Chromosomen verwendet.

Simulierte Datensätze:

Um unter Beweis zu stellen, dass ZOOM auch große Datenmengen effizient verarbeiten kann,

wurden Experimente an groß angelegten simulierten Datensätzen durchgeführt. Hierzu wurden

folgende drei Sätze an simulierten Daten generiert und zu großen Referenzgenomen kartiert:

chr6.2X.e2: das menschliche Chromosom 6 (Version hg18) wurde nach dem

Zufallsprinzip mit reads einer Länge von 36 Basenpaaren abgetastet. In jedem read

wurden zwei zufällige Nukleotidbasen ausgewählt und mit gleicher Wahrscheinlichkeit

zu einer der vier Nukleotidbasen mutiert. Insgesamt wurden 9.494.444 reads generiert,

die das Chromosom 6 2-fach abdecken.

chr6.5X.e2: Ähnlich wie bei chr6.2X.e2 mit dem Unterschied der 5-fachen Abdeckung

von Chromosom 6. Hier wurden 23.736.110 reads generiert.

all.0.2X.e2: Ähnlich wie bei den anderen beiden Datensätzen, wurden hier 15.931.849

reads generiert und mit 2 erlaubten Fehlständen zufällig auf den menschlichen

Chromosomen 1-22 abgetastet, bei Bildung der 0,2-fachen Abdeckung des gesamten

menschlichen Genoms.

9

Ergebnisse – simulierte Datensätze:

Anhand dieser simulierten Daten konnte bewiesen werden, wie gut ZOOM skaliert.

In Tabelle 2 ist zu sehen wie viel Zeit es für ZOOM in Anspruch nimmt, die verschiedenen

Datensätze zu kartieren. Hierbei spielen vorallem die Genomgröße und die verschieden hohe

Anzahl an reads eine zentrale Rolle. Es ist eindeutig zu sehen, dass die Kartierung auf das

gesamte menschliche Genom essentiell länger dauert, als die Kartierung auf Chromosom 6. Dies

lässt sich aber einfach auf die Größe des Genoms zurückführen. Um die reads von Chromosom 6

bei 5-facher Abdeckung wieder auf Chromosom 6 zurück zu kartieren, braucht ZOOM nicht

einmal 18 Minuten.

Tab. 2

Die Effizienz von ZOOM wurde auf

simulierten Datensätzen verschiedener

Genomgrößen und Anzahl getesteter

reads überprüft.

Die Zeit ist in folgendem Format

angegeben: hh:mm:ss.

Ergebnisse – Experimentelle, reale Datensätze:

Anhand der experimentellen, realen Datensätzen wurde ZOOM mit anderen Programmen

verglichen. Hauptsächlich ging es darum den Vergleich der Programme im Bereich der

Effizienz, der Genauigkeit und der Abdeckung zu ziehen.

Effizienz:

Die Geschwindigkeit von ZOOM wurde mit der Geschwindigkeit von BLAST, BLAT, RMAP

und Mosaik verglichen. Hierzu wurde der BAC-Datensatz herangezogen. Tabelle 3 zeigt die

Zeit, die gebraucht wurde, um den BAC-Datensatz gegen drei verschiedene Referenzgenome zu

kartieren unter der Erlaubnis von zwei Fehlständen. Es wird ebenfalls die Speichernutzung der

10

Programme bei der Kartierung gezeigt. Tabelle 3 zeigt den eindeutigen Geschwindigkeitsvorteil

von ZOOM gegenüber der anderen Programme.

Tab. 3 Vergleich der Effizienz von ZOOM mit BLAST, BLAT, RMAP und Mosaik unter Verwendung des BAC-

Datensatzes auf drei verschiedenen Referenzgenomen. Die Zeit ist in folgendem Format angegeben: hh:mm:ss.

Desweiteren wurde ZOOM auch mit dem Programm ELAND auf Effizienz verglichen. ELAND

war die bisher effektivste bekannte Software für das Kartieren von reads einer Länge zwischen

15 und 32 Basenpaaren. Da ELAND nur reads der Länge von 15 bis 32 Basenpaaren bearbeiten

kann, wurden in diesem Vergleich alle reads auf eine feste Länge geschnitten und unter

Erlaubnis von 2 Fehlständen zum menschlichen Chromosom 6 kartiert. Abbildung 2 zeigt die

Zeit, die ZOOM und ELAND bei verschiedenen read-Längen für die Kartierung brauchen. Hier

ist ein klarer Geschwindigkeitsvorteil von ZOOM zu vermerken, egal bei welcher der read-

Längen.

Abb. 2

ZOOM und ELAND im Vergleich

der Geschwindigkeiten bei der

Kartierung vom BAC-Datensatz

zum Referenzgenom Chromosom 6

unter Erlaubnis von 2 Fehlständen,

bei unterschiedlicher Länge der

Basenpaaren zwischen 15 und 32

Bp.

11

ELAND und ZOOM wurden auch anhand der Daten aus dem ChIP-Seq.-Datensatz miteinander

verglichen. Da ELAND mit der Größe mancher Datensätze Probleme hat, mussten die Daten aus

dem ChIP-Seq.-Datensatz in zwei Teile geteilt werden, bevor sie kartiert werden konnten.

Tabelle 4 zeigt die benötigte Zeit, die ELAND und ZOOM gebraucht haben, um die beiden

ChIP-Seq.-Datensätze zu kartieren. Dabei ist anzumerken, dass ZOOM keine Probleme damit

hat, die Datensätze komplett zu kartieren. Aus diesem Grund zeigt die Tabelle einmal die

geteilten Datensätze für den Durchlauf in beiden Programmen und einmal die kompletten von

ZOOM kartierten Datensätze. Auch hier ist ZOOM sowohl bei den geteilten Datensätzen, als

auch bei der Kartierung der kompletten Datensätze schneller als ELAND. Die Resultate zeigen

eindeutig, dass es viel Zeit sparen kann, wenn der komplette Datensatz in einem Durchlauf

kartiert wird, anstatt diesen zu teilen.

Tab. 4

Vergleich der Effizienz bei der Kartierung zwei

geteilter ChIP-Seq.-Datensätze mit ZOOM und

ELAND. „All“ zeigt die Kartie-rung der kompletten

Datensätze durch ZOOM.

Die Zeit ist in folgendem Format angegeben:

hh:mm:ss.

Genauigkeit / Sensitivität:

Um die Sensitivität von ZOOM zu testen wurde das Programm SSearch verwendet. Es wurden

wieder die reads der BAC-Daten zur Referenz-Region 162kb-MHC kartiert um herauszufinden,

wie ZOOM mit mehr als 2 Fehlständen und Indels umgehen kann. Das beste Alignmentresultat

mit dem besten Ergebnis für jeden read wurde als Kontrollsatz benutzt und nach dessen Distanz

gruppiert. Die Sensitivität wird nun ermittelt, indem die verwendeten spaced seeds als

Prozentsatz der Alignmentergebnisse innerhalb des Kontrollsatzes ausgewertet werden.

12

Abbildung 3 zeigt die Auswertung der Sensitivität unter Distanzen von 1 bis 5. Folgende spaced

seed wurden verwendet:

s33.w13.r2: Standard seed mit 4 seeds, bei einer read-Länge von 33 und 2 Fehlständen.

s33.w11.r3: Set von 13 seeds, bei einer read-Länge von 33 und 3 erlaubten Fehlständen.

s36.opt: der optimierte spaced seed 1101111011111 um jede Position des reads hashen

zu können.

Auf Abbildung 3 ist zu erkennen, dass sowohl s33.w11.r3 und s36.opt volle Sensitivität für 3

Fehlstände haben. Ist also hohe Sensitivität erwünscht, sollten diese gewählt werden. Der

standard seed s33.w13.r2 liefert immer noch eine ausreichende Sensitivität, selbst wenn die

Distanz höher als 2 ist und Indels vorhanden sind. Der standard seed hat jedoch einen

erheblichen Geschwindigkeitsvorteil gegenüber der beiden anderen.

Eine Frage, die sich die Arbeitsgruppe Lin et al. gestellt hat ist, ob die Möglichkeit besteht, die

gleiche Leistung wie bei s33.w13.r2 mit 4 seeds stattdessen mit 4 zufälligen Projektionen zu

erlangen. Rand.proj.13x4 ist eine solche zufällige Projektion, bei der aber auf Abbildung 3 direkt

sichtbar ist, dass die Sensitivität weitaus schlechter ist als bei s33.w13.r2. Wie auf Abbildung 3

zu erkennen ist, braucht man rand.proj.13x15, welches 15 Projektionen enthält, um überhaupt

ähnliche Sensitivität gewährleisten zu können. Anhand von Abbildung 3 ist klar zu erkennen,

dass verbesserte seeds schneller zu einem besseren Ergebnis führen.

Abb. 3

Sensitivität von verschiedenen seed-

Methoden und zufälligen Projektionen

bei unterschiedlicher Editierungs-

distanz. Reads aus den BAC-Daten

wurden gegen die Referenz-Region auf

162kb-MHC alignt.

13

Abdeckung:

Es wurden 4 Modelle benutzt um den Abdeckungsgrad zu ermitteln.

ELAND.25: Betrachtung der ersten 25 Basenpaare von jedem read während des

Kartierungsschritts. Benutztes Programm: ELAND.

ELAND.32: Betrachtung der ersten 32 Basenpaare von jedem read während des

Kartierungsschritts. Benutztes Programm: ELAND.

ZOOM.m4: s33.w13.r2 Seed Set von ZOOM, bei 4 erlaubten Fehlständen.

ZOOMC12.m4: s33.w13.r2 Seed Set von ZOOM, bei 4 erlaubten Fehlständen auf

Positionen mit einer Sequenzierungsqualität von mindestens 12.

Abdeckungsgrad:

Um den Abdeckungsgrad zu ermitteln, wurden die BAC-Daten auf das menschliche Chromosom

6 kartiert und bewertet. Es wurden nur die reads rausgesucht und gezählt, die eindeutig in der

162kb MHC Referenz-Region von Chromosom 6 kartiert werden konnten, allerdings nur in dem

Fall, wo weniger Fehlstände an der Stelle waren, als an anderen Stellen auf Chromosom 6. Die

Abdeckung steht für die Anzahl der eindeutig kartierten reads an einer bestimmten Position auf

162kb MHC. Abbildung 4 zeigt die Abdeckungskurve für die vier oben genannten Modelle. Hier

ist auch klar zu erkennen, dass ZOOM-C12.m4 die höchste durchschnittliche Abdeckung

erreicht.

Abb. 4

Abdeckungskurve von 4 Modellen

für die 162kb MHC Referenz-

Region. Für jeden Überdeckungs-

wert wird die Anzahl der Posi-

tionen mit diesem Deckungsgrad

gezählt.

14

Kumulierter Abdeckungsgrad:

Die kumulierte Abdeckung steht für die Anzahl der Positionen mit einer Abdeckung von nicht

weniger als einer bestimmten Abdeckungs-Schwelle. Abbildung 5 zeigt die kumulierte

Abdeckungskurve der vier Modelle. Auch hier ist zu erkennen, dass ZOOM-C12.m4 die höchste

kumulierte Abdeckung erreicht.

Abb. 5

Kumulierte Abdeckungskurve von 4

Modellen für die 162kb MHC

Referenz-Region. Für jede

Abdeckungs-Schwelle wird die

Anzahl der Positionen gezählt, deren

Abdeckungsgrad mindestens die

Abdeckungs-Schwelle hat.

Abbildung 4 und 5 lassen zwei Deutungen zu:

Zulassung mehrerer Fehlstände bei höherer Read-Länge (ZOOM) und

Einbeziehung von sequenzierungs Qualitätswerten (ZOOM-C)

könnten die Kartierungsqualität verbessern.

Diskussion und Fazit

Da es in der Sequenzierung von Genen um erhebliche Datenmengen geht, sind die Anfor-

derungen an die Sequenzierungstechniken sehr hoch. Durch immer bessere Algorithmen können

diese Anforderungen erfüllt und verbessert werden. Um die Sequenzierungsdaten analysieren zu

15

können, müssen reads zu einem Referenzgenom kartiert werden. Hierbei sind wenige Fehlstände

erlaubt. Diese Aufgaben übernehmen spezielle Sequenzierungs-Softwares.

Diese Ausarbeitung bezieht sich im Wesentlichen auf das Paper: ZOOM! Zilions Of Oligos

Mapped von Lin et al., Bioinformatics 2008. Es wurde das Programm ZOOM vorgestellt,

welches vorhandene reads zu einem Referenzgenom kartiert. ZOOM kann sowohl reale,

experimentelle Daten verarbeiten, als auch große Mengen an simulierten Daten. Es wurde von

der Arbeitsgruppe Lin et al. implementiert und im späteren Verlauf noch um einige Funktionen

erweitert. Diese Erweiterungen beinhalteten die Kartierung mit einer bestimmten

Sequenzierungsqualität, die Kartierung unter Erlaubnis von Indels und die Kartierung von reads

mit Pair-End Informationen.

Das Basismodell von ZOOM basiert auf der Einteilung der reads auf Hash-Tabellen und der

Zuordnung von sogenannten Hash-Keys. ZOOM nutzt die spaced seed Methode um

verschiedene seeds auf verschiedenen Potisitionen zu entwerfen. Die Arbeitsgruppe um Lin et al.

hat die spaced seed Methode so weit optimiert, dass sie eine untere Schranke von weight-w-

seeds gefunden haben, die benötigt wird um alle (m,f)-Regionen bei 100% Sensitivität finden zu

können. Durch die Erstellung von optimalen seeds hat ZOOM für weniger Speicherverbrauch

und weniger Treffer gesorgt. Dadurch ist die Verarbeitungsgeschwindigkeit natürlich auch

erheblich gestiegen.

ZOOM wurde im späteren Verlauf der Ausarbeitung mit anderen Sequenzierungsprogrammen

wie z.B. BLAST, BLAT, RMAP, ELAND und Mosaik verglichen und es wurde gezeigt, dass

ZOOM sowohl in der Effizienz, als auch in der Genauigkeit vor den anderen gestesteten

Programmen liegt. Was ZOOM vorallem aus den anderen Sequenzierungsprogrammen

herausstechen lässt ist die volle Sensitivität die beim Kartieren der reads gewährleistet werden

kann.

Das Ziel von ZOOM und anderen Sequenzierungsprogrammen ist es, die Wissenschaft im

Bereich Medizin und Forschung in der Zukunft so weit zu verbessern, dass es schneller geht,

mögliche Krankheiten zu entdecken und bekämpfen zu können.

Die Algorithmen, die verwendet werden, um große Datenmengen zu verarbeiten wurden im

Laufe der Zeit immer mehr optimiert. Es wird auch in Zukunft im Sinne der Forschung und der

16

Wissenschaft sein, effizientere und kostengünstigere Programme zu entwickelt, die möglichst

schnell möglichst viele Daten verarbeiten können. ZOOM ist Teil dieser Entwicklung.

17

Quellenangaben

[1] Ma B, Tromp J, Li M.; PatternHunter: faster and more sensitive homology search.;

Bioinformatics 2002 Mar;18(3):440-5.

[2] Hao Lin, Zefeng Zhang, Michael Q. Zhang, Bin Ma, and Ming Li.; ZOOM! Zillions of

Oligos Mapped.; Bioinformatics 2008; 24(21):2431-2437

[3] Li M., Ma B., Kisman D., Tromp J.; Patternhunter II: highly sensitive and fast homology

search.; J Bioinform Comput Biol. 2004 Sep;2(3):417-39.

[4] ZOOM User’s Manual, Command Line Version; © Bioinformatics Solutions Inc. 470 Weber St. N.

Suite 204 Waterloo, Ontario, Canada N2L 6J2

[5] http://www.bioinfor.com/ph/general/method.html (15.12.2012 - 18:45)

http://www.bioinfor.com/ph/general/method.html

zoom! zilions of oligos mapped -...

Documents