vorlesung bioinformatik teil ii genomics 04.06.: genomstrukturen, sequenzierprojekte 11.06.:...

114
Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser Sequenzvergleich (Rainer Merkl) 25.06.: Multipler Sequenzvergleich, Anwendungen (Rainer Merkl)

Upload: ekkehardt-lanzer

Post on 05-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Vorlesung Bioinformatik Teil II

Genomics

04.06.: Genomstrukturen, Sequenzierprojekte

11.06.: Annotation, Datenbanken und Datenbanksuche

18.06.: Paarweiser Sequenzvergleich (Rainer Merkl)

25.06.: Multipler Sequenzvergleich, Anwendungen (Rainer Merkl)

Page 2: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genome und Gene

Genom-Sequenzierung und Auswertung der Daten

Page 3: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genomstrukturen

Unterschiede zwischen Pro- und Eukaryonten:

• Prokaryonten haben keinen Zellkern und keine Organelle

• Eukaryonten können bis zu zwei, vom Kern unabhängige, Genome aufweisen

• Mitochondrien: 16 bis 100 kb; bei Pflanzen bis 2.000 kb

• Chloroplasten: 100 bis 300 kb

Page 4: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genomgrößen und Genanzahl

0 5.000 10.000 15.000 20.000 25.000 30.000 35.000

Homo sapiens

Drosophila melanogaster

Arabidopsis thaliana

Caenorhabditis elegans

Saccharomyces cerevisiae

Escherichia coli K12

Halobacterium sp.

Haemophilus influenzae

Methanococcus jannaschii

Helicobacter pylori

Anzahl der Gene

1 10 100 1.000 10.000

Genomgröße in Mb (logarithmisch)

Anzahl Gene

Genomgröße in Mb

Page 5: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Evolution der Genomgröße

Page 6: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Bakterien-Genome• Genom ist meist eine ringförmige

DNA

• im Nucleoid lokalisiert

• viele, manchmal überlappende Gene

• z. B. E. coli: ca. 1 Gen pro kb

• Gene selbst sind nicht unterbrochen, ca. 1 kb groß

• Operons: mehrere Gene hinter einem Promotor

• Haushaltsgene bis zu Säugern konserviert

Page 7: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

• Genom ist im Kern lokalisiert

• meist in mehreren Chromosomen

• Gene oft weit getrennt

• z. B. H. sapiens: ca. 9 Gene pro Mb, ca. 10-15 kb groß

• Gene selbst sind oft unterbrochen (Introns)

• viele Bereiche nicht-kodierend

Eukaryonten-Genome

Page 8: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Eukaryonten-Genstruktur

Tra

nsla

tions

star

tA

TG

S topcodonTAG

3’ UTR5’ UTR

Promotor IntronTra

nskr

iptio

nsst

art

+1

Exon

Polyadenylierungs-ste lle

AAUAAA

AAAAAC a p

Sp le iße n

Tra nskrip tio n

Unterschiede beim Prokaryonten (Bakterien):- andere Promotorstruktur- UTRs sehr kurz- keine Introns- andere Termination (kein polyA)

Gen

primäresTranskript

fertige mRNA

Page 9: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Eukaryonten-Genome

30000-40000

Page 10: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

30.000 Gene beim Menschen• Größe der Gene: ca. 10 - 15 kb

• Abstand zwischen Genen: ca. 60 - 70 kb

• "Rekordhalter": Dystrophin-Gen mit über 2,4 Mb (79 Exons)

• Größe der Exons: ca. 170 bp, aber auch Ausnahmen bis zu 7,6 kb

• Anzahl der Introns: 0 (z. B. Histon H4) bis 118 (Typ7-Collagen, 31 kb)

• Größe der Introns: bis hin zu 150 kb

• Größe der mRNAs: ca. 2,2 kb mit großer Variabilität

• Gen ist nicht gleich Gen:

- Benutzung alternativer Promotoren (z. B. 7 beim Dystrophin-Gen)

- alternatives Spleißen

- alternative Polyadenylierung

Page 11: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Von der Karte zum Genom

Chromosomenkarte des X-Chromosoms

Page 12: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Von der Karte zum Genom

Page 13: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Strategien zur Genomsequenzierung

• ESTs (expressed sequence tags) für exprimierte Gene (cDNA)

• Shot gun- oder Primer Walk-Methode (genomisch)

• Klonierung in Cosmide, BACs (Bacterial Artificial Chromosomes), PACs (P1-derived artificial chromosome) Phagemide, P1-Phagen

Insert-Größenverteilung in BACs

Page 14: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Shot gun - Sequenzierung

• Zufällig fragmentierte DNA durch "Nebulizer"

• Klonierung in Standard-Vektoren

• High-throughput-Sequenzierung durch automatische Sequencer (z. B. ABI377) und Fluoreszenz-markierte Terminatoren (ddNTPs); Standard-Primer

• Zusammenfügen der Sequenzstücke durch Assembly-Programme

• Untersuchung auf biologisch relevante DNA-Sequenzen durch Datenbankabfragen

• Klone werden nach Analyse aufbewahrt

Page 15: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser
Page 16: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser
Page 17: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser
Page 18: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser
Page 19: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser
Page 20: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Das "Assembly"-Problem• Das Ergebnis einer Shot gun - Sequenzierung ist vergleichbar mit einem Puzzle:

- Viele, viele Teile- Vorder- und Rückseite- Einige sind schmutzig oder unkenntlich- Teile anderer Puzzle sind mit drin

• Multiplizität der Probleme:

- 99% Lesegenauigkeit bei der Sequenzierung, d. h. Ø 1 Fehler pro 100 bp- Häufung der Fehler am Ende der Sequenz- genau diese Regionen sind für das Assembly wichtig- repetitive Sequenzen in der DNA, gleiche Sequenzen können auf verschiedenen Chromosomen auftreten

Assembly der Sequenzen ist der Flaschenhals der Genomprojekte

Page 21: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Das "Assembly"-Problem• Fehlertolerante Algorithmen zum Alignment zweier und mehrerer Sequenzen

• Fehlerquellen:- primäre Fehler: chemisch, d. h. bei der DNA-Gewinnung (v. a. PCR) oder bei der Sequenzreaktion- sekundäre Fehler: beim Lesen des Chromatogramms (suboptimale Signalqualität; Lösung: menschliche Erfahrung und bessere Chemie, v. a. Dyes)- tertiäre Fehler: Klonierungsvektorsequenzen müssen entfernt werden

• Probleme: Effizienz und Automatisierung

• Effizienz: Das Ausgabeformat (SCF: Standard Chromatography Format) der Sequenzer benötigt relativ viel Speicherkapazität (ca. 100 byte pro Base, d. h. 1.000 Reaktionen mit je 1.000 gelesenen Basen benötigen 100 MB) geeigneteres Format (CAF: Common Assembly Format, standardisiert)

• Automatisierung: Kombination des Alignment-Reject-Editing-Verfahrens in silicio

Page 22: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Das "Assembly"-Problem• Alignment:

Alphabet mit allen Zeichen, die im Alignment vorkommen (können):

= {A,C,G,T,*,~}

Die Sequenz S ist eine geordnete Folge von Charakteren aus dem Alphabet :

S = {s1,...,sn} mit n = |S| und si

Durch die Einführung von "end-gaps" (~) in das Alignment wird das Problem umgangen, daß alle Sequenzen die gleiche Länge haben müssen.

Bsp.: Sequenz 1: ACGTACGTACGTACGTACGTACGT~~~~ Sequenz 2: ~~~~~CG*ACGT*CGTACGTACGTACGT

Page 23: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Das "Assembly"-Problem• Bewertung des Alignments:

Der numerische Vergleich zweier Elemente in einem Alignment wird als Score bezeichnet:

score(s1, s2)

Der Score-Wert einer Spalte in einem Alignment ist die Summe der Scores der Permutation von Elementen dieser Spalte:

k kscore(s1,...,sk) = score(sj,sm) j=1 m=j

Der Score-Wert des Gesamt-Alignments ist demnach die Summe aller Spalten-Scores: n k k

score(S1,...,Sk) = score(sj,sm) i j m

Page 24: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Das "Assembly"-Problem• Accept/Reject des Alignments:

Für jede Art von Abweichungen können "Strafpunkte" vergeben werden:

- Direkte Abweichung: „mismatch“ (z. B. T-A, C-T etc.)

- Einfügen von Lücken

- Verlängerung von Lücken

- Lücken am Ende

Erreichen die Strafpunkte einen Schwellenwert (threshold), so wird das Alignment abgelehnt; ansonsten wird das Ergebnis gespeichert und mit anderen Alignments weiter verglichen.

Page 25: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Einfachster Algorithmus für Alignments:Dotplot

Gegeben:

A = a1,a2,a3,...,an Sequenz A der Länge n

B = b1,b2,b3,...,bm Sequenz B der Länge m

Für alle i, j mit 1 i n, 1 j m soll gelten:

M [i,j] = 1 für ai = bj score für match

M [i,j] = 0 für aj bj score für mismatch

M [i,j] wird als 2-dimensionale

Matrix dargestellt

A C C G T A

A

G

C

G

T

A

Page 26: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Einfachster Algorithmus für Alignments:Dotplot

M [i,j] wird als 2-dimensionale

Matrix dargestellt

A C C G T A

A 1 0 0 0 0 1

G 0 0 0 1 0 0

C 0 1 1 0 0 0

G 0 0 0 1 0 0

T 0 0 0 0 1 0

A 1 0 0 0 0 1

Gegeben:

A = a1,a2,a3,...,an Sequenz A der Länge n

B = b1,b2,b3,...,bm Sequenz B der Länge m

Für alle i, j mit 1 i n, 1 j m soll gelten:

M [i,j] = 1 für ai = bj score für match

M [i,j] = 0 für aj bj score für mismatch

Page 27: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Einfachster Algorithmus für Alignments:Dotplot

M [i,j] wird als 2-dimensionale

Matrix dargestellt

A C C G T A

A 1 1

G 1

C 1 1

G 1

T 1

A 1 1Längste Diagonale ohne Unterbrechung

Markiert das beste Teilalignment

Gegeben:

A = a1,a2,a3,...,an Sequenz A der Länge n

B = b1,b2,b3,...,bm Sequenz B der Länge m

Für alle i, j mit 1 i n, 1 j m soll gelten:

M [i,j] = 1 für ai = bj score für match

M [i,j] = 0 für aj bj score für mismatch

Page 28: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Dotplot-Beispiel:Sequenzassembly

Sequenz A

Sequenz B

Sequenz A

Sequenz B

Grafische Darstellungsmöglichkeit:

1 (match) weißer Punkt

0 (mismatch) schwarzer Punkt

Page 29: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Accept/Reject des Alignments

Page 30: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

„Feinheiten“ des Assembly-Problems

Page 31: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Dotplot-Beispiel:Vergleich cDNA (mRNA) – genom. DNA

Tra

nsla

tions

sta

rtA

TG

StopcodonTAG

3’ UTR5’ UTR

Promotor IntronTra

nskr

iptio

nsst

art

+1 Exon

Polyadenylierungs-stelle

AAUAAA

AAAAACap

SpleißenTranskription

genom. DNA

mRNA

mRNA(cDNA)

genom.DNA

Page 32: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Notwendigkeit von Scoring-Matrizen

Nukleotid-Sequenzalignments können über scoring-Kritierien wie

scorematch = 1

scoremismatch = 0

bewertet werden.

Bei Protein-Sequenzen ist dies nicht mehr realistisch:

Ein Austausch einer Aminosäure gegen eine ähnliche ist anders zu bewerten als ein Austausch gegen eine unähnliche.

Page 33: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Ähnlichkeitsmatrizen

BLOSUM45 Amino Acid Similarity Matrix (BLOcks SUbstituition Matrix)

Gly 7Pro -2 9Asp -1 -1 7Glu -2 0 2 6 Asn 0 -2 2 0 6His -2 -2 0 0 1 10Gln -2 -1 0 2 0 1 6Lys -2 -1 0 1 0 -1 1 5Arg -2 -2 -1 0 0 0 1 3 7Ser 0 -1 0 0 1 -1 0 -1 -1 4Thr -2 -1 -1 -1 0 -2 -1 -1 -1 2 5Ala 0 -1 -2 -1 -1 -2 -1 -1 -2 1 0 5Met -2 -2 -3 -2 -2 0 0 -1 -1 -2 -1 -1 6Val -3 -3 -3 -3 -3 -3 -3 -2 -2 -1 0 0 1 5Ile -4 -2 -4 -3 -2 -3 -2 -3 -3 -2 -1 -1 2 3 5Leu -3 -3 -3 -2 -3 -2 -2 -3 -2 -3 -1 -1 2 1 2 5Phe -3 -3 -4 -3 -2 -2 -4 -3 -2 -2 -1 -2 0 0 0 1 8Tyr -3 -3 -2 -2 -2 2 -1 -1 -1 -2 -1 -2 0 -1 0 0 3 8Trp -2 -3 -4 -3 -4 -3 -2 -2 -2 -4 -3 -2 -2 -3 -2 -2 1 3 15Cys -3 -4 -3 -3 -2 -3 -3 -3 -3 -1 -1 -1 -2 -1 -3 -2 -2 -3 -5 12 Gly Pro Asp Glu Asn His Gln Lys Arg Ser Thr Ala Met Val Ile Leu Phe Tyr Trp Cys

Page 34: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Vorlesung Bioinformatik Teil II

Genomics

04.06.: Genomstrukturen, Sequenzierprojekte

11.06.: Annotation, Datenbanken und Datenbanksuche

18.06.: Paarweiser Sequenzvergleich (Rainer Merkl)

25.06.: Multipler Sequenzvergleich, Anwendungen (Rainer Merkl)

Page 35: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Historisches zu Datenbanken

"Zuerst war das Protein"

Dayhoff, Anfang der 60er Jahre: Sammlung von allen bekannten Aminosäuresequenzen

Atlas of Protein Sequences and Structures (Dayhoff et al., 1965)

Grundlage für die PIR-Datenbank (Protein Information Resource)

EMBL-Nukleotiddatenbank (1982)

erste DNA-Sequenzdatenbank am European Molecular Biology Laboratory

in Hinxton, England

- mit DDBJ (Mishima, Japan) und NCBI (Bethesda, USA) in der

"International Nucleotide Sequence Database Collaboration" (1988)

- separate Eingabe möglich, aber täglicher Datenabgleich

- Updates nur bei der Stelle möglich, bei der der Record erzeugt wurde

Page 37: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbankformate

GenBank:

• Genetische Sequenz-Datenbank

• gepflegt durch das NCBI (National Center for Biotechnology Information)

am NIH (National Institutes of Health), Bethesda, Maryland, USA

• annotierte Sammlung aller öffentlich verfügbarer Nukleotid- und Proteinsequenzen

• einzelne Datensätze repräsentieren zusammenhängende DNA- oder RNA-Bereiche

mit weiteren Daten (die sogenannte Annotation)

Page 38: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

NCBI's Entrez

• Nukleotiddaten als "Sprungbrett" für weitere Informationen, vor allem CDS

• CDS = Coding Sequence(s), also Translationsinformation von Proteinen

• Co-Management von DNA- und Proteindaten

Analoges System am EBI: Sequence Retrieval System (SRS)

Page 39: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Primäre und sekundäre Datenbanken

Primäre Datenbanken:

- experimentelle Ergebnisse

- mit einigen Interpretationen (s. u.)

- aber ohne kritischen "Review“

- normalerweise direkt von den Forschern mit Daten versorgt

Annotation:

- CDS (meist abgeleitet von DNA-Sequenz, nicht experimentell)

- (mögliche) Funktion (meist durch subjektive Interpretation von Ähnlichkeitsanalysen)

- regulatorische Elemente

- ...

Page 40: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Primäre und sekundäre Datenbanken

Sekundäre Datenbanken:

- abgeleitete Eigenschaften als Haupteintrag

- Proteindatenbanken PIR, SWISS-PROT, PDB

- abgeleitet aus DNA-Datenbanken

- oder direkt eingegeben

- oder aus Publikationen übernommen

- aber immer soweit wie möglich überprüft

Page 41: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Format und Inhalt

- Datenbankeinträge: Rohdaten und Annotation

- Verarbeitungseffizienz im Computer und die Verständlichkeit stehen im Widerspruch

Beispiel: GenBank-Flatfile bzw. EMBL-Record vs. ASN.1-Record

Page 42: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

LOCUS LISOD 756 bp DNA BCT 30-JUN-1993DEFINITION L.ivanovii sod gene for superoxide dismutase.ACCESSION X64011 S78972NID g44010VERSION X64011.1 GI:44010KEYWORDS sod gene; superoxide dismutase.SOURCE Listeria ivanovii. ORGANISM Listeria ivanovii Bacteria; Firmicutes; Bacillus/Clostridium group; Bacillaceae; Listeria.REFERENCE 1 (bases 1 to 756) AUTHORS Haas,A. and Goebel,W. TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by functional complementation in Escherichia coli and characterization of the gene product JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992) MEDLINE 92140371FEATURES Location/Qualifiers source 1..756 /organism="Listeria ivanovii" /strain="ATCC 19119" /db_xref="taxon:1638" RBS 95..100 /gene="sod" gene 95..746 /gene="sod"

GenBank-Flatfile:

.

.

.

Page 43: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Aufbau des GenBank-Flatfiles

1. Header: Informationen, die den gesamten Eintrag betreffen

- LOCUS (einmalige accession number, z. B. AF010325 / Länge / Molekülart /

Klassifizierung / Datum der letzten Änderung)

- DEFINITION (Information, die u. a. bei BLAST mitausgegeben wird)

- ACCESSION (primäre und sekundäre accession numbers)

- NID (gi number: GenInfo Identifier, wird bei update erneuert)

- VERSION (updates)

- KEYWORDS (Schlüsselwörter; "historischer Ballast")

- SOURCE (gebräuchlicher Name des Organismus, z. B. fruit fly)

- ORGANISM (lateinischer Name der Art, z. B. Drosophila melanogaster)

- REFERENCE (Publikation, soweit vorhanden, und GenBank-Submission)

Page 44: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Aufbau des GenBank-Flatfiles

2. Feature Table: Eigenschaften der Sequenz (FEATURES)

- biologische Information

- Annotation

- z. B. SOURCE / CDS

- genaue Übersicht über alle möglichen Einträge in die Feature Table:

http://www.ncbi.nlm.nih.gov/collab/FT/index.html#feature_key_ref

Page 45: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

FEATURES Location/Qualifiers source 1..1509 /organism="Mus musculus" /strain="CD1" promoter <1..9 /gene="ubc42" mRNA join(10..567,789..1320) /gene="ubc42" CDS join(54..567,789..1254) /gene="ubc42" /product="ubiquitin conjugating enzyme" /function="cell division control" /translation="MVSSFLLAEYKNLIVNPSEHFKISVNEDNLTEGPPDTLY QKIDTVLLSVISLLNEPNPDSPANVDAAKSYRKYLYKEDLESYPMEKSLDECS AEDIEYFKNVPVNVLPVPSDDYEDEEMEDGTYILTYDDEDEEEDEEMDDE" exon 10..567 /gene="ubc42" /number=1 intron 568..788 /gene="ubc42" /number=1 exon 789..1320 /gene="ubc42" /number=2 polyA_signal 1310..1317 /gene="ubc42"

Page 46: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Aufbau des GenBank-Flatfiles

3. Sequenz:

- Formatierte DNA-Sequenz (10er Blöcke zur Übersichtlichkeit)

- mit Basenzählung

- durchnummeriert

- Bsp.:

BASE COUNT 1510 a 1074 c 835 g 1609 t

1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg

61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct

121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa

.

.

.

Page 47: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

EMBL-Record:ID LISOD standard; DNA; PRO; 756 BP.XXAC X64011; S78972;XXDT 28-APR-1992 (Rel. 31, Created)XXDE L.ivanovii sod gene for superoxide dismutaseXXKW sod gene; superoxide dismutase.XXOS Listeria ivanoviiOC Bacteria; Firmicutes; Bacillus/Clostridium group;OC Bacillus/Staphylococcus group; Listeria.XXRN [1]RX MEDLINE; 92140371.RA Haas A., Goebel W.;RT "Cloning of a superoxide dismutase gene";RL Mol. Gen. Genet. 231:313-322(1992).XXXXFH Key Location/QualifiersFHFT source 1..756FT /db_xref="taxon:1638"FT /organism="Listeria ivanovii"FT /strain="ATCC 19119"FT RBS 95..100FT /gene="sod"FT terminator 723..746FT /gene="sod"FT CDS 109..717FT /db_xref="SWISS-PROT:P28763"FT /transl_table=11FT /gene="sod" . . .

Page 48: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

ASN.1-Record: (Abstract Syntax Notation)

seq-set { seq { id { local str "VCREGA" } , descr { title "Volvox carteri f. nagariensis regA gene, genomic locus" , molinfo { biomol genomic } , create-date std { year 1998 , month 11 , day 16 } } , inst { repr raw , mol dna , length 15322 , seq-data ncbi2na 'FB07EFB13EDBE6FA215F5C3E07BF010CE891D3257E7306CD7E7BDF2F116F887486DE2BFBA54841CFF264F52F3F7823C07F2F8CA4E6FA9E7A7C5D9DB30640305446B41B69C81FE8094CF2FF52801D411F243A6CD7E717E03F9E7A07A041BA2CF992F40ACAB416919AD

.

.

.

.

.

.

Page 49: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Annotation

Aufgaben:

• Umwandlung in Datenbankformate

• Veröffentlichung der Sequenzdaten

• Kommentierung

• Verbindung mit weiteren Informationen

• z. B. Genstrukturen, regulatorische Elemente

Page 50: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Annotation

Verbindung von:

• Gen-Vorhersage (codierender Bereich)

• Promotor- und enhancer-Vorhersage

• Datenbankvergleiche (homologe Sequenzen),EST-Datenbanken

• Automatische Annotation im Rahmen von Sequenzprojekten

• Manuelle Annotation: Überprüfung der automatisch generierten Daten

Page 51: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage

Man unterscheidet zwischen Consensus und Nonconsensus (ab initio) Programmen.

Consensus Methoden werden mittels eines bestimmten Satzes an Genen „trainiert“, codierende Bereiche zu finden.

Diese Consensus Methoden sind sehr erfolgreich, wenn es sich um Gene handelt, die den Genen, mit welchen diese Programme trainiert worden sind, ähneln.

Ab initio-Algorithmen versuchen hingegen, anhand grundlegender Charakteristika Gene zu finden

Page 52: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage

Ansatzpunkte für ab initio – Algorithmen:

• Exon-Intron-Strukturen (Spleiß-Stellen, Pyrimidin-reiche Regionen am

3'-Ende von Introns etc.; GT-AG-Regel)

• statistische Auffälligkeiten in kodierenden Regionen

• GC-Gehalt, Codon usage

• ...

Page 53: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-VorhersageAuffälligkeiten in kodierenden Regionen:

1. Positionsabhängige Nukleotidzusammensetzung:

Beispiel: Das Testcode-Programm im gcg-Paket: Fickett‘s Statistik (1982)

A-Position = Max(n(1), n(2), n(3)) / Min(n(1), n(2), n(3))

wobei n(1), n(2) und n(3) die Häufigkeit von A an den Positionen(1,4,7,...), (2,5,8,...) und (3,6,9,...) darstellen.

Berechnung dieses Werts für alle 4 Basen in einem Sequenzfenster (>200 bp):A-position, C-position etc. und Verrechnung mit weiteren statistischen Parametern

nichtcod. Seq: zufällige Verteilung der Basen: Position-Wert ~ 1

codierende Seq: gehäuftes Auftreten an best. Positionen: Position-Wert > 1

Page 54: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Testcode

Exon Exon

Page 55: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage2. Potentielle offene Leserahmen: Frames

Exon

Exon

Page 56: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage3. Höherer GC-Gehalt an der dritten Stelle eines Codons: GC-Bias

Exon

Exon

Page 57: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage4. Organismus-abhängige Codon-Auswahl: Codon usage / Codon Preference

Codon usage table / Codon frequency table

CUTG ID: Volvox_carteri_plSPECIES: Volvox carteriSECTION: PlantsSEQUENCES: 35CODONS: 12911AmAcid Codon Number /1000 Fraction ..

Gly GGG 98.00 7.59 0.10Gly GGA 101.00 7.82 0.10Gly GGT 234.00 18.12 0.23Gly GGC 567.00 43.92 0.57

Glu GAG 648.00 50.19 0.86Glu GAA 107.00 8.29 0.14Asp GAT 214.00 16.58 0.35Asp GAC 406.00 31.45 0.65

Page 58: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage4. Organismus-abhängige Codon-Auswahl: Codon usage / Codon Preference

Gribskov et al, 1984

Bewertung der Häufigkeit einzelner Codons aus der analysierten Sequenzim Vergleich zur Codon Usage des Organismus

Berechnung in einem Fenster (25 codons), das mit einem Inkrement von 3 Basen über die Sequenz geschoben wird

Zusätzlich werden seltene Codons markiert

Page 59: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage4. Organismus-abhängige Codon-Auswahl: Codon usage / Codon Preference

Exon

Exon

Page 60: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage

Testansatz von Fickett & Tung, 1992:

- GenBank unterteilt in 108 bp-Fenster ohne Überlappungen

- nur die Fenster weiterverwenden, die entweder komplett kodierend oder komplett nicht-kodierend sind

- Analyse der positionsabhängigen Nukleotid-Zusammensetzung, GC-Bias, Codon usage mit verschiedenen Algorithmen (mehr als 20 damals publizierte Methoden)

-> Schlußfolgerung: einfachste Algorithmen, z. B. Oligomer-Zusammensetzung, sind effektiver (sensitiver und spezifischer) als viele andere Methoden

Page 61: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage

Ablauf von "Gene Finding"-Programmen:

1. Maskierung repetitiver DNA-Elemente:

SINE, LINE, Organismus-spezifische wie z. B. Alu bei Primaten ...

2. Homologiesuche:

BLAST gegen Datenbanken, u. a. EST

- Protein-kodierende Gene über BLASTX

- rRNA-Gene

- tRNA-Gene

- snRNA-Gene} über BLASTN

Page 62: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage

Ablauf von "Gene Finding"-Programmen:

3. Anwendung spezieller Suchparameter:

- Codon usage

- GC-Gehalt

- offene Leseraster

- Speißstellen

- Nachbarschaft zu regulatorischen Elementen

...

4. Abgleich der gefundenen „Gene“ untereinander:

- keine Überlappung von Genen

- es gibt aber auch Ausnahmen, gerade bei Bakterien!

Page 63: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser
Page 64: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Definitionen:• AP: tatsächlich positive Positionen, d. h. im Gen

• AN: tatsächlich negative Positionen, d. h. nicht im Gen

• PP: vorhergesagt (predicted) positive Positionen

• PN: vorhergesagt (predicted) negative Positionen

• TP: wahr positive Ausgaben

• TN: wahr negative Ausgaben

• FP: falsch positive Ausgaben

• FN: falsch negative Ausgaben

Vorhersage-Genauigkeit:

- Sensitivität: Sn = TP / AP (wieviele richtige überhaupt erkannt)

- Spezifität: Sp = TP / PP (wieviele der richtig vorhergesagten sind wirklich richtig)

- Selektivität: Sl = TN / AN (wieviele falsche werden als solche richtig erkannt)

- Durchschnittliche Korrelation (approx. Correlation):

AC = ((TP/(TP+FN)) + (TP/(TP+FP)) + (TN/(TN+FP)) + (TN/(TN+FN))) / 2 - 1

Page 65: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage

Die Wir k l ich k eit:

Page 66: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage

Die Wir k l ich k eit: Die Vor h er sage:

Page 67: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage

Die Wir k l ich k eit: Die Vor h er sage:

TPTN

FP

FN

Die Gen au igk eit:

Page 68: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-Vorhersage• Ab initio - Vorhersagen: GENSCAN

(1997, Christopher Burge, http://genes.mit.edu/GENSCAN.html)

Prinzip: Fourier – Transformation. Auswertung der 3 – Basen Periodizität, welche codierende Bereiche aufweisen

- ursprünglich entwickelt für menschliche und Vertrebraten-Sequenzen- strikt Organismus-spezifisch: Mais, Arabidopsis und Drosophila getestet; für Caenorhabditis in Entwicklung (Testphase)- ME: Missing Exons; WE: Wrong Exons

Method Sn Sp AC Sn Sp (Sn+Sp)/2 ME WEGENSCAN 0.93 0.93 0.91 0.78 0.81 0.80 0.09 0.05FGENEH 0.77 0.85 0.78 0.61 0.61 0.61 0.15 0.11GeneID 0.63 0.81 0.67 0.44 0.45 0.45 0.28 0.24

GeneParser2 0.66 0.79 0.66 0.35 0.39 0.37 0.29 0.17GenLang 0.72 0.75 0.69 0.50 0.49 0.50 0.21 0.21GRAILII 0.72 0.84 0.75 0.36 0.41 0.38 0.25 0.10

SORFIND 0.71 0.85 0.73 0.42 0.47 0.45 0.24 0.14Xpound 0.61 0.82 0.68 0.15 0.17 0.16 0.32 0.13

Accuracy per nucleotide Accuracy per exon

Page 69: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

• Ab initio - Vorhersagen: GLIMMER (Gene Locator and Interpolated Markov Modeler, TIGR)

Prinzip: Interpoliertes Markov Modell (IMM)

- für Bakterien- hohe Spezifität und Sensitivität

- verwendet u.a. bei der Genom-Sequenzierung von Borrelia burgdorferi, Thermotoga maritima oder Mycobacterium tuberculosis.

Genstruktur-Vorhersage

Genes Annotatedannotated genes found

H. influenzae 1738 1720 99.0M. genitalium 483 480 99.4M. jannaschii 1727 1721 99.7H. pylori 1590 1550 97.5E. coli 4269 4158 97.4B. subtilis 4100 4030 98.3A. fulgidis 2437 2404 98.6B. burgdorferi 853 843 99.3T. pallidum 1039 1014 97.6T. maritima 1877 1854 98.8

Organism % found

Page 70: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-VorhersageNeuere Ansätze nutzen zusätzlich EST-Daten:

Spliced Alignment zur Exon-Intron-Vorhersage

Beispiel: GeneSeqer

• jeder Treffer im Alignment erhält Exon-Status

• Introns sind lange Lücken im Alignment

• Splice site consensus wird berücksichtigt

• Scoring ergibt sich aus Alignment und Splice sites

Page 71: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-VorhersageGeneSeqer:

• Genomische DNA (z. B. BAC) als Query-Sequenz

• große Anzahl von ESTs

• Vorauswahl der ESTs durch "schmutzige" Alignments

• nur "gute" ESTs werden vollständig prozessiert

• spezielles EST-Format (dbEST) zum schnellen Zugriff

• Splice-Parameter für: human, mouse, rat, chicken, Drosophila, nematode, yeast, Aspergillus, Arabidopsis, maize

• Ursprünglich entwickelt für Arabidopsis

Page 72: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-VorhersageGeneSeqer: EST-Datenbanken

Last update: March 12, 2001

Label Species # of ESTs

soybean Glycine max 154,215 Drosophila Drosophila melanogaster 116,471 Arabidopsis Arabidopsis thaliana 113,000 C.elegans Caenorhabditis elegans 109,215 tomato Lycopersicon esculentum 107,238 M.truncatula Medicago truncatula 101,752 maize Zea mays 86,260 rice Oryza sativa 71,888 barley Hordeum vulgare 68,903 wheat Triticum aestivum 58,141 sorghum Sorghum bicolor 57,414 cotton Gossypium arboreum & hirsutum 36,077 pine Pinus taeda 34,806 L.japonicus Lotus japonicus 27,078 potato Solanum tuberosum 26,177 iceplant Mesembryanthemum crystallinum 14,033

Page 73: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-VorhersageSplicePredictor: trainiertes System zur Spleißstellenerkennung

* Trainingssequenzen: Arabidopsis und Mais

* Kennzeichen für Exon-Intron-Exon-Übergänge:

- 5' GT - AG 3'

- cAG an 3'

- Pyrimidin-Stretch am 3'-Ende (30 - 40 bp vor AG; >70 %)

- Aufrechterhaltung des ORF

Page 74: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Genstruktur-VorhersageSplicePredictor: trainiertes System zur Spleißstellenerkennung

Example:

t q loc sequence P rho gamma * P*R*G* parse

...

A <- 26556 gtatcagattggcAGtc 0.002 0.000 0.000 3 (1 1 1) IIIAEEE-E-EDAEEEE

D -> 26575 gagGTcttt 0.024 0.000 0.000 3 (1 1 1) IIAEEEE-E-DAEEEEE

D ----> 26640 gagGTaaca 0.432 0.159 0.407 11 (3 4 4) IAEEEEE-D-AEEEEEE

A <----- 26739 tttttcatatttcAGga 0.933 0.428 0.861 15 (5 5 5) AEEEEED-A-EEEEEED

A <- 26792 atcagacgatttcAGgg 0.008 0.000 0.000 3 (1 1 1) IIAEEDA-E-EEEEEDA

...

Page 75: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

DatenbanksuchenVorhanden: unbekannte DNA- oder Proteinsequenz

Gesucht: gibt es diese oder eine ähnliche Sequenz in der Datenbank?

Prinzip:- Vergleich der Suchsequenz mit jeder einzelnen Sequenz in der Datenbank- Bewertung der Ähnlichkeit anhand eines scoring-Algorithmus- Ausgabe der Treffer mit dem besten score

Problem:

Optimale Algorithmen sind zu zeitaufwendig

Heuristische Ansätze sind erforderlich

Page 76: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: FASTA

Ablauf: Sequenzen der Datenbank werden mehrmals mit der Suchsequenz verglichen, zunächst grob, dann mit feineren Methoden.

In jedem Durchlauf werden nur die möglicherweise Homologen behalten.

Lokale Alignments werden erstellt, um homologe Regionen zu finden.

Im Detail: FASTA ist ein Zwei-Schritt-Algorithmus mit vier Phasen:

1. Wortsuche zum Finden ähnlicher Regionen / Bewertung / Verbindung der Teile

2. Smith-Waterman-Alignment an diesen Regionen

Page 77: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

1. Für die Wortsuche werden Suchsequenz und Datenbank indiziert.Bei Proteinen wird eine Wortlänge von 2 und bei DNA von 6 verwendet

Datenbanksuchen: FASTA

Word List für FASTA, Word Size = 6

g c t g g a a g g c a t

g c t g g a c t g g a a t g g a a g g g a a g g g a a g g c a a g g c a a g g c a t

Page 78: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Einschub: Hash-Verfahren

Die naive Suche eines Datensatzes in einer Liste dauert sehr lange

SpeicheradresseA

Suchwort(Schlüssel)

Verkettung

1 aaaaaa (Auftreten in der Datenbank)2 aaaaac „3 aaaaag „4 aaaaat „5 aaaaca „6 aaaacc „... ... ...

Schnelle Suche mittels einer Hash-Funktion:

h: K A K: Menge aller Schlüssel (Suchworte) A: Menge der Speicheradressen

D.h. aus dem Suchwort (Schlüssel) wird direkt die Speicheradresse des Datensatzes berechnet.

Page 79: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Mit diesen k-tupeln mit der Länge 2 bzw. 6 werden exakte Treffer ermittelt.

Diagonalfolgen liegen auf einer gedachten Matrix auf einer Diagonalen.

Datenbanksuchen: FASTA

Matches und Mismatches,

aber keine Gaps!

Page 80: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

2. Innerhalb der 10 Diagonalfolgen mit den höchsten Scores werden lokale optimaleAlignments bestimmt.

Verwendet werden scoring-Matrizen (PAM oder BLOSUM)

Der größte Score-Wert wird als init1 ausgegeben.

Datenbanksuchen: FASTA

Page 81: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: FASTA

3. Verlängerung der initialen Regionen zu größeren Alignments.Hier werden das erste Mal Lücken eingeführt, wenn nötig.

Das erhaltene Alignment initn hat den maximalen Score unterBerücksichtigung der scoring-Matrix und der Gap Penalities.

Page 82: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: FASTA

4. Ein zu initn alternativer Score opt wird errechnet.

- Hierbei wird nur ein schmaler Streifen der Matrix ausgewertet.- Die Mitte ist durch init1 definiert.- Breite ist abhängig von der Wortlänge, z. B. 16 für ktup = 2- Berechnung des opt-Wertes über Smith-Waterman- Verwendung von scoring-Matrix und Gap Penalties

Page 83: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: BLAST

BLAST: Basic Local Alignment Search Tool

BLAST ist ebenfalls eine Annäherung an den Smith-Waterman-Algorithmus.

BLAST beginnt mit der Lokalisierung kurzer Teilsequenzen: Segment-Paare / hits

Lokale optimale Paare, die je einen hit beinhalten, werden alsHSPs (High-Scoring Segment-Pairs) bezeichnet.

Beginn und Ende der HSPs wird so gewählt, daß eine Verkürzung oder Verlängerungden Score erniedrigen würde.

Page 84: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: BLAST

Ablauf:

1. Präprozessierung:

Aus der Eingabesequenz wird die Menge aller Teilworte TW mit Länge w gebildet.Standard: Proteine: w=3, DNA: w=11

Teilwort B TW dient zur Bestimmung sämtlicher Worte (w-mere) mit Score S > T.

Liste aller w-mers der Länge 2 mit Score S > T = 8 (BLOSUM 62)für die Sequenz RQCSAGW

Teilwort B w-mers RQ RQQC QC, RC, EC, NC, DC, HC, KC, MC, SC CS CS, CA, CN, CD, CQ, CE, CG, CK, CTSA kein w-mer der Länge 2 hat einen Score > 8AG AGGW GW, AW, RW, NW, DW, QW, EW, HW, KW, PW, SW, TW, WW

Page 85: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: BLAST

2. Lokalisierung der hits:

Vergleichssequenz aus der Datenbank wirdauf das Vorkommen der w-merehin untersucht.

Von jedem hit wird die Position bestimmt.

Darstellung in einer Matrix (vgl. DotPlot).

hit

Page 86: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

3. Bestimmung der HSPs:

Welche Paare von hits liegen auf einer Diagonale der Matrix?

Datenbanksuchen: BLAST

Berücksichtigung des räumlichen Abstands A der hits.

Für Proteine wird A = 40 gewählt.

mit Abstand < A

hit

Page 87: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

4. Erweiterung mit Lücken:

Datenbanksuchen: BLAST

In einer gedachten Matrix wird das Alignment in beide Richtungen verlängert.

Parameter Xg begrenzt die Verlängerung

durch minimalen Score,der angenommen werden darf.Lücken sind erlaubt.

Abweichung

des Scores < Xg

Page 88: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Vergleich FASTA - BLAST

BLAST ist:

• schneller

• sensitiver bei Proteinsuchen, da sequenzähnliche Oligomere verwendet werden

statt identische Dipeptide bei FASTA

• flexibler, da Nukleotidsequenzen in alle 6 Leserahmen umgesetzt werden können

FASTA ist:

• sensitiver bei Nukleotidsuchen, da kürzere (6 statt 11) Wortlängen verwendet werden

• besser geeignet im Vergleich cDNA gegen genomische Datenbanken

-> bei Gap Extension Penalty = 0 können auch lange Introns übersprungen werden

-> BLAST würde nur das längste Exon finden (wenn überhaupt)

Page 89: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: BLAST

Verschiedene BLAST-Programme:

• blastn: Nukleotidsequenz gegen Nukleotiddatenbank

• blastp: Proteinsequenz gegen Proteindatenbank

• blastx: translatierte Nukleotidsequenz (alle 6 Leserahmen) gegen Proteindatenbank

• tblastn: Proteinsequenz gegen translatierte Nukleotiddatenbank

• tblastx: translatierte Nukleotidsequenz (alle 6 Leserahmen) gegen translatierte Nukleotiddatenbank (alle 6 Leserahmen)

Page 90: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Statistische Signifikanz

Wahrscheinlichkeits-Dichtefunktion (Extremwertverteilung)

Bezug eines erhaltenen Alignment-Scores S zur erwarteten Verteilung:

- P-Wert: Maß für die Wahrscheinlichkeit, daß ein Alignment mit dem Score Soder besser durch reinen Zufall entstünde (gut: P gegen 0)

- E-Wert: Erwartete Anzahl von zufälligen Alignments mit Scores S

Signifikanz abhängig von der Größe des gesamten Suchraums

(z. B. Anzahl der Aminosäuren/Nukleotide in der Datenbank)

und der erwarteten Länge des lokalen Alignments

Exakte statistische Theorie existiert nur für Alignments ohne Lücken.

Page 91: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Statistische Signifikanz

Frage: Ist ein bestimmtes Alignment mit einem Score S ein Beweis fürdie Homologie?

Abschätzung des Erwartungswertes durch Zufallsalignments.

3 Möglichkeiten des Zufallmodells:

1. echte, aber nicht-homologe Sequenzen

2. echte Sequenzen, aber in ihrer Abfolge permutiert-> Zusammensetzung ist beibehalten

Beispiel:

Originalsequenz: ACGTACGTPermutierte Seq: ACGTACTG TGCATGCA usw.

3. zufällig erzeugte Sequenzen, evtl. unter Berücksichtigung eines Modells (z. B. Häufigkeitsverteilung der Aminosäuren)

Page 92: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Statistik zu lokalen Alignments ohne Lücken:

- HSPs sind lokal optimal, weisen einen Score S auf und haben keine Lücken

- Statistik möglich bei genügend langen Sequenzen (Längen n und m) (n: Länge der Suchsequenz, m: Länge der Datenbanksequenz)

- Zwei Parameter für den Suchraum und das Scoring-System: K und

Erwartete Anzahl von HSPs mit Scores S:

E = Kmne-S

E-Wert (E-value) für den beobachteten Score S eines HSPs

-> Verdoppelung der Sequenzlänge verdoppelt die Anzahl von zufälligen HSPs mit Scores S

Alignments: Statistische Signifikanz

Page 93: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Reine Score-Werte S geben keine Information über die Qualität des Ergebnissesohne genaue Kenntnis über die Datenbank und den Suchalgorithmus (bzw. K und (vergleichbar mit Längenangabe ohne Einheit, z. B. 100 -> Meter, Kilometer, Lichtjahre ...)

-> Bit-Scores S' zur Normalisierung (auf Suchraum und Scoring-System):

S' = (S - lnK) / ln2

aus den Bit-Scores S' lassen sich E-Werte ableiten,die nur von den Sequenzlängen abhängen:

E = mn2-S'

-> für die Signifikanz-Beurteilung sind dann nur noch die Sequenzlängen m und n zu wissen

S‘ und E werden in der BLAST-Ausgabe angegeben

Alignments: Statistische Signifikanz

Page 94: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Alignments: Statistische Signifikanz

Die Wahrscheinlichkeit, exakt a HSPs mit Score S zu finden (Poisson-Verteilung):

P = e-E(Ea/a!)

Für mind. 1 HSP mit einem Score S gilt: P = 1 - e-E

Der P-Wert ist auf diese Weise mit dem beobachteten Score S gekoppelt.

Für E < 0,01 gilt: P E

für größere Werte wird E jedoch deutlich größer, was für den Anwender anschaulicher ist

P: 0.993 0.99995

E: 5 10

Page 95: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Statistische Signifikanz

Speziell für Datenbanksuchen gilt:

Signifikanz muß berechnet werden für einen Vergleich eines Proteins mit Länge m

gegen eine Datenbank mit vielen Proteinen unterschiedlicher Länge

1. Möglichkeit:

a priori-Annahme, daß alle Proteine gleich wahrscheinlich mit der Query-Sequenzverwandt sind.

E-Wert ergibt sich aus dem Produkt des E-Werts eines Pairwise-Alignments mitder Anzahl der Proteine in der durchsuchten Datenbank.

(FASTA für Proteine nutzt diese Berechnung)

Page 96: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Statistische Signifikanz

2. Möglichkeit:

a priori-Annahme, daß Query-Sequenz mit höherer Wahrscheinlichkeit zu längerenSequenzen verwandt ist. Begründet wird dies mit der Domänenstruktur der Proteine.

Der E-Wert eines Pairwise-Alignments wird multipliziert mit dem Faktor N/n,

wobei N: "Länge" der Datenbank in Nukleotiden bzw. Aminosäurerestenund n: Länge der verglichenen Datenbanksequenz.

Wird z. B. von BLAST verwendet (E-Wert bei Ausgabe der Suchergebnisse).

aus E = Kmne-S wird dann E = KmNe-S

Bzw. aus E = mn2-S wird dann E = mN2-S'

Page 97: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Statistische Signifikanz

Statistiken für Alignments mit Lücken:

-> Abschätzen der Parameter aus vielen Vergleichen

FASTA:

echte Sequenzen, kein Zufallsmodell

-> optimale Scores (lokal!) für Query-Sequenz gegen jede Datenbanksequenz

-> und K bestimmbar

BLAST:

Vorabschätzung von und K durch Zufallsmodell

-> schneller, da optimale lokale Scores nur aus Vergleich

mit ein paar unverwandten Sequenzen

-> zusätzlich in BLAST Korrektur der "Kanten-Effekte"

Page 98: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

Adresse: http://www.ncbi.nlm.nih.gov/BLAST/

1. FASTA-Format:

Beinhaltet in der 1. Zeile nach dem ">"-Zeichen eine Sequenzbeschreibung, anschließend die Sequenz ohne Unterbrechungen. Das Ende der Sequenz wird nach zwei Leerzeichen automatisch erkannt.

Beispiel:

>gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED)QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHPFLFLIKHNPTNTIVYFGRYWSP

Verwendbare Formate:

Page 99: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

2. Reine Sequenzen:

Wie FASTA-Format, aber ohne Sequenzbeschreibung.

Beispiel:

QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHPFLFLIKHNPTNTIVYFGRYWSP

Page 100: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

3. GenBank-Flatfile-Sequenz / gcg-Format ohne Header:

Üblicherweise aus GenBank-Ausgabe bzw. aus dem gcg-Format kopiert, wobei keine Informationen außer Zählungshilfen vorhanden sein dürfen. Leerzeilen sind zu entfernen, da sie für die Erkennung des Sequenzendes herangezogen werden.

Beispiel:

1 QIKDLLVSSS TDLDTTLVLV NAIYFKGMWK TAFNAEDTRE MPFHVTKQES KPVQMMCMNN 61 SFNVATLPAE KMKILELPFA SGDLSMLVLL PDEVSDLERI EKTINFEKLT EWTNPNTMEK121 RRVKVYLPQM KIEEKYNLTS VLMALGMTDL FIPSANLTGI SSAESLKISQ AVHGAFMELS181 EDGIEMAGST GVIEDIKHSP ESEQFRADHP FLFLIKHNPT NTIVYFGRYW SP

Page 101: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

1 MSLLAYWLAS LWVTMWTDVG LCKKRPKPGG WNTGGRRYPA DGSPGGNRYP PQGATWGQPY 61 GGGWGQPHGG SFGQPHGGSW GQPHAAAWGQ GGGTHNQWNK PSKPKTNLKH VAGAAAAGAV121 VGGLGGYMLG SAMSRPMIHF GNDWEDRYYR ENMYRYPNQV YYRPVDQYSN QNNFVHDCVN181 ITIKQHTVTT TTKGENFTET

Beispielsequenz: Ein Prion?

Page 102: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

Page 103: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

Page 104: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

Page 105: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

Page 106: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

Page 107: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

Page 108: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

Page 109: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

Page 110: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

Page 111: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

Page 112: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

Page 113: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser

Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST

Page 114: Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser