vorlesung einführung in die bioinformatik - u. scholz & m. lange folie #4-1 genom- und...
Post on 05-Apr-2015
106 Views
Preview:
TRANSCRIPT
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-1Genom- und Proteomanalyse
Genom- und Genom- und ProteomanalyseProteomanalyse
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-2Genom- und Proteomanalyse
Begriffe (1)Begriffe (1)
Genom (Hans Winkler, 1920):- Gesamtheit der vererbbaren
Informationen einer Zelle- Speichermedium DNA- Kodiert die Ausprägungen
der spezifischen Eigenschaften eines Organismus
Genomics:- Erforschung des Genoms
Organismus Basenpaare
Escherichia coli 4,7*106
Saccharomyces cerevisiae
1,2*107
Drosophila melanogaster
1,3*108
Homo sapiens sapiens 3*109
Arabidopsis thaliana 1,2*108
Hordeum vulgare 4,8*109
Triticum aestivum 1,6*1010
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-3Genom- und Proteomanalyse
Begriffe (2)Begriffe (2)
Proteom (Marc Wilkins, 1994):- Gesamtheit aller zu einem bestimmten Zeitpunkt
exprimierten Proteine eines Organismus
Proteomics:- Erforschung des Proteoms
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-4Genom- und Proteomanalyse
GenomanalyseGenomanalyse
Genomanalyse: Ermittlung von funktionellen Bereichen (Genen) von Organismen
Ziel: Zuordnung von Funktionen zu genetischen Elementen
Einsatz der Bioinformatik zur Identifikation und Charakterisierung genetischer Elemente- z.B. Erkennung von Promotoren,
Transkriptionsfaktorbindungsstellen (TFBS) etc.
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-5Genom- und Proteomanalyse
Sequenzierung kompletter GenomeSequenzierung kompletter Genome
1995: 1. vollst. sequenziertes Bakteriengenom Haemophilus influenza
neue Ära: alle Gene und regulatorische Bereiche 1998: erster Mehrzeller Caenorhabditis elegans Problem Größe der kodierenden Bereiche bei Eykaryoten:
- Mensch und Maus ca. 1,4% des Gesamtgenoms Mensch und Maus:
- 5% der Genome hoch konserviert- aber mehr als 80% orthologe Gene bzw. Proteine
Einschub (Quelle: http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Orthology.html):
Homologous sequences. Orthologs and Paralogs are two typesof homologous sequences. Orthology describes genes in different species that derive from a common ancestor. Orthologous genesmay or may not have the same function. Paralogy describeshomologous genes within a single species that diverged by gene duplication.
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-6Genom- und Proteomanalyse
Sequenzierung kompletter GenomeSequenzierung kompletter Genome
1995: 1. vollst. sequenziertes Bakteriengenom Haemophilus influenza
neue Ära: alle Gene und regulatorische Bereiche 1998: erster Mehrzeller Caenorhabditis elegans Problem Größe der kodierenden Bereiche bei Eykaryoten:
- Mensch und Maus ca. 1,4% des Gesamtgenoms Mensch und Maus:
- 5% der Genome hoch konserviert- aber mehr als 80% orthologe Gene bzw. Proteine
Einschub (Quelle: http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Orthology.html):
Homologous sequences. Orthologs and Paralogs are two typesof homologous sequences. Orthology describes genes in different species that derive from a common ancestor. Orthologous genesmay or may not have the same function. Paralogy describeshomologous genes within a single species that diverged by gene duplication.
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-7Genom- und Proteomanalyse
Genomcharakterisierung mit STS Genomcharakterisierung mit STS
STS - Sequence Tagged Sites: Orientierungspunkte z.B. im menschlichen Genom
kurze DNA-Sequenzen mit Länge von 200 – 500 Basenpaaren STS kommt nur einmal im Genom vor! Ort und Basissequenz bekannt Marker für Kartierung von Chromosomen bzw. Genom Generierung von STS durch PCR DNA-Klone können durch DB-Suche auf Existenz von passenden
STS durchsucht werden und anhand dieser Information auf Chromosomen bzw. in Genomen positioniert werden.
-> präzise physikalische Karte seit 1994 eigene DB am NCBI: dbSTS
- Name, Sequenz für Amplifikation, Größe des PCR-Produkts, Sequenz, …
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-8Genom- und Proteomanalyse
EST = Expressed Sequence TagsEST = Expressed Sequence Tags
„Endeckung“ neuer Gene durch ESTs wird 1991 erkannt cDNA-Clone stammen von exprimierten Genen ab -> Name Generierung von ESTs durch Sequenzierung der cDNA von
beiden Enden viele Projekte zur EST-Sequenzierung -> Hochdurchsatz aber auch Kritik:
- schlechte Qualität durch single Run und automatische Generierung:Substitutionen und Insertionen/Deletionen -> Frameshifts (Verschiebung von Basentripletts; Kodierung anderer Aminosäuren)
- schlechte Qualität in internationalen Nukleotidsequenz-DBs- keine regulatorischen Elemente
NCBI: dbEST und Unigene TIGR: Gene Indicies
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-9Genom- und Proteomanalyse
EST - SequenzierungsprojekteEST - Sequenzierungsprojekte
©P.M
. Selz
er,
R.J.
Marh
öfe
r, A
. R
ohw
er:
Angew
andte
B
ioin
form
ati
k –
Ein
e E
infü
hru
ng.
Berl
in e
t al: S
pri
nger
Verl
ag,
20
04
.
Zellen, Gewebe, Organismus
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-10Genom- und Proteomanalyse
QualitätsmerkmaleQualitätsmerkmale
Anwendung folgender Kriterien beim Trimming:- Mindestlänge der ESTs- Anzahl von Ns im Gegensatz zu
eindeutig identifizierten Nukleotiden (A/T/G/C)
- Quality Scores des SequenzierautomatenMaß für Sequenzqualität jedes einzelnen Nukleotids
- Kontamination mit Vektor- oder Bakterien-DNA
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-11Genom- und Proteomanalyse
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-12Genom- und Proteomanalyse
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-13Genom- und Proteomanalyse
ZwischenergebnisseZwischenergebnisse
Sammlung von ESTs mit- unterschiedlicher Länge und- zufälliger Auswahl von cDNA-Sequenzen
aber auch ESTs von gleichen Transkripten besonders von hoch exprimierten Genen
Existenz von Redundanz Reduzierung durch Assemblierung und Alignments
aus ähnlichen ESTs Ergebnis sind Konsensussequenzen bei großen EST-Projekten vorher Clustern
- Zusammenfassung in Gruppen von EST mit identischen Nukleotiden in einem Bereich
- danach stringenteres Assemblieren und Alignen
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-14Genom- und Proteomanalyse
ESTs, Contigs und ESTs, Contigs und KonsensussequenzenKonsensussequenzen
©P.M
. Selz
er,
R.J.
Marh
öfe
r, A
. R
ohw
er:
Angew
andte
B
ioin
form
ati
k –
Ein
e E
infü
hru
ng.
Berl
in e
t al: S
pri
nger
Verl
ag,
20
04
.
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-15Genom- und Proteomanalyse
Beispiel für Komplett-Software StackPACK™ Beispiel für Komplett-Software StackPACK™ http://www.egenetics.com/stackpack.htmlhttp://www.egenetics.com/stackpack.html
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-16Genom- und Proteomanalyse
StackPACK™: Anwendung in CR-ESTStackPACK™: Anwendung in CR-EST
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-17Genom- und Proteomanalyse
StackPACK™ - Ein ProblemfallStackPACK™ - Ein Problemfall
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-18Genom- und Proteomanalyse
ESTs und die Identifizierung unbekannter ESTs und die Identifizierung unbekannter GeneGene
Annotations- und Sequenzsuchen gegen DBs BLASTX mit allen 6 Leserahmen: Achtung! Berücksichtigung von:
- Scores, E-Values, Identität, …- Beispiel: siehe Übung zu Sequenzvergleichen
weiterhin Motiv-Suche (Interpro): Unterscheidung der Sequenz aufgrund definierter Eigenschaften
zusätzliche Methode: ab-initio-Verfahren:- suchen nach Signalen in Sequenz:
• Translationsstart und -stop, • Exons/Introns, • Poly-Adenylierungssignal• 5‘ und 3‘ UTR• …
- Analysierung der Zusammensetzung der Sequenz• ORFs• G/C-Gehalt
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-19Genom- und Proteomanalyse
Coding and Non-CodingCoding and Non-Coding
©P.M
. Selz
er,
R.J.
Marh
öfe
r, A
. R
ohw
er:
Angew
andte
B
ioin
form
ati
k –
Ein
e E
infü
hru
ng.
Berl
in e
t al: S
pri
nger
Verl
ag,
20
04
.
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-20Genom- und Proteomanalyse
Alternatives SpleißenAlternatives Spleißen
©P.M
. Selz
er,
R.J.
Marh
öfe
r, A
. R
ohw
er:
Angew
andte
B
ioin
form
ati
k –
Ein
e E
infü
hru
ng.
Berl
in e
t al: S
pri
nger
Verl
ag,
20
04
.
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-21Genom- und Proteomanalyse
Identifizierung neuer Mitglieder von Identifizierung neuer Mitglieder von ProteinfamilienProteinfamilien
© P.M. Selzer, R.J. Marhöfer, A. Rohwer: Angewandte Bioinformatik – Eine Einführung. Berlin et al: Springer Verlag, 2004.
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-22Genom- und Proteomanalyse
Hyperlinks zwischen DatenbankenHyperlinks zwischen Datenbanken
© M
ath
ias
Lange,
Gate
rsle
ben 2
00
5
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-23Genom- und Proteomanalyse
DBOra: Eine integrierte Datenbank DBOra: Eine integrierte Datenbank zur Annotationzur Annotation
integrierte relationale Datenbank Protein – Pathway – Literatur – Krankheits –
Beziehungen Import basiert auf BioDataServer GUI: http://pgrc.ipk-gatersleben.de/DBOraWeb/
Suchmöglichkeiten:• Text (Wortstamm, phonetisch, fuzzy, ...)
• AA (lokales BLASTP)
• NA (lokales BLASTX)
Navigation verwendet Schlüssel-Fremdschlüssel-Beziehungen
Erreichbarkeit ist vorberechnet
© M
ath
ias
Lange,
Gate
rsle
ben 2
00
5
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-24Genom- und Proteomanalyse
© M
ath
ias
Lange,
Gate
rsle
ben 2
00
5
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-25Genom- und Proteomanalyse
DBOra: Technische ParameterDBOra: Technische Parameter
Datenbank-Schema:- 81 Tabellen- 85 Fremdschlüssel
Datenbank-Import:- SwissProt, TrEMBL, BRENDA, KEGG, OMIM- ~ 35 Millionen Einträge- ~ 6 GByte Daten
Index:- 381 Indizes- 5 GByte Textindizes- 836.013 AA-Sequenzen für BLAST-Vergleiche
© M
ath
ias
Lange,
Gate
rsle
ben 2
00
5
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-26Genom- und Proteomanalyse
DBOra: Datenbank-Schema (I)DBOra: Datenbank-Schema (I)
© M
ath
ias
Lange,
Gate
rsle
ben 2
00
5
• Protein-Eigenschaften
• Literatur-Referenzen
• Krankheiten
• Enzymatische Funktionen
• Datenbank-Querverweise
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-27Genom- und Proteomanalyse
DBOra: Datenbank-Schema (II)DBOra: Datenbank-Schema (II)
© M
ath
ias
Lange,
Gate
rsle
ben 2
00
5
EnzymatischeFunktionen
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-28Genom- und Proteomanalyse
DBOra: Prozess der automatischen DBOra: Prozess der automatischen EST-AnnotationEST-Annotation
EST Blast Hits
DBOra Search
retrieval of allpossible data linksusing precomputed
„Reverence Spanning Graphs“
KEGG EC-No.
Retrieve KEGG EC Numbers
Mapping to KEGG Metabolic Pathways
KEGG MetabolicPathways
Assign Data to
DBO
ra Tables
DDBJ
Genbank
SWISS-PROT
EMBL
PIR
1
2
3
4
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-29Genom- und Proteomanalyse
DBOra: DBOra: Input CR-EST BLASTX Hit Description Input CR-EST BLASTX Hit Description
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-30Genom- und Proteomanalyse
DBOra: DBOra: Result KEGG Pathway MappingResult KEGG Pathway Mapping
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-31Genom- und Proteomanalyse
DBOra: Ergebnis der automatischen DBOra: Ergebnis der automatischen EST-AnnotationEST-Annotation
© M
ath
ias
Lange,
Gate
rsle
ben
20
05
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-32Genom- und Proteomanalyse
Annotationen in CR-ESTAnnotationen in CR-EST
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-33Genom- und Proteomanalyse
ProteomanalyseProteomanalyse
Messung von „mRNA“ für Aussagen zu Proteinen nicht ausreichend zum Verstehen von komplexen biologischen Systemen
Beispiel: Stoffwechselwege werden durch Proteine und nicht durch Gene (des Genoms) oder mRNA (des Transkriptoms) gesteuert!
auch Hochdurchsatzverfahren zur Proteom-Analyse:- klassische oder quantitative Proteomics:
• Identifizierung und Quantifizierung der Proteine
- funktionelle Proteomics:• Funktionen der Proteine finden
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-34Genom- und Proteomanalyse
Klassische ProteomicsKlassische Proteomics
Ähnlichkeit zu Expression Profiling -> Protein Profiling exprimierte Proteine repräsentieren molekularen Fingerabdruck
einer Zelle Vergleich mehrerer „Fingerabdrücke“ -> Identifizierung
differentiell exprimierter Proteine (aber auch Gene) Protein Profiling erkennt:
- Proteine mit zellulären Funktionen- Messung quantitativer Veränderungen in Proteinzusammensetzung- postranslationale Veränderungen (Phosphorylierungen und
Glykosylierungen)- Proteinzusammensetzung von Zellkompartimenten
Protein Profiling erkennt nicht:- unlösliche Proteine- Transmembranproteine- schwach exprimierte Proteine
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-35Genom- und Proteomanalyse
2D-Gelelektrophorese & 2D-Gelelektrophorese & MassenspektroskopieMassenspektroskopie
Kombination der beiden ist gängiges Verfahren zum Protein Profiling
2D-Gelelektrophorese:- Proteine eines Zellextrakts in Polyacrylamidgel (Trennmatrix) mit
geignetem Puffer ladungsabhängig in elektrischem Feld auftrennen- Nutzung von 2 Eigenschaften:
• Ladung• Masse
- Bsp: Protein Cytochrom enthält viele basische Aminosäuren und ist bei neutralem pH-Wert positiv geladen
- Veränderung des pH-Wertes der Umgebung -> Änderung der Nettoladung des Proteins
- isolektrischer Punkt pI: negative und positive Ladungen eines Proteins sind gegenseitig aufgehoben
- wenn pH dem pI entspricht -> keine Wanderung des Proteins im elektrischen Feld
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-36Genom- und Proteomanalyse
2D-Gelelektrophorese2D-Gelelektrophorese jedes Protein besitzt charakteristischem pI -> Auftrennung in pH-Gradienten mit Hilfe des elektrischen Feldes -> 1.
Dimension 2. Dimension: Auftrennung nach Molekulargewicht:
- Peptide mit geringerem Molekulargewicht wandern schneller hoch-auflösende 2D-Gele: bis zu 10.000 verschiedene Proteine nach Auftrennung Anwendung spezieller Färbeverfahren zur
Sichtbarmachung:- Silberfärbung- Fluoreszensfarbstoffe
Digitalisierung der Gele und Auswertung mit bioinformatischen Methoden (z.B. mit Melanie von Expasy):- Spotdetection- Vergleich mehrer Gele – Identifizierung gleicher Spots und Erkennung
unterschiedlicher Intensitäten- Normalisierung- statistische Auswertung
Ergebnis: Liste mit differentiell exprimierten Proteinen (Unterscheidung nach pI und Molekulargewicht)
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-37Genom- und Proteomanalyse
Beispiel eines 2D-Gel-BildesBeispiel eines 2D-Gel-Bildes
©P.M
. Selz
er,
R.J.
Marh
öfe
r, A
. R
ohw
er:
Angew
andte
B
ioin
form
ati
k –
Ein
e E
infü
hru
ng.
Berl
in e
t al: S
pri
nger
Verl
ag,
20
04
.
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-38Genom- und Proteomanalyse
MassenspektroskopieMassenspektroskopie 2D-Gelanalyse nicht ausreichend Identifizierung eines unbekannten Proteins durch Bestimmung von
Teilen der Aminosäuren-Sequenz Vergleich dieser Sequenz mit Protein-DB (aber auch DNA-DB) Anwendung bei der massenspektroskopischen Analyse von Peptiden
durch Matrix-assisted Laser Desorption/Ionisation – Time of Flight (MALDI-TOF)
sensitive Technik -> Proteinmengen im Pikomol-Bereich (10-12) ausreichend
Vorgehensweise:1. Spots aus 2D-Gel ausschneiden2. Inkubation mit Proteasen (z.B. „Schneiden“ mit Trypsin)3. Ergebnis sind spezifische Peptidmuster4. Isolierung dieser aus Gel 5. Analyse mittels Massenspektroskopie6. jedes Peptid wird durch spezifisches Massenspektrum repräsentiert
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-39Genom- und Proteomanalyse
MALDI-TOF von BrukerMALDI-TOF von Bruker
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-40Genom- und Proteomanalyse
Identifizierung durch Vergleich von Identifizierung durch Vergleich von experimentell ermittelten und experimentell ermittelten und theoretischen Massenspektrentheoretischen Massenspektren
©P.M
. Selz
er,
R.J.
Marh
öfe
r, A
. R
ohw
er:
Angew
andte
B
ioin
form
ati
k –
Ein
e E
infü
hru
ng.
Berl
in e
t al: S
pri
nger
Verl
ag,
20
04
.
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-41Genom- und Proteomanalyse
Weiterentwicklung der Weiterentwicklung der MassenspektroskopieMassenspektroskopie
Nachteil bei MALDI-TOF:- zur eindeutigen Identifizierung eines Proteins sind
Messungen mehrerer Massenspektren notwendig
Neuentwicklungen:- Tandem-Massenspektroskopie:
• direkte Bestimmung eines Teils der Aminosäure-Sequenz
• partielle Sequenz reicht für eindeutige Identifizierung in Protein-DB aus
- Elektrospray-Ionisations-Quadruploe-TOF-Spektroskopie:• sensitive und akkurate Analysen von posttranslationalen
Modifikationen
Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-42Genom- und Proteomanalyse
Funktionelle ProteomicsFunktionelle Proteomics
z.B. Suche nach Protein-Protein-Interaktionen
durch solche Interaktionen Vermittlung vieler zellulärer Prozesse
Beispiele:- Yeast Two-Hybrid System- Protein-Arrays:
a) Sandwich Assaysb) Antigen Capture Assayc) direktes Assay
…
top related