33.1 einführung: bioinformatik und...
TRANSCRIPT
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
1
Genetik-Lehrbuch 2. Auflage 10/2002
(Anmerkung: Dieses ist ein Kapitel aus dem Genetik-Lehrbuch von Seyffert. Entsprechendfehlt jede Einführung in Grundlagen der Molekularbiologie und Genetik. Daher können mancheDinge verwirrend oder unverständlich sein, wenn dieser Hintergrund fehlt. Zwar ist dieserText dadurch keine gute Einführung für frühe Semester der Bioinformatik, bietet aber eine guteÜbersicht. Insbesondere fürs Nebenfach dürfte er nützlich sein, da dort die biologischenGrundlagen vorhanden sein dürften.
Viel Spaß damit, Heiko Schoof)
33 Bioinformatik
33.1 Einführung: Bioinformatik und ErbinformationDer Computer ist heutzutage aus dem Labor kaum mehr wegzudenken. Tatsächlich haben sichBiologie und Informatik derart gegenseitig beeinflusst, dass eine ganz neue, eigeneWissenschaft entstanden ist, die Bioinformatik. Und obwohl diese Disziplin noch so jung ist, istsie schon in aller Munde, auch weil das medienwirksame Humangenomprojekt ohneBioinformatik nicht auskäme.
Wie kommt es, dass sich der Computer für die Biologie als derart nützlich erweist? Einerseitsliegt dies in der Natur der Erbinformation begründet, die in einer linearen Abfolge vonBausteinen aus einem begrenzten Alphabet verschlüsselt ist. Eine solche Folge würde einProgrammierer „string“ nennen, und deren Verarbeitung wie auch die Entschlüsselungkodierter Information ist ein Kerngebiet der Informatik. Zugleich bedeutet diese Entdeckungeinen Paradigmenwechsel in der Biologie: DNA- und Proteinsequenzen sind scharfe Größen,man kann die Sequenz eines Genoms zumindest im Prinzip sowohl vollständig als auch exaktermitteln. Natürlich gibt es immer experimentelle Fehler, aber in der modernen Sequenzierungvon DNA-Sequenzen sind diese selten. Damit kann der Schritt gemacht werden von einer reinbeschreibenden Biologie, die Lebensprozesse qualitativ erfasst, zu einer deduktivenWissenschaft, die auch quantitative Zusammenhänge aus grundlegenden Gesetzmäßigkeitenableiten kann.
Eine weiterer Grund, weshalb Computer zur Verarbeitung moderner biologischer Daten hilfreichsind, ist ihre schiere Menge. Der Umfang von Sequenzdatenbanken nimmt rapide zu. Auchschwieriger zu erlangende Informationen, beispielsweise Proteinraumstrukturen, werden ingroßem Umfang erzeugt und gespeichert. Daher nimmt man heute für Nucleotidsequenzenmanchmal die Größe des menschlichen Genoms als Einheit (etwa 3 x 109 Basen), danach enthältdie EMBL DNA-Datenbank derzeit über 6 Humangenomäquivalente (oder 6 huges, einetreffende Bezeichnung).
Bioinformatik als Begriff ist sofort verständlich: Es geht um die Verknüpfung von Informatikund Biologie. Noch immer wird allerdings diskutiert, wie die Eigenständigkeit der Bioinformatik
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
2
als Fachgebiet definiert werden kann. Deutlich zeichnen sich einige Ziele ab, die sich dieBioinformatik gestellt hat:
- Das Verständnis der Kodierung, wie Erbinformation in der Nucleotidsequenz abgelegtist. Das gilt nicht nur für proteinkodierende Sequenzen, sondern auch fürregulatorische Sequenzen, die Transkription, Translation, Replikation undRekombination sowie Stabilität und Lokalisierung von mRNAs und Proteinen steuern.
- Die Vorhersage von möglichen Funktionen und Verwandschaften von Genproduktenaus der Sequenz.
- Die Modellierung von biologischen Systemen, um beispielsweise Schlüsse ausÄnderungen im Expressionsmuster von Genen oder dem Vorkommenniedermolekularer Substanzen (Metaboliten) zu ziehen und diese mit Zelltypen,Genotypen oder äußeren Einflüssen (z.B. Stress) zu korrelieren.
- Die Entdeckung von versteckten Informationen in großen Mengen biologischer Daten,auch data mining genannt.
Dieses Kapitel beschränkt sich auf die angewandte Bioinformatik, im Wesentlichen also auf dieWerkzeuge, die einem experimentellen Biologen zur Planung und Auswertung seinerExperimente nützlich sind. Die zugrunde liegenden mathematischen Modelle und Algorithmenwerden nur insoweit angeschnitten, wie dies für ein Verständnis unerlässlich ist.
Neben den bereits angesprochenen Sequenzdaten, die weiterhin die größte Bedeutung in derBioinformatik haben, beschäftigt sich diese aber auch mit anderen biologischen Daten. Zu denSequenzen gehören Annotationen, also „angehängte“, nicht sofort aus der Sequenzersichtliche Informationen, z.B. Ursprung der Sequenz oder Sequenzmerkmale (features) wieproteinkodierende Abschnitte oder Bindestellen. Bei Proteinsequenzen ist einerseits die Strukturwichtig, im besten Fall wurde diese durch Strukturanalyse aufgeklärt und die Koordinaten jedesAtoms können angegeben werden. Andererseits interessiert die Proteinfunktion. Um diese soabzuspeichern, dass der Computer damit Berechnungen durchführen kann, gibt es Ansätze inder Bioinformatik, Funktionen durch Ontologien oder ein kontrolliertes Vokabular festzulegen.Besondere Beachtung finden in letzter Zeit mRNA-Expressionsdaten, die in großem Umfangdurch Microarraymethoden gewonnen werden können. (((Abb))siehe Kapitel 32)
Die Bioinformatik beschäftigt sich mit einigen wichtigen Problemen im Umgang mit diesenDaten:
- Suche in Sequenzdatenbanken: Um die Information in den umfangreichenSequenzsammlungen nutzen zu können, braucht man effektive Werkzeuge, um schnellund zuverlässig Sequenzen herauszusuchen, die ähnlich zu einer Suchsequenz sind.
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
3
- Sequenzvergleich: Um die Verwandschaft von Sequenzen bzw. deren Evolution zuuntersuchen, werden Methoden benötigt, die diejenigen Sequenzbausteineidentifizieren und gegenüberstellen, die evolutionär korrespondieren (alignment).
- „Entschlüsselung“ der Erbinformation: Auf einer Ebene bedeutet dies die Vorhersagevon Genen einschließlich regulatorischer und proteinkodierender Abschnitte ausgenomischen Sequenzen, auf einer anderen die Vorhersage von Struktur und Funktionder abgeleiteten Genprodukte.
- Informationsaufdeckung in komplexen, verrauschten Daten wie sie beispielsweiseMicroarrays liefern. Hierzu sind aufwändige statistische Verfahren notwendig.
- Entwicklung von Näherungsverfahren für Probleme, die rechnerisch zu aufwändigsind, um erschöpfend behandelt zu werden. Dabei steht die 3D-Proteinstrukturvorhersage im Vordergrund.
Die rasche Entwicklung der Bioinformatik ist eng verknüpft mit einer ihrer bedeutendstenAnwendungen. Genomprojekte kommen ohne Bioinformatik nicht aus, da von derQualitätskontrolle der Sequenzierung über das Zusammensetzen vollständiger Genomsequenzenaus den sequenzierten Stücken und der Bestimmung der Gene bis zur Auswertung derProteinfunktionen und der Speicherung und Darstellung der Daten Bioinformatikmethoden zumEinsatz kommen (siehe Abschnitt 33.5).
Bioinformatikanalysen können Laborexperimente oft nicht ersetzen, wesentliche Bedeutunghaben sie aber für die gezielte Planung von Experimenten. Der experimentelle Aufwand zurFunktionsaufklärung eines Proteins kann sich aufgrund von Hinweisen aus derbioinformatischen Analyse drastisch reduzieren. Für die aufwändige experimentelleStrukturaufklärung können Proteine ausgewählt werden, die vermutlich ein noch nicht bekanntesFaltungsmuster aufweisen. Und ist ein krankheitsrelevantes Protein bekannt, kann durchModellierung der Bindungsstelle und der Wechselwirkungen mit möglichenArzneimittelmolekülen die Suche nach einem wirksamen Medikament in der ersten Phase imComputer erfolgen.
Als ein Beispiel gilt die Suche nach Inhibitoren der Prostaglandin-Cyclooxygenase 2 (COX2).Der Zugang zum aktiven Zentrum eines sehr ähnlichen Proteins, COX1, wird durch Bindungeines Inhibitors, beispielsweise Aspirin, blockiert. Durch ein Raummodell der Bindungstaschevon COX2 konnte für Aspirin-ähnliche Moleküle vorhergesagt werden, ob sie in die Taschepassen oder nicht. Somit konnte nicht nur ein geeigneter Inhibitor gefunden werden, sondernauch ein selektiver Inhibitor, der nur COX2, aber nicht COX1 hemmt.
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
4
Ein enormer Vorteil für den Forscher im Labor ist, dass die meisten molekularbiologischenDatenbanken und viele Bioinformatikwerkzeuge im Internet frei zugänglich sind. So wird einBrowserprogramm und eine Verbindung zum world wide web zum wichtigsten Werkzeug in derBioinformatik. Dadurch stehen nicht nur die riesigen Datenmengen, die in Archiven rund um dieWelt gespeichert sind, sondern auch die aktuellsten Werkzeuge und die nötige Rechenleistungjederzeit zur Verfügung. Was der Nutzer jedoch braucht, ist eine Grundkenntnis, wo welcheInformationen abrufbar sind und welche Werkzeuge verfügbar und für eine bestimmte Aufgabegeeignet sind. Zwar gibt es einige umfassende Sammlungen mit Links zu Datenbanken undBioinformatikwerkzeugen, doch genauso schnell wie sich die Bioinformatik weiterentwickelt,ändern sich Links oder erscheinen neue oder weiterentwickelte Programme. Suchmaschinen wiewww.google.de sind oft eine große Hilfe, nehmen einem aber nicht das Wissen über die besteVorgehensweise ab, um zu einer sinnvollen Lösung zu kommen. Daher werden im Folgendendie wichtigsten Datenbanken und Werkzeuge vorgestellt, sowie die Herangehensweise an einigeim molekularbiologischen Laboralltag häufige Probleme.
Wer die Bioinformatik nicht nur zur Unterstützung seiner experimentellen Arbeiten nutzen will,sondern sich intensiver mit in silicio Biologie auseinandersetzen will, findet imLiteraturverzeichnis einige hilfreiche Bücher.
33.2 DatenbankenIm Zeitalter des Internets ist glücklicherweise der Zugriff auf molekularbiologische
Datenbanken kinderleicht geworden. Dennoch ist eine gewisse Vorkenntnis nötig, um die
gefundenen Daten interpretieren zu können und sinnvolle Abfragen durchzuführen, die zur
Beantwortung einer gestellten Frage beitragen, ohne in der Menge an unterschiedlichen
Datenbanken, Zugangssystemen und Formaten oder der Flut an Information den Überblick zu
verlieren.
Dient die Archivierung von Daten zunächst natürlich dazu, sie dauerhaft zu speichern und
jederzeit bequem abrufbar zu halten, geht die Aufgabe der unten aufgeführten Datenbanken
teils weit darüber hinaus. Eine Aufgabe der Bioinformatik ist das Strukturieren, Organisieren
und Verknüpfen von Daten im Sinne der Nutzbarmachung von Daten für biologisches Wissen.
Das Interpretieren der Daten ist häufig eine Aufgabe, die nur von Menschen ausgeführt
werden kann, aber die Ergebnisse, neue Kenntnisse, müssen auch gespeichert und verbreitet
werden. Auch diese Aufgabe wird zunehmend von Datenbanken übernommen.
Dazu dienen Annotationen, an die Primärdaten (hauptsächlich Sequenzen, aber auch alle
anderen Meßergebnisse) angehängte Zusatzinformationen. Dies kann ein Titel oder Name, eine
Quellenangabe, Verknüpfungen mit anderen Einträgen und Datenbanken oder eine Abhandlung
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
5
über mögliche Funktion und Stand der Forschung sein. Im Sinne einer Verwertung durch
Computer sollten diese Informationen möglichst strukturiert vorliegen, wozu einerseits die
Definition von spezifischen Feldern dient, die nur eine bestimmte Art von Information
beinhalten dürfen, andererseits die Verwendung von Nomenklaturen oder Ontologien, so dass
nur ein festgelegter Wortschatz oder Codes verwendet werden dürfen. In Tabelle 33.1 werden
einige nützliche Felder kurz erklärt.
Tabelle 33.1: Verbreitete Feldbezeichnungen in molekularbiologischen Datenbanken
accession Ein eindeutiger Bezeichner, der es erlaubt,
genau diesen Datenbankeintrag zu
identifizieren. Wird oft verwendet, um
Verknüpfungen zwischen Datenbanken
herzustellen, indem die fremde Datenbank
mit der dort verwendeten accession
angegeben wird, beispielsweise bedeutet
EMBL:AC00123 den Eintrag AC000123
aus der EMBL Datenbank.
keyword Schlagwörter sollen eine effiziente Suche
ermöglichen.
affiliation Das Institut oder die Adresse eines Autors.
EC number Standardisierte Nomenklatur und
Codenummer für Enzyme bzw. der von
ihnen katalysierten Reaktionen, die von der
internationalen Kommission für
Enzymnomenklatur vergeben wird und
hierarchisch aufgebaut ist (siehe
www.expasy.ch).
MeSH term Medical Subject Headings, eine Liste von
Schlagwörtern, die von Medline als Index
verwendet werden.
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
6
PubMed ID oder MEDLINE UID
(MUID)
Eindeutiger Bezeichner für
Literaturreferenzen in der Medline bzw.
PubMed Literaturdatenbank.
feature table Hier werden Merkmale der Sequenz
aufgeführt, die nicht ohne weiteres
ersichtlich sind, beispielsweise kodierende
Abschnitte, Aminosäuren des katalytischen
Zentrums, Phosphorylierungsstellen,
Mutationen usw..
GO term Bezeichner einer Kategorie aus Gene
Ontology. Gene Ontology
(www.geneontology.org) versucht, die
Beschreibung von Proteinfunktionen zu
vereinheitlichen, indem ein umfassender
Katalog von molekularen Funktionen,
zellulären Rollen und Lokalisationen
angelegt wird und Genprodukte diesen
Kategorien zugewiesen werden, anstatt sie
in freien Worten zu beschreiben.
33.2.1 Sequenzdaten
Entsprechend der Entwicklung der Sequenziertechnologie gab es zunächstProteinsequenzdatenbanken, initiiert von M. Dayhoff in den sechziger Jahren des zwanzigstenJahrhunderts und zunächst noch auf Karteikarten verwaltet. Heute wird jedoch meist nur dieDNA sequenziert und die Proteinsequenz daraus abgeleitet. Drei große Datenbanken, die EMBLNucleotide Database, GenBank® und die DNA Database of Japan DDBJ (siehe Tabelle 33.2),haben sich zur International Nucleotide Sequence Database Collaborationzusammengeschlossen und bilden weltweit den zentralen Sammelpunkt für Nucleotidsequenzen,da die meisten Journals bei einer Veröffentlichung voraussetzen, dass alle Sequenzen bei einerdieser Datenbanken eingereicht werden. Die Daten werden zwischen den Zentren täglichabgeglichen. Daher beinhalten die drei Datenbanken die gleichen Sequenzen, aber Korrekturenmüssen immer an das Zentrum geschickt werden, wo die Sequenz ursprünglich eingereichtwurde, und können nur vom ursprünglichen Autor vorgenommen werden.
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
7
Um die Übersicht über die Unmenge an Sequenzeinträgen zu bewahren, sind diese inKategorien eingeteilt und damit auch Teilsets abrufbar. NR oder NonredH ist der Versuch, einennichtredundanten Satz aller proteinkodierenden Sequenzen zu erstellen, wo also mehrereEinträge, wenn sie immer dieselbe Sequenz enthalten, zu einem Eintrag zusammengefaßt werden.dbEST ist eine nichtredundante Sammlung aller EST-Datensätze, die beispielsweise 4 Millionenmenschliche ESTs enthält (siehe Kapitel 32). Der HTGS-Bereich (high throughput genomesequencing) enthält Daten aus Genomprojekten, dabei ist zu beachten, dass abgeleitete Proteinein diesen Einträgen auf Vorhersagen beruhen und nur bedingt verläßlich sind (s.u.). Alu ist eineSpezialdatenbank mit Alu-Sequenzwiederholungen, die zum Maskieren derartiger repetitiverSequenzen verwendet wird.
Als reine Proteinsequenzdatenbank verdient SWISSPROT besondere Erwähnung. Sie wird vomSchweizer Institut für Bioinformatik in Zusammenarbeit mit EMBL unterhalten. Alle Einträgewerden vom SWISSPROT-Personal durchgesehen, überprüft, mit Zusatzinformationenversehen und mit anderen Datenbanken, z.B. der EMBL Datenbank und PDB, verknüpft.SWISSPROT ist nicht redundant, und die Daten sind von gesicherter Qualität, aber dafür kanndas manuelle Eintragen der Daten mit der Flut neuer Sequenzen nicht mithalten und mit 100000Einträgen ist sie relativ klein. Dennoch ist SWISSPROT ein wichtiges Werkzeug, einerseits weildie Annotation von hoher Qualität ist, andererseits weil heutzutage die Gefahr groß ist, in EMBLauf einen Eintrag zu stoßen, dessen funktionelle Beschreibung allein auf der Ähnlichkeit zueinem anderen Protein beruht. So kann Information, manchmal eben auch falsche Information,über viele Schritte weitergegeben werden, ohne dass die ursprüngliche Grundlage erkennbar ist(siehe 33.3.4). Da in EMBL-Einträgen, die ja keiner Aufsicht unterliegen, nicht immer klarerkennbar ist, worauf Annotationen beruhen, ist ein guter Ausweg, zur Funktionsvorhersage nurmit SWISSPROT Sequenzen zu vergleichen.
Tabelle 33.2: Wichtige Datenbanken im Überblick
Eine aktuelle Übersicht verfügbarer Datenbanken wird unter www.expasy.ch/alinks.htmlangeboten. Das Journal Nucleic Acids Research bringt Anfang jeden Jahres eineDatenbankausgabe heraus, wo molekularbiologische Datenbanken kurz beschrieben werden.Kleine, spezialisierte oder neue Datenbanken findet man am Besten über Internetsuchmaschinenwie Google (www.google.de).
DNA-Sequenzen
EMBL/Genbank/DDBJ
zentrale, umfassendste Datenbankaller bekannten Sequenzen, mehr als20*106 Einträge
www.ebi.ac.uk/embl/
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
8
Proteine
SWISSPROT kontrollierte Annotation mit guterFunktionsbeschreibung von mehr als100000 Proteinen
www.expasy.ch/sprot/
PIR (ProteinInformationRessource)
reine Proteindatenbank, abergrößtenteils automatisch prozessiert.Gute Klassifizierung vonProteinfamilien, mehr als 800000Einträge
pir.georgetown.edu
Proteinstruktur
PDB (ProteinDatabase)
Die zentrale Datenbank fürexperimentell ermittelteProteinstrukturen, mehr als 18000Strukturen
www.rcsb.org/pdb/
SCOP (StructuralClassification ofProteins)
Klassifizierung von Proteinstrukturen,fast 40000 Domänen
scop.mrc-lmb.cam.ac.uk/scop/
CATH Automatisierte Klassifizierung vonProteinstrukturen, fast 40000Domänen
www.biochem.ucl.ac.uk/bsm/cath_new/
FSSP Klassifizierung anhandStrukturalignments mit DALI, 3000Familien
www.ebi.ac.uk/dali/fssp/
Literatur
PubMed Index von Veröffentlichungen inmedizinisch relevanten Journals, 12Millionen Veröffentlichungen
www.ncbi.nlm.nih.gov/PubMed/
Humangenetik
OMIM (OnlineMendelianInheritance in Man)
Informationen über menschlicheErbgänge und Erbkrankheiten, 8000Loci
www.ncbi.nlm.nih.gov/omim/
Stoffwechselwege
KEGG (KyotoEncyclopedia ofGenes)
Die Enzyme vieler Organismenwerden auf bekannteStoffwechselkarten abgebildet
www.genome.ad.jp/kegg/
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
9
Encyclopedia ofGenes)
werden auf bekannteStoffwechselkarten abgebildet
Metacyc Ursprünglich allein für E. coli(Ecocyc), bietet Metacyc jetzt für vieleGenome Daten über metabolischeNetzwerke, die beispielsweise aus EC-Nummern erzeugt werden können.Mehr als 460 Reaktionspfade mit über4000 Reaktionen
biocyc.org/metacyc
Funktionsdomänen
Prosite über 1500 Sequenzmotive, die ausfunktionalen Domänen abgeleitetwerden
www.expasy.org/prosite/
PFAM Ähnlich Prosite werden funktionaleDomänensignaturen erstellt, hier aberals hidden Markov model, was eineempfindlichere Suche ermöglicht.Enthält mehr als 4000 Modelle.
pfam.wustl. edu
Interpro Vom EBI verwalteteZusammenfassung verschiedenerDatensätze von Funktionsmotiven, dasz.B. PFAM und Prosite enthält.Bemerkenswert gute Dokumentationder Funktionsdomänen. Über 1200Domänen und 4000 Proteinfamilien
www.ebi.ac.uk/interpro/
Expressionsanalyse
SMD (StanfordMicroarrayDatabase)
Daten aus mRNA-Expressionschipexperimenten, diezusammen mit standardisiertenAngaben über das Experimentabgespeichert werden
genome-www.stanford.edu/microarray/
Transkriptionsregulation
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
10
Transfac Eine Sammlung vonTranskriptionsfaktoren und derenBindestellen
transfac.gbf.de/TRANSFAC
Bisher können leider nicht alle molekularbiologischen Daten in Datenbanken abgelegt werden,
und Literatur bleibt eine wichtige Quelle. PubMed ermöglicht eine Suche in den Titeln und
abstracts von vielen Zeitschriften mit medizinischer Relevanz. Oft lassen sich allein daraus
schon wichtige Informationen ziehen, und es gibt Ansätze, automatisiert Daten z.B. über
Proteininteraktionen aus den bei PubMed gespeicherten abstracts zu gewinnen.
Eine Sammlung genetischer Daten des Menschen, wie Erbkrankheiten, Genkartierungen und
Mutationen, findet sich in Online Mendelian Inheritance in Man (OMIM). Beschreibungen
von genetischer Varianz oder Erbkrankheiten sind hier mit den Sequenzeinträgen der
betroffenen Gene und den molekularen Mutationen verknüpft. Für andere Lebewesen wird
derartige Information oft in den organismusspezifischen Genomdatenbanken gespeichert, die
im Abschnitt 33.5.3 besprochen werden.
Die Gensequenzen oder Proteine sind nur die Bausteine, um Lebensvorgänge zu verstehen,
muß man außerdem wissen, wie sie zusammengehören und interagieren. Solche Beziehungen
zwischen Proteinen versuchen Datenbanken für Proteininteraktionen und für metabolische
Netzwerke zu speichern. Die Kyoto Encyclopedia of Genes and Genomes (KEGG) verknüpft
Metabolismuskarten mit den Proteinen und den Genen, die für die verzeichneten Enzyme
kodieren. Damit wird nicht nur ein Auffinden der Gensequenzen für alle an einem
Stoffwechselprozess beteiligten Enzyme erleichtert, sondern auch ein Vergleich zwischen
verschiedenen Organismen. Enthält das Genom eines Bakteriums ein Schlüsselenzym für einen
bestimmten Stoffwechselweg nicht, kann das ein wichtiger Hinweis auf Besonderheiten des
Metabolismus sein.
Eine flexible Darstellung von Stoffwechselwegen versucht Metacyc zu ermöglichen. Hier
können neue Netzwerke virtuell konstruiert werden, indem Reaktionen verknüpft werden, von
denen das Produkt der einen das Substrat der zweiten ist. Ob der dadurch zusammengestellte
Pfad in vivo eine Rolle spielt, hängt unter anderem noch von den Aktivitäten der beteiligten
Enzyme ab, die bisher nicht befriedigend modelliert werden.
Für die Funktionsvorhersage spielen Domänendatenbanken eine große Rolle. Da die
funktionellen Bereiche eines Proteins oft in evolutionär konservierten Modulen liegen, die
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
11
beispielsweise das katalytische Zentrum eines Enzyms umgeben, kann man in Alignments von
Proteinen mit gleicher Funktion solche Funktionsmodule erkennen. Daraus lassen sich
Funktionsmotive oder -signaturen ableiten, die eine empfindliche Suche in
Proteinsequenzdatenbanken ermöglichen (siehe Abschnitt 33.3.2). Die Datenbanken
unterscheiden sich in der Art, wie die Signaturen erstellt werden. Am einfachsten ist die
Verwendung von Interpro, einem System vom European Bioinformatics Institute (EBI). Dort
sind verschiedene Domänendatensätze wie Prosite, PFAM und Blocks zusammengefaßt.
Besonders nützlich ist die umfangreiche Dokumentation der Funktionsdomänen.
Enorme Datenmengen können durch die microarray-Technologie (siehe Kapitel 32) gewonnen
werden. Dabei ist es entscheidend, dass neben den verwendeten Zielsequenzen und den
ausgelesenen Expressionsniveaus dieser Ziele auch genaue Angaben über experimentelle
Bedingungen gespeichert werden, beispielsweise Ausgangsmaterial und Bedingungen der
mRNA-Präparation und Kalibrierungsmethoden. Nur so können eventuell auch Ergebnisse aus
verschiedenen Experimenten oder sogar Labors verglichen werden. Die Stanford Microarray
Database speichert nicht nur solche Daten, sondern bemüht sich auch um eine standardisierte
Beschreibung der Experimente. Viele internationale Forschungsgruppen und Firmen
unterstützen den MIAME-Standard (minimal information about a microarray experiment).
Wer sich für Tranksriptionsregulation interessiert, braucht Daten über Transkriptionsfaktoren
und deren Bindestellen. Diese Daten sind noch spärlich und verstreut, die Sammlung von
TransFac bietet einen Einstieg.
33.2.2 Suchwerkzeuge
Je mehr Daten zur Verfügung stehen, desto wichtiger wird es, präzise und zielgerichteteAnfragen zu stellen. Am einfachsten, und von vielen Servern angeboten, ist eine Volltextsuche,wo ein oder mehrere Worte angegeben werden. Dies können Datenbankkennziffern, Stichwörteroder Namen sein, aller Text wird vollständig durchsucht. Findet man zuviel Ergebnisse, kann dieSuche weiter eingeschränkt werden. Dabei hilft dann die Möglichkeit, die Suche auf einzelneFelder zu beschränken.
Für leistungsfähige aber effiziente Abfragen wurden sogenannte retrieval systems geschaffen,
z.B. SRS (srs.ebi.ac.uk) am European Bioinformatics Institute. Dies sind Programme, die auf
Datenbankabfragen spezialisiert sind und gleichzeitig mehrere Datenbanken durchsuchen
können. Außerdem bieten sie Nützliches wie einen Speicher der letzten Abfragen oder die
Möglichkeit, gespeicherte Abfragen zu kombinieren oder eine neue Abfrage auf die
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
12
Ergebnisliste durchzuführen. Sie sind auch flexibel in der Art, wie sie die Ergebnisse ausgeben,
und erlauben das Herunterladen ganzer Sequenzlisten in verschiedenen Formaten. Manche
Programme lassen sich direkt auf das Ergebnis anwenden. So kann man beispielsweise leicht
ein multiples Alignment von allen gefundenen Sequenzen durchführen.
Will man eine Liste von Ergebnissen speichern, um später wieder auf sie zugreifen zu können,
oder Verweise beispielsweise in Veröffentlichungen machen, so verwendet man am Besten die
Datenbankkenncodes oder accessions.
33.3 Sequenzvergleiche
33.3.1 Alignment
Ein zentrales Anliegen der Bioinformatik ist der Vergleich von Sequenzen, beispielsweise vonSequenzen unbekannter Funktion mit Sequenzen, deren Funktion bekannt ist, um etwas über dieunbekannten Sequenzen zu erfahren. Evolution geschieht auf molekularer Ebene durchMutationen in Sequenzen, und die Anzahl an Mutationen, die zwischen Sequenzpaarenstattgefunden haben, sind ein Maß für den evolutionären Abstand zwischen diesen Sequenzen.Da neben Substitutionen, also dem Austausch eines Bausteins, auch Insertionen/Deletionen undRekombinationen stattfinden können, müssen aber zuerst die Positionen identifiziert werden, dieevolutionär korrespondieren. Genau dies ist die Aufgabe des Alignments. In der üblichenDarstellungsform werden dabei zwei oder mehr Sequenzen übereinandergeschrieben, wobeikorrespondierende Positionen in einer Spalte übereinander stehen ((siehe Abb.)).
In dieser Darstellungsform kann man sofort erkennen, ob an einer Position in allen Sequenzender gleiche Baustein vorkommt, oder ob eine Substitution stattgefunden hat. Wenn eineInsertion oder Deletion stattgefunden hat, tritt in einer Sequenz an dieser Stelle eine Lücke auf,die meist mit - gekennzeichnet wird, aber an einer Position dürfen niemals nur Lücken stehen.Entscheidendes Merkmal von Alignments ist, dass die Reihenfolge der Bausteine in denSequenzen erhalten bleibt. Rekombinationen können so nicht dargestellt werden, und werdennicht berücksichtigt.
Ein Alignment, auch wenn es ein optimales Alignment ist, ist aber niemals ein Beweis für einenevolutionären Zusammenhang. Nur, wenn aus anderer Quelle bekannt ist, dass zwei Sequenzenverwandt sind (sie kodieren beispielsweise orthologe Gene aus zwei nahverwandtenOrganismen), kann geschlossen werden, dass korrespondierende Positionen tatsächlichevolutionär zusammenhängen. Andernfalls gibt das Alignment nur mögliche Beziehungenwieder. Dann lässt sich nur durch eine Abschätzung, mit welcher Wahrscheinlichkeit eine solcheBeziehung auch zwischen zufälligen Sequenzen auftreten kann, beurteilen, ob diese Beziehungsignifikant ist (siehe 33.3.1.5).
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
13
Seit vielen Jahren beschäftigt sich die Bioinformatik mit dem Problem, aus gegebenenSequenzen ein optimales Alignment zu erstellen und dessen Signifikanz zu bewerten. Dabeiwird grundsätzlich zwischen globalen und lokalen Alignments unterschieden ((siehe Abb.)).Globale Alignments bringen zwei Sequenzen über ihre ganze Länge in möglichst guteÜbereinstimmung. Lokale Alignments dagegen suchen Regionen mit möglichst guterÜbereinstimmung.
33.3.1.1 Dotplot
Eine intuitive, grafische Methode zur Erstellung von Alignments ist der Dotplot. Er gibt einen
Überblick über Beziehungen zwischen zwei Sequenzen, aber der Zusammenhang mit einem
Alignment ist nicht offensichtlich.
Ein Dotplot ist eine Tabelle oder Matrix, in der die Zeilen den Bausteinen einer Sequenz, die
Spalten denen der anderen Sequenz entsprechen ((siehe Abb.)). In der einfachsten Form des
Dotplots werden alle Felder markiert, wo die Bausteine in Zeile und Spalte übereinstimmen.
Sind die Bausteine in beiden Sequenzen unterschiedlich, bleibt das Feld leer. Bereiche, wo in
beiden Sequenzen die gleichen Bausteine aufeinanderfolgen, werden als Diagonalen von links
oben nach rechts unten sichtbar.
Mit dieser Darstellungsform lassen sich Wiederholungen leicht erkennen. Wiederholungen in
der gleichen Orientierung (tandem repeats) ergeben parallele Diagonalen von links oben nach
rechts unten, inverse Wiederholungen (inverted repeats) ergeben Diagonalen von rechts oben
nach links unten ((siehe Abb.)). Wiederholungen innerhalb einer Sequenz lassen sich durch
einen Dotplot der Sequenz gegen sich selbst erkennen.
Der Dotplot enhält außerdem alle möglichen Alignments zwischen zwei Sequenzen sowie
Informationen über deren Qualität. Jeder Pfad durch die Matrix von links oben nach rechts
unten, bei dem jeder Schritt nur in die rechts, unten oder diagonal rechts unten benachbarte
Zelle führt, entspricht einem Alignment. Dabei sind solche Alignments höher zu bewerten, die
mehr markierte Felder im Dotplot benutzen. Jeder nicht diagonale Schritt nach rechts oder
unten entspricht der Einführung einer Lücke in eine der beiden Sequenzen.
Dotplots eignen sich allerdings hauptsächlich für sehr ähnliche Sequenzen. Bei entfernter
verwandten Sequenzen erhält man viele kleine Diagonalen. Um den unspezifischen
Hintergrund auszublenden und etwas Übersichtlichkeit wiederherzustellen, kann man einen
Filter anwenden. Dabei werden nur solche Diagonalen angezeigt, wo in einem Abschnitt eine
Mindestanzahl von Bausteinen übereinstimmt, beispielsweise in einem Abschnitt von 10
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
14
Bausteinen mindestens 6 identische. Diese Werte werden meist window und threshold
(Mindestanzahl der Übereinstimmungen in einem Abschnitt der Länge window) genannt. Ein
Programm zum Erstellen von Dotplots findet sich z.B. unter www.isrec.isb-
sib.ch/java/dotlet/Dotlet.html.
33.3.1.2 Bewertung von Alignments
Alle möglichen Alignments zwischen zwei Sequenzen entsprechen allen möglichen Pfaden
durch eine Dotplotmatrix. Welcher Pfad entspricht dem besten Alignment, bzw. wie
signifikant ist das erhaltene Alignment? Dazu wird ein Bewertungsschema benötigt, dass
jedem Alignment einen score zuweist.
Dieses Bewertungsschema sollte möglichst die evolutionäre Verwandschaft wiedergeben.
Daher muss es Substitutionen und Indels berücksichtigen (eine Insertion ist aus Sicht der
anderen Sequenz eine Deletion, und in der Regel ist nicht bekannt, welches die evolutionäre
Ursprungssequenz ist). Rekombinationen können nicht berücksichtigt werden. Indels (Lücken)
werden meist längenabhängig gewichtet (siehe 33.3.1.3).
Für Nukleinsäuresequenzen wird oft ein einfaches Schema verwendet, in dem
Übereinstimmungen einen score von +1, Unterschiede von -1 bekommen. Kompliziertere
Schemata bewerten Transitionen und Transversionen unterschiedlich, da Transitionen häufiger
vorkommen, oder berücksichtigen die relativen Häufigkeiten der verschiedenen Nukleotide.
Für Aminosäuresequenzen gibt es verschiedene Systeme. Im Gegensatz zu
Nukleotidsequenzen haben hier auch nicht identische Aminosäuren oft einen evolutionären
Bezug. Ein einfaches Schema ergibt sich aus dem genetischen Code. Dabei werden
Aminosäurepaare nach der mindestens erforderlichen Anzahl an Nukleotidmutationen
bewertet, die nötig sind, um eine in die andere zu überführen. Andere Schemata beruhen auf
den physikalisch-chemischen Eigenschaften der Aminosäuren. Beispielsweise kann man
Aminosäurepaare mit +1 bewerten, wenn beide aus der gleichen Klasse physikalisch-
chemischer Eigenschaften kommen, und mit -1, wenn sie aus verschiedenen Klassen kommen.
Ein anderer Ansatz ist die Bewertung anhand beobachteter Substitutionsmuster. Dies
versuchte als erste Margaret O. Dayhoff. Sie wertete Aminosäureaustauschhäufigkeiten der
damals bekannten Sequenzen aus und erstellte daraus die PAM-Matrizen. PAM steht für
percent accepted mutation. Zwei Sequenzen, die einen Abstand von 1 PAM haben, weisen 1
% Mutationen auf (1 Substitution pro 100 Aminosäuren). Die PAM1-Substitutionsmatrix
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
15
ergibt sich aus den beobachteten Aminosäureaustauschhäufigkeiten zwischen solchen nah
verwandten Sequenzen. Dabei werden die Werte anhand der natürlichen Häufigkeit der
einzelnen Aminosäuren korrigiert. Bei solch nah verwandten Sequenzen kann man davon
ausgehen, dass jede Mutation auch beobachtbar ist, dass heisst, an keiner Position haben zwei
Substitutionen stattgefunden.
Will man PAM-Matrizen für Alignments von entfernter verwandte Sequenzen einsetzen, kann
man durch Potenzierung der PAM1-Matrix die Matrizen für größere evolutionäre Abstände
erhalten. Die PAM2-Matrix entspricht dem Quadrat der PAM1-Matrix, PAM250 entspricht
der PAM1-Matrix 250mal mit sich selbst multipliziert. PAM250 ist der größte evolutionäre
Abstand, bei dem noch sinnvolle Aminosäurealignments nur aus den Sequenzen errechnet
weden können. Dabei erwartet man 250 Mutationen pro 100 Aminosäuren, an vielen
Positionen haben also Mehrfachsubstitutionen stattgefunden, und etwa 20 % identische
Aminosäuren. Der Zusammenhang zwischen dem evolutionären Abstand in PAM und dem
Anteil identischer Aminosäuren ist in Tabelle 33.3 aufgeführt.
PAM 0 30 80 110 200 250
Identität (%) 100 75 50 60 25 20
Für die eigentliche Berechnung der Alignmentscores verwendet man meist skalierte,
logarithmierte Matrizen, so dass man einerseits ohne Nachkommastellen auskommt und
andererseits den Score eines Alignments durch Addieren der Werte für jedes Aminosäurepaar
bestimmen kann, anstatt die Austauschwahrscheinlichkeiten zu multiplizieren.
Die PAM-Matrizen von Margaret Dayhoff wurden später nochmal anhand einer viel größeren
Zahl von Sequenzen überprüft, wobei sich aber keine großen Änderungen ergaben. Wie
erwartet spiegeln die Werte die physikalisch-chemischen Eigenschaften der Aminosäuren
wieder, Austausche innerhalb einer Klasse sind wahrscheinlicher und erhalten einen höheren
Score. Andererseits passen die Werte nicht gut zu der Matrix, die sich aus dem genetischen
Code ergibt.
Um Substitutionsmatrizen zu erhalten, die leistungsfähiger beim Detektieren entfernter
Ähnlichkeiten sind, stützten sich S. Henikoff und J.G. Henikoff auf die BLOCKS-Datenbank.
BLOCKS enthält Abschnitte aus ähnlichen Proteinen, aus denen ohne Lücken ein Alignment
gebildet werden kann. Aus der Zahl beobachtbarer Aminosäurepaare an jeder Position und der
aufgrund der Gesamthäufigkeit der Aminosäuren erwarteten Paarungen werden die BLOSUM-
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
16
Matrizen errechnet (BLOCKS substitution matrix). Sequenzen mit hoher Ähnlichkeit wurden
dabei zusammengefaßt, um eine Überbewertung eng verwandter Sequenzen zu umgehen. Dabei
wird meist ein Grenzwert von 62 % identische Aminosäuren (BLOSUM62) angewendet, und
dies ist heute die meistverwendete Substitutionsmatrix. Bei einem Grenzwert von 80 %
Übereinstimmungen erhält man die BLOSUM80 Matrix, die für das Alignment von eng
verwandten Sequenzen eingesetzt wird.
33.3.1.3 Bewertung von Lücken
Wie sollen Indels im Verhältnis zu Substitutionen bewertet werden? Hier fehlt ein gutes
statistisches Modell, aber da Insertionen und Deletionen nicht nur einzelne Bausteine, sondern
längere Abschnitte betreffen können, unterscheidet man zwischen der Einführung einer Lücke
und deren Verlängerung. Bei der Einführung einer Lücke bewertet man die Wahrscheinlichkeit,
dass es überhaupt zu einem Indel kommt. Bei der Verlängerung bewertet man die Länge des
Abschnitts, der insertiert oder deletiert wird. Entsprechend haben die meisten
Alignmentprogramme zwei Parameter, einmal die Strafe für die Einführung einer Lücke (gap
penalty), und dann die Strafe, die Lücke um einen Baustein zu verlängern (gap extension
penalty). Diese Strafen werden vom Score des Alignments abgezogen. Für das Alignment von
DNA-Sequenzen schlägt CLUSTAL-W vor, eine gap penalty von 10 zu verwenden und eine
gap extension penalty von 0.1, wenn bei Substitutionen +1 für Übereinstimmung und -1 für
einen Unterschied gesetzt wird. Bei Proteinsequenzen und Anwendung der BLOSUM62-
Matrix wird eine Lückenstrafe von 11 und eine Erweiterungsstrafe von 1 empfohlen.
Unter bestimmten Umständen macht eine besondere Anpassung der Lückenstrafen Sinn. Wird
beispielsweise ein Alignment aus einer eukaryotischen mRNA-Sequenz und der genomischen
Sequenz erstellt, weiß man von vornherein, dass es aufgrund der Introns zu langen Lücken
kommen kann, in den Exons aber keine, auch keine kurzen Lücken auftreten sollten. In diesem
Fall erhält man bessere Alignments, wenn der Wert der gap penalty erhöht wird, der Wert für
die gap extension penalty dagegen auf 0 gesetzt wird.
33.3.1.4 Verfahren zur Berechnung von Alignments
Das optimale Alignment ergibt sich anhand des gewählten Bewertungsschemas: Es ist das
Alignment mit dem maximalen Gesamtscore. Dieses lässt sich garantiert finden, wenn man nur
alle möglichen Alignments durchprobiert, aber es muss nicht das biologisch sinnvolle
Alignment sein. Häufig gibt es viele verschiedene Alignments, die alle den gleichen,
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
17
größtmöglichen Score haben, und manchmal ist keines dieser optimalen Alignments das
biologisch sinnvolle Alignment.
In der Praxis ist das Durchprobieren aller möglichen Alignments häufig zu aufwändig.
Insbesondere, wenn mehr als zwei Sequenzen in das Alignment eingefügt werden sollen, ist die
Anzahl möglicher Alignments unhandhabbar groß. Deshalb werden erschöpfende Verfahren in
der Praxis nur für das Alignment von zwei Sequenzen angewendet.
Der Algorithmus für das erschöpfende globale Alignment zweier Sequenzen wurde von S. B.
Needleman und C. D. Wunsch erstmals auf biologische Sequenzen angewandt. Er wurde von
T. Smith und M. Waterman abgewandelt, um lokale paarweise Alignments zu berechnen. Der
Smith-Waterman Algorithmus wird auch heute angewendet, wenn die Garantie, das optimale
Alignment zu erhalten, Vorrang hat vor der Geschwindigkeit (www.ebi.ac.uk/emboss/align/).
In vielen Fällen bedient man sich aber Näherungsverfahren, um die Berechnung zu
beschleunigen. Dies gilt einerseits für die Suche in großen Datenbanken (siehe unten), und
andererseits für das multiple Alignment von mehr als zwei Sequenzen. Auch das multiple
Alignment lässt sich im Prinzip erschöpfend lösen, indem alle möglichen Alignments
berücksichtigt werden. Deren Zahl wächst aber exponentiell mit der Zahl der Sequenzen.
Stattdessen wendet z.B. das Programm ClustalW (www.ebi.ac.uk/clustalw) die Strategie an,
zunächst alle paarweisen Alignments zu berechnen, um dann mit dem Alignment der beiden
am engsten verwandten Sequenzen zu beginnen und diesem Alignment alle weiteren
hinzuzufügen. Während ClustalW meist brauchbare globale Alignments produziert, ist Dialign
(bibiserv.techfak.uni-bielefeld.de/dialign/) auf lokale Alignments spezialisiert.
33.3.1.5 Bedeutung von Alignments
In beinahe jedem paarweisen Alignment findet man Übereinstimmungen. Aber handelt es sich
um eine echte Verwandtschaft? Mit statistischen Methoden kann man zwar nicht in der Zeit
zurückreisen und der Evolution über die Schulter schauen, aber man kann zumindest
beurteilen, wie wahrscheinlich eine solche Ähnlichkeit auch durch Zufall auftritt. Dabei
vergleicht man den Gesamtscore des gefundenen Alignments mit den Scores aller Alignments
dieser Sequenz mit einer Kontrollpopulation. Diese Kontrollpopulation können
Zufallssequenzen, aus den Ausgangssequenzen durch zufällige Durchmischung gebildete
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
18
Kopien, oder eine Sequenzdatenbank sein. Dann kann man statistische Werte für die
Signifikanz des Alignments berechnen.
Der Z-Score vergleicht den Score S des gefundenen Alignments mit Mittelwert und
Standardabweichung aller Scores der Alignments gegen die Kontrollpopulation:
Z-Score von S = S - Mittelwert / Standardabweichung
Dabei bedeutet ein Z-Score von 0, dass das Alignment nicht besser ist als im Durchschnitt der
Kontrollpopulation. Je größer der Z-Score, umso wahrscheinlicher ist, dass das betrachtete
Alignment nicht durch Zufall entstanden ist. Z-Scores > 5 können als signifikant angenommen
werden.
Ein anderer Wert ist P, die Wahrscheinlichkeit, dass der Score des betrachteten Alignments
nicht besser als ein zufälliges Alignment ist. Eine Faustregel würde Werte unter 10-10 als
signifikante Ähnlichkeit einschätzen, während Werte für P bis 0.1 durchaus biologische
Bedeutung haben können.
Für Datenbanksuchen ist der nützlichste Wert der e-value (expectation value,
Erwartungswert). Dieser ergibt sich aus P multipliziert mit der Datenbankgröße, und gibt an,
wie oft man Alignments mit dem gleichen oder einem besseren Score erhält, wenn man die
Datenbank mit einer Zufallssequenz durchsucht. Werte für P liegen zwischen 0 und 1, e-
values zwischen 0 und der Gesamtzahl der Sequenzen in der Datenbank. Die Faustregel lautet
hier, dass Alignments mit einem e-value über 1 vermutlich zufällig sind. Ein e-value kleiner als
10-2 deutet oft auf eine Verwandtschaft hin, kann jedoch insbesondere bei Sequenzen mit
ungewöhnlicher Zusammensetzung auch in die Irre leiten.
Für alle statistischen Werte gilt, dass sie zwar wertvolle Hinweise zur Beurteilung von
Alignments geben, insbesondere im Vergleich verschiedener Alignments, aber keinen Ersatz für
eine genaue Betrachtung des Alignments oder für ein Heranziehen von ergänzendem Wissen
sind. Beispielsweise kann die Kenntnis des vermutlichen evolutionären Abstands zweier
Sequenzen, etwa aufgrund der Verwandtschaft der Arten, von denen die Sequenzen stammen,
einen Erwartungswert für die Ähnlichkeit von verwandten Genen bestimmen.
Eine genaue Betrachtung des Alignments dient nicht nur der Beurteilung seiner Signifikanz.
Besonderes Augenmerk verdienen Bereiche mit größerer Übereinstimmung. Beispielsweise
entsprechen in Alignments von zwei Enzymen die am stärksten konservierten Abschnitte
wahrscheinlich dem aktiven Zentrum. Nicht jede Aminosäure eines Proteins hat dieselbe
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
19
Bedeutung, und besonders bedeutsame Aminosäuren werden vermutlich
entwicklungsgeschichtlich erhalten. Abschnitte mit einer geringen Variabilität können
funktions- oder strukturbestimmenden Proteindomänen entsprechen. Kennt man wichtige
Struktur- oder Funktionselemente einer der beiden Sequenzen, sollte man überprüfen, ob diese
auch in der zweiten Sequenz auftreten, und dies bei der Beurteilung der Verwandschaft
heranziehen.
Die besondere Bedeutung multipler Alignments liegt darin, dass sie solche evolutionär
konservierten Bereiche erkennen lassen. Dabei kann die Kennzeichnung der Aminosäuren
entsprechend ihrer physikalisch-chemischen Eigenschaften sehr hilfreich sein. Dazu werden
sie meist farbig markiert. Sowohl Strukturelemente als auch funktionelle Eigenschaften stechen
so hervor. Das Auftreten hydrophober Aminosäuren in einem regelmäßigen Abstand kann auf
bestimmte Strukturen hinweisen. Im Abstand von zwei treten hydrophobe Aminosäuren
häufig in Faltblattstrukturen auf, ein Abstand von etwa vier deutet auf eine Helix hin.
Funktionelle Bedeutung haben beispielsweise die konservierten Cystein- und Histidinreste, die
in Zinkfingerproteinen zur Komplexierung des Zinkions nötig sind. Manchmal sind kleine
Korrekturen an einem Alignment sinnvoll, um solche konservierten Positionen tatsächlich in
Übereinstimmung zu bringen.
33.3.1.6 Profile und DomänensignaturenDie Information darüber, welche Positionen in einem Alignment mehrerer verwandter
Sequenzen besonders konserviert sind, lässt sich in Profilen speichern. Dadurch werden die
Gesetzmäßigkeiten oder Muster, die in einem multiplen Alignment verborgen sind,
beschrieben. Statt für jede Position die gleiche Substitutionsmatrix zur Bewertung des
Alignments zu verwenden, wird für jede Position im Alignment eine eigene Bewertungsmatrix
erstellt. Aminosäuren, die an dieser Position häufig vorkommen, werden höher bewertet.
Dadurch erhält man eine mächtige Methode, um auch entfernt verwandte Sequenzen zu
erkennen.
Solche Profile lassen sich auf verschiedene Art und Weise darstellen. Signaturen ohne Lücken
lassen sich in weight matrices festlegen, wo für jede Position die relative Häufigkeit jedes
Bausteins angegeben wird. Die Prosite-Datenbank von Funktionsprofilen verwendet reguläre
Ausdrücke, beispielsweise G-H-E-x(2)-G-x(2-5)-[GA]-x(2)-[IVSAC]. Dabei steht jeder
Buchstabe für eine Aminosäure und ein x für jede beliebige Aminosäure. Listen in eckigen
Klammern bedeuten, dass an dieser Stelle jeder der Buchstaben aus der Liste stehen kann.
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
20
Zahlen in Klammern geben die Anzahl des entsprechenden Buchstaben an. Auf obiges Profil
paßt also beispielsweise die Sequenz GHEASGDARASTC. Die flexibelste Darstellungsform
verwendet hidden Markov models (HMMs), mathematische Modelle, in denen die
Wahrscheinlichkeiten der verschiedenen Bausteine an jeder Position sowie die
Wahrscheinlichkeiten für Insertionen und Deletionen festgelegt werden können. Sie werden
von der PFAM-Datenbank verwendet. Eine ausgezeichnet dokumentierte Sammlung von
bekannten Proteindomänen und Profilen ist Interpro des EBI (www.ebi.ac.uk/interpro).
33.3.2 Suche in Sequenzdatenbanken
Ein Spezialfall des Alignmentproblems ist die Suche ähnlicher Sequenzen in Datenbanken. Hiersoll eine große Menge an Sequenzen mit einer Suchsequenz verglichen und eine Liste vonTreffern ausgegeben werden, am Besten nach Ähnlichkeit sortiert. Dies kann man durch einpaarweises Alignment, beispielsweise mit dem Smith-Waterman-Algorithmus(www.ebi.ac.uk/MPsrch), zwischen der Suchsequenz und jeder Sequenz in der Datenbank lösen,wobei man die Ergebnisse nach dem Gesamtscore des Alignments sortiert. Der Vorteil dieserMethode ist, dass garantiert alle signifikanten Alignments gefunden werden, aber sie ist sehrrechenaufwändig.
Wesentlich schneller ist FASTA (www.ebi.ac.uk/fasta/). Dabei werden zunächst alleDatenbanksequenzen auf das Vorkommen von exakten Übereinstimmungen mit kurzenFragmenten der Suchsequenz überprüft. Die Länge dieser Fragmente lässt sich über denParameter ktup (k-tuple) festlegen, für Nukleotidsequenzen wird 6, für Aminosäuresequenzen 1oder 2 vorgeschlagen. Je kleiner der Wert für ktup, desto empfindlicher und langsamer wird dieSuche. Wird eine exakte Wortübereinstimmung gefunden, wird dieses Minialignmentverlängert. Falls dabei ein Mindestscore übertroffen wird, wird das Alignment weiter verlängertbis der Score durch eine Verlängerung nicht mehr erhöht wird. Dann wird ein Smith-Watermanmit den Treffern mit dem höchsten Score berechnet. Dies bietet den Vorteil, dass letzten Endesgarantiert das optimale Alignment und dessen Score ausgegeben wird.
Noch effizienter ist BLAST (basic local alignment search tool, www.ebi.ac.uk/blast/). Aus einerSuchsequenz werden zunächst alle Worte (Sequenzfragmente) aufgelistet, die in einemAlignment einen Mindestscore übertreffen können. Alle Datenbanksequenzen, die diese Worteenthalten, werden in einem Index der Datenbank nachgeschlagen. Ausgehend von diesenÜbereinstimmungen wird versucht, das Alignment zu verlängern, wobei auch Lücken eingeführtwerden können. Die Sequenzen, die die Alignments mit den höchsten Scores (hsp, high-scoringsegment pairs) enthalten, werden angezeigt. Dabei entsprechen die Alignments allerdings nichtimmer dem optimalen. Dennoch ist BLAST wahrscheinlich das meistgenutzte
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
21
Bioinformatikwerkzeug, und auf den zahlreichen WWW-Servern, wo es kostenlos angebotenwird, wird es täglich viele tausend Male aufgerufen.
Eine Weiterentwicklung von BLAST ist PSI-BLAST (position specific iterated BLAST,www.ncbi.nlm.nih.gov/BLAST/). Bei geringer Sequenzähnlichkeit, etwa unter 30 % identischerAminosäuren, ist PSI-BLAST empfindlicher und kann dreimal mehr verwandte Sequenzenrichtig identifizieren. Dies wird erreicht, indem aus den in einem normalen BLAST-Laufgefundenen, eng verwandten Sequenzen ein Profil erstellt wird und in weiteren Iterationen diesesProfil verwendet wird, um die Datenbank zu durchsuchen. Dabei werden konservierte Positionenstärker berücksichtigt. Werden dabei neue Sequenzen gefunden, wird mit diesen das Profilverfeinert und eine erneute Suche durchgeführt, bis keine neuen Sequenzen mehr ein statistischsignifikantes Alignment ergeben.
33.3.3 Phylogenetische Rekonstruktionen
Bisher ging es darum, die Ähnlichkeit von Sequenzen zu bestimmen. Diese sollte ein Maß fürden evolutionären Abstand sein. Wenn wir von einer Gruppe von Sequenzen jeweils dieevolutionären Distanzen kennen, sollten wir in der Lage sein, einen Stammbaum aufzustellen.Entscheidend für den Erfolg ist bereits das Alignment. Ohne ein sinnvolles Alignment kann dieBaumrekonstruktion kein brauchbares Ergebnis liefern. Außerdem können Lücken nichtberücksichtigt werden, weshalb nur Alignments von solchen Abschnitten der Sequenzenverwendet werden, wo möglichst wenig Lücken eingefügt werden müssen. Überstehende Endenwerden einfach abgeschnitten.
Dabei tritt das Problem der Umrechnung von Ähnlichkeiten in Distanzen auf. Wie bereits obenim Abschnitt über PAM Substitutionsmatrizen beschrieben, kann man die beobachtetenUnterschiede zwischen zwei Sequenzen nur dann der Zahl der Substitutionen gleichsetzen, wenndie Sequenzen fast vollständig identisch sind. Für weniger ähnliche Sequenzen muß manMehrfachsubstitutionen berücksichtigen, die an einer Position auch wieder zu einerÜbereinstimmung führen können.
Anschließend muß aus der Matrix der paarweisen Distanzen ein Baum erstellt werden. Dazugibt es mehrere Herangehensweisen: Distanzmethoden fügen zunächst die ähnlichstenSequenzen zu einem Cluster zusammen und berechnen eine neue Matrix, in der das Cluster wieeine einzelne Sequenz behandelt wird. In der sich ergebenden Distanzmatrix, die eine Zeile undSpalte weniger als die ursprüngliche Matrix enthält, werden wieder die beiden Sequenzen oderCluster zusammengefaßt, die am ähnlichsten sind, und so weiter bis nur noch ein Cluster übrigist. Diese hierarchischen Cluster lassen sich direkt als Baum darsellen. GebräuchlicheDistanzmethoden sind UPGMA oder Neighborhood Joining. Die Maximum ParsimonyMethode bestimmt für jede mögliche Baumtopologie die Mindestzahl Substitutionen, diepostuliert werden müssen, um alle Sequenzen auf diesen Baum abzubilden. Der Baum, der die
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
22
geringste Zahl Substitutionen erfordert, wird ausgewählt. Auf einer Modellierung derWahrscheinlichkeit aller denkbaren Bäume beruhen Maximum Likelihood Methoden.
Alle diese Methoden finden sich in speziellen Programmpaketen, beispielsweise PHYLIP(evolution.genetics.washington.edu/phylip.html). Die besten Ergebnisse liefern MaximumParsimony und Maximum Likelihood Methoden, jedoch sind dies auch die rechenintensivstenMethoden. Daher ist die schnellere Neighborhood Joining-Methode weitverbreitet. AlleErgebnisse müssen in jedem Fall kritisch untersucht werden. Eine rein statistische Möglichkeitzur Signifikanzabschätzung ist das bootstrapping. Dabei werden die Spalten des Alignmentsunter möglicher Doppelverwendung oder Auslassung neu angeordnet und erneut ein Baumbestimmt. Danach wird die Häufigkeit, mit der die ursprünglich vorhergesagte Topologie wiederauftritt, als Maß für die Signifikanz verwendet. Diese Methode wird meist mit mindestens 400Durchmischungen angewendet und die Ergebnisse werden als Prozentzahlen angegeben, mit derdie ursprüngliche Topologie gefunden wird.
33.3.4 Funktionsvorhersage durch Sequenzähnlichkeit
Eine wichtige Anwendung von Sequenzvergleichen ist es, für eine unbekannte Sequenz eine
mögliche Funktion zu finden. Da verwandte Proteine auch eine ähnliche Struktur und eine
ähnliche Funktion haben, bekommt man auf diese Weise oft sehr gute Hinweise auf eine
Funktion. Allerdings ist Vorsicht angebracht. In manchen Fällen, beispielsweise bei
bestimmten Enzymen, führt schon der Austausch einer Aminosäure im katalytischen Zentrum
zu einer völlig neuen Spezifität. Verwandte Proteine können in diesen Fällen sehr ähnlich sein,
sie spielen aber sehr unterschiedliche Rollen im Stoffwechsel. Eine weitere Gefahr ist, dass
inzwischen viel Information in den Sequenzdatenbanken auf Herleitung aus ähnlichen
Sequenzen beruht. So können einerseits Fehler weitergegeben werden, andererseits Information
über mehrere Schritte abgeleitet werden, wobei die letzte Sequenz in der Kette mit der ersten
Sequenz, welches die einzige ist, für die die Funktion bekannt ist, nicht mehr viel gemeinsam
hat. Daher sollte man zur Funktionsvorhersage grundsätzlich nur die Ähnlichkeit zu Proteinen
mit experimentell erforschter Funktion heranziehen. Dazu sind insbesondere die PDB und
SWISSPROT Datenbanken nützlich, siehe oben.
33.4 StrukturvorhersagenIn Kapitel 2 wurde auf die Struktur von Proteinen bereits eingegangen. Der Informationsflussder Erbinformation verläuft von der DNA-Sequenz des Gens über mRNA zur Proteinsequenz.Die Proteinsequenz wiederum bestimmt die Struktur, und die Struktur die Funktion. Eigentlichsollten diese Schritte nachvollziehbar sein und aus der Proteinsequenz die Struktur und daraus
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
23
die Funktion vorhersagbar sein. In der Praxis stellt die Strukturvorhersage allein aus derSequenz die Bioinformatik vor eine immense Herausforderung.
Immerhin sind einige der physikalisch-chemischen Grundprinzipien bekannt, die zu dernatürlichen Faltung der Proteine beitragen. In erster Linie ist es ein thermodynamischesProblem, da das Protein diejenige Faltung einnimmt, in der ein optimaler Kompromiß zwischenniedriger Enthalpie und hoher Entropie erreicht wird, also die Gibbsche freie Energie minimiertwird. Allerdings ist eine Berechnung aller Wechselwirkungen innerhalb des Proteins und mitdem Lösungsmittel noch so aufwändig, dass in der Praxis nicht genügend verschiedeneKonformationen berechnet werden können, damit mit Sicherheit die günstigste dabei ist.
Dennoch gibt es einige nützliche Werkzeuge, die zumindest Hinweise auf die mögliche Struktureines unbekannten Proteins geben. Zur Sekundärstrukturvorhersage ist momentan PROF(www.aber.ac.uk/~phiwww/prof/) eines der besten Programme. Im Ergebnis werden Helixesund Faltblattbereiche markiert. Auf einem Server des EMBL Heidelberg kann man dieses sowieeine ganze Reihe weiterer Strukturvorhersageprogramme laufen lassen (www.embl-heidelberg.de/predictprotein/)((siehe Abb)).
Ein wichtiger Nutzen von Strukturvorhersagen ist wiederum das Alignment von Sequenzen,beispielsweise zur Funktionsvorhersage. Ein Alignment, das unter Berücksichtigung derStruktur erstellt wird, ist oft viel aussagekräftiger. Insbesondere im Bereich sehr geringerÄhnlichkeiten kann ein Strukturalignment noch wichtige Übereinstimmungen in derAminosäuresequenz aufdecken (www.ebi.ac.uk/dali/).
33.5 GenomanalyseDas Ziel der Genomanalyse ist, die Sequenzen und Lokalisation aller Gene eines Organismusauf dessen Chromosomen zu bestimmen. Im Prinzip erhält man dadurch den vollständigenBauplan des Organismus. Um aber den Zusammenhang dieses Bauplans mit Gestalt undLebensstil zu verstehen, ist außerdem das Verständnis der Beziehungen unter den Genennotwendig. Diese werden von der Genomik untersucht (siehe Kapitel 32), die sichbeispielsweise mit der Regulation der Expression oder mit Protein-Protein-Interaktionenbeschäftigt. Für viele Ansätze in der Genomik ist die Kenntnis des vollständigen Genoms, alsoder Sequenz der Chromosomen oder wenigstens die Sequenzen aller Gene, von großerBedeutung. Daher ist außerordentlich viel Mühe und Geld in eine ganze Reihe vonGenomanalyseprojekten geflossen, und insbesondere das Humangenomprojekt hat auch großeöffentliche Aufmerksamkeit erregt.
Genomprojekte kommen grundsätzlich nicht ohne Bioinformatik aus. Dies beginnt bei derQualitätskontrolle der gewonnenen Sequenzen, über den Zusammenbau zusammenhängenderSequenzbereiche aus den einzelnen Sequenzierläufen, die Vorhersage der Gene und ihrerFunktionen und endet in der Auswertung und Beurteilung der Ergebnisse, z.B. durch Vergleich
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
24
mit anderen Genomen. Dabei haben Fortentwicklung der Sequenziertechnologie und derBioinformatik gleichermaßen Anteil an dem rasanten Fortschritt der Genomanalyse. Der heutemögliche Durchsatz übertrifft alle Prognosen, so dass eine Reihe von Genomprojekten deutlichfrüher als geplant fertiggestellt werden konnten.
33.5.1 GenomsequenzierungEin wichtiger Beitrag der Bioinformatik beruht darauf, dass Genomsequenzen nicht am Stückeingelesen werden können. Auch moderne Verfahren können meist nicht mehr als 1000 bp ineinem Sequenzierlauf lesen. Deswegen werden immer erst kleinere Bruchstücke eines DNA-Moleküls erzeugt, die dann sequenziert werden, und im Computer wieder zu einerGesamtsequenz zusammengesetzt oder assembliert werden. Zunächst klingt das einfach, wenndie Fragmente überlappen, hängt man sie aneinander. Die Aufgabe ist aber viel schwieriger, daeinerseits die überlappenden Sequenzierläufe nicht immer die hundertprozentig identischeSequenz haben, andererseits an einer anderen Stelle im Genom eine sehr ähnliche Sequenzvorkommen kann, so dass nicht zueinandergehörende Fragmente irrtümlich zusammengesetztwerden. Ersteres beruht darauf, dass einzelne Sequenzierläufe eine Fehlerhäufigkeit von etwa 1% haben, d.h. unter 100 gelesenen Basen ist im Durchschnitt ein Fehler. Letzteres macht großeSchwierigkeiten, wenn es sich um sogenannte repetitive DNA handelt. Dies sind Sequenzen, diemit oft nur geringen Abwandlungen viele Male in einem Genom vorkommen (siehe Kapitel 7).
Um dieses Problem zu reduzieren, kann man für größere Genome das sogenannte clone-by-clone Verfahren anwenden. Zufällig erzeugte Fragmente des Genoms werden in Vektorenkloniert, die eine einfache Vervielfältigung im Labor erlauben, am Gebräuchlichsten sindkünstliche Bakterienchromosomen, kurz BAC (bacterial artificial chromosome), die etwa 150kb große DNA-Fragmente enthalten. Dann werden zuerst diese Klone entlang derChromosomen angeordnet, wobei Restriktionsenzymkartierung (fingerprinting), BAC-Enden-Hybridisierung und Verankerung mittels genetischer Marker angewendet werden. Ein Satzmöglichst wenig überlappender Klone (sog. tiling path) wird ausgewählt, der das gesamteGenom repräsentiert. Diese Klone werden dann einzeln sequenziert. Anschließend müssenjeweils nur die Sequenzierläufe für einen einzelnen Klon zusammengesetzt werden.
Das shotgun Verfahren beruht dagegen darauf, aus dem ganzen Genom zufällig gewonneneSequenzierläufe erst im Computer wieder anzuordnen. Dadurch wird viel Zeit (und Geld)gespart, das aufwändige Kartieren der BAC-Klone entfällt. Nachteilig ist dagegen, dass repetitiveBereiche des Genoms oft überhaupt nicht wieder zusammengesetzt werden können, und dassErgebnisse erst verfügbar sind, nachdem die Sequenzierung abgeschlossen ist, während beimclone-by-clone Verfahren jeder einzelne Klon sofort ein Stück fertiger Genomsequenzrepräsentiert. Andererseits liegt das Hauptinteresse der Genomanalyse in den genkodierendenAbschnitten, und gerade diese lassen sich gut assemblieren, so dass die shotgun Methode dasZiel, alle Gensequenzen zu bestimmen, schnell und günstig zu erreichen verspricht.
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
25
Für kleine Genome, beispielsweise Bakteriengenome, wird routinemäßig das shotgun Verfahrenverwendet. Die Firma Celera hat das Drosophila Genom sequenziert, um zu beweisen, dass eineukaryotisches Genom dieser Größe erfolgreich im shotgun Verfahren erschlossen werdenkann. Im Fall des dreißigmal größeren Humangenoms sind jedoch Zweifel geäußert worden,dass ein Zusammenbau der shotgun Sequenzen möglich wäre ohne die Daten des öffentlichgeförderten Humangenomprojekts, welche im clone-by-clone Verfahren gewonnen wurden.
Um überhaupt erfolgreich shotgun Sequenzen eines Genoms zusammenzusetzen, ist eineaufwändige bioinformatische Prozessierung notwendig. Dabei werden Vektorsequenzenentfernt, Bereiche niedriger Sequenzqualität markiert, und schließlich alle Sequenzen miteinanderverglichen, um mögliche Überlappungen zu identifizieren. Besondere Bedeutung hat dieBehandlung von repetitiven Regionen (siehe Kapitel 7.2). Diese werden einerseits durchVergleich mit Datenbanken bekannter repetitiver Elemente, beispielsweise Transposons, erkanntund maskiert, andererseits aufgrund des überdurchschnittlich häufigen Auftretens vonÄhnlichkeiten ausgefiltert.
Eine wichtige Fragestellung ist, wann eine Genomanalyse als abgeschlossen gelten kann.Einerseits ist die DNA-Sequenz eines Genoms im Prinzip vollständig und exakt bestimmbar.Andererseits bestehen Zentromere und Telomere der Chromosomen aus exaktenWiederholungen kurzer Sequenzabfolgen. Diese gelten bis heute als nicht sequenzierbar,einerseits weil es keine Möglichkeit gibt, die richtige Überlappung der einzelnen Sequenzierläufezu bestimmen, andererseits, weil sich solche repetitiven Sequenzen oft nicht stabil klonierenlassen (siehe Kapitel 7). Folglich gilt eine Genomanalyse als abgeschlossen, wenn derEuchromatinanteil des Genoms sequenziert ist. Als abgeschlossen geltende Genomprojekteenthalten meist zahlreiche weitere Lücken, da der Aufwand, die genaue Struktur eines Bereichsmit zahlreichen Wiederholungssequenzen zu bestimmen, in keinem Verhältnis zumInformationsgewinn steht. Solche Bereiche enthalten in der Regel keine proteinkodierendenGene.
Ein anderer, aber viel weniger problematischer Aspekt ist die Exaktheit der Sequenz.Sequenziermethoden sind fehlerbehaftet, bei einem einzelnen Sequenzierlauf liegt dieGenauigkeit heute bei 99%. Da bei einer Genomanalyse aber an praktisch keiner Stelle desGenoms nur ein einziger Sequenzierlauf durchgeführt wird, sondern bei allen gängigenVerfahren jede Base des Genoms von mehreren überlappenden Sequenzierläufen gelesen wird,können diese Lesefehler größtenteils ausgeschlossen werden indem eine Konsensussequenzgebildet wird. Dazu wird für die finale Sequenz an jeder Position diejenige Base verwendet, dievon der Mehrheit der überlappenden Sequenzierläufe an dieser Stelle bestimmt wurde. Dadurcherreichen Genomsequenzen heute eine Basengenauigkeit von 99.99%, enthalten also im Schnittpro 10000 bp nur eine falsch gelesene Base.
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
26
33.5.2 Genvorhersage
Der erste Schritt von der DNA-Sequenz hin zur Entschlüsselung der Erbinformation ist dieIdentifizierung der funktionellen Einheiten, der Gene. Im Vordergrund des Interesses stehenzunächst proteinkodierende Gene und hier wiederum die Aminosäuresequenz der kodiertenProteine. In der DNA-Sequenz sind auch andere intrinsische Signale wie Promotoren,regulatorische Elemente und Polyadenylierungssignale kodiert, aber für proteinkodierendeAbschnitte kennen wir den genetischen Code, der es erlaubt, direkt aus der DNA-Sequenz diekodierte Aminosäuresequenz abzuleiten. Diese wiederum ist die Basis für Proteinfunktions- und-strukturvorhersagen. Da jeweils ein Triplett für eine Aminosäure kodiert, wird neben derInformation, welche Abschnitte proteinkodierend sind, auch das Leseraster benötigt (sieheKapitel 6). Ein Sequenzabschnitt, der mit einem Startcodon beginnt und keine Stoppcodonsenthält, wird ORF (offenes Leseraster) genannt.
Da prokaryotische Gene nicht von Introns unterbrochen werden, findet ein Programm, das eineGenomsequenz absucht und alle ORFs markiert (wie z.B. ORFfinder,www.ncbi.nlm.nih.gov/gorf/gorf.html), schon alle proteinkodierenden Gene. Aber viele ORFskodieren nicht für ein Protein. Daher verwendet man zur Genvorhersage bei Prokaryontenweitere Informationen, wie Ribosomenbindestellen, die durchschnittliche Größe und GC-Gehaltproteinkodierender ORFs, und Ähnlichkeit zu bekannten Proteinen. Bei den meisten Bakterienführt vollautomatische Genvorhersage mit Programmen wie GeneMark(opal.biology.gatech.edu/GeneMark/) zu einer sehr hohen Genauigkeit bei der Genvorhersagemit teils über 95% richtig vorhergesagter Gene.
Bei Eukaryonten ist das Problem sehr viel komplexer. Da proteinkodierende Gene von Intronsunterbrochen werden, reicht das Finden von möglichen Leserastern nicht aus. Jedes Exon mußnatürlich ein durchgehendes Leseraster enthalten. Exons sind aber oft kürzer als derErwartungswert für zufällige offene Leseraster. Also müssen andere Kriterien zurGenvorhersage genutzt werden. Dabei kann man zwischen intrinsischen und extrinsischenInformationen trennen. Als intrinsische Werte gehen Sequenzmuster von Promotorelementen,Spleissstellen und Polyadenlylierungssignalen, GC-Gehalt, Dicodonfrequenz (entspricht derspeziesabhängigen codon usage), Exon- und Intronlänge ein. Als extrinsische Informationenwerden Ähnlichkeiten zu bekannten Genen oder zu von mRNA abgeleiteten Sequenzen wieESTs, die belegen, dass dieser Sequenzabschnitt zumindest transkribiert wird, verwendet.Eukaryontische Genvorhersageprogramme fügen diese Werte nach unterschiedlichenmathematischen Modellen zu einer Gesamtbewertung zusammen, wie groß dieWahrscheinlichkeit ist, dass ein Sequenzabschnitt proteinkodierend ist (sog. coding potential).Das Genvorhersageprogramm fügt Abschnitte, deren coding potential über einem Schwellenwertliegt, zu translatierbaren Genmodellen zusammen, wobei mehrere Exons zu einem Genzusammengefasst werden.
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
27
Dabei sind vollständig korrekte Vorhersagen, wo also Start, Stop und jede Spleissstelle exaktstimmt, selten. Wenn man auch falsche Genmodelle gelten lässt, werden jedoch die meistenGene gefunden, und meist wird auch ein Großteil der Aminosäuresequenz korrekt vorhergesagt.Beachten muß man jedoch, dass jedes Programm auf die besonderen Eigenheiten desuntersuchten Organismus angepaßt werden muß, da beispielsweise GC-Gehalt undCodonpräferenz sehr unterschiedlich sein können. Ein nützliches, frei verfügbares Programm istbeispielsweise Genscan (genes.mit.edu/GENSCAN.html).
Bei der Bestimmung der Proteinsequenz ist es natürlich notwendig, den richtigen genetischenCode zu verwenden, selbst innerhalb eines Organismus werden in den Mitochondrien und imKern unterschiedliche Codes verwendet (siehe Kapitel 6).
33.5.3 Genomdatenbanken
Um die Daten aus Genomprojekten möglichst schnell der Wissenschaft zugänglich zu machen,entstand eine neue Form von Datenbanken, die Genomdatenbank oderModellorganismusdatenbank. Hier werden vielfältige Informationen zu einem Organismus undseinem Genom zusammengetragen, angefangen von der Sequenz über Gene und andereAnnotationen bis hin zu Kartierungsdaten oder Phänotypbeschreibungen. Anders als die reinenSequenzdatenbanken bieten die Genomdatenbanken oft vielfältige Anzeigemöglichkeiten,beispielsweise fast immer eine Möglichkeit, sich entlang einer grafischen Darstellung derChromosomen zu bewegen und darauf Gene und andere Elemente angezeigt zu bekommen.Proteinkodierende Gene sind oft mit einer Fülle von Information verbunden, so dass vonverschiedenen Sequenzformaten bis hin zu Strukturvorhersagen alles auf einen Blick oder Klickerreichbar ist.
Trotz der medienwirksamen Schlagzeilen über vollständig entschlüsselte Genome und derattraktiven Aufmachung der Informationen darf nicht außer Acht gelassen werden, dass dieGenomdatenbanken immer nur den Stand des Wissens darstellen, und dass gerade bei denHochdurchsatzmethoden, die bei Genomprojekten zum Einsatz kommen, sich im Detail vieleFehler einschleichen können. Durch Fehler beim Zusammensetzen der einzelnenSequenzierläufe zu langen, zusammenhängenden Sequenzen (contigs im Jargon derGenomprojekte) kommt es oft dazu, dass lokale Bereiche falsch angeordnet werden. Wird derFehler entdeckt, verändern Gene ihre Position oder es ergeben sich völlig neue Exon-Intron-Kombinationen. Oft kommen zur Gen- und Funktionsvorhersage automatische Methoden zumEinsatz, die kritisch hinterfragt werden müssen. Man sollte daher im Umgang mit diesen Datenimmer davon ausgehen, dass im großen Überblick wertvolle Schlüsse gezogen werden können,wenn man aber auf ein einzelnes Gen fokussiert natürlich ausgerechnet dieses völlig falsch seinkann. Trotzdem sind die Daten der Genomprojekte relativ verlässlich, die Sequenziergenauigkeitbeispielsweise liegt meist bei weniger als einem falschen Nukleotid in 10000 Basenpaaren,einem Wert, der von vielen Sequenzen in den DNA-Datenbanken bei weitem nicht erreicht wird.
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
28
Besonders nützlich sind Genomdatenbanken, wenn sie durch die Forschungsgemeinschaft, diean dem entsprechenden Organismus forscht, unterstützt werden und die Genomdaten durchzahlreiche experimentelle Befunde und durch die intensive Beschäftigung mit einzelnen Genenergänzt und korrigiert werden. Das kann soweit gehen, dass aus der Nutzeroberfläche derGenomdatenbank direkt Bestellungen für Materialien abeschickt werden können, und so cDNA-Klone oder eine knock-out-Mutante für ein bestimmtes Gen beschafft werden können. An vieleGenomprojekte haben sich functional genomics Projekte angeschlossen (siehe Kapitel 32), diein großem Umfang Daten gewinnen, die wiederum in der Genomdatenbank abgelegt werden.
33.5.4 Bioinformatik der Genome
Die Daten der Genomprojekte sind aber nicht nur ein wertvoller Ausgangspunkt fürLaborexperimente, sondern bilden auch eine spannende Herausforderung für die Bioinformatik.Dabei geht der Blick nicht ins Detail, also beispielsweise: "Wo beginnen und enden die Exonseines bestimmten Gens?", sondern aufs Ganze, also beispielsweise: "Welcher Anteil aller Genedieses Organismus spielt eine Rolle in der Zell-Zell-Kommunikation?". Dabei findet mannatürlich, dass mehrzellige Organismen viel mehr Kommunikationsgene aufweisen als Einzeller.So kann man erforschen, welche Proteinfamilien oder Funktionsklassen in einer Speziesexpandiert wurden.
Dabei kann man durchaus Überraschendes erleben. Während G-Protein gekoppelte Rezeptorenin Tieren eine große Rolle in der Signaltransduktion haben, und zahlreich in den bekanntenGenomen vorkommen, fand man im ersten sequenzierten Pflanzengenom, dem von Arabidopsisthaliana, nicht einen Vertreter dieser Proteinklasse. Parasitäre Organismen, wie Mycoplasmagenitalium mit dem kleinsten sequenzierten Genom eines zellulären Lebewesens, lassen sich aufGenomebene leicht erkennen, weil ihnen wichtige Stoffwechselwege fehlen. Die Stoffe, die sieselbst nicht erzeugen können, bekommen sie von ihrem Wirt.
Solche Fragestellungen werden in der Regel durch Vergleiche aller Gene von zwei Organismen,zum Beispiel mit PSI-BLAST, beantwortet. Ein Programm gibt beispielsweise alle Gene aus, fürdie in dem zweiten Organismus kein ähnliches Gen gefunden wird. Dafür ist natürlich die Wahleines sinnvollen Grenzwertes, ab wann ein BLAST-Ergebnis für signifikant gehalten wird,wichtig. Eine andere Vorgehensweise berechnet Funktionsdomänen für alle Gene, beispielsweisemit INTERPRO, und erstellt eine Statistik, welche Funktionsdomänen häufiger oder seltener alsin anderen Organismen gefunden werden.
Andere Fragen, die nur der Blick auf das Gesamtgenom ermöglicht, sind Fragen der Redundanzund der Genomevolution. In vielen Genomen konnte man die Spuren von großenDuplikationsereignissen nachweisen. Aber auch einzelne Gene können verdoppelt werden undtreten dann als Tandemanordnungen sehr ähnlicher Gene in Erscheinung. Solche Duplikationenwerden durch Alignment von ganzen Chromosomen miteinander erkannt. Erstellt man ein
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
29
Alignment von Chromosomen verschiedener Arten, kann man syntenische Bereiche erkennen.Häufig sind verwandte Gene in zwei Spezies in der gleichen Anordnung und Reihenfolge, nurdurch gelegentliche Insertionen von nicht korrespondierenden Genen unterbrochen. Hier kannman beispielsweise die konservierten Bereiche zwischen beiden Spezies markieren und zurGenvorhersage nutzen, da Exons stärker konserviert sind.
33.5.5 Transkriptomanalyse
In der Transkriptomanalyse führen Hochdurchsatzmethoden zu immensen Datenmengen
(siehe Kapitel 32). Inzwischen gibt es gute experimentelle Techniken, um cDNA-Bibliotheken
zu normalisieren und auf vollständige Klone zu selektieren, aber EST-Sequenzen sind von
Natur aus von niedriger Qualität. Sie entsprechen einem einzelnen Sequenzierlauf, wobei die
Fehlerwahrscheinlichkeit bei einer falschen Base pro 100 Nukleotiden liegt, an den Enden eher
mehr. Außerdem repräsentieren sie nur kurze Stücke aus einem Gen und selten die gesamte
proteinkodierende Sequenz.
Dennoch sind EST-Sequenzen sehr wertvoll, insbesondere in Spezies, wo eine
Genomsequenzierung nicht in Frage kommt, weil das Genom zu groß ist. Da ESTs billig sind
und oft in großer Zahl erstellt werden, können diese zu längeren Sequenzen zusammengefügt
werden, wobei Sequenzierfehler oft erkannt werden, wenn mindestens drei Sequenzen
überlappen. Dazu werden paarweise Alignments zwischen allen ESTs aus einer Art erstellt.
Aus zueinander passenden ESTs werden sogenannte tentative consensus sequences (TCS)
erstellt, aus denen sich mit viel besserer Genauigkeit die kodierten Proteinsequenzen erstellen
lassen. So entstehen Proteinsammlungen für viele Arten, wie sie beispielsweise von The
Institute for Genome Research (www.tigr.org) als gene indices in großem Maßstab
bereitgestellt werden.
ESTs können auch helfen, die Expressionsstärke und die Gewebespezifität eines Gens zu
bestimmen. Dafür werden aber zunehmend DNA-Arrays eingesetzt, wo man in einem
Experiment markierte RNA mit vielen tausend Proben hybridisieren kann, beispielsweise allen
6000 Genen des Hefegenoms (siehe Kapitel 32). Da die experimentelle Methode aber zu stark
verrauschten Meßwerten führt, ist eine aufwändige statistische Auswertung unerlässlich.
Dabei haben sich Klassifizierungsmethoden der Bioinformatik ausgezeichnet bewährt. Selbst
wenn sich aus einem Microarrayexperiment über die Expression eines einzelnen Gens keine
genauen Aussagen folgern lassen, kann die Abbildung der Daten auf bekannte
Stoffwechselwege sehr deutliche Effekte zeigen.
WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT
30
Andererseits kann die Information, welche Gene ein ähnliches Expressionsmuster zeigen, dazu
verwendet werden, in den Promotoren dieser Gene ähnliche Sequenzmotive zu identifizieren.
Dies sind Kandidaten für die Bindestellen der Transkriptionsfaktoren, die für die Regulation
dieses Expressionsmusters verantwortlich sind. Hierbei verwenden Bioinformatiker teilweise
Methoden aus der Computerlinguistik und suchen "Sequenzworte", die häufiger als erwartet
im Promoterbereich einer Gruppe von koregulierten Genen auftauchen.
33.6 LiteraturAltschul S.F., Gish W., Miller W., Myers E.W. and Lipman D.J. Basic local alignment
search tool. J Mol Biol. 215(3), 403-410 (1990)
Chicurel M. Bioinformatics: Bringing it all together. Nature 419, 751-759 (2002)
Henikoff S. and Henikoff J.G. Amino acid substitution matrices. Adv. Protein Chem. 54,
73-97 (2000)
Lesk, A.M. Introduction to Bioinformatics. Oxford University Press; ISBN 0199251967
Mount, D.W. Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor
Laboratory; ISBN 0879696087
Needleman S.B., Wunsch C.D. A general method applicable to the search for similarities
in the amino acid sequence of two proteins. J Mol Biol. 48(3), 443-453 (1970)
The Arabidopsis Genome Initiative Analysis of the genome sequence of the
flowering plant Arabidopsis thaliana. Nature 408, 796-815 (2000)
33.1