33.1 einführung: bioinformatik und...

WEITERGABE UND ANDERE VERWENDUNG ALS IM STUDIUMBIOINFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN UNTERSAGT

1

Genetik-Lehrbuch 2. Auflage 10/2002

(Anmerkung: Dieses ist ein Kapitel aus dem Genetik-Lehrbuch von Seyffert. Entsprechendfehlt jede Einführung in Grundlagen der Molekularbiologie und Genetik. Daher können mancheDinge verwirrend oder unverständlich sein, wenn dieser Hintergrund fehlt. Zwar ist dieserText dadurch keine gute Einführung für frühe Semester der Bioinformatik, bietet aber eine guteÜbersicht. Insbesondere fürs Nebenfach dürfte er nützlich sein, da dort die biologischenGrundlagen vorhanden sein dürften.

Viel Spaß damit, Heiko Schoof)

33 Bioinformatik

33.1 Einführung: Bioinformatik und ErbinformationDer Computer ist heutzutage aus dem Labor kaum mehr wegzudenken. Tatsächlich haben sichBiologie und Informatik derart gegenseitig beeinflusst, dass eine ganz neue, eigeneWissenschaft entstanden ist, die Bioinformatik. Und obwohl diese Disziplin noch so jung ist, istsie schon in aller Munde, auch weil das medienwirksame Humangenomprojekt ohneBioinformatik nicht auskäme.

Wie kommt es, dass sich der Computer für die Biologie als derart nützlich erweist? Einerseitsliegt dies in der Natur der Erbinformation begründet, die in einer linearen Abfolge vonBausteinen aus einem begrenzten Alphabet verschlüsselt ist. Eine solche Folge würde einProgrammierer „string“ nennen, und deren Verarbeitung wie auch die Entschlüsselungkodierter Information ist ein Kerngebiet der Informatik. Zugleich bedeutet diese Entdeckungeinen Paradigmenwechsel in der Biologie: DNA- und Proteinsequenzen sind scharfe Größen,man kann die Sequenz eines Genoms zumindest im Prinzip sowohl vollständig als auch exaktermitteln. Natürlich gibt es immer experimentelle Fehler, aber in der modernen Sequenzierungvon DNA-Sequenzen sind diese selten. Damit kann der Schritt gemacht werden von einer reinbeschreibenden Biologie, die Lebensprozesse qualitativ erfasst, zu einer deduktivenWissenschaft, die auch quantitative Zusammenhänge aus grundlegenden Gesetzmäßigkeitenableiten kann.

Eine weiterer Grund, weshalb Computer zur Verarbeitung moderner biologischer Daten hilfreichsind, ist ihre schiere Menge. Der Umfang von Sequenzdatenbanken nimmt rapide zu. Auchschwieriger zu erlangende Informationen, beispielsweise Proteinraumstrukturen, werden ingroßem Umfang erzeugt und gespeichert. Daher nimmt man heute für Nucleotidsequenzenmanchmal die Größe des menschlichen Genoms als Einheit (etwa 3 x 109 Basen), danach enthältdie EMBL DNA-Datenbank derzeit über 6 Humangenomäquivalente (oder 6 huges, einetreffende Bezeichnung).

Bioinformatik als Begriff ist sofort verständlich: Es geht um die Verknüpfung von Informatikund Biologie. Noch immer wird allerdings diskutiert, wie die Eigenständigkeit der Bioinformatik


2

als Fachgebiet definiert werden kann. Deutlich zeichnen sich einige Ziele ab, die sich dieBioinformatik gestellt hat:

- Das Verständnis der Kodierung, wie Erbinformation in der Nucleotidsequenz abgelegtist. Das gilt nicht nur für proteinkodierende Sequenzen, sondern auch fürregulatorische Sequenzen, die Transkription, Translation, Replikation undRekombination sowie Stabilität und Lokalisierung von mRNAs und Proteinen steuern.

- Die Vorhersage von möglichen Funktionen und Verwandschaften von Genproduktenaus der Sequenz.

- Die Modellierung von biologischen Systemen, um beispielsweise Schlüsse ausÄnderungen im Expressionsmuster von Genen oder dem Vorkommenniedermolekularer Substanzen (Metaboliten) zu ziehen und diese mit Zelltypen,Genotypen oder äußeren Einflüssen (z.B. Stress) zu korrelieren.

- Die Entdeckung von versteckten Informationen in großen Mengen biologischer Daten,auch data mining genannt.

Dieses Kapitel beschränkt sich auf die angewandte Bioinformatik, im Wesentlichen also auf dieWerkzeuge, die einem experimentellen Biologen zur Planung und Auswertung seinerExperimente nützlich sind. Die zugrunde liegenden mathematischen Modelle und Algorithmenwerden nur insoweit angeschnitten, wie dies für ein Verständnis unerlässlich ist.

Neben den bereits angesprochenen Sequenzdaten, die weiterhin die größte Bedeutung in derBioinformatik haben, beschäftigt sich diese aber auch mit anderen biologischen Daten. Zu denSequenzen gehören Annotationen, also „angehängte“, nicht sofort aus der Sequenzersichtliche Informationen, z.B. Ursprung der Sequenz oder Sequenzmerkmale (features) wieproteinkodierende Abschnitte oder Bindestellen. Bei Proteinsequenzen ist einerseits die Strukturwichtig, im besten Fall wurde diese durch Strukturanalyse aufgeklärt und die Koordinaten jedesAtoms können angegeben werden. Andererseits interessiert die Proteinfunktion. Um diese soabzuspeichern, dass der Computer damit Berechnungen durchführen kann, gibt es Ansätze inder Bioinformatik, Funktionen durch Ontologien oder ein kontrolliertes Vokabular festzulegen.Besondere Beachtung finden in letzter Zeit mRNA-Expressionsdaten, die in großem Umfangdurch Microarraymethoden gewonnen werden können. (((Abb))siehe Kapitel 32)

Die Bioinformatik beschäftigt sich mit einigen wichtigen Problemen im Umgang mit diesenDaten:

- Suche in Sequenzdatenbanken: Um die Information in den umfangreichenSequenzsammlungen nutzen zu können, braucht man effektive Werkzeuge, um schnellund zuverlässig Sequenzen herauszusuchen, die ähnlich zu einer Suchsequenz sind.


3

- Sequenzvergleich: Um die Verwandschaft von Sequenzen bzw. deren Evolution zuuntersuchen, werden Methoden benötigt, die diejenigen Sequenzbausteineidentifizieren und gegenüberstellen, die evolutionär korrespondieren (alignment).

- „Entschlüsselung“ der Erbinformation: Auf einer Ebene bedeutet dies die Vorhersagevon Genen einschließlich regulatorischer und proteinkodierender Abschnitte ausgenomischen Sequenzen, auf einer anderen die Vorhersage von Struktur und Funktionder abgeleiteten Genprodukte.

- Informationsaufdeckung in komplexen, verrauschten Daten wie sie beispielsweiseMicroarrays liefern. Hierzu sind aufwändige statistische Verfahren notwendig.

- Entwicklung von Näherungsverfahren für Probleme, die rechnerisch zu aufwändigsind, um erschöpfend behandelt zu werden. Dabei steht die 3D-Proteinstrukturvorhersage im Vordergrund.

Die rasche Entwicklung der Bioinformatik ist eng verknüpft mit einer ihrer bedeutendstenAnwendungen. Genomprojekte kommen ohne Bioinformatik nicht aus, da von derQualitätskontrolle der Sequenzierung über das Zusammensetzen vollständiger Genomsequenzenaus den sequenzierten Stücken und der Bestimmung der Gene bis zur Auswertung derProteinfunktionen und der Speicherung und Darstellung der Daten Bioinformatikmethoden zumEinsatz kommen (siehe Abschnitt 33.5).

Bioinformatikanalysen können Laborexperimente oft nicht ersetzen, wesentliche Bedeutunghaben sie aber für die gezielte Planung von Experimenten. Der experimentelle Aufwand zurFunktionsaufklärung eines Proteins kann sich aufgrund von Hinweisen aus derbioinformatischen Analyse drastisch reduzieren. Für die aufwändige experimentelleStrukturaufklärung können Proteine ausgewählt werden, die vermutlich ein noch nicht bekanntesFaltungsmuster aufweisen. Und ist ein krankheitsrelevantes Protein bekannt, kann durchModellierung der Bindungsstelle und der Wechselwirkungen mit möglichenArzneimittelmolekülen die Suche nach einem wirksamen Medikament in der ersten Phase imComputer erfolgen.

Als ein Beispiel gilt die Suche nach Inhibitoren der Prostaglandin-Cyclooxygenase 2 (COX2).Der Zugang zum aktiven Zentrum eines sehr ähnlichen Proteins, COX1, wird durch Bindungeines Inhibitors, beispielsweise Aspirin, blockiert. Durch ein Raummodell der Bindungstaschevon COX2 konnte für Aspirin-ähnliche Moleküle vorhergesagt werden, ob sie in die Taschepassen oder nicht. Somit konnte nicht nur ein geeigneter Inhibitor gefunden werden, sondernauch ein selektiver Inhibitor, der nur COX2, aber nicht COX1 hemmt.


4

Ein enormer Vorteil für den Forscher im Labor ist, dass die meisten molekularbiologischenDatenbanken und viele Bioinformatikwerkzeuge im Internet frei zugänglich sind. So wird einBrowserprogramm und eine Verbindung zum world wide web zum wichtigsten Werkzeug in derBioinformatik. Dadurch stehen nicht nur die riesigen Datenmengen, die in Archiven rund um dieWelt gespeichert sind, sondern auch die aktuellsten Werkzeuge und die nötige Rechenleistungjederzeit zur Verfügung. Was der Nutzer jedoch braucht, ist eine Grundkenntnis, wo welcheInformationen abrufbar sind und welche Werkzeuge verfügbar und für eine bestimmte Aufgabegeeignet sind. Zwar gibt es einige umfassende Sammlungen mit Links zu Datenbanken undBioinformatikwerkzeugen, doch genauso schnell wie sich die Bioinformatik weiterentwickelt,ändern sich Links oder erscheinen neue oder weiterentwickelte Programme. Suchmaschinen wiewww.google.de sind oft eine große Hilfe, nehmen einem aber nicht das Wissen über die besteVorgehensweise ab, um zu einer sinnvollen Lösung zu kommen. Daher werden im Folgendendie wichtigsten Datenbanken und Werkzeuge vorgestellt, sowie die Herangehensweise an einigeim molekularbiologischen Laboralltag häufige Probleme.

Wer die Bioinformatik nicht nur zur Unterstützung seiner experimentellen Arbeiten nutzen will,sondern sich intensiver mit in silicio Biologie auseinandersetzen will, findet imLiteraturverzeichnis einige hilfreiche Bücher.

33.2 DatenbankenIm Zeitalter des Internets ist glücklicherweise der Zugriff auf molekularbiologische

Datenbanken kinderleicht geworden. Dennoch ist eine gewisse Vorkenntnis nötig, um die

gefundenen Daten interpretieren zu können und sinnvolle Abfragen durchzuführen, die zur

Beantwortung einer gestellten Frage beitragen, ohne in der Menge an unterschiedlichen

Datenbanken, Zugangssystemen und Formaten oder der Flut an Information den Überblick zu

verlieren.

Dient die Archivierung von Daten zunächst natürlich dazu, sie dauerhaft zu speichern und

jederzeit bequem abrufbar zu halten, geht die Aufgabe der unten aufgeführten Datenbanken

teils weit darüber hinaus. Eine Aufgabe der Bioinformatik ist das Strukturieren, Organisieren

und Verknüpfen von Daten im Sinne der Nutzbarmachung von Daten für biologisches Wissen.

Das Interpretieren der Daten ist häufig eine Aufgabe, die nur von Menschen ausgeführt

werden kann, aber die Ergebnisse, neue Kenntnisse, müssen auch gespeichert und verbreitet

werden. Auch diese Aufgabe wird zunehmend von Datenbanken übernommen.

Dazu dienen Annotationen, an die Primärdaten (hauptsächlich Sequenzen, aber auch alle

anderen Meßergebnisse) angehängte Zusatzinformationen. Dies kann ein Titel oder Name, eine

Quellenangabe, Verknüpfungen mit anderen Einträgen und Datenbanken oder eine Abhandlung


5

über mögliche Funktion und Stand der Forschung sein. Im Sinne einer Verwertung durch

Computer sollten diese Informationen möglichst strukturiert vorliegen, wozu einerseits die

Definition von spezifischen Feldern dient, die nur eine bestimmte Art von Information

beinhalten dürfen, andererseits die Verwendung von Nomenklaturen oder Ontologien, so dass

nur ein festgelegter Wortschatz oder Codes verwendet werden dürfen. In Tabelle 33.1 werden

einige nützliche Felder kurz erklärt.

Tabelle 33.1: Verbreitete Feldbezeichnungen in molekularbiologischen Datenbanken

accession Ein eindeutiger Bezeichner, der es erlaubt,

genau diesen Datenbankeintrag zu

identifizieren. Wird oft verwendet, um

Verknüpfungen zwischen Datenbanken

herzustellen, indem die fremde Datenbank

mit der dort verwendeten accession

angegeben wird, beispielsweise bedeutet

EMBL:AC00123 den Eintrag AC000123

aus der EMBL Datenbank.

keyword Schlagwörter sollen eine effiziente Suche

ermöglichen.

affiliation Das Institut oder die Adresse eines Autors.

EC number Standardisierte Nomenklatur und

Codenummer für Enzyme bzw. der von

ihnen katalysierten Reaktionen, die von der

internationalen Kommission für

Enzymnomenklatur vergeben wird und

hierarchisch aufgebaut ist (siehe

www.expasy.ch).

MeSH term Medical Subject Headings, eine Liste von

Schlagwörtern, die von Medline als Index

verwendet werden.


6

PubMed ID oder MEDLINE UID

(MUID)

Eindeutiger Bezeichner für

Literaturreferenzen in der Medline bzw.

PubMed Literaturdatenbank.

feature table Hier werden Merkmale der Sequenz

aufgeführt, die nicht ohne weiteres

ersichtlich sind, beispielsweise kodierende

Abschnitte, Aminosäuren des katalytischen

Zentrums, Phosphorylierungsstellen,

Mutationen usw..

GO term Bezeichner einer Kategorie aus Gene

Ontology. Gene Ontology

(www.geneontology.org) versucht, die

Beschreibung von Proteinfunktionen zu

vereinheitlichen, indem ein umfassender

Katalog von molekularen Funktionen,

zellulären Rollen und Lokalisationen

angelegt wird und Genprodukte diesen

Kategorien zugewiesen werden, anstatt sie

in freien Worten zu beschreiben.

33.2.1 Sequenzdaten

Entsprechend der Entwicklung der Sequenziertechnologie gab es zunächstProteinsequenzdatenbanken, initiiert von M. Dayhoff in den sechziger Jahren des zwanzigstenJahrhunderts und zunächst noch auf Karteikarten verwaltet. Heute wird jedoch meist nur dieDNA sequenziert und die Proteinsequenz daraus abgeleitet. Drei große Datenbanken, die EMBLNucleotide Database, GenBank® und die DNA Database of Japan DDBJ (siehe Tabelle 33.2),haben sich zur International Nucleotide Sequence Database Collaborationzusammengeschlossen und bilden weltweit den zentralen Sammelpunkt für Nucleotidsequenzen,da die meisten Journals bei einer Veröffentlichung voraussetzen, dass alle Sequenzen bei einerdieser Datenbanken eingereicht werden. Die Daten werden zwischen den Zentren täglichabgeglichen. Daher beinhalten die drei Datenbanken die gleichen Sequenzen, aber Korrekturenmüssen immer an das Zentrum geschickt werden, wo die Sequenz ursprünglich eingereichtwurde, und können nur vom ursprünglichen Autor vorgenommen werden.


7

Um die Übersicht über die Unmenge an Sequenzeinträgen zu bewahren, sind diese inKategorien eingeteilt und damit auch Teilsets abrufbar. NR oder NonredH ist der Versuch, einennichtredundanten Satz aller proteinkodierenden Sequenzen zu erstellen, wo also mehrereEinträge, wenn sie immer dieselbe Sequenz enthalten, zu einem Eintrag zusammengefaßt werden.dbEST ist eine nichtredundante Sammlung aller EST-Datensätze, die beispielsweise 4 Millionenmenschliche ESTs enthält (siehe Kapitel 32). Der HTGS-Bereich (high throughput genomesequencing) enthält Daten aus Genomprojekten, dabei ist zu beachten, dass abgeleitete Proteinein diesen Einträgen auf Vorhersagen beruhen und nur bedingt verläßlich sind (s.u.). Alu ist eineSpezialdatenbank mit Alu-Sequenzwiederholungen, die zum Maskieren derartiger repetitiverSequenzen verwendet wird.

Als reine Proteinsequenzdatenbank verdient SWISSPROT besondere Erwähnung. Sie wird vomSchweizer Institut für Bioinformatik in Zusammenarbeit mit EMBL unterhalten. Alle Einträgewerden vom SWISSPROT-Personal durchgesehen, überprüft, mit Zusatzinformationenversehen und mit anderen Datenbanken, z.B. der EMBL Datenbank und PDB, verknüpft.SWISSPROT ist nicht redundant, und die Daten sind von gesicherter Qualität, aber dafür kanndas manuelle Eintragen der Daten mit der Flut neuer Sequenzen nicht mithalten und mit 100000Einträgen ist sie relativ klein. Dennoch ist SWISSPROT ein wichtiges Werkzeug, einerseits weildie Annotation von hoher Qualität ist, andererseits weil heutzutage die Gefahr groß ist, in EMBLauf einen Eintrag zu stoßen, dessen funktionelle Beschreibung allein auf der Ähnlichkeit zueinem anderen Protein beruht. So kann Information, manchmal eben auch falsche Information,über viele Schritte weitergegeben werden, ohne dass die ursprüngliche Grundlage erkennbar ist(siehe 33.3.4). Da in EMBL-Einträgen, die ja keiner Aufsicht unterliegen, nicht immer klarerkennbar ist, worauf Annotationen beruhen, ist ein guter Ausweg, zur Funktionsvorhersage nurmit SWISSPROT Sequenzen zu vergleichen.

Tabelle 33.2: Wichtige Datenbanken im Überblick

Eine aktuelle Übersicht verfügbarer Datenbanken wird unter www.expasy.ch/alinks.htmlangeboten. Das Journal Nucleic Acids Research bringt Anfang jeden Jahres eineDatenbankausgabe heraus, wo molekularbiologische Datenbanken kurz beschrieben werden.Kleine, spezialisierte oder neue Datenbanken findet man am Besten über Internetsuchmaschinenwie Google (www.google.de).

DNA-Sequenzen

EMBL/Genbank/DDBJ

zentrale, umfassendste Datenbankaller bekannten Sequenzen, mehr als20*106 Einträge

www.ebi.ac.uk/embl/


8

Proteine

SWISSPROT kontrollierte Annotation mit guterFunktionsbeschreibung von mehr als100000 Proteinen

www.expasy.ch/sprot/

PIR (ProteinInformationRessource)

reine Proteindatenbank, abergrößtenteils automatisch prozessiert.Gute Klassifizierung vonProteinfamilien, mehr als 800000Einträge

pir.georgetown.edu

Proteinstruktur

PDB (ProteinDatabase)

Die zentrale Datenbank fürexperimentell ermittelteProteinstrukturen, mehr als 18000Strukturen

www.rcsb.org/pdb/

SCOP (StructuralClassification ofProteins)

Klassifizierung von Proteinstrukturen,fast 40000 Domänen

scop.mrc-lmb.cam.ac.uk/scop/

CATH Automatisierte Klassifizierung vonProteinstrukturen, fast 40000Domänen

www.biochem.ucl.ac.uk/bsm/cath_new/

FSSP Klassifizierung anhandStrukturalignments mit DALI, 3000Familien

www.ebi.ac.uk/dali/fssp/

Literatur

PubMed Index von Veröffentlichungen inmedizinisch relevanten Journals, 12Millionen Veröffentlichungen

www.ncbi.nlm.nih.gov/PubMed/

Humangenetik

OMIM (OnlineMendelianInheritance in Man)

Informationen über menschlicheErbgänge und Erbkrankheiten, 8000Loci

www.ncbi.nlm.nih.gov/omim/

Stoffwechselwege

KEGG (KyotoEncyclopedia ofGenes)

Die Enzyme vieler Organismenwerden auf bekannteStoffwechselkarten abgebildet

www.genome.ad.jp/kegg/


9

Encyclopedia ofGenes)

werden auf bekannteStoffwechselkarten abgebildet

Metacyc Ursprünglich allein für E. coli(Ecocyc), bietet Metacyc jetzt für vieleGenome Daten über metabolischeNetzwerke, die beispielsweise aus EC-Nummern erzeugt werden können.Mehr als 460 Reaktionspfade mit über4000 Reaktionen

biocyc.org/metacyc

Funktionsdomänen

Prosite über 1500 Sequenzmotive, die ausfunktionalen Domänen abgeleitetwerden

www.expasy.org/prosite/

PFAM Ähnlich Prosite werden funktionaleDomänensignaturen erstellt, hier aberals hidden Markov model, was eineempfindlichere Suche ermöglicht.Enthält mehr als 4000 Modelle.

pfam.wustl. edu

Interpro Vom EBI verwalteteZusammenfassung verschiedenerDatensätze von Funktionsmotiven, dasz.B. PFAM und Prosite enthält.Bemerkenswert gute Dokumentationder Funktionsdomänen. Über 1200Domänen und 4000 Proteinfamilien

www.ebi.ac.uk/interpro/

Expressionsanalyse

SMD (StanfordMicroarrayDatabase)

Daten aus mRNA-Expressionschipexperimenten, diezusammen mit standardisiertenAngaben über das Experimentabgespeichert werden

genome-www.stanford.edu/microarray/

Transkriptionsregulation


10

Transfac Eine Sammlung vonTranskriptionsfaktoren und derenBindestellen

transfac.gbf.de/TRANSFAC

Bisher können leider nicht alle molekularbiologischen Daten in Datenbanken abgelegt werden,

und Literatur bleibt eine wichtige Quelle. PubMed ermöglicht eine Suche in den Titeln und

abstracts von vielen Zeitschriften mit medizinischer Relevanz. Oft lassen sich allein daraus

schon wichtige Informationen ziehen, und es gibt Ansätze, automatisiert Daten z.B. über

Proteininteraktionen aus den bei PubMed gespeicherten abstracts zu gewinnen.

Eine Sammlung genetischer Daten des Menschen, wie Erbkrankheiten, Genkartierungen und

Mutationen, findet sich in Online Mendelian Inheritance in Man (OMIM). Beschreibungen

von genetischer Varianz oder Erbkrankheiten sind hier mit den Sequenzeinträgen der

betroffenen Gene und den molekularen Mutationen verknüpft. Für andere Lebewesen wird

derartige Information oft in den organismusspezifischen Genomdatenbanken gespeichert, die

im Abschnitt 33.5.3 besprochen werden.

Die Gensequenzen oder Proteine sind nur die Bausteine, um Lebensvorgänge zu verstehen,

muß man außerdem wissen, wie sie zusammengehören und interagieren. Solche Beziehungen

zwischen Proteinen versuchen Datenbanken für Proteininteraktionen und für metabolische

Netzwerke zu speichern. Die Kyoto Encyclopedia of Genes and Genomes (KEGG) verknüpft

Metabolismuskarten mit den Proteinen und den Genen, die für die verzeichneten Enzyme

kodieren. Damit wird nicht nur ein Auffinden der Gensequenzen für alle an einem

Stoffwechselprozess beteiligten Enzyme erleichtert, sondern auch ein Vergleich zwischen

verschiedenen Organismen. Enthält das Genom eines Bakteriums ein Schlüsselenzym für einen

bestimmten Stoffwechselweg nicht, kann das ein wichtiger Hinweis auf Besonderheiten des

Metabolismus sein.

Eine flexible Darstellung von Stoffwechselwegen versucht Metacyc zu ermöglichen. Hier

können neue Netzwerke virtuell konstruiert werden, indem Reaktionen verknüpft werden, von

denen das Produkt der einen das Substrat der zweiten ist. Ob der dadurch zusammengestellte

Pfad in vivo eine Rolle spielt, hängt unter anderem noch von den Aktivitäten der beteiligten

Enzyme ab, die bisher nicht befriedigend modelliert werden.

Für die Funktionsvorhersage spielen Domänendatenbanken eine große Rolle. Da die

funktionellen Bereiche eines Proteins oft in evolutionär konservierten Modulen liegen, die


11

beispielsweise das katalytische Zentrum eines Enzyms umgeben, kann man in Alignments von

Proteinen mit gleicher Funktion solche Funktionsmodule erkennen. Daraus lassen sich

Funktionsmotive oder -signaturen ableiten, die eine empfindliche Suche in

Proteinsequenzdatenbanken ermöglichen (siehe Abschnitt 33.3.2). Die Datenbanken

unterscheiden sich in der Art, wie die Signaturen erstellt werden. Am einfachsten ist die

Verwendung von Interpro, einem System vom European Bioinformatics Institute (EBI). Dort

sind verschiedene Domänendatensätze wie Prosite, PFAM und Blocks zusammengefaßt.

Besonders nützlich ist die umfangreiche Dokumentation der Funktionsdomänen.

Enorme Datenmengen können durch die microarray-Technologie (siehe Kapitel 32) gewonnen

werden. Dabei ist es entscheidend, dass neben den verwendeten Zielsequenzen und den

ausgelesenen Expressionsniveaus dieser Ziele auch genaue Angaben über experimentelle

Bedingungen gespeichert werden, beispielsweise Ausgangsmaterial und Bedingungen der

mRNA-Präparation und Kalibrierungsmethoden. Nur so können eventuell auch Ergebnisse aus

verschiedenen Experimenten oder sogar Labors verglichen werden. Die Stanford Microarray

Database speichert nicht nur solche Daten, sondern bemüht sich auch um eine standardisierte

Beschreibung der Experimente. Viele internationale Forschungsgruppen und Firmen

unterstützen den MIAME-Standard (minimal information about a microarray experiment).

Wer sich für Tranksriptionsregulation interessiert, braucht Daten über Transkriptionsfaktoren

und deren Bindestellen. Diese Daten sind noch spärlich und verstreut, die Sammlung von

TransFac bietet einen Einstieg.

33.2.2 Suchwerkzeuge

Je mehr Daten zur Verfügung stehen, desto wichtiger wird es, präzise und zielgerichteteAnfragen zu stellen. Am einfachsten, und von vielen Servern angeboten, ist eine Volltextsuche,wo ein oder mehrere Worte angegeben werden. Dies können Datenbankkennziffern, Stichwörteroder Namen sein, aller Text wird vollständig durchsucht. Findet man zuviel Ergebnisse, kann dieSuche weiter eingeschränkt werden. Dabei hilft dann die Möglichkeit, die Suche auf einzelneFelder zu beschränken.

Für leistungsfähige aber effiziente Abfragen wurden sogenannte retrieval systems geschaffen,

z.B. SRS (srs.ebi.ac.uk) am European Bioinformatics Institute. Dies sind Programme, die auf

Datenbankabfragen spezialisiert sind und gleichzeitig mehrere Datenbanken durchsuchen

können. Außerdem bieten sie Nützliches wie einen Speicher der letzten Abfragen oder die

Möglichkeit, gespeicherte Abfragen zu kombinieren oder eine neue Abfrage auf die


12

Ergebnisliste durchzuführen. Sie sind auch flexibel in der Art, wie sie die Ergebnisse ausgeben,

und erlauben das Herunterladen ganzer Sequenzlisten in verschiedenen Formaten. Manche

Programme lassen sich direkt auf das Ergebnis anwenden. So kann man beispielsweise leicht

ein multiples Alignment von allen gefundenen Sequenzen durchführen.

Will man eine Liste von Ergebnissen speichern, um später wieder auf sie zugreifen zu können,

oder Verweise beispielsweise in Veröffentlichungen machen, so verwendet man am Besten die

Datenbankkenncodes oder accessions.

33.3 Sequenzvergleiche

33.3.1 Alignment

Ein zentrales Anliegen der Bioinformatik ist der Vergleich von Sequenzen, beispielsweise vonSequenzen unbekannter Funktion mit Sequenzen, deren Funktion bekannt ist, um etwas über dieunbekannten Sequenzen zu erfahren. Evolution geschieht auf molekularer Ebene durchMutationen in Sequenzen, und die Anzahl an Mutationen, die zwischen Sequenzpaarenstattgefunden haben, sind ein Maß für den evolutionären Abstand zwischen diesen Sequenzen.Da neben Substitutionen, also dem Austausch eines Bausteins, auch Insertionen/Deletionen undRekombinationen stattfinden können, müssen aber zuerst die Positionen identifiziert werden, dieevolutionär korrespondieren. Genau dies ist die Aufgabe des Alignments. In der üblichenDarstellungsform werden dabei zwei oder mehr Sequenzen übereinandergeschrieben, wobeikorrespondierende Positionen in einer Spalte übereinander stehen ((siehe Abb.)).

In dieser Darstellungsform kann man sofort erkennen, ob an einer Position in allen Sequenzender gleiche Baustein vorkommt, oder ob eine Substitution stattgefunden hat. Wenn eineInsertion oder Deletion stattgefunden hat, tritt in einer Sequenz an dieser Stelle eine Lücke auf,die meist mit - gekennzeichnet wird, aber an einer Position dürfen niemals nur Lücken stehen.Entscheidendes Merkmal von Alignments ist, dass die Reihenfolge der Bausteine in denSequenzen erhalten bleibt. Rekombinationen können so nicht dargestellt werden, und werdennicht berücksichtigt.

Ein Alignment, auch wenn es ein optimales Alignment ist, ist aber niemals ein Beweis für einenevolutionären Zusammenhang. Nur, wenn aus anderer Quelle bekannt ist, dass zwei Sequenzenverwandt sind (sie kodieren beispielsweise orthologe Gene aus zwei nahverwandtenOrganismen), kann geschlossen werden, dass korrespondierende Positionen tatsächlichevolutionär zusammenhängen. Andernfalls gibt das Alignment nur mögliche Beziehungenwieder. Dann lässt sich nur durch eine Abschätzung, mit welcher Wahrscheinlichkeit eine solcheBeziehung auch zwischen zufälligen Sequenzen auftreten kann, beurteilen, ob diese Beziehungsignifikant ist (siehe 33.3.1.5).


13

Seit vielen Jahren beschäftigt sich die Bioinformatik mit dem Problem, aus gegebenenSequenzen ein optimales Alignment zu erstellen und dessen Signifikanz zu bewerten. Dabeiwird grundsätzlich zwischen globalen und lokalen Alignments unterschieden ((siehe Abb.)).Globale Alignments bringen zwei Sequenzen über ihre ganze Länge in möglichst guteÜbereinstimmung. Lokale Alignments dagegen suchen Regionen mit möglichst guterÜbereinstimmung.

33.3.1.1 Dotplot

Eine intuitive, grafische Methode zur Erstellung von Alignments ist der Dotplot. Er gibt einen

Überblick über Beziehungen zwischen zwei Sequenzen, aber der Zusammenhang mit einem

Alignment ist nicht offensichtlich.

Ein Dotplot ist eine Tabelle oder Matrix, in der die Zeilen den Bausteinen einer Sequenz, die

Spalten denen der anderen Sequenz entsprechen ((siehe Abb.)). In der einfachsten Form des

Dotplots werden alle Felder markiert, wo die Bausteine in Zeile und Spalte übereinstimmen.

Sind die Bausteine in beiden Sequenzen unterschiedlich, bleibt das Feld leer. Bereiche, wo in

beiden Sequenzen die gleichen Bausteine aufeinanderfolgen, werden als Diagonalen von links

oben nach rechts unten sichtbar.

Mit dieser Darstellungsform lassen sich Wiederholungen leicht erkennen. Wiederholungen in

der gleichen Orientierung (tandem repeats) ergeben parallele Diagonalen von links oben nach

rechts unten, inverse Wiederholungen (inverted repeats) ergeben Diagonalen von rechts oben

nach links unten ((siehe Abb.)). Wiederholungen innerhalb einer Sequenz lassen sich durch

einen Dotplot der Sequenz gegen sich selbst erkennen.

Der Dotplot enhält außerdem alle möglichen Alignments zwischen zwei Sequenzen sowie

Informationen über deren Qualität. Jeder Pfad durch die Matrix von links oben nach rechts

unten, bei dem jeder Schritt nur in die rechts, unten oder diagonal rechts unten benachbarte

Zelle führt, entspricht einem Alignment. Dabei sind solche Alignments höher zu bewerten, die

mehr markierte Felder im Dotplot benutzen. Jeder nicht diagonale Schritt nach rechts oder

unten entspricht der Einführung einer Lücke in eine der beiden Sequenzen.

Dotplots eignen sich allerdings hauptsächlich für sehr ähnliche Sequenzen. Bei entfernter

verwandten Sequenzen erhält man viele kleine Diagonalen. Um den unspezifischen

Hintergrund auszublenden und etwas Übersichtlichkeit wiederherzustellen, kann man einen

Filter anwenden. Dabei werden nur solche Diagonalen angezeigt, wo in einem Abschnitt eine

Mindestanzahl von Bausteinen übereinstimmt, beispielsweise in einem Abschnitt von 10


14

Bausteinen mindestens 6 identische. Diese Werte werden meist window und threshold

(Mindestanzahl der Übereinstimmungen in einem Abschnitt der Länge window) genannt. Ein

Programm zum Erstellen von Dotplots findet sich z.B. unter www.isrec.isb-

sib.ch/java/dotlet/Dotlet.html.

33.3.1.2 Bewertung von Alignments

Alle möglichen Alignments zwischen zwei Sequenzen entsprechen allen möglichen Pfaden

durch eine Dotplotmatrix. Welcher Pfad entspricht dem besten Alignment, bzw. wie

signifikant ist das erhaltene Alignment? Dazu wird ein Bewertungsschema benötigt, dass

jedem Alignment einen score zuweist.

Dieses Bewertungsschema sollte möglichst die evolutionäre Verwandschaft wiedergeben.

Daher muss es Substitutionen und Indels berücksichtigen (eine Insertion ist aus Sicht der

anderen Sequenz eine Deletion, und in der Regel ist nicht bekannt, welches die evolutionäre

Ursprungssequenz ist). Rekombinationen können nicht berücksichtigt werden. Indels (Lücken)

werden meist längenabhängig gewichtet (siehe 33.3.1.3).

Für Nukleinsäuresequenzen wird oft ein einfaches Schema verwendet, in dem

Übereinstimmungen einen score von +1, Unterschiede von -1 bekommen. Kompliziertere

Schemata bewerten Transitionen und Transversionen unterschiedlich, da Transitionen häufiger

vorkommen, oder berücksichtigen die relativen Häufigkeiten der verschiedenen Nukleotide.

Für Aminosäuresequenzen gibt es verschiedene Systeme. Im Gegensatz zu

Nukleotidsequenzen haben hier auch nicht identische Aminosäuren oft einen evolutionären

Bezug. Ein einfaches Schema ergibt sich aus dem genetischen Code. Dabei werden

Aminosäurepaare nach der mindestens erforderlichen Anzahl an Nukleotidmutationen

bewertet, die nötig sind, um eine in die andere zu überführen. Andere Schemata beruhen auf

den physikalisch-chemischen Eigenschaften der Aminosäuren. Beispielsweise kann man

Aminosäurepaare mit +1 bewerten, wenn beide aus der gleichen Klasse physikalisch-

chemischer Eigenschaften kommen, und mit -1, wenn sie aus verschiedenen Klassen kommen.

Ein anderer Ansatz ist die Bewertung anhand beobachteter Substitutionsmuster. Dies

versuchte als erste Margaret O. Dayhoff. Sie wertete Aminosäureaustauschhäufigkeiten der

damals bekannten Sequenzen aus und erstellte daraus die PAM-Matrizen. PAM steht für

percent accepted mutation. Zwei Sequenzen, die einen Abstand von 1 PAM haben, weisen 1

% Mutationen auf (1 Substitution pro 100 Aminosäuren). Die PAM1-Substitutionsmatrix


15

ergibt sich aus den beobachteten Aminosäureaustauschhäufigkeiten zwischen solchen nah

verwandten Sequenzen. Dabei werden die Werte anhand der natürlichen Häufigkeit der

einzelnen Aminosäuren korrigiert. Bei solch nah verwandten Sequenzen kann man davon

ausgehen, dass jede Mutation auch beobachtbar ist, dass heisst, an keiner Position haben zwei

Substitutionen stattgefunden.

Will man PAM-Matrizen für Alignments von entfernter verwandte Sequenzen einsetzen, kann

man durch Potenzierung der PAM1-Matrix die Matrizen für größere evolutionäre Abstände

erhalten. Die PAM2-Matrix entspricht dem Quadrat der PAM1-Matrix, PAM250 entspricht

der PAM1-Matrix 250mal mit sich selbst multipliziert. PAM250 ist der größte evolutionäre

Abstand, bei dem noch sinnvolle Aminosäurealignments nur aus den Sequenzen errechnet

weden können. Dabei erwartet man 250 Mutationen pro 100 Aminosäuren, an vielen

Positionen haben also Mehrfachsubstitutionen stattgefunden, und etwa 20 % identische

Aminosäuren. Der Zusammenhang zwischen dem evolutionären Abstand in PAM und dem

Anteil identischer Aminosäuren ist in Tabelle 33.3 aufgeführt.

PAM 0 30 80 110 200 250

Identität (%) 100 75 50 60 25 20

Für die eigentliche Berechnung der Alignmentscores verwendet man meist skalierte,

logarithmierte Matrizen, so dass man einerseits ohne Nachkommastellen auskommt und

andererseits den Score eines Alignments durch Addieren der Werte für jedes Aminosäurepaar

bestimmen kann, anstatt die Austauschwahrscheinlichkeiten zu multiplizieren.

Die PAM-Matrizen von Margaret Dayhoff wurden später nochmal anhand einer viel größeren

Zahl von Sequenzen überprüft, wobei sich aber keine großen Änderungen ergaben. Wie

erwartet spiegeln die Werte die physikalisch-chemischen Eigenschaften der Aminosäuren

wieder, Austausche innerhalb einer Klasse sind wahrscheinlicher und erhalten einen höheren

Score. Andererseits passen die Werte nicht gut zu der Matrix, die sich aus dem genetischen

Code ergibt.

Um Substitutionsmatrizen zu erhalten, die leistungsfähiger beim Detektieren entfernter

Ähnlichkeiten sind, stützten sich S. Henikoff und J.G. Henikoff auf die BLOCKS-Datenbank.

BLOCKS enthält Abschnitte aus ähnlichen Proteinen, aus denen ohne Lücken ein Alignment

gebildet werden kann. Aus der Zahl beobachtbarer Aminosäurepaare an jeder Position und der

aufgrund der Gesamthäufigkeit der Aminosäuren erwarteten Paarungen werden die BLOSUM-


16

Matrizen errechnet (BLOCKS substitution matrix). Sequenzen mit hoher Ähnlichkeit wurden

dabei zusammengefaßt, um eine Überbewertung eng verwandter Sequenzen zu umgehen. Dabei

wird meist ein Grenzwert von 62 % identische Aminosäuren (BLOSUM62) angewendet, und

dies ist heute die meistverwendete Substitutionsmatrix. Bei einem Grenzwert von 80 %

Übereinstimmungen erhält man die BLOSUM80 Matrix, die für das Alignment von eng

verwandten Sequenzen eingesetzt wird.

33.3.1.3 Bewertung von Lücken

Wie sollen Indels im Verhältnis zu Substitutionen bewertet werden? Hier fehlt ein gutes

statistisches Modell, aber da Insertionen und Deletionen nicht nur einzelne Bausteine, sondern

längere Abschnitte betreffen können, unterscheidet man zwischen der Einführung einer Lücke

und deren Verlängerung. Bei der Einführung einer Lücke bewertet man die Wahrscheinlichkeit,

dass es überhaupt zu einem Indel kommt. Bei der Verlängerung bewertet man die Länge des

Abschnitts, der insertiert oder deletiert wird. Entsprechend haben die meisten

Alignmentprogramme zwei Parameter, einmal die Strafe für die Einführung einer Lücke (gap

penalty), und dann die Strafe, die Lücke um einen Baustein zu verlängern (gap extension

penalty). Diese Strafen werden vom Score des Alignments abgezogen. Für das Alignment von

DNA-Sequenzen schlägt CLUSTAL-W vor, eine gap penalty von 10 zu verwenden und eine

gap extension penalty von 0.1, wenn bei Substitutionen +1 für Übereinstimmung und -1 für

einen Unterschied gesetzt wird. Bei Proteinsequenzen und Anwendung der BLOSUM62-

Matrix wird eine Lückenstrafe von 11 und eine Erweiterungsstrafe von 1 empfohlen.

Unter bestimmten Umständen macht eine besondere Anpassung der Lückenstrafen Sinn. Wird

beispielsweise ein Alignment aus einer eukaryotischen mRNA-Sequenz und der genomischen

Sequenz erstellt, weiß man von vornherein, dass es aufgrund der Introns zu langen Lücken

kommen kann, in den Exons aber keine, auch keine kurzen Lücken auftreten sollten. In diesem

Fall erhält man bessere Alignments, wenn der Wert der gap penalty erhöht wird, der Wert für

die gap extension penalty dagegen auf 0 gesetzt wird.

33.3.1.4 Verfahren zur Berechnung von Alignments

Das optimale Alignment ergibt sich anhand des gewählten Bewertungsschemas: Es ist das

Alignment mit dem maximalen Gesamtscore. Dieses lässt sich garantiert finden, wenn man nur

alle möglichen Alignments durchprobiert, aber es muss nicht das biologisch sinnvolle

Alignment sein. Häufig gibt es viele verschiedene Alignments, die alle den gleichen,


17

größtmöglichen Score haben, und manchmal ist keines dieser optimalen Alignments das

biologisch sinnvolle Alignment.

In der Praxis ist das Durchprobieren aller möglichen Alignments häufig zu aufwändig.

Insbesondere, wenn mehr als zwei Sequenzen in das Alignment eingefügt werden sollen, ist die

Anzahl möglicher Alignments unhandhabbar groß. Deshalb werden erschöpfende Verfahren in

der Praxis nur für das Alignment von zwei Sequenzen angewendet.

Der Algorithmus für das erschöpfende globale Alignment zweier Sequenzen wurde von S. B.

Needleman und C. D. Wunsch erstmals auf biologische Sequenzen angewandt. Er wurde von

T. Smith und M. Waterman abgewandelt, um lokale paarweise Alignments zu berechnen. Der

Smith-Waterman Algorithmus wird auch heute angewendet, wenn die Garantie, das optimale

Alignment zu erhalten, Vorrang hat vor der Geschwindigkeit (www.ebi.ac.uk/emboss/align/).

In vielen Fällen bedient man sich aber Näherungsverfahren, um die Berechnung zu

beschleunigen. Dies gilt einerseits für die Suche in großen Datenbanken (siehe unten), und

andererseits für das multiple Alignment von mehr als zwei Sequenzen. Auch das multiple

Alignment lässt sich im Prinzip erschöpfend lösen, indem alle möglichen Alignments

berücksichtigt werden. Deren Zahl wächst aber exponentiell mit der Zahl der Sequenzen.

Stattdessen wendet z.B. das Programm ClustalW (www.ebi.ac.uk/clustalw) die Strategie an,

zunächst alle paarweisen Alignments zu berechnen, um dann mit dem Alignment der beiden

am engsten verwandten Sequenzen zu beginnen und diesem Alignment alle weiteren

hinzuzufügen. Während ClustalW meist brauchbare globale Alignments produziert, ist Dialign

(bibiserv.techfak.uni-bielefeld.de/dialign/) auf lokale Alignments spezialisiert.

33.3.1.5 Bedeutung von Alignments

In beinahe jedem paarweisen Alignment findet man Übereinstimmungen. Aber handelt es sich

um eine echte Verwandtschaft? Mit statistischen Methoden kann man zwar nicht in der Zeit

zurückreisen und der Evolution über die Schulter schauen, aber man kann zumindest

beurteilen, wie wahrscheinlich eine solche Ähnlichkeit auch durch Zufall auftritt. Dabei

vergleicht man den Gesamtscore des gefundenen Alignments mit den Scores aller Alignments

dieser Sequenz mit einer Kontrollpopulation. Diese Kontrollpopulation können

Zufallssequenzen, aus den Ausgangssequenzen durch zufällige Durchmischung gebildete


18

Kopien, oder eine Sequenzdatenbank sein. Dann kann man statistische Werte für die

Signifikanz des Alignments berechnen.

Der Z-Score vergleicht den Score S des gefundenen Alignments mit Mittelwert und

Standardabweichung aller Scores der Alignments gegen die Kontrollpopulation:

Z-Score von S = S - Mittelwert / Standardabweichung

Dabei bedeutet ein Z-Score von 0, dass das Alignment nicht besser ist als im Durchschnitt der

Kontrollpopulation. Je größer der Z-Score, umso wahrscheinlicher ist, dass das betrachtete

Alignment nicht durch Zufall entstanden ist. Z-Scores > 5 können als signifikant angenommen

werden.

Ein anderer Wert ist P, die Wahrscheinlichkeit, dass der Score des betrachteten Alignments

nicht besser als ein zufälliges Alignment ist. Eine Faustregel würde Werte unter 10-10 als

signifikante Ähnlichkeit einschätzen, während Werte für P bis 0.1 durchaus biologische

Bedeutung haben können.

Für Datenbanksuchen ist der nützlichste Wert der e-value (expectation value,

Erwartungswert). Dieser ergibt sich aus P multipliziert mit der Datenbankgröße, und gibt an,

wie oft man Alignments mit dem gleichen oder einem besseren Score erhält, wenn man die

Datenbank mit einer Zufallssequenz durchsucht. Werte für P liegen zwischen 0 und 1, e-

values zwischen 0 und der Gesamtzahl der Sequenzen in der Datenbank. Die Faustregel lautet

hier, dass Alignments mit einem e-value über 1 vermutlich zufällig sind. Ein e-value kleiner als

10-2 deutet oft auf eine Verwandtschaft hin, kann jedoch insbesondere bei Sequenzen mit

ungewöhnlicher Zusammensetzung auch in die Irre leiten.

Für alle statistischen Werte gilt, dass sie zwar wertvolle Hinweise zur Beurteilung von

Alignments geben, insbesondere im Vergleich verschiedener Alignments, aber keinen Ersatz für

eine genaue Betrachtung des Alignments oder für ein Heranziehen von ergänzendem Wissen

sind. Beispielsweise kann die Kenntnis des vermutlichen evolutionären Abstands zweier

Sequenzen, etwa aufgrund der Verwandtschaft der Arten, von denen die Sequenzen stammen,

einen Erwartungswert für die Ähnlichkeit von verwandten Genen bestimmen.

Eine genaue Betrachtung des Alignments dient nicht nur der Beurteilung seiner Signifikanz.

Besonderes Augenmerk verdienen Bereiche mit größerer Übereinstimmung. Beispielsweise

entsprechen in Alignments von zwei Enzymen die am stärksten konservierten Abschnitte

wahrscheinlich dem aktiven Zentrum. Nicht jede Aminosäure eines Proteins hat dieselbe


19

Bedeutung, und besonders bedeutsame Aminosäuren werden vermutlich

entwicklungsgeschichtlich erhalten. Abschnitte mit einer geringen Variabilität können

funktions- oder strukturbestimmenden Proteindomänen entsprechen. Kennt man wichtige

Struktur- oder Funktionselemente einer der beiden Sequenzen, sollte man überprüfen, ob diese

auch in der zweiten Sequenz auftreten, und dies bei der Beurteilung der Verwandschaft

heranziehen.

Die besondere Bedeutung multipler Alignments liegt darin, dass sie solche evolutionär

konservierten Bereiche erkennen lassen. Dabei kann die Kennzeichnung der Aminosäuren

entsprechend ihrer physikalisch-chemischen Eigenschaften sehr hilfreich sein. Dazu werden

sie meist farbig markiert. Sowohl Strukturelemente als auch funktionelle Eigenschaften stechen

so hervor. Das Auftreten hydrophober Aminosäuren in einem regelmäßigen Abstand kann auf

bestimmte Strukturen hinweisen. Im Abstand von zwei treten hydrophobe Aminosäuren

häufig in Faltblattstrukturen auf, ein Abstand von etwa vier deutet auf eine Helix hin.

Funktionelle Bedeutung haben beispielsweise die konservierten Cystein- und Histidinreste, die

in Zinkfingerproteinen zur Komplexierung des Zinkions nötig sind. Manchmal sind kleine

Korrekturen an einem Alignment sinnvoll, um solche konservierten Positionen tatsächlich in

Übereinstimmung zu bringen.

33.3.1.6 Profile und DomänensignaturenDie Information darüber, welche Positionen in einem Alignment mehrerer verwandter

Sequenzen besonders konserviert sind, lässt sich in Profilen speichern. Dadurch werden die

Gesetzmäßigkeiten oder Muster, die in einem multiplen Alignment verborgen sind,

beschrieben. Statt für jede Position die gleiche Substitutionsmatrix zur Bewertung des

Alignments zu verwenden, wird für jede Position im Alignment eine eigene Bewertungsmatrix

erstellt. Aminosäuren, die an dieser Position häufig vorkommen, werden höher bewertet.

Dadurch erhält man eine mächtige Methode, um auch entfernt verwandte Sequenzen zu

erkennen.

Solche Profile lassen sich auf verschiedene Art und Weise darstellen. Signaturen ohne Lücken

lassen sich in weight matrices festlegen, wo für jede Position die relative Häufigkeit jedes

Bausteins angegeben wird. Die Prosite-Datenbank von Funktionsprofilen verwendet reguläre

Ausdrücke, beispielsweise G-H-E-x(2)-G-x(2-5)-[GA]-x(2)-[IVSAC]. Dabei steht jeder

Buchstabe für eine Aminosäure und ein x für jede beliebige Aminosäure. Listen in eckigen

Klammern bedeuten, dass an dieser Stelle jeder der Buchstaben aus der Liste stehen kann.


20

Zahlen in Klammern geben die Anzahl des entsprechenden Buchstaben an. Auf obiges Profil

paßt also beispielsweise die Sequenz GHEASGDARASTC. Die flexibelste Darstellungsform

verwendet hidden Markov models (HMMs), mathematische Modelle, in denen die

Wahrscheinlichkeiten der verschiedenen Bausteine an jeder Position sowie die

Wahrscheinlichkeiten für Insertionen und Deletionen festgelegt werden können. Sie werden

von der PFAM-Datenbank verwendet. Eine ausgezeichnet dokumentierte Sammlung von

bekannten Proteindomänen und Profilen ist Interpro des EBI (www.ebi.ac.uk/interpro).

33.3.2 Suche in Sequenzdatenbanken

Ein Spezialfall des Alignmentproblems ist die Suche ähnlicher Sequenzen in Datenbanken. Hiersoll eine große Menge an Sequenzen mit einer Suchsequenz verglichen und eine Liste vonTreffern ausgegeben werden, am Besten nach Ähnlichkeit sortiert. Dies kann man durch einpaarweises Alignment, beispielsweise mit dem Smith-Waterman-Algorithmus(www.ebi.ac.uk/MPsrch), zwischen der Suchsequenz und jeder Sequenz in der Datenbank lösen,wobei man die Ergebnisse nach dem Gesamtscore des Alignments sortiert. Der Vorteil dieserMethode ist, dass garantiert alle signifikanten Alignments gefunden werden, aber sie ist sehrrechenaufwändig.

Wesentlich schneller ist FASTA (www.ebi.ac.uk/fasta/). Dabei werden zunächst alleDatenbanksequenzen auf das Vorkommen von exakten Übereinstimmungen mit kurzenFragmenten der Suchsequenz überprüft. Die Länge dieser Fragmente lässt sich über denParameter ktup (k-tuple) festlegen, für Nukleotidsequenzen wird 6, für Aminosäuresequenzen 1oder 2 vorgeschlagen. Je kleiner der Wert für ktup, desto empfindlicher und langsamer wird dieSuche. Wird eine exakte Wortübereinstimmung gefunden, wird dieses Minialignmentverlängert. Falls dabei ein Mindestscore übertroffen wird, wird das Alignment weiter verlängertbis der Score durch eine Verlängerung nicht mehr erhöht wird. Dann wird ein Smith-Watermanmit den Treffern mit dem höchsten Score berechnet. Dies bietet den Vorteil, dass letzten Endesgarantiert das optimale Alignment und dessen Score ausgegeben wird.

Noch effizienter ist BLAST (basic local alignment search tool, www.ebi.ac.uk/blast/). Aus einerSuchsequenz werden zunächst alle Worte (Sequenzfragmente) aufgelistet, die in einemAlignment einen Mindestscore übertreffen können. Alle Datenbanksequenzen, die diese Worteenthalten, werden in einem Index der Datenbank nachgeschlagen. Ausgehend von diesenÜbereinstimmungen wird versucht, das Alignment zu verlängern, wobei auch Lücken eingeführtwerden können. Die Sequenzen, die die Alignments mit den höchsten Scores (hsp, high-scoringsegment pairs) enthalten, werden angezeigt. Dabei entsprechen die Alignments allerdings nichtimmer dem optimalen. Dennoch ist BLAST wahrscheinlich das meistgenutzte


21

Bioinformatikwerkzeug, und auf den zahlreichen WWW-Servern, wo es kostenlos angebotenwird, wird es täglich viele tausend Male aufgerufen.

Eine Weiterentwicklung von BLAST ist PSI-BLAST (position specific iterated BLAST,www.ncbi.nlm.nih.gov/BLAST/). Bei geringer Sequenzähnlichkeit, etwa unter 30 % identischerAminosäuren, ist PSI-BLAST empfindlicher und kann dreimal mehr verwandte Sequenzenrichtig identifizieren. Dies wird erreicht, indem aus den in einem normalen BLAST-Laufgefundenen, eng verwandten Sequenzen ein Profil erstellt wird und in weiteren Iterationen diesesProfil verwendet wird, um die Datenbank zu durchsuchen. Dabei werden konservierte Positionenstärker berücksichtigt. Werden dabei neue Sequenzen gefunden, wird mit diesen das Profilverfeinert und eine erneute Suche durchgeführt, bis keine neuen Sequenzen mehr ein statistischsignifikantes Alignment ergeben.

33.3.3 Phylogenetische Rekonstruktionen

Bisher ging es darum, die Ähnlichkeit von Sequenzen zu bestimmen. Diese sollte ein Maß fürden evolutionären Abstand sein. Wenn wir von einer Gruppe von Sequenzen jeweils dieevolutionären Distanzen kennen, sollten wir in der Lage sein, einen Stammbaum aufzustellen.Entscheidend für den Erfolg ist bereits das Alignment. Ohne ein sinnvolles Alignment kann dieBaumrekonstruktion kein brauchbares Ergebnis liefern. Außerdem können Lücken nichtberücksichtigt werden, weshalb nur Alignments von solchen Abschnitten der Sequenzenverwendet werden, wo möglichst wenig Lücken eingefügt werden müssen. Überstehende Endenwerden einfach abgeschnitten.

Dabei tritt das Problem der Umrechnung von Ähnlichkeiten in Distanzen auf. Wie bereits obenim Abschnitt über PAM Substitutionsmatrizen beschrieben, kann man die beobachtetenUnterschiede zwischen zwei Sequenzen nur dann der Zahl der Substitutionen gleichsetzen, wenndie Sequenzen fast vollständig identisch sind. Für weniger ähnliche Sequenzen muß manMehrfachsubstitutionen berücksichtigen, die an einer Position auch wieder zu einerÜbereinstimmung führen können.

Anschließend muß aus der Matrix der paarweisen Distanzen ein Baum erstellt werden. Dazugibt es mehrere Herangehensweisen: Distanzmethoden fügen zunächst die ähnlichstenSequenzen zu einem Cluster zusammen und berechnen eine neue Matrix, in der das Cluster wieeine einzelne Sequenz behandelt wird. In der sich ergebenden Distanzmatrix, die eine Zeile undSpalte weniger als die ursprüngliche Matrix enthält, werden wieder die beiden Sequenzen oderCluster zusammengefaßt, die am ähnlichsten sind, und so weiter bis nur noch ein Cluster übrigist. Diese hierarchischen Cluster lassen sich direkt als Baum darsellen. GebräuchlicheDistanzmethoden sind UPGMA oder Neighborhood Joining. Die Maximum ParsimonyMethode bestimmt für jede mögliche Baumtopologie die Mindestzahl Substitutionen, diepostuliert werden müssen, um alle Sequenzen auf diesen Baum abzubilden. Der Baum, der die


22

geringste Zahl Substitutionen erfordert, wird ausgewählt. Auf einer Modellierung derWahrscheinlichkeit aller denkbaren Bäume beruhen Maximum Likelihood Methoden.

Alle diese Methoden finden sich in speziellen Programmpaketen, beispielsweise PHYLIP(evolution.genetics.washington.edu/phylip.html). Die besten Ergebnisse liefern MaximumParsimony und Maximum Likelihood Methoden, jedoch sind dies auch die rechenintensivstenMethoden. Daher ist die schnellere Neighborhood Joining-Methode weitverbreitet. AlleErgebnisse müssen in jedem Fall kritisch untersucht werden. Eine rein statistische Möglichkeitzur Signifikanzabschätzung ist das bootstrapping. Dabei werden die Spalten des Alignmentsunter möglicher Doppelverwendung oder Auslassung neu angeordnet und erneut ein Baumbestimmt. Danach wird die Häufigkeit, mit der die ursprünglich vorhergesagte Topologie wiederauftritt, als Maß für die Signifikanz verwendet. Diese Methode wird meist mit mindestens 400Durchmischungen angewendet und die Ergebnisse werden als Prozentzahlen angegeben, mit derdie ursprüngliche Topologie gefunden wird.

33.3.4 Funktionsvorhersage durch Sequenzähnlichkeit

Eine wichtige Anwendung von Sequenzvergleichen ist es, für eine unbekannte Sequenz eine

mögliche Funktion zu finden. Da verwandte Proteine auch eine ähnliche Struktur und eine

ähnliche Funktion haben, bekommt man auf diese Weise oft sehr gute Hinweise auf eine

Funktion. Allerdings ist Vorsicht angebracht. In manchen Fällen, beispielsweise bei

bestimmten Enzymen, führt schon der Austausch einer Aminosäure im katalytischen Zentrum

zu einer völlig neuen Spezifität. Verwandte Proteine können in diesen Fällen sehr ähnlich sein,

sie spielen aber sehr unterschiedliche Rollen im Stoffwechsel. Eine weitere Gefahr ist, dass

inzwischen viel Information in den Sequenzdatenbanken auf Herleitung aus ähnlichen

Sequenzen beruht. So können einerseits Fehler weitergegeben werden, andererseits Information

über mehrere Schritte abgeleitet werden, wobei die letzte Sequenz in der Kette mit der ersten

Sequenz, welches die einzige ist, für die die Funktion bekannt ist, nicht mehr viel gemeinsam

hat. Daher sollte man zur Funktionsvorhersage grundsätzlich nur die Ähnlichkeit zu Proteinen

mit experimentell erforschter Funktion heranziehen. Dazu sind insbesondere die PDB und

SWISSPROT Datenbanken nützlich, siehe oben.

33.4 StrukturvorhersagenIn Kapitel 2 wurde auf die Struktur von Proteinen bereits eingegangen. Der Informationsflussder Erbinformation verläuft von der DNA-Sequenz des Gens über mRNA zur Proteinsequenz.Die Proteinsequenz wiederum bestimmt die Struktur, und die Struktur die Funktion. Eigentlichsollten diese Schritte nachvollziehbar sein und aus der Proteinsequenz die Struktur und daraus


23

die Funktion vorhersagbar sein. In der Praxis stellt die Strukturvorhersage allein aus derSequenz die Bioinformatik vor eine immense Herausforderung.

Immerhin sind einige der physikalisch-chemischen Grundprinzipien bekannt, die zu dernatürlichen Faltung der Proteine beitragen. In erster Linie ist es ein thermodynamischesProblem, da das Protein diejenige Faltung einnimmt, in der ein optimaler Kompromiß zwischenniedriger Enthalpie und hoher Entropie erreicht wird, also die Gibbsche freie Energie minimiertwird. Allerdings ist eine Berechnung aller Wechselwirkungen innerhalb des Proteins und mitdem Lösungsmittel noch so aufwändig, dass in der Praxis nicht genügend verschiedeneKonformationen berechnet werden können, damit mit Sicherheit die günstigste dabei ist.

Dennoch gibt es einige nützliche Werkzeuge, die zumindest Hinweise auf die mögliche Struktureines unbekannten Proteins geben. Zur Sekundärstrukturvorhersage ist momentan PROF(www.aber.ac.uk/~phiwww/prof/) eines der besten Programme. Im Ergebnis werden Helixesund Faltblattbereiche markiert. Auf einem Server des EMBL Heidelberg kann man dieses sowieeine ganze Reihe weiterer Strukturvorhersageprogramme laufen lassen (www.embl-heidelberg.de/predictprotein/)((siehe Abb)).

Ein wichtiger Nutzen von Strukturvorhersagen ist wiederum das Alignment von Sequenzen,beispielsweise zur Funktionsvorhersage. Ein Alignment, das unter Berücksichtigung derStruktur erstellt wird, ist oft viel aussagekräftiger. Insbesondere im Bereich sehr geringerÄhnlichkeiten kann ein Strukturalignment noch wichtige Übereinstimmungen in derAminosäuresequenz aufdecken (www.ebi.ac.uk/dali/).

33.5 GenomanalyseDas Ziel der Genomanalyse ist, die Sequenzen und Lokalisation aller Gene eines Organismusauf dessen Chromosomen zu bestimmen. Im Prinzip erhält man dadurch den vollständigenBauplan des Organismus. Um aber den Zusammenhang dieses Bauplans mit Gestalt undLebensstil zu verstehen, ist außerdem das Verständnis der Beziehungen unter den Genennotwendig. Diese werden von der Genomik untersucht (siehe Kapitel 32), die sichbeispielsweise mit der Regulation der Expression oder mit Protein-Protein-Interaktionenbeschäftigt. Für viele Ansätze in der Genomik ist die Kenntnis des vollständigen Genoms, alsoder Sequenz der Chromosomen oder wenigstens die Sequenzen aller Gene, von großerBedeutung. Daher ist außerordentlich viel Mühe und Geld in eine ganze Reihe vonGenomanalyseprojekten geflossen, und insbesondere das Humangenomprojekt hat auch großeöffentliche Aufmerksamkeit erregt.

Genomprojekte kommen grundsätzlich nicht ohne Bioinformatik aus. Dies beginnt bei derQualitätskontrolle der gewonnenen Sequenzen, über den Zusammenbau zusammenhängenderSequenzbereiche aus den einzelnen Sequenzierläufen, die Vorhersage der Gene und ihrerFunktionen und endet in der Auswertung und Beurteilung der Ergebnisse, z.B. durch Vergleich


24

mit anderen Genomen. Dabei haben Fortentwicklung der Sequenziertechnologie und derBioinformatik gleichermaßen Anteil an dem rasanten Fortschritt der Genomanalyse. Der heutemögliche Durchsatz übertrifft alle Prognosen, so dass eine Reihe von Genomprojekten deutlichfrüher als geplant fertiggestellt werden konnten.

33.5.1 GenomsequenzierungEin wichtiger Beitrag der Bioinformatik beruht darauf, dass Genomsequenzen nicht am Stückeingelesen werden können. Auch moderne Verfahren können meist nicht mehr als 1000 bp ineinem Sequenzierlauf lesen. Deswegen werden immer erst kleinere Bruchstücke eines DNA-Moleküls erzeugt, die dann sequenziert werden, und im Computer wieder zu einerGesamtsequenz zusammengesetzt oder assembliert werden. Zunächst klingt das einfach, wenndie Fragmente überlappen, hängt man sie aneinander. Die Aufgabe ist aber viel schwieriger, daeinerseits die überlappenden Sequenzierläufe nicht immer die hundertprozentig identischeSequenz haben, andererseits an einer anderen Stelle im Genom eine sehr ähnliche Sequenzvorkommen kann, so dass nicht zueinandergehörende Fragmente irrtümlich zusammengesetztwerden. Ersteres beruht darauf, dass einzelne Sequenzierläufe eine Fehlerhäufigkeit von etwa 1% haben, d.h. unter 100 gelesenen Basen ist im Durchschnitt ein Fehler. Letzteres macht großeSchwierigkeiten, wenn es sich um sogenannte repetitive DNA handelt. Dies sind Sequenzen, diemit oft nur geringen Abwandlungen viele Male in einem Genom vorkommen (siehe Kapitel 7).

Um dieses Problem zu reduzieren, kann man für größere Genome das sogenannte clone-by-clone Verfahren anwenden. Zufällig erzeugte Fragmente des Genoms werden in Vektorenkloniert, die eine einfache Vervielfältigung im Labor erlauben, am Gebräuchlichsten sindkünstliche Bakterienchromosomen, kurz BAC (bacterial artificial chromosome), die etwa 150kb große DNA-Fragmente enthalten. Dann werden zuerst diese Klone entlang derChromosomen angeordnet, wobei Restriktionsenzymkartierung (fingerprinting), BAC-Enden-Hybridisierung und Verankerung mittels genetischer Marker angewendet werden. Ein Satzmöglichst wenig überlappender Klone (sog. tiling path) wird ausgewählt, der das gesamteGenom repräsentiert. Diese Klone werden dann einzeln sequenziert. Anschließend müssenjeweils nur die Sequenzierläufe für einen einzelnen Klon zusammengesetzt werden.

Das shotgun Verfahren beruht dagegen darauf, aus dem ganzen Genom zufällig gewonneneSequenzierläufe erst im Computer wieder anzuordnen. Dadurch wird viel Zeit (und Geld)gespart, das aufwändige Kartieren der BAC-Klone entfällt. Nachteilig ist dagegen, dass repetitiveBereiche des Genoms oft überhaupt nicht wieder zusammengesetzt werden können, und dassErgebnisse erst verfügbar sind, nachdem die Sequenzierung abgeschlossen ist, während beimclone-by-clone Verfahren jeder einzelne Klon sofort ein Stück fertiger Genomsequenzrepräsentiert. Andererseits liegt das Hauptinteresse der Genomanalyse in den genkodierendenAbschnitten, und gerade diese lassen sich gut assemblieren, so dass die shotgun Methode dasZiel, alle Gensequenzen zu bestimmen, schnell und günstig zu erreichen verspricht.


25

Für kleine Genome, beispielsweise Bakteriengenome, wird routinemäßig das shotgun Verfahrenverwendet. Die Firma Celera hat das Drosophila Genom sequenziert, um zu beweisen, dass eineukaryotisches Genom dieser Größe erfolgreich im shotgun Verfahren erschlossen werdenkann. Im Fall des dreißigmal größeren Humangenoms sind jedoch Zweifel geäußert worden,dass ein Zusammenbau der shotgun Sequenzen möglich wäre ohne die Daten des öffentlichgeförderten Humangenomprojekts, welche im clone-by-clone Verfahren gewonnen wurden.

Um überhaupt erfolgreich shotgun Sequenzen eines Genoms zusammenzusetzen, ist eineaufwändige bioinformatische Prozessierung notwendig. Dabei werden Vektorsequenzenentfernt, Bereiche niedriger Sequenzqualität markiert, und schließlich alle Sequenzen miteinanderverglichen, um mögliche Überlappungen zu identifizieren. Besondere Bedeutung hat dieBehandlung von repetitiven Regionen (siehe Kapitel 7.2). Diese werden einerseits durchVergleich mit Datenbanken bekannter repetitiver Elemente, beispielsweise Transposons, erkanntund maskiert, andererseits aufgrund des überdurchschnittlich häufigen Auftretens vonÄhnlichkeiten ausgefiltert.

Eine wichtige Fragestellung ist, wann eine Genomanalyse als abgeschlossen gelten kann.Einerseits ist die DNA-Sequenz eines Genoms im Prinzip vollständig und exakt bestimmbar.Andererseits bestehen Zentromere und Telomere der Chromosomen aus exaktenWiederholungen kurzer Sequenzabfolgen. Diese gelten bis heute als nicht sequenzierbar,einerseits weil es keine Möglichkeit gibt, die richtige Überlappung der einzelnen Sequenzierläufezu bestimmen, andererseits, weil sich solche repetitiven Sequenzen oft nicht stabil klonierenlassen (siehe Kapitel 7). Folglich gilt eine Genomanalyse als abgeschlossen, wenn derEuchromatinanteil des Genoms sequenziert ist. Als abgeschlossen geltende Genomprojekteenthalten meist zahlreiche weitere Lücken, da der Aufwand, die genaue Struktur eines Bereichsmit zahlreichen Wiederholungssequenzen zu bestimmen, in keinem Verhältnis zumInformationsgewinn steht. Solche Bereiche enthalten in der Regel keine proteinkodierendenGene.

Ein anderer, aber viel weniger problematischer Aspekt ist die Exaktheit der Sequenz.Sequenziermethoden sind fehlerbehaftet, bei einem einzelnen Sequenzierlauf liegt dieGenauigkeit heute bei 99%. Da bei einer Genomanalyse aber an praktisch keiner Stelle desGenoms nur ein einziger Sequenzierlauf durchgeführt wird, sondern bei allen gängigenVerfahren jede Base des Genoms von mehreren überlappenden Sequenzierläufen gelesen wird,können diese Lesefehler größtenteils ausgeschlossen werden indem eine Konsensussequenzgebildet wird. Dazu wird für die finale Sequenz an jeder Position diejenige Base verwendet, dievon der Mehrheit der überlappenden Sequenzierläufe an dieser Stelle bestimmt wurde. Dadurcherreichen Genomsequenzen heute eine Basengenauigkeit von 99.99%, enthalten also im Schnittpro 10000 bp nur eine falsch gelesene Base.


26

33.5.2 Genvorhersage

Der erste Schritt von der DNA-Sequenz hin zur Entschlüsselung der Erbinformation ist dieIdentifizierung der funktionellen Einheiten, der Gene. Im Vordergrund des Interesses stehenzunächst proteinkodierende Gene und hier wiederum die Aminosäuresequenz der kodiertenProteine. In der DNA-Sequenz sind auch andere intrinsische Signale wie Promotoren,regulatorische Elemente und Polyadenylierungssignale kodiert, aber für proteinkodierendeAbschnitte kennen wir den genetischen Code, der es erlaubt, direkt aus der DNA-Sequenz diekodierte Aminosäuresequenz abzuleiten. Diese wiederum ist die Basis für Proteinfunktions- und-strukturvorhersagen. Da jeweils ein Triplett für eine Aminosäure kodiert, wird neben derInformation, welche Abschnitte proteinkodierend sind, auch das Leseraster benötigt (sieheKapitel 6). Ein Sequenzabschnitt, der mit einem Startcodon beginnt und keine Stoppcodonsenthält, wird ORF (offenes Leseraster) genannt.

Da prokaryotische Gene nicht von Introns unterbrochen werden, findet ein Programm, das eineGenomsequenz absucht und alle ORFs markiert (wie z.B. ORFfinder,www.ncbi.nlm.nih.gov/gorf/gorf.html), schon alle proteinkodierenden Gene. Aber viele ORFskodieren nicht für ein Protein. Daher verwendet man zur Genvorhersage bei Prokaryontenweitere Informationen, wie Ribosomenbindestellen, die durchschnittliche Größe und GC-Gehaltproteinkodierender ORFs, und Ähnlichkeit zu bekannten Proteinen. Bei den meisten Bakterienführt vollautomatische Genvorhersage mit Programmen wie GeneMark(opal.biology.gatech.edu/GeneMark/) zu einer sehr hohen Genauigkeit bei der Genvorhersagemit teils über 95% richtig vorhergesagter Gene.

Bei Eukaryonten ist das Problem sehr viel komplexer. Da proteinkodierende Gene von Intronsunterbrochen werden, reicht das Finden von möglichen Leserastern nicht aus. Jedes Exon mußnatürlich ein durchgehendes Leseraster enthalten. Exons sind aber oft kürzer als derErwartungswert für zufällige offene Leseraster. Also müssen andere Kriterien zurGenvorhersage genutzt werden. Dabei kann man zwischen intrinsischen und extrinsischenInformationen trennen. Als intrinsische Werte gehen Sequenzmuster von Promotorelementen,Spleissstellen und Polyadenlylierungssignalen, GC-Gehalt, Dicodonfrequenz (entspricht derspeziesabhängigen codon usage), Exon- und Intronlänge ein. Als extrinsische Informationenwerden Ähnlichkeiten zu bekannten Genen oder zu von mRNA abgeleiteten Sequenzen wieESTs, die belegen, dass dieser Sequenzabschnitt zumindest transkribiert wird, verwendet.Eukaryontische Genvorhersageprogramme fügen diese Werte nach unterschiedlichenmathematischen Modellen zu einer Gesamtbewertung zusammen, wie groß dieWahrscheinlichkeit ist, dass ein Sequenzabschnitt proteinkodierend ist (sog. coding potential).Das Genvorhersageprogramm fügt Abschnitte, deren coding potential über einem Schwellenwertliegt, zu translatierbaren Genmodellen zusammen, wobei mehrere Exons zu einem Genzusammengefasst werden.


27

Dabei sind vollständig korrekte Vorhersagen, wo also Start, Stop und jede Spleissstelle exaktstimmt, selten. Wenn man auch falsche Genmodelle gelten lässt, werden jedoch die meistenGene gefunden, und meist wird auch ein Großteil der Aminosäuresequenz korrekt vorhergesagt.Beachten muß man jedoch, dass jedes Programm auf die besonderen Eigenheiten desuntersuchten Organismus angepaßt werden muß, da beispielsweise GC-Gehalt undCodonpräferenz sehr unterschiedlich sein können. Ein nützliches, frei verfügbares Programm istbeispielsweise Genscan (genes.mit.edu/GENSCAN.html).

Bei der Bestimmung der Proteinsequenz ist es natürlich notwendig, den richtigen genetischenCode zu verwenden, selbst innerhalb eines Organismus werden in den Mitochondrien und imKern unterschiedliche Codes verwendet (siehe Kapitel 6).

33.5.3 Genomdatenbanken

Um die Daten aus Genomprojekten möglichst schnell der Wissenschaft zugänglich zu machen,entstand eine neue Form von Datenbanken, die Genomdatenbank oderModellorganismusdatenbank. Hier werden vielfältige Informationen zu einem Organismus undseinem Genom zusammengetragen, angefangen von der Sequenz über Gene und andereAnnotationen bis hin zu Kartierungsdaten oder Phänotypbeschreibungen. Anders als die reinenSequenzdatenbanken bieten die Genomdatenbanken oft vielfältige Anzeigemöglichkeiten,beispielsweise fast immer eine Möglichkeit, sich entlang einer grafischen Darstellung derChromosomen zu bewegen und darauf Gene und andere Elemente angezeigt zu bekommen.Proteinkodierende Gene sind oft mit einer Fülle von Information verbunden, so dass vonverschiedenen Sequenzformaten bis hin zu Strukturvorhersagen alles auf einen Blick oder Klickerreichbar ist.

Trotz der medienwirksamen Schlagzeilen über vollständig entschlüsselte Genome und derattraktiven Aufmachung der Informationen darf nicht außer Acht gelassen werden, dass dieGenomdatenbanken immer nur den Stand des Wissens darstellen, und dass gerade bei denHochdurchsatzmethoden, die bei Genomprojekten zum Einsatz kommen, sich im Detail vieleFehler einschleichen können. Durch Fehler beim Zusammensetzen der einzelnenSequenzierläufe zu langen, zusammenhängenden Sequenzen (contigs im Jargon derGenomprojekte) kommt es oft dazu, dass lokale Bereiche falsch angeordnet werden. Wird derFehler entdeckt, verändern Gene ihre Position oder es ergeben sich völlig neue Exon-Intron-Kombinationen. Oft kommen zur Gen- und Funktionsvorhersage automatische Methoden zumEinsatz, die kritisch hinterfragt werden müssen. Man sollte daher im Umgang mit diesen Datenimmer davon ausgehen, dass im großen Überblick wertvolle Schlüsse gezogen werden können,wenn man aber auf ein einzelnes Gen fokussiert natürlich ausgerechnet dieses völlig falsch seinkann. Trotzdem sind die Daten der Genomprojekte relativ verlässlich, die Sequenziergenauigkeitbeispielsweise liegt meist bei weniger als einem falschen Nukleotid in 10000 Basenpaaren,einem Wert, der von vielen Sequenzen in den DNA-Datenbanken bei weitem nicht erreicht wird.


28

Besonders nützlich sind Genomdatenbanken, wenn sie durch die Forschungsgemeinschaft, diean dem entsprechenden Organismus forscht, unterstützt werden und die Genomdaten durchzahlreiche experimentelle Befunde und durch die intensive Beschäftigung mit einzelnen Genenergänzt und korrigiert werden. Das kann soweit gehen, dass aus der Nutzeroberfläche derGenomdatenbank direkt Bestellungen für Materialien abeschickt werden können, und so cDNA-Klone oder eine knock-out-Mutante für ein bestimmtes Gen beschafft werden können. An vieleGenomprojekte haben sich functional genomics Projekte angeschlossen (siehe Kapitel 32), diein großem Umfang Daten gewinnen, die wiederum in der Genomdatenbank abgelegt werden.

33.5.4 Bioinformatik der Genome

Die Daten der Genomprojekte sind aber nicht nur ein wertvoller Ausgangspunkt fürLaborexperimente, sondern bilden auch eine spannende Herausforderung für die Bioinformatik.Dabei geht der Blick nicht ins Detail, also beispielsweise: "Wo beginnen und enden die Exonseines bestimmten Gens?", sondern aufs Ganze, also beispielsweise: "Welcher Anteil aller Genedieses Organismus spielt eine Rolle in der Zell-Zell-Kommunikation?". Dabei findet mannatürlich, dass mehrzellige Organismen viel mehr Kommunikationsgene aufweisen als Einzeller.So kann man erforschen, welche Proteinfamilien oder Funktionsklassen in einer Speziesexpandiert wurden.

Dabei kann man durchaus Überraschendes erleben. Während G-Protein gekoppelte Rezeptorenin Tieren eine große Rolle in der Signaltransduktion haben, und zahlreich in den bekanntenGenomen vorkommen, fand man im ersten sequenzierten Pflanzengenom, dem von Arabidopsisthaliana, nicht einen Vertreter dieser Proteinklasse. Parasitäre Organismen, wie Mycoplasmagenitalium mit dem kleinsten sequenzierten Genom eines zellulären Lebewesens, lassen sich aufGenomebene leicht erkennen, weil ihnen wichtige Stoffwechselwege fehlen. Die Stoffe, die sieselbst nicht erzeugen können, bekommen sie von ihrem Wirt.

Solche Fragestellungen werden in der Regel durch Vergleiche aller Gene von zwei Organismen,zum Beispiel mit PSI-BLAST, beantwortet. Ein Programm gibt beispielsweise alle Gene aus, fürdie in dem zweiten Organismus kein ähnliches Gen gefunden wird. Dafür ist natürlich die Wahleines sinnvollen Grenzwertes, ab wann ein BLAST-Ergebnis für signifikant gehalten wird,wichtig. Eine andere Vorgehensweise berechnet Funktionsdomänen für alle Gene, beispielsweisemit INTERPRO, und erstellt eine Statistik, welche Funktionsdomänen häufiger oder seltener alsin anderen Organismen gefunden werden.

Andere Fragen, die nur der Blick auf das Gesamtgenom ermöglicht, sind Fragen der Redundanzund der Genomevolution. In vielen Genomen konnte man die Spuren von großenDuplikationsereignissen nachweisen. Aber auch einzelne Gene können verdoppelt werden undtreten dann als Tandemanordnungen sehr ähnlicher Gene in Erscheinung. Solche Duplikationenwerden durch Alignment von ganzen Chromosomen miteinander erkannt. Erstellt man ein


29

Alignment von Chromosomen verschiedener Arten, kann man syntenische Bereiche erkennen.Häufig sind verwandte Gene in zwei Spezies in der gleichen Anordnung und Reihenfolge, nurdurch gelegentliche Insertionen von nicht korrespondierenden Genen unterbrochen. Hier kannman beispielsweise die konservierten Bereiche zwischen beiden Spezies markieren und zurGenvorhersage nutzen, da Exons stärker konserviert sind.

33.5.5 Transkriptomanalyse

In der Transkriptomanalyse führen Hochdurchsatzmethoden zu immensen Datenmengen

(siehe Kapitel 32). Inzwischen gibt es gute experimentelle Techniken, um cDNA-Bibliotheken

zu normalisieren und auf vollständige Klone zu selektieren, aber EST-Sequenzen sind von

Natur aus von niedriger Qualität. Sie entsprechen einem einzelnen Sequenzierlauf, wobei die

Fehlerwahrscheinlichkeit bei einer falschen Base pro 100 Nukleotiden liegt, an den Enden eher

mehr. Außerdem repräsentieren sie nur kurze Stücke aus einem Gen und selten die gesamte

proteinkodierende Sequenz.

Dennoch sind EST-Sequenzen sehr wertvoll, insbesondere in Spezies, wo eine

Genomsequenzierung nicht in Frage kommt, weil das Genom zu groß ist. Da ESTs billig sind

und oft in großer Zahl erstellt werden, können diese zu längeren Sequenzen zusammengefügt

werden, wobei Sequenzierfehler oft erkannt werden, wenn mindestens drei Sequenzen

überlappen. Dazu werden paarweise Alignments zwischen allen ESTs aus einer Art erstellt.

Aus zueinander passenden ESTs werden sogenannte tentative consensus sequences (TCS)

erstellt, aus denen sich mit viel besserer Genauigkeit die kodierten Proteinsequenzen erstellen

lassen. So entstehen Proteinsammlungen für viele Arten, wie sie beispielsweise von The

Institute for Genome Research (www.tigr.org) als gene indices in großem Maßstab

bereitgestellt werden.

ESTs können auch helfen, die Expressionsstärke und die Gewebespezifität eines Gens zu

bestimmen. Dafür werden aber zunehmend DNA-Arrays eingesetzt, wo man in einem

Experiment markierte RNA mit vielen tausend Proben hybridisieren kann, beispielsweise allen

6000 Genen des Hefegenoms (siehe Kapitel 32). Da die experimentelle Methode aber zu stark

verrauschten Meßwerten führt, ist eine aufwändige statistische Auswertung unerlässlich.

Dabei haben sich Klassifizierungsmethoden der Bioinformatik ausgezeichnet bewährt. Selbst

wenn sich aus einem Microarrayexperiment über die Expression eines einzelnen Gens keine

genauen Aussagen folgern lassen, kann die Abbildung der Daten auf bekannte

Stoffwechselwege sehr deutliche Effekte zeigen.


30

Andererseits kann die Information, welche Gene ein ähnliches Expressionsmuster zeigen, dazu

verwendet werden, in den Promotoren dieser Gene ähnliche Sequenzmotive zu identifizieren.

Dies sind Kandidaten für die Bindestellen der Transkriptionsfaktoren, die für die Regulation

dieses Expressionsmusters verantwortlich sind. Hierbei verwenden Bioinformatiker teilweise

Methoden aus der Computerlinguistik und suchen "Sequenzworte", die häufiger als erwartet

im Promoterbereich einer Gruppe von koregulierten Genen auftauchen.

33.6 LiteraturAltschul S.F., Gish W., Miller W., Myers E.W. and Lipman D.J. Basic local alignment

search tool. J Mol Biol. 215(3), 403-410 (1990)

Chicurel M. Bioinformatics: Bringing it all together. Nature 419, 751-759 (2002)

Henikoff S. and Henikoff J.G. Amino acid substitution matrices. Adv. Protein Chem. 54,

73-97 (2000)

Lesk, A.M. Introduction to Bioinformatics. Oxford University Press; ISBN 0199251967

Mount, D.W. Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor

Laboratory; ISBN 0879696087

Needleman S.B., Wunsch C.D. A general method applicable to the search for similarities

in the amino acid sequence of two proteins. J Mol Biol. 48(3), 443-453 (1970)

The Arabidopsis Genome Initiative Analysis of the genome sequence of the

flowering plant Arabidopsis thaliana. Nature 408, 796-815 (2000)

33.1

33.1 einführung: bioinformatik und...

Documents