![Page 1: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/1.jpg)
Varianzstabilisierung von Genexpressionsdaten
Ewgenij ProschakYusuf Tanrikulu
Seminar: Aktuelle Themen der Bioinformatik27.05.2004
Organizer: Prof. Dr. D. MetzlerTutor: Lin Himmelmann
![Page 2: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/2.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
2
Inhalt
Problemstellung und GrundbegriffeModell nach ChenModell nach Huber
Fehlermodell nach Rocke und Durbin Transformation zur Varianzstabilisierung Parameterabschätzung
![Page 3: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/3.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
3
Problemstellung –Datenformat
Vorverarbeitete Daten, die in einer Matrix vorliegen
![Page 4: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/4.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
4
Problemstellung -Begriffsdefinition
Heteroskedastizität Varianz nicht konstant
Homoskedastizität Varianz konstant
Transformation
![Page 5: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/5.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
5
Problemstellung –Wieso ist das wichtig?
Signifikanz verringert sich mit wachsender Varianz
Ziel: Unterschiede in der Genexpressionsrate feststellen.
Problem: Wenn aber die Varianz zu hoch ist, kann man nicht genau sagen, ob es ein Unterschied oder eine varianzbedingte Schwankung ist.
![Page 6: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/6.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
6
Modell nach Chen
Annahme: Varianz steigt linear mit dem Erwartungswert.
Chen‘s Folgerung: Logarithmieren der Daten.
![Page 7: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/7.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
7
Modell nach Chen –Nachteile
![Page 8: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/8.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
8
Modell nach Chen –Nachteile
Singularität der Logarithmusfunktion bei 0.
Transformation von negativen Werten nicht möglich.
Kleine Werte werden nach der Transformation groß.
![Page 9: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/9.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
9
Modell nach Huber
Fehlermodell von R&D (2001)
FehlermodellR&D (2001)
TransformationTibshirani (1988)
Parameterabschätzung
LTS – Rousseuw &LeRoy (1987)
MLA – Murphy & Van der Vaart (2000)
![Page 10: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/10.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
10
Modell nach Huber –Fehlermodell von R&D
eY
Offset
Multiplikativer Fehler Additiver Fehler
Tatsächlicher Expressionslevel
![Page 11: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/11.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
11
Modell nach Huber –Fehlermodell von R&D
Die Fehlerterme η und ν sind voneinander unabhängig und normalverteilt um den Erwartungswert 0.
2
2
)(
0)(
)(
)(
sVar
E
seVar
meE
![Page 12: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/12.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
12
Modell nach Huber –Fehlermodell von R&D
Konsequenzen:
Quadratische Abhängigkeit der Varianz zum Erwartungswert
222)(
)(
ssYVar
mYE
32
21 )()()(
)(
ccucuvvYVar
uYE
kkkk
kk
![Page 13: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/13.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
13
Modell nach Huber –Fehlermodell von R&D
![Page 14: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/14.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
14
Modell nach Huber –Transformation
Delta-Methode = Taylor-Approximation von um
)( kYh)( kuh
y
duuvyh )(/1)(
![Page 15: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/15.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
15
Modell nach Huber –Vorteile der Transformation
Keine Singularität bei 0
Linearer Verlauf im Bereich der niedrigen Intensitäten
)arcsinh()( kiiikii ybayh
![Page 16: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/16.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
16
Modell nach Huber –Vorteile der Transformation
Maß für die unterschiedliche Expression
nkyhyhh kjjkiiijk ,..,1für )()(;
![Page 17: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/17.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
17
Modell nach Huber –Parameterabschätzung
)arcsinh()( kiiikii ybayh
Die Parameter müssen aus den Daten geschätzt werden
Methode: Maximum Likelihood Schätzer + LTS(Least Trimmed Sum of Squares)
Regression
![Page 18: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/18.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
18
Modell nach Huber –Parameterabschätzung
Modell nach der Transformation:
²)(0)(
für )(
ki
ki
kikkii
VarE
KkYh
K die Menge aller Gene ist, die gleichen Erwartungswertüber alle samples i aufweisen
k
![Page 19: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/19.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
19
Modell nach Huber –Parameterabschätzung
Die Wahrscheinlichkeitsfunktion soll maximiert werden:
Kk
d
ikkii
d
ikiik
kiiKk
d
i
kkii
yhdK
c
yhd
yhc
yh
1
22
1
1
)ˆ)((||
1ˆ
)(1ˆ
)('))((
![Page 20: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/20.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
20
Modell nach Huber –Parameterabschätzung
Logarithmieren der ML-Funktion und einsetzen von und führt zu:
k 2c
Kk
d
ikii
Kk
d
ikkii
dd
yhyhdK
babapll
11
2
11
))(log())ˆ)((log(2
),,..,,(
![Page 21: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/21.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
21
Modell nach Huber –Parameterabschätzung
Bestimmen der Menge K mit Least Trimmed Sum of Squares (LTS):
1. Schätze die Initialparameter über alle n Gene2. Sortiere die Gene nach dem Erwartungswert und teile
in 10 Quantile auf3. Berechne für alle Gene eines Quantils den
quadratischen Fehler und sortiere danach4. Verwende für die nächste Iteration das erste qlts-Anteil
der Gene, für qlts = geschätzter Anteil der nicht unterschiedlich exprimierten Gene.
![Page 22: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/22.jpg)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
22
Ergebnisse
![Page 23: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr](https://reader035.vdokument.com/reader035/viewer/2022062818/570491c51a28ab14218daa62/html5/thumbnails/23.jpg)
Ewgenij Proschak
The End
Yusuf Tanrikulu