fujitsu world tour 2016 human centric innovation in action · schnelle orientierung in genomdaten...
TRANSCRIPT
0 Copyright 2016 FUJITSU
Human Centric Innovationin Action
FujitsuWorld Tour 2016Schnelle Orientierung in Genomdaten –Big Data Analyse in der Krebsforschung
Dr. Fritz Schinkel
Manuel Thalhofer
1 Copyright 2016 FUJITSU
Genomanalyse in der Krebstherapie
2 Copyright 2016 FUJITSU
Schlaglichter auf Life Science / Genetik
Sequenzierung des Menschlichen Genoms: (1990-2001/2/3)
Funktionelles Verständnis des Menschlichen Genoms: ENCODE
Varianten innerhalb der Bevölkerung:1000-Genome-Project
Genome 10k Projekt (10.000 Arten) Kommerzielle Ansätze zur Diagnostik:
z.B. 23andMe
3 Copyright 2016 FUJITSU
600 TB/day(blog on code.facebook.com, April 10th, 2014)
12 TB/day(Cloud Data Management; Liang Zhao et al., 2014)
10 TB/daySequencing@DKFZ Stephens ZD, Lee SY, Faghri F, et al. (2015) Big Data: Astronomical or Genomical?. PLoS Biol 13(7): e1002195. Stephens ZD, Lee SY, Faghri F, et al. (2015) Big Data: Astronomical or Genomical?. PLoS Biol 13(7): e1002195.
Entwicklung der Genomsequenzierung
Aktuelle Kapazität:>35 Pbp* p.a. W
eltw
eite
Seq
uenz
ierk
apaz
itätp
.a.
Sequ
enzi
erte
hum
ane
Geno
me
Bisheriger ZuwachsVerdopplung alle 7 Monate (historisch)Verdopplung alle 12 Monate (Illumina)Verdopplung alle 18 Monate (Moore’s Law)
4 Copyright 2016 FUJITSU
Genome-basierte Krebstherapie
Patient
Therapie-Entscheidung
Blut
Tumor
“Keimbahn” DNS
Tumor DNS
Spezifische Vulnerabilitäten des Tumors
Bioinformatorische
Analysis
Whole Genome Sequencing
TumorspezifischeMutationen
Report
5 Copyright 2016 FUJITSU
Kohorten-weite Analysen
Aktuelle Strategie: Datenreduktion
*) BAM = Komprimierte SAM Datei, SAM = Sequence Alignment Map
Abweichungen zumReferenzgenom 5 GB / Patient
Tumorspezifische Mutationen 50 MB / Patient
Alinierte Rohdaten(BAM* files) 200 GB / Patient
6 Copyright 2016 FUJITSU
CCND3PIM1MYCTP53BCL2MLL2
CREBBP
Problem durch Datenreduktion:Was bedeutet “keine Mutation gefunden”?
“Keine Mutation gefunden”
Keine Mutation vorhanden
Mutation nicht detektierbar
Wegen Datenreduktion nicht unterscheidbar
7 Copyright 2016 FUJITSU
Projektziele
Rohdaten: 104 Proben
ohne Datenreduktion
Performance: Analysevon ~900.000 Positionen
Gesucht: Krebsgene ohne ausreichendeAbdeckung zur verlässlichen
Identifikation von Mutationen
8 Copyright 2016 FUJITSU
Neue Wege mit Big Data
9 Copyright 2016 FUJITSU
Erwartungen an Big Data Lösungen
Gigantische Datenmengen–bezahlbare Rechner und Speicher
Aktuelle Daten mit Halbwertzeit–Echtzeitverarbeitung
Variable Datenquellen–flexible Analyse
Veränderliches Umfeld–agiles Modellieren und Lernen
10 Copyright 2016 FUJITSU
Storage
Plattform für Genomdaten: HPC vs. Hadoop Cluster
BAM2 B2,1 B2,2 B2,3 B2,n...
BAM1 B1,1 B1,2 B1,3 B1,n...
BAM3 B3,1 B3,2 B3,3 B3,n...
BAMm Bm,1 Bm,2 Bm,3 Bm,n...
HPC - Cluster Hadoop - Cluster
BAM2
BAM1
BAM3
BAMm
Bi,j
Bi,j
Bi,j
Bi,j
...
...
...
B2,1
B3,1
Bm,1
B1,1
B2,2 B2,3 B2,n
B1,2 B1,3 B1,n
B3,2 B3,3 B3,n
Bm,2 Bm,3 Bm,n...
11 Copyright 2016 FUJITSU
Big Data Wertschöpfung: Daten im Vordergrund
Sammlung
Referenzgenom
DiagnoseDNA Proben Analyse
12 Copyright 2016 FUJITSU
Datenübernahme
Kohorten Table(HDFS)
BAM 104 DNS Proben
140.000.000.000 Records,14*1012 Basen45 TB Daten (18TB komprimiert)
13 Copyright 2016 FUJITSU
Erster Blick auf die Daten / Histogramme
14 Copyright 2016 FUJITSU
Schritt für Schritt: Analytische Pipeline in Spreadsheets
15 Copyright 2016 FUJITSU
Businessgrafik: Lücken im Überblick
Zeile: Chromosom
Spalte: Patient
Zelle: Abdeckung• Vorhanden in beiden Proben• Fehlt in der Kontrolle• Fehlt im Tumor• Fehlt in beiden Proben
Geringe Lücken verteilt über die Chromosomen.
16 Copyright 2016 FUJITSU
Neue Erkenntnisse
17 Copyright 2016 FUJITSU
Hadoop: Ideale Plattform für Genomdaten
Große Patientenkohorten (Forschung) Kostengünstige Server / Storage Konsolidierung
Ohne Datentransport kürzere Gesamtlaufzeit
Beschleunigung von Analysen auf Rohdaten (~30%)
Skalierung: Kein Flaschenhals durch Datentransport
Analyse einzelner Patientendaten (Klinik) Parallele Analyse einzelner Patientendaten
Um Faktoren schnellere Voll- und Detailanalysen (~4 x)
Kosten
Durchsatz
18 Copyright 2016 FUJITSU
Blinde Flecken auf Krebsgenen
Fehlstellenanteil (0-1) Durchschnitt für einzelne Exone (Genabschnitte) Kohorte von 52 Patienten
Top 100 von 2208 untersuchten Exonen
19 Copyright 2016 FUJITSU
Abdeckung der Krebsgene in den RohdatenCh
rom
osom
en
Exon-Nummer (Genabschnitt)
Durchschnittlicher Anteil über Kohorte:• Fehlt in Kontrolle und Tumor• Fehlt in Kontrolle oder Tumor• Vorhanden in Kontrolle und Tumor
Starke Lückenhäufung
20 Copyright 2016 FUJITSU
Blind Spots in Krebsgenen
21 Copyright 2016 FUJITSU
Ergebnisse
Schnelle Umsetzung der Fragestellung:Spreadsheets für Fachanwender ohne Programmierkenntnisse
Schnelle Verarbeitung:Analyse der Rohdaten im Hadoop-Cluster parallel ohne Skalierungsprobleme
Schnelle Einsichten:Mehrere Regionen in Krebsgenen ohne ausreichende Sequenzierdaten zur Identifikation von Mutationen wurden identifiziert
22 Copyright 2016 FUJITSU
Der Weg: Fujitsu Smart Data ServicesW
ert
Verstehen
Aktion
Daten
Information
Wissen
Quellen
Import
TransformationBereinigung
Datenbank, Datei, Sensor, Social, Intenet
Automatisierter Datenimport, Lifecycle Berechtigungen, Fujitsu Data Content
Bereinigte Daten, korrelierbare Daten,VisualisierungenEinfaches Reporting, Fujitsu Info Content
Automatisierte AnalysenInfografikenReportsExportierbare Regeln / SteuerungsbefehleVerteilung
EntscheidungshilfenAutomatisierte AbläufeEvent-ProcessingProzessoptimierung Performance-management
Analyse
Erkenntnis
Analytics Data science
Big Data Assessment Workshop
Big Data Strategische Beratung
Big Data Analytics ServicesIntegration Services
Data architecture System architectureBeratung
Service
23 Copyright 2016 FUJITSU
Smart Data Services und PRIMEFLEX® for Hadoop
Software-Stack Hadoop Distribution mit Support Streaming und In-memory Visuelles Analytisches Framework
Plattform-Optionen On-Premise: Entry- und Rack-Optionen Off-Premise: Cloud Angebot Integrated Solution oder Referenzarchitektur
Smart Data Service und Consulting Sizing und Integrations-Services Daten- und System-Architektur Beratung Analytics und Datascience Services
Entry Rack Cloud
Big Data Management
Analytics
Analytic ServicesIntegration und Sizing Service
Datascience Services
Smar
t Dat
a Se
rvic
esSo
ftwar
eIn
fras
truc
ture
24 Copyright 2016 FUJITSU