data analytics für die revisionstätigkeit · 2 imh outsourcing, bankgeschäfte & datenschutz...
Post on 07-Jun-2020
1 Views
Preview:
TRANSCRIPT
2
IMH Outsourcing, Bankgeschäfte & Datenschutz 11. bis 12.07.2017
Data Analytics für die Revisionstätigkeit Trends & Innovation
3
IT Ziviltechniker & SachverständigerDDipl.-Ing. Mag.rer.soc.oec. Gernot Schmied
in Zusammenarbeit mit
buero@gernotschmied.atwww.gernotschmied.at
4
Use Cases
Data Analytics selbst anwenden oder Verwendung prüfen? (Revisionstätigkeit, Outsourcing, private/public/hybride Cloud)
Ausgangssituation Revisionsarbeit: Dateien, DB/SAP Exports, Disk Images, Logging-Auszüge, email-Postfächer, Scans ….
Business Analytics (Kennzahlen, Opportunities, Trends …)
Operations/Security Analytics (Betriebsführung, Instabilitäten, Auffälligkeiten)
Forensik/e-Discovery (Fraud Analysis, „Seilschaften“, Unvereinbarkeiten, Schlüsseldokumente …)
Anonymisierungs-Schritt: Welchem Zweck dienen der Anonymisierungsschritt und die anonymisierten Daten? Nicht-Rückführbarkeit sichergestellt?
Analyse-Zweck bzw. Erwartungshaltung:
• Wahrnehmung von Muster, Auffälligkeiten, Abweichungen, Anomalien, Fehlverhalten
• Predictive Analysis, Forecasts, Trend Analysis (Extrapolation in die Zukunft)
• Kennzahlen - Optimierung & Effizienzsteigerung
5
Einleitende Gedanken
Ereignisdaten (Logging, SIEM), Inhaltsdaten (DB, Content), Prozessdaten (Process Engine)
Process Mining, Data/Content Mining, Log Mining (Audit Subsystems, Logging, SIEM)
Business Intelligence vs. Data Intelligence vs. Auditing Intelligence
DLP-Lingo: „data in use, at rest & in transit“
Suchen vs. Entdecken (Discovery, Exploration) vs. Zufallsfunde „Bedeutsames/Relevantes, konkrete Suchvorstellung vs. unspezifische Discovery. Kernproblem: „Was ist typisch, atypisch oder auffällig?“
Ausgangslage: Der Kampf um Datenqualität und gegen Entropie, es gilt nach wie vor: „garbage in, garbage out“
Relevanz & Gewichtung der Ergebnisse (Scoring/Rating/Confidence). Was ist wichtig bzw. bedeutsam? Wie kann ich sicher sein, dass das Ergebnis repräsentativ und umfassen ist?
„Die Masse an Auswahl garantiert nicht das Finden.“
Damaris Wieser, (*1977), deutsche Lyrikerin und Dichterin
6
Einführungsargumentation „Data Analytics“
Einführung komplex, nicht billig, ressourcenintensiv und zeitaufwändig, Lernkurve, eigenes Berufsbild „Data Analyst/Scientist“ „digital Transformation“
Aufbauorganisation, Ablauforganisation, Service Organisation, Knowledge Organisation
keine turn-key Solutions, außer aus der Cloud (rapid deployment)
Mehrfachnutzen für das Unternehmen:
• Für Betriebsführung
• Für Informationssicherheit
• Für Wissensmanagement
• Für Geschäftsführung/strategische Planung (Vorhersagemodelle)
• Für Service Center, Vertrieb & Marketing (CRM)
• Für Stabsstellen, Interne Revision (Auditing Intelligence)
• Für Prävention:„anti-Fraud Management System (AFMS)“, Symptome für Compliance/Policy Violation, Geldwäschebekämpfung, Börsenaufsicht (insider trading), Versicherungsbetrug, Intrusion Detection („zero day exploits“), data loss detection …
7
Geburtshelfer von Data Analytics/Intelligence
Mustererkennung (Malware, Spam, Heuristik, DLP, IPS)
Suchmaschinen (Google, Semantic Web)
Social Networks & personalisierte e-Commerce Werbung predictive Behavior & Interests
Trendanalysen und Vorhersagemodelle (Versicherungen, Finanz, Klimamodelle)
Statistik, Korrelationen, Visualisierung
Datenbanken (not just SQL)
Cloud Technologien (Cloud-Dateisysteme,Containerization & Virtualisierung)
Data Mining Vorläufer
Go und Schach durch AI-System
Web 2.0 und Browser Frontends
8
Technologische Entwicklungen
Neurowissenschaften, Cognitive Sciences, natural Language Processing, Neural Networks, Fuzzy Logic, Machine Learning und Artificial Intelligence (AI), Spracherkennung
Ergebnis: moderne Algorithmen, lernende/adaptive Systemen „(un)supervised learning“
Exporte und Importe waren gestern – Datenströme, push, pull & ContinuousProcessing & realtime Dashboards
Von Textsuche zu Natural Language/Fuzzy Search, von e-Discovery zu Big Data Analysis, von Statistik zu Artificial Intelligence
Self-learning Systems vs. Ausgangsparametrisierung – AI-Systeme können aus Verhalten, Eingaben, Präferenzen und Korrekturen ableiten, wofür ich mich interessiere (siehe personalisierte Werbung Google Facebook, Amazon).
Data Analytics verändert drastisch unseren Zugang zu Breite und Tiefe von (Sonder)Untersuchungen und somit die Herangehensweise an Stichprobennahme.
Visualisierung über Cockpits & Dashboards, Timelines, Social Network Connections
9
Big Data Analytical Approaches
“Fischen im „Datensee” und im “Datenstrom”
Spezifische Software (SIEM, Tableau, Nuix, SAS) und generische Big Data Ansätze (elastic search, Mapr, Hadoop)
Cloud Ecosystems & Architekturen (Container, Self-Provisioning, Virtualisierung)
nutzt massive Rechenleistung, meist aus Cloud
Batch & Stream Processing (continuous data flows)
Verbindung mit sehr große Datenbeständen - meist noSQL, (un/semi)strukturiert
mittels Cloud Computing Technologies/Verbindungen (remote/local)
10
„Futter“ für Data Intelligence Engines
Datenexporte in unterschiedlichsten Formaten
Protokolldaten (Logging)
Metadaten („Daten über Daten“)
Backups und Archivdaten
Direkte Verbindung zu Datenquellen via Schnittstellen/APIs („Konnektoren“):
• Cloud
• Datenbanken
• Enterprise WIKIs
• Online Services
• Prozessmodelle
forensische Images, Memory Dumps, Triage Collections
Sniffer Traces, NetFlow Data (Network-Flow Data)
IT Security Data (SIEM, IPS, DLP)
11
Cloud Analytics EcoSystems
http://azure.microsoft.com/en-us/services/search/Microsoft Azure BI, Azure Big Data Analytics
https://powerbi.microsoft.com/en-us/Microsoft Power BI
http://aws.amazon.com/de/cloudsearch/Amazon Web Services
https://cloud.google.com/bigquery/Google BigQuery
http://www.wolframalpha.comWolfram Alpha
https://www.mapr.comMapr Converged Data Platform
IBM Analyticshttps://www.ibm.com/analytics/us/en/
12
Konnektoren zu Datenquellen
13
Dashboards
14
Excel 2016 als Powertool & Analytics Frontend
Vielseitige Statistikfunktionen, Analyse und Visualisierung
Excel BI Features:
• Power View, Query (Data Ribbon), Pivot (eigenes Ribbon), Map
• Power BI Desktop
• Power BI Cloud App
• Power BI Azure Elements
• BI SQL-Server Data Mining Add-in
Export & Import Überlegungen (.csv, .tsv)
Andocken an Datenschnittstellen und Data Streams
Rückspeichern in Datenbanken, Publishing auf Power BI, Azure und Sharepoint
Caveat: Spreadsheets skalieren nur sehr bedingt
15
Microsoft Power BI & Cortana Ecosystem
Für jeden Einsatzzweck etwas Skalierbares dabei:
• Personal BI: Excel + Erweiterungen
• Team BI (Interne Revision, Stabsstellen, Operations/NOC):Excel + Power BI Desktop/Power BI Cloud App (Office 365)
• Enterprise: Sharepoint, SQL-Server BI Edition/R-Server for Hadoop, SQL-Server Cubes/Data-Warehouse, Cortana Intelligence Suite, Azure Cloud
• Power Pivot als „kleiner Bruder“ von Tabular Models in SQL-Server
Publishing von Ergebnissen/Mappen/Dashboards in
• Power BI Cloud
• Azure Cloud
• Sharepoint
16
Humoristischer Wrapup
„Big Data“ = auch nur Daten; vielleicht ein größerer Haufen davon
„Cloud Data“ = auch nur Daten; zu geizig, teuren Storage selbst zu kaufen
„Data Leakage“ = Daten-Inkontinenz, irgendwas ist undicht.
„Data Harvesting“ = unreflektierte Sammelwut mit viel Aufwand und teuren Tools, „für irgendwas wird es irgendwann schon gut sein“
„Data Analytics“ = Wienerisch „Datenstierln“, systematische Suche unter Zuhilfenahme von viel Kaffee, TV-Wahrsagern und dem Orakel von Delphi
„Data Mining“ = Trennen von Edelsteinen vom tauben Gestein; Helm, Stirnlampe und Kanarienvogel nicht vergessen! „Big Data Mining“ = das geht nur noch im Tagebau!
„Datenschutz“ = Schutz hilfloser Daten vor schlecht programmierten Anwendungen
„e-Discovery“ = im rechtlichen Sinne die andere Seite mit Daten zumüllen, damit diese nichts findet, bis die Sache verjährt ist; Vorstufe „Anreicherung mit Datenmüll“
„Statistics“ = die Kunst, Bedeutung aus Daten abzuleiten, wo es keine gibt; Spurious Correlations http://www.tylervigen.com/spurious-correlations
17
Herzlichen Dank für Ihr Interesse
„Der Unterschied zwischen Theorie und Praxis ist in der Praxis weit höher als in der Theorie.”
Ernst Ferstl
top related