Download - Einführung in Web Science
![Page 1: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/1.jpg)
Web IntelligenceResearch and Engineering Corsin Capol
Einführung in Web Science
Die Wissenschaft des Web und Social Media Metriken
![Page 2: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/2.jpg)
Web Science als interdisziplinäre Wissenschaft
Quelle Bild: http://blogs.exeter.ac.uk/wip/blog/2010/05/28/the-emerging-web-science/
![Page 3: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/3.jpg)
AgendaThema
Vorstellung
ÜberblicküberdieTechnologien derWebScience
Pause
Machine Learning
Pause
Workshop Clustering
![Page 4: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/4.jpg)
Vorstellung
«We create value from data by providing innovative, data driven software»
Software Development | Media Monitoring | Information Retrieval
http://muncca.com
![Page 5: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/5.jpg)
Lernziele• Begriff Web Science positionieren• Ziele und Methoden zum Erheben von Social
Media Metriken erläutern• Beschreiben inwiefern das Web und das Internet
als Netzwerk aufgefasst werden können• Grundzüge des Machine Learnings• Skizzieren, wozu Clustering Techniken dienen und
erläutern dieser
![Page 6: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/6.jpg)
ÜBERBLICKDie Technologien der Web Science
![Page 7: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/7.jpg)
Machine Learning• Ziele
– Durch algorithmische Analyse vorhandener Daten Voraussagen über andere Daten zu treffen
• Daten Analysieren• Zusammenhänge finden/aufzeigen• Daten Klassifizieren
• Einsatzgebiete– Recommender Systems– Information Retrieval– Big Data Analysis
![Page 8: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/8.jpg)
Natural Language Processing• Ziele
– Präzisierung der Ergebnisse durch natürliche Sprache
– Computergestützte Verarbeitung natürlicher Sprachen
• Einsatzgebiete– Sentiment Analysis– Maschinelle Übersetzung– Information Retrieval
![Page 9: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/9.jpg)
Natural Language Processing
![Page 10: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/10.jpg)
Natural Language Processing
![Page 11: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/11.jpg)
Natural Language Processing
PRP VBP NN NN NNI like sentiment analysis @munccagmbh
Part-of-Speech-Tagging (Penn Treebank Tagset)• VBP: Verb, non-3rd person singular present• PRP: Personal Pronoun• NN: Noun, singular or mass
![Page 12: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/12.jpg)
Information Retrieval• Begriff erstmals gebraucht von Calvin N. Mooers (1950)
– The requirements of information retrieval, of finding informationwhose location or very existence is a priori unknown. . . .
• Ziele– Information
• Repräsentieren• Speichern• Organisieren• (Wieder-) auffinden
• Einsatzgebiete– Enterprise Search– Digital Library– Web Search
Garfield, E. (1997). A tribute to Calvin N. Mooers, a pioneer of informationretrieval. The Scientist, 11(6), 9.
![Page 13: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/13.jpg)
Information Retrieval
![Page 14: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/14.jpg)
Netzwerkanalyse• Ziele
– Analyse von Netzwerktopologien– Klassifizierung von Netzwerken– Bestimmung von Eigenschaften ganzer Netzwerke– Bestimmung von Eigenschaften einzelner Knoten
im Netzwerk• Einsatzgebiete
– Soziale Netze– World Wide Web– Stromnetz– Wassernetz
![Page 15: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/15.jpg)
Netzwerkanalyse
Netzwerkanalyse der Programmiersprache Java (Klassen) mit Gephi
![Page 16: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/16.jpg)
Semantic Web• “Most of today’s web is suitable for human consumption”• Ziele
– Web um Wissen erweitern, dass für Maschinen semantisch interpretierbar ist
• Einsatzgebiete– Personal Agents– Information Retrieval– Wissensmanagement– B2B / B2C
Semiotisches Dreieck: Charles MorrisCalegari, S., & Sanchez, E. (2008). Object-fuzzy concept network: An enrichment of ontologies in semantic information retrieval. Journal of the American Society for Information Science andTechnology.
Zeichen
BenutzerSituation
Syntax
Pragmatik
SemantikBedeutung
![Page 17: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/17.jpg)
Semantic Web
http://dbpedia.org/ontology/university
![Page 18: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/18.jpg)
MACHINE LEARNING
![Page 19: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/19.jpg)
Abgrenzung• Anwendung von Methoden des maschinellen
Lernens auf grössere Datenbanken nennt man Data Mining
• Nutzt Methoden der Statistik• Prädiktives Modell
– Zukünftige Vorhersagen zu treffen• Deskriptives Modell
– Wissen aufgrund der Daten zu erlangen
![Page 20: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/20.jpg)
Distanz- und Ähnlichkeitsmasse
• Distanzmasse– Unähnlichkeit zwischen zwei Vektoren– Bei grösserer Distanz sind sich die Vektoren weniger
ähnlich– Beispiele
• Euklidische Distanz• Minkowski Distanz• Canberra Distanz
• Ähnlichkeitsmasse– Ähnlichkeit zwischen zwei Vektoren– Wert ist bei grösserer Übereinstimmung höher
• Cosinus Similarity• Pearson Korrelationskoeffizient• Jaccard Koeffizient
![Page 21: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/21.jpg)
Euklidische Distanz• Abstand zwischen zwei Vektoren im
mehrdimensionalen Raum• Bei der quadrierten euklidischen Distanz werden
grosse Abstände zwischen den Vektoren stärker gewichtet als kleine Abstände
d(x, y) = (xi − yi )2
i=1
n
∑
![Page 22: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/22.jpg)
Jaccard-Koeffizient• Ähnlichkeitsmass für binäre Attribute• Mengenbezogen• Entwickelt von Schweizer Botaniker Paul Jaccard• Siehe auch Jaccard-Metrik• Wert zwischen 0 und 1
– Je näher bei 1, desto ähnlicher sind sich die Mengen
J(A,B) = | A∩B || A∪B |
![Page 23: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/23.jpg)
Lernmethoden• Supervised Learning• Unsupervised Learning
![Page 24: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/24.jpg)
Supervised Learning• Überwachtes Lernen• Die Eingabedaten und die dazugehörigen
Ausgabedaten, werden dazu verwendet um daraus die Abbildung der Eingabe auf die Ausgabe zu erlernen
• Trainingsdaten sind notwendig• Unterscheidung zwischen
– Klassifikationsproblem• Eingabedaten analysieren und bestehender Klasse zuordnen• Mustererkennung
– Regressionsproblem• Vorhersage quantitative Eigenschaften
![Page 25: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/25.jpg)
Beispiele• K-Nearest-Neighbors• Naïve Bayes• Support Vector Machines• Decision Trees
![Page 26: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/26.jpg)
Naïve Bayes• Klassifizierte Daten• Zuordnung neuer Objekte zu einer Klasse,
aufgrund Wahrscheinlichkeit• Naiv
– Mögliche Abhängigkeiten zwischen Eingabewerten, werden ignoriert und multivariantes Problem wird auf eine Gruppe von univarianten Problemen reduziert
• Effektive Methode zur Klassifizierung– Trainieren– Klassifizierung– Nicht sensitiv für irrelevante Features
![Page 27: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/27.jpg)
Naïve BayesBeispiel
• Ausgangslage– 40 grüne Punkte
• P(X=grün) = 40/60 – 20 rote Punkte
• P(x=rot) = 20/60
• Vorgehen– Zeichnen einen Kreis um X und zähle die Punkte– Wahrscheinlichkeit berechnen
• P(X=grün) = 1/40 = 0.025• P(X=rot) = 3/20 = 0.15
– Wahrscheinlichkeiten multiplizieren• P(X=grün) = 4/6 * 1/40 = 1/60 = 0.017• P(X=rot) = 2/6 * 3/20 = 1/20 = 0.05
Quelle: http://www.statsoft.com/Textbook/Naive-Bayes-Classifier
![Page 28: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/28.jpg)
Unsupervised Learning
• Unüberwachtes Lernen• Durch algorithmische Analyse der
Eingabedaten wird versucht, die Struktur in diesen Daten zu erkennen
• Nur die Eingabedaten sind bekannt
![Page 29: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/29.jpg)
Beispiele• K-Means• DBSCAN• Singular Value Decomposition
![Page 30: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/30.jpg)
Clustering• Clusteranalyseverfahren
– Unvollständig• Ergebnis lediglich eine räumliche Darstellung in einem
niedrigdimensionalen Raum• Zuordnung der Elemente (Klassifikationsobjekte) wird nicht
vorgenommen• Geometrische Methoden• Beispiel: Multiple Korrespondenzanalyse, Nichtmetrische
Mehrdimensionale Skalierung– Deterministisch
• Cluster werden berechnet und Elemente deterministisch zugeordnet• Disjunkt (nur einem Cluster), überlappend (mehreren Clustern
zugewiesen)• Beispiel für disjunktes deterministisches Verfahren ist K-Means
– Probabilistisch• Grundlage ist Wahrscheinlichkeit, dass Element zu einem Cluster
gehört
![Page 31: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/31.jpg)
Hierarchisches Clustering
• Deterministisches Verfahren• Baumstruktur entsteht• Varianten
– Bottom-Up• Es wird mit allen Elementen gestartet und diese werden
sukzessiv zu einem Cluster verschmolzen
– Top-Down• Mit einem grossen Cluster starten und rekursiv in kleine
Cluster aufteilen
![Page 32: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/32.jpg)
Hierarchisches Clustering• Vorgehen bei Bottom-up Algorithmus
1. Anfangs bildet jedes Element sein eigenes Clusterzentrum2. Zwei ähnlichsten Cluster suchen3. Clusterpaar verschmelzen
• Je nach Verfahren die Clusterzentren neu berechnen4. Wiederholen der Schritte
zwei und drei, bis alle Elemente zu einem Cluster gehören• Verfahren um die Clusterzentren zu berechnen
– Single Linkage• Cluster mit der geringsten Distanz werden verschmolzen
– Complete Linkage, Average Linkage, Median, Zentroid, Ward
![Page 33: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/33.jpg)
Hierarchisches ClusteringBeispiel
• Ausgangslage– Fünf Elemente im mehrdimensionalen Raum– Hierarchisches Clustering – Single Linkage Verfahren– Euklidische Distanz– Bottom-Up– Jedes Element bildet eigener Cluster
![Page 34: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/34.jpg)
Hierarchisches ClusteringBeispiel
• Dendrogramm• Hierarchische Zerlegung der Datenmenge in
kleinere Teilmengen• Baumstruktur• Wurzel repräsentiert Cluster mit
Gesamter Menge
![Page 35: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/35.jpg)
K-Means• Disjunktes deterministisches Verfahren• Clusterzentren werden konstruiert zur Bildung von Clustern• Anzahl Cluster muss im voraus bekannt sein• Gefundene Cluster hängen von initial bestimmten
Zentren ab. Mehrfach durchführen.• Vorgehen
1. k-Clusterzentren zufällig festlegen2. Jedes Element dem naheliegendsten Clusterzenter zuordnen
• Distanzmass3. Clusterzentren berechnen (mehrdimensionaler Mittelwert)4. Schritte zwei und drei wiederholen, bis es keine Änderungen
mehr gibt oder die festgelegte Iterationstiefe erreicht wurde
![Page 36: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/36.jpg)
K-MeansBeispiel
• Ausgangslage– Fünf Elemente und zwei zufällig platzierte Cluster
im mehrdimensionalen Raum– k-Means Clustering– Quadrierte Euklidische Distanz
![Page 37: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/37.jpg)
K-MeansBeispiel
• Neue Clusterzentren berechnet
• Zuordnung mittels Distanzfunktion– Zuordnung hat sich nicht geändert
• Beenden des Clusterings
![Page 38: Einführung in Web Science](https://reader034.vdokument.com/reader034/viewer/2022051301/58f113411a28abef308b456b/html5/thumbnails/38.jpg)
WORKSHOP CLUSTERING40 Minuten Workshop / 20 Minuten Präsentation