spree sose 2011 automatisches clustering und automatische klassifikation quelle:
TRANSCRIPT
![Page 1: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:](https://reader035.vdokument.com/reader035/viewer/2022062622/55204d6749795902118bce91/html5/thumbnails/1.jpg)
Spree SoSe 2011
Automatisches Clustering und automatische Automatisches Clustering und automatische KlassifikationKlassifikation
Quelle: http://people.revoledu.com/kardi/tutorial/kMean/Image/kMeanClustering.jpg
http://www.ecm.irislink.com/Documents/Image/images/Illustrations/classeur.jpg
![Page 2: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:](https://reader035.vdokument.com/reader035/viewer/2022062622/55204d6749795902118bce91/html5/thumbnails/2.jpg)
Ausgangssituationausgangssituation
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Folgende 4 Dokumente sollen geclustert werden:
D1 Fische in Olivenöl anbraten und mit Wasser ablöschen
D2 Fische braten und mit Wasser ablöschen
D3 den Fischen nur bei abgestellter Pumpe Fischfutter in das Wasser des Aquariums geben
D4 Pumpe abstellen, bevor Sie den Fischen das Fischfutter geben
Wie würden Sie diese 4 Dokumente in 2 Cluster aufteilen?
![Page 3: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:](https://reader035.vdokument.com/reader035/viewer/2022062622/55204d6749795902118bce91/html5/thumbnails/3.jpg)
Clusteringindexvektor
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Festlegung der Indexterme, die Dokument beschreiben
Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser
D1: 1 1 1 0 0 1
D2: 1 1 0 0 0 1
D3: 1 0 0 1 1 1
D4: 1 0 0 1 1 1
![Page 4: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:](https://reader035.vdokument.com/reader035/viewer/2022062622/55204d6749795902118bce91/html5/thumbnails/4.jpg)
Paarweise Multiplikation der Vektoren (verkürzt)indexvektor
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Der Ähnlichkeitsabgleich durch paarweises Multiplizieren aller Dokumente miteinander ergibt zwei Cluster
Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser
D1: 1 1 1 0 0 1
D2: 1 1 0 0 0 1
D3: 1 0 0 1 1 1
D4: 1 0 0 1 1 1
Cluster 1 (benenne ichIntellektuell Kochen)
Cluster 2 (benenne ich intellektuell Aquarium)
![Page 5: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:](https://reader035.vdokument.com/reader035/viewer/2022062622/55204d6749795902118bce91/html5/thumbnails/5.jpg)
Clusterzentroid berechenenindexvektor
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Für die Cluster 1 und 2 lässt sich jetzt der Clusterzentroid (Mittelwert) berechnen
D1: 1 1 1 0 0 1
D2: 1 1 0 0 0 1
D3: 1 0 0 1 1 1
D4: 1 0 0 1 1 1
ZentroidvektorCluster 1: Kochen
Zentroidvektor
Cluster 2 Aquarium
1 1 0 0 0 1
1 0 0 1 1 1
![Page 6: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:](https://reader035.vdokument.com/reader035/viewer/2022062622/55204d6749795902118bce91/html5/thumbnails/6.jpg)
Neues Dokument mit den Zentroidvektoren vergleichen
indexvektor
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Welchem Cluster wird das neue Dokument D5 zugeordnet?
Zentroidvektor Kochen
Zentroidvektor Aquarium
1 1 0 0 0 1
1 0 0 1 1 1
D5 „Fisch mit Olivenöl in Wasser braten“
Fische(n) Braten Olivenöl Fischfutter Pumpe WasserZuordnungVektoren
1 1 1 0 0 1
Paarweise Mulitplikation mit den Zentroidvektoren der vorhandenen Cluster
1 1 0 0 0 1 = 3:6 =0,5
1 0 0 0 0 1 = 2:6 = 0,33
![Page 7: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:](https://reader035.vdokument.com/reader035/viewer/2022062622/55204d6749795902118bce91/html5/thumbnails/7.jpg)
Neues Dokument wird Cluster Kochen zugeordnetindexvektor
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Welchem Cluster wird das neue Dokument D5 zugeordnet?
1 1 0 0 0 1
D5 „Fisch mit Olivenöl in Wasser braten“
Fische(n) Braten Olivenöl Fischfutter Pumpe WasserZuordnungVektoren
1 1 1 0 0 1
1 1 0 0 0 1 = 3:6 = 0,5
![Page 8: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:](https://reader035.vdokument.com/reader035/viewer/2022062622/55204d6749795902118bce91/html5/thumbnails/8.jpg)
Automatische Zuordnung zu einer KlassifikationAutomatische klassifikation
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
1. Merkmale eine Klassifikation werden festgelegt
• Merkmale können einer Klasse zugeordnete Wörter sein
• In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit durch die Terme Reisen, Spiel, Hobby, Wohnen definiert
1. Das Vorkommen bestimmter Terme im Dokument wird mit dem Vorkommen dieser Terme in der Merkmals-Beschreibung der Klassen verglichen.
1. Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren (bestimmt über die Deskriptoren) und den Vektoren der Klassen (bestimmt über die Klassenbeschreibungen) geschehen.
![Page 9: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:](https://reader035.vdokument.com/reader035/viewer/2022062622/55204d6749795902118bce91/html5/thumbnails/9.jpg)
Automatische Zuordnung zu einer Klassifikationbeispiel
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Mail a
Sehr geehrte Frau Spree,
Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach.
Mail b
Hi,
Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Order now
Wie kann ein Programm automatisch erkennen, ob es sich bei diesen beiden Mails um Spam handelt?
![Page 10: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:](https://reader035.vdokument.com/reader035/viewer/2022062622/55204d6749795902118bce91/html5/thumbnails/10.jpg)
Automatische Zuordnung zu einer Klassifikationausgangssituation
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
04/11/23
Klasse/
Attribut
SPAM Kein Spam
Viagra Sehr geehrte
Sex Hochachtungsvoll
selling wissenschaftlich
buy Hausarbeit
pills Referat
Dok a
Sehr geehrte Frau Spree,
Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach.
Dok b
Hi,
Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again.
Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage
Merkmale der Klassen
![Page 11: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:](https://reader035.vdokument.com/reader035/viewer/2022062622/55204d6749795902118bce91/html5/thumbnails/11.jpg)
Automatische Zuordnung zu einer Klassifikationausgangssituation
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
04/11/23
SPAM a b Kein SPAM a b
Viagra 1 1 Sehr geehrte 1 0
sex 0 1 Hochachtungsvoll 0 0
selling 0 1 wissenschaftliche 1 0
buy 0 0 Hausarbeit 1 0
pills 0 1 Referat 1 0
Skalarprodukt: Klasse/Dok
1/5 4/5 4/5 0
Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes
Dok a
Sehr geehrte Frau Spree,
Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach.
Dok b
Hi,Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again.
![Page 12: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:](https://reader035.vdokument.com/reader035/viewer/2022062622/55204d6749795902118bce91/html5/thumbnails/12.jpg)
Automatische Zuordnung zu einer Klassifikationausgangssituation
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
SPAM a b Kein SPAM a b
Viagra 1 1 Sehr geehrte 1 0
sex 0 1 Hochachtungsvoll 0 0
selling 0 1 wissenschaftliche 1 0
buy 0 0 Hausarbeit 1 0
pills 0 1 Referat 1 0
Skalarprodukt: Klasse/Dok
1/5 4/5 4/5 0
Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes
Mail a ist :
= 20% Spam
= 80% kein Spam
Einordnung kein Spam
Mail b:
= 0% kein Spam
= 80% Spam
Einordnung Spam