alles was-sie-ueber-suche-wissen-wollten
TRANSCRIPT
http://www.dkd.de
Sonntag, 12. Februar 12
d dkdevelopmentkommunikationdesign
Sonntag, 12. Februar 12
WillkommenTYPO3 Akademie 12
Olivier Dobberkau, Geschäftsführer dkd Member of the Expert Advisory Board TYPO3 Assoc.Twitter @[email protected]
Sonntag, 12. Februar 12
Alles was Sie über Suche wissen wollten, aber bisher nicht zu fragten wagten.
Sonntag, 12. Februar 12
Woody Allen
Inspiration zu diesem Talk:
Woody Allen Film: „Was Sie schon immer über Sex wissen wollten, aber bisher nicht zu fragen wagten“
Internet Movie Database:http://www.imdb.de/title/tt0068555/
Sonntag, 12. Februar 12
Agenda
Historie der Suche
Fachbegriffe
Das Bedürfnis „Suchen“
Wer sucht und wie sucht dieser?
Suchen als Handwerk
Suche in TYPO3 mit Apache Solr
Sonntag, 12. Februar 12
Historie
Ein kurzer Abriss über die Historie von Suchlösungen im Zeitalter der EDV.
Wirklich kurz, wirklich unvollständig und bestimmt nicht wissenschaftlich.
Sonntag, 12. Februar 12
Scratch your own itch, IBM.
Am Anfang stand der Mainframe
IBM entwickelt 1969 STAIRS (storage and information retrieval system)
Volltext Suche für Terminal Anwendungen
Performance: „far below anyone‘s expectations“
Erster großer Einsatz bei einem Verfahren des DOJ gegen IBM
Quelle: A history of online information services, 1963-1976 von Charles P. Bourne,Trudi Bellardo
Sonntag, 12. Februar 12
Internet years are dog years
Mit dem Internet verändert sich der Anspruch an eine Volltextsuche
Mit Lycos, Alltheweb (Fast) , Infoseek, Excite, AltaVista treten Suchseiten als Lösung für das Problem: „Wie !nde ich etwas im Internet?“ an
Ab 1995 wechseln sich Suchseiten in der Gunst der Internetnutzer regelmäßig ab
Yahoo fungiert als Verzeichnis von Webseiten
Sonntag, 12. Februar 12
And then came GOOGLE
Wer kennt das Erfolgsgeheimnis von Google nicht?
The Anatomy of a Large-Scale Hypertextual Web Search Engine
http://infolab.stanford.edu/~backrub/google.html
Visionäres Konzept
Viele der erwähnten Technologien sind heute Industrie-Standard und verändern immer noch die Informationstechnologie.
Lesen!
Sonntag, 12. Februar 12
Fachbegriffe
Keine Erkenntnis ohne Fachbegriffe.
Warnhinweis: Jargon-Gefahr!
Sonntag, 12. Februar 12
Alles rund ums Wort
Irformation Retrieval (IR)
Term versus Query
Index
Recall & Precision
Relevancy
Index, Inverted Index & Posting List
Recency & Authority
Sonntag, 12. Februar 12
Bedürfnis Suche
Welche Motive leiten uns bei der Suche?Wie suchen wir und was !nden wir dann?
Sonntag, 12. Februar 12
People are like Bears (only less fur)
Wie suchen wir?
Marcia Bates, 1989
THE DESIGN OF BROWSING AND BERRYPICKING TECHNIQUES FOR THE ONLINE SEARCH INTERFACE
http://pages.gseis.ucla.edu/faculty/bates/berrypicking.html
Jede Art von Suchverhalten hat dieses Muster
Sonntag, 12. Februar 12
Marcia J. Bates Berrypicking techniques for the online search interface (1989)
Sonntag, 12. Februar 12
Carrots & Sticks
Search Behavior Patterns, John Ferrara
http://www.boxesandarrows.com/view/search-behavior
Domain Expertise
Such Expertise
Kognitiver Stil
Ziel der Suche
Modus der Suche
Umstände der Suche
Sonntag, 12. Februar 12
Neo: Die Matrix
Matrix der Informationsbedürfnisse
Scope & Type -Tyler Tate. Sohn et al. Church & Smythhttp://twigkit.com/blog/2011/12/06/mobile-information-needs.html
Sonntag, 12. Februar 12
Suchen als Handwerk
Welche Lösungsansätze gibt es um eine gute Suche zu realisieren?
Wie sieht das Toolset aus?
Wohin geht die Reise?
Sonntag, 12. Februar 12
Komponenten
Überblick
Sonntag, 12. Februar 12
Indexierung
Sonntag, 12. Februar 12
Abfrage
Sonntag, 12. Februar 12
Ergebnis
Sonntag, 12. Februar 12
Analyse
Sonntag, 12. Februar 12
Zusatzkomponenten
Sonntag, 12. Februar 12
Solr-Komponenten
Indizierung
Abfrage
Ergebnis
Analyse
Zusatzkomponenten
Indexierung
Abfrage
Analyse
Ergebnis
Zusatzkomponenten
Sonntag, 12. Februar 12
TYPO3 & Suche
Am Beispiel der Apache Solr Integration. Schamlos zugegeben.
(Ich habe noch ein paar „I like Indexed Search“ Buttons zum Verschenken!)
Sonntag, 12. Februar 12
Indexierung
Indexierung von ContentAnwendungsmöglichkeiten der Indexierung
Sonntag, 12. Februar 12
Indexierbarer Content
TYPO3 Content
Datenbank-Tabellen
Externe Websites
RSS-Feeds
Dateien
Sonntag, 12. Februar 12
Möglichkeiten Indexierung
Erstellen von Synonymen
Auslassen von Stopwords
Extern vorgehaltener Content wie z.B. Online-Katalog
Aggregation von Brancheninformation
Integration von Information aus weiteren Plattformen wie z.B. Microsites oder Applikationen
Sonntag, 12. Februar 12
Abfrage
OptionenFunktionsumfang
Sonntag, 12. Februar 12
Abfrage-Optionen
Operatoren
“+” und “-” für Erzwingen oder Ausschluss
zukünftig “and” und “or” zur Verkettung
Anführungszeichen zur Zusammenfassungz.B. “Suchbegriff aus mehreren Worten”
Diakritische Zeichen
cuvée = cuvee
Søren = Sören = Soeren = Sœren = Soren
Sonntag, 12. Februar 12
Abfrage-Funktionalität
Berücksichtigung der Benutzerberechtigungen
Autovervollständigung
Suggestions
Sonntag, 12. Februar 12
Ergebnis
FunktionenFacetten
Sonntag, 12. Februar 12
Ergebnis-Funktionen
Suchtreffer (Link auf das Ergebnis)
Page Browser
Sortierung
Relevanz (Score)
Autor
Datum (Indexierungsdatum, cr_date einer TYPO3-Seite)
Eigene Kriterien
Sonntag, 12. Februar 12
Ergebnis-Funktionen
View-Helper um z.B. Zusatzinformationen zum Treffer abzurufen (kundenindividuelle Preise, Vorschaubild, Vorschau des Dokument-Inhalts)
Filter vorbelegen (Facetten können im Vorfeld angewendet werden)
Sonntag, 12. Februar 12
Ergebnis-Funktionen
Field Boosting (Treffer im Titel ist mehr Wert als Treffer im Content. Wertigkeit ist frei de!nierbar.)
Boost-Functions (Funktionen auf Werte aus Dokumenten. Z.B. je neuer ein Dokument, desto höher der Boost auf ein Feld.)
Query-Manipulationen (bevor die Anfrage an Solr übergeben wird, kann dieser noch mal bearbeitet werden.)
Elevation (in Arbeit)
Sonntag, 12. Februar 12
Ergebnis-Funktionen
Template Engine: Ergebnisdarstellung einfach anpassbar durch "exibles Templating
Suchwort-Hervorhebung
Spell-Checking: "Meinten Sie?"
Common Searches(Tag Cloud bzw. die meistgesuchten Begriffe)
Recent Searches Ähnlich Common Searches: zeigt die letzten durchgeführten Suchen
Sonntag, 12. Februar 12
Facetten
Typ-Facetten
Autor (z.B. bei News)
Typ (z.B. Seite, News, Aktienkurs, ...)
Bereichs-Facetten (in Arbeit)(z.B. 1-10 EUR oder Slider)
Hierarchische Facetten (Wenn baumartige Strukturen vorliegen, können diese auch als Facette dargestellt werden. z.B. News Kategorien)
Multiple Auswahl von Facettenausprägungen(z.B. Facette Preis 20 EUR & 30 EUR)
Sonntag, 12. Februar 12
Facetten
Geo-Search (in Arbeit)(z.B. wenn indizierte Elemente geographische Information besitzen. Eine Google Map dient als Interface um alle Treffer innerhalb des sichtbaren Fensters zu zeigen.)
Georelevante Informationen auf Basis der IP-Adresse des Benutzers(z.B. wo ist der nächste Service-Point in meiner Nähe)
Darstellung der Facettenlabel erfolgt als TYPO3 Content Objekt(beliebige Darstellung z.B. über GIFBUILDER möglich)
Filter vorbelegen(bestimmte Facetten können im Vorfeld angewendet werden)
Sonntag, 12. Februar 12
Analyse
AnalysemöglichkeitenRoadmap
Sonntag, 12. Februar 12
Analysemöglichkeiten
Query Logging
Statistiken über die Suchanfragen (in Arbeit)
Lernen durch Userinput (in Arbeit)(Wenn User ein Ergebnis anklickt, erhält das Ergebnis Zusatzpunkte.)
Sonntag, 12. Februar 12
Zusatzkomponenten
Sonntag, 12. Februar 12
Zusatzkomponenten
Auf einer Ergebnisseite kann über die Nutzung des Index z.B. eine "more like this"-Empfehlung erfolgen um thematisch relevante Themen anzuzeigen.
Eigenentwicklungen, die Zugriff auf die Indexdaten benötigen, möglich
Sonntag, 12. Februar 12
Konzepte im Detail
ScoringSynonyme
Sonntag, 12. Februar 12
Scoring
term frequency (tf)Je häufiger ein Term in einem Dokument auftritt, desto höher der Score.
inverse document frequency (idf)Je häufiger ein Term in verschiedenen Dokumenten auftritt, desto geringer sein Score.
number of terms in the query that were found in the document (coord)Je mehr Terme der Suchanfrage im Dokument vorkommen, desto höher sein Score.
Boost
Sonntag, 12. Februar 12
Scoring - Zusammenfassung
Dokumente, die alle Suchterme enthalten sind gut.
Treffer auf seltene Worte sind besser als Treffer auf häu!ge Worte.
Kurze Dokumente sind besser als lange Dokumente.
Dokumente, die Suchterme mehrfach enthalten sind gut.
Sonntag, 12. Februar 12
Scoring – Beispiel
Indizierung und Boost verschiedener Felder
Content (z.B. 20x)
Keywords (z.B. 20x)
Seitentitel (z.B. 25x)
Sortierung nach Typ
News kommen z.B. immer am Ende des Suchergebnisses nach allen Seitentreffern
Sonntag, 12. Februar 12
Synonyme
Werden bei Indizierung erstellt
Können gerichtet sein
Stewardess = Flugbegleiter
Spielwaren => Toy aber Toy #> Spielwaren
Können Ketten bilden
Durch Synonymketten können Suchanfragen sehr ungenau werden
Sonntag, 12. Februar 12
Synonyme: Beispiel Verkettung
Enjoy Toy Fair City = Messestadt Nürnberg = Kulturangebot = Restaurant = Essen = Bar = Gastrosuche = Kultur = Nürnberg spielt mit = Museum = Einkaufen = Nürnberg = Abendessen = Gasthäuser
Spielwarenmesse = Fachmesse für Spielwaren = Toy Fair = International Toy Fair = Toy Fair Nürnberg = Spielzeugmesse = Spielzeugmesse Nürnberg = Nürnbergmesse für Spielwaren = Spielwarenmesse 2011
Spielzeug = Spielwaren = Spielsachen
Sonntag, 12. Februar 12
Synonyme: Beispiel Verkettung
Suche nach: “Restaurant”
Restaurant = Enjoy Toy Fair City
Enjoy Toy Fair City = Enjoy Fachmesse für Spielwaren City
Enjoy Fachmesse Spielwaren City = Enjoy Fachmesse Spielzeug City
Sonntag, 12. Februar 12
Synonyme: Beispiel Verkettung
Die resultierende Suchanfrage (nicht komplett):
Enjoy Toy Fair City Messestadt Nürnberg Kulturangebot Restaurant Essen Bar Gastrosuche Kultur spielt Museum Einkaufen Abendessen Gasthäuser Spielwarenmesse Fachmesse International Spielzeugmesse Nürnbergmesse 2011 Spielzeug Spielwaren Spielsachen
Sonntag, 12. Februar 12
Synonyme: Seiteneffekte
Beispiel Synonymsuche
TV = Television
Im Index ca. 1.000 Dokumente mit “TV”
Im Index ca. 50 Dokumente mit “Television”
Suche nach “TV” bringt Dokumente mit “Television” nach vorne, da “bessere Treffer”
Sonntag, 12. Februar 12
d dkdevelopmentkommunikationdesign
sagt danke.
Sonntag, 12. Februar 12
Quellenangaben
Lucene Scoring for dummies: http://www.supermind.org/blog/378/lucene-scoring-for-dummies
Fotos: Søren Schaffstein
Sonntag, 12. Februar 12