das solr system - suche nicht nur auf planet typo3

Post on 29-Nov-2014

3.696 Views

Category:

Technology

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

Apache Solr nicht nur für TYPO3.

TRANSCRIPT

d dkdevelopmentkommunikationdesign

Das�Solr-System

Suche nicht nur auf Planet TYPO3

Ingo Renner, TYPO3 Core DeveloperOlivier Dobberkau, Geschäftsführer dkd

Ingo�Renner

TYPO3 Core Developer

Release Manager TYPO3 4.2

TYPO3 Google Summer of Code Admin

Software Architect, Senior Developerdkd Internet Service GmbH

- Caution -TYPO3-Evangelist

Olivier�Dobberkau

aka TYPO3 Reverend Neverend

Geschäftsführerdkd Internet Service GmbH

Research and Development @ dkd

Kandidat für das BCC der TYPO3 Association

- Caution -TYPO3-Evangelist

Apache�Solr

Open Source Enterprise Search Server

Apache�Solr

Apache Software Foundation

Enterprise Search Server

Basiert auf Lucene Index

Viele starke Funktionen

CNet, Net!ix, ilocal.nl, Zappos.com

Solr�Key-Features

Synonyme

Stopwords

Gewichtung

Facettierung

Bezahlte Ergebnisse

Fehlerkorrektur

Geschwindigkeit

Wie�funktioniert‘s

REST ähnliches Interface

Indexieren per POST

Suchen per GET

Ergebnisse als XML, JSON, PHP

Bibliotheken

SolrPhpClient

php5_solr PECL Package

Solr�Index

Solr Index

Document

Document

Document

Document

Document

Field

Field

Field

Field

Field

Field

Field

Field

Field

Field

Field

Field

Field

Field

Field

Field

Field

Field

Field

Heimatplanet�TYPO3

Heimatplanet�TYPO3

Suche�B.S.

(Before Solr)

Indexed�Search

Indexed Search seit TYPO3 Version 3.x an Board

Frontend Indexierung beim Seitenaufruf

Suche in Seiten und einigen Dateien möglich

Berücksichtigt Sprachen und FE-Gruppen

Indexed�Search

Index in der Datenbank

Problematisches Verhalten bei großen Webseiten

Langsam

Keine Sortierung

un!exible Templates

OK für kleinere Websites

Suche�im�Zeichen�der�Sonne.

Apache Solr für TYPO3

Geschichte

Prototyp im Sommer 2008

Kick-off Februar 2009

Erstes Ziel „Acts like Indexed Search“

Early Access Program (EAP)

T3CON September 2009 Version 1.0

Aktuelle Version 1.3 (public Version)

Komponenten

Indexierung

Suche

Flexible Ergebnisausgabe

Analyse und Statistiken

Administration

Herausforderungen

Seiten Rendering in TYPO3

Berücksichtigung von Zugriffsrechten

Dateiindexierung

Einfaches Setup für Nicht-Java Leute

Integration und Zugriff auf Solr

Lösungen

Record Monitor und Indexing Queue

Eigenes Solr Query Parser Plugin

Integration von Apache Tika

Voll automatisiertes bash Install Script

SolrPhpClient und JSON Response Writer

Features

Facettierte Suche

Umfangreiche Dateiindexierung

Multi-language Support

Fehlerkorrektur / Did you mean

Suchwort Highlighting

Autocomplete / Suggestions

Berücksichtigung von Zugriffsrechten

Galileo�Galilei

Dreht sich die Sonne um die Erde?

Mond

Der Mond umkreist die Erde.Entfernung 385.000 Kilometer von der Erde.Mondlandung 21 Juli 1969.Enorme Wirkung auf Menschen und Werwölfe.

Mond

Tabellen

TYPO3�Tabellen

TYPO3 besteht nicht nur aus Seiten

News, FAQ, Events, ...

Gut: Eigene Indexer Erweiterung für FE

Besser: Index Queue

Record Monitor

Garbage Collection

Keine Eigenentwicklung nötig

Mars

Der rote Planet.Entfernung zur Sonne 228.000.000 Kilometer.Path"nder sendet erste Bilder am 4. Juli 1997.Leckerer Schokoladen-Riegel.Kriegsgott im antiken Italien.

Mars

Tabellen

Daten-banken

Datenbanken

Anwendungsfall: Daten aus Datenbanken

Datenbanken nicht für Suche optimiert

Apache Solr prädestiniert für Suche

Data Import Handler (DIH)

JDBC

Dateilisten

URL zum Beispiel für RSS Feeds, XML

Datenbanken

Inkrementeller Import möglich

Transformer vorhanden

Regex

HTML

Processoren

XPATH

Saturn

Geil ist Geil.Abstand von Erde 1.430.000.000 Kilometer.96% der Atmosphäre aus Wasserstoff.Saturn-Ringe ø 1.000.000 Kilometer.1610 entdeckte Galilei die Ringe und deutete diese als HenkelGott des Ackerbaus.

Saturn

CSV

Tabellen

Daten-banken

CSV�Daten

Wenn alle Stricke reißen: CSV

CSV Update Request Handler

Einfache Kon"guration über URL Parameter

Indexierung per POST

Entfernte oder Lokale CSV Dateien

Keine Transformation oder Boosting möglich

Gut für Prototyping!

Venus

Entfernung zur Sonne 108.000.000 Kilometer.Hellstes Objekt am Himmel nach dem Mond.Göttin der Liebe und des erotischen Verlangens.437°C im Schatten.

Venus

Websites

CSV

Tabellen

Daten-banken

Andere�Websites

Jeder hat da sein kleines dunkles Geheimnis

Nicht alle Websites mit CMS Systemen gebaut

Kein Zugriff auf Daten möglich

Nutch Crawler

Crawlt Website ab

Indexiert in eigenen Index

Export zu Apache Solr mittels Mapping Funktion

Jupiter

Höchste Gottheit der römischen Mythologie.Entfernung 778.000.000 Kilometer zur Sonne.Tag dauert nur 9 Stunden und 55 Minuten.ø Temperatur -108 C.Heimatplanet von Fred.

Jupiter

Websites

CSV

Dateien

Tabellen

Daten-banken

Dateien

Word und andere Grausamkeiten

Volltext und unstrukturierte Daten

Meta Informationen in Bildern und Filmen

Apache Tika - Daten Extraktions Toolkit

Meta Daten

Text

Spracherkennung

Dateien

Tika ist in Apache Solr als eigener Handler vorhanden

Erkennt über 1200 Dateitypen

Kann über 600 davon lesen

Of"ce Formate inkl. OOXML, ODF und PDF

Audio, Bilder und Video

E-Mails im mbox Format

d dkdesignkommunikationdevelopment

sagt�danke.

top related