SearchEngineSearchEngine
Suchportale und Intranet-Suchmaschinen mit YaCy... und Beispiele von Anwendern
Michael Christen, [email protected]
open-it summit, 23.05.2013Messegelände Berlin
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
Abstract
Search Appliances sind weit verbreitete Werkzeuge, um Suchportale für Intranets oder Unternehmens/Institutsdaten zu realisieren. In diesem Vortrag wird gezeigt, dass kommerzielle Appliances durch die freie Suchmaschinensoftware YaCy ersetzt werden kann.
Wir zeigen als live-Demonstration:
• wie einfach es ist, ein Suchmaschinenportal selbst zu erstellen
• wie man einen Suchindex für das Web oder Intranet erstellt
• wie leicht es ist, ein Produktions- set-up zu machen um wiederkehrende Aufgaben zu kontrollieren.
• wie die Suchmaschine dann als Nachrichtendienst genutzt werden kann und mit automatischen Suchanfrage und RSS feeds Nachrichten aus den indexierten Daten erzeugt werden
• wie die Suchmaschine als SEO-Tool genutzt werden kann.
YaCy wurde als Peer-to-Peer Suchmaschine für das Web konzipiert, aber im stand-alone Modus kann sie auch wie eine Appliance genutzt werden. Durch zahlreiche Projekte in diesem Umfeld hat die Software nun eine Funktionsmenge erreicht, die sie zum Kandidaten für den Ersatz von kommerziellen Appliances macht.
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
Finden was andere nicht
finden (können)z.B. öffentl. FTP Server, torrents, div. binaries, etc.
Suche fürWeb-Portal
geteiltes Wissen für verteilte
Systeme
Intranet- und Filesuche
Konsolidierung der Datenablage (ftp/smb-Suche)
Nachrichten-dienste
automatisches Suchen ohne
Suchananfrage
SEO & Web- Admin Tools
fremde Server durchstöbern
und Strukturen analysieren
Anwendungen für eine Search Appliance
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
Anwendungen: Web-Portal Suche
Suche fürWeb-Portal
geteiltes Wissen für verteilte
Systeme
Dokumente
(micro)Blogging
Create / Share
Discussion
Projektsteuerung
Produktion
Bugtracker
Versionskontrolle
Suchmaschine
Vernetzung von Wissen
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
Anwendungen: Intranet- und Filesuche
Intranet- und Filesuche
Konsolidierung der Datenablage (ftp/smb-Suche)
Dokumente
(micro)Blogging
Create / Share
Discussion
Projektsteuerung
Produktion
Bugtracker
Versionskontrolle
Suchmaschine
Vernetzung von Wissen
Technologische Vernetzung„wie setze ich Technik ein um Wissen zu generieren?“
Soziotechnische Vernetzung„wie gehen Menschen mit Technik um?“
Vernetzung von Menschen
Vorteile im Unternehmen:
• Information ist unabhängig vom Ablagesystem sichtbar
• Gemeinsame Navigation unterstützt Vernetzung
• Nutzer wählen das optimale System zur Ablage
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
Anwendungen: Nachrichtendienste
Nachrichten-dienste
automatisches Suchen ohne
Suchananfrage
Vorteile im Unternehmen:
• Zeitnahe Reaktionsfähigkeit
• Alerts für Aktivitäten der Mitarbeiter (im Intranet)
• Alerts für Aktivitäten der Konkurrenz (im Einsatz in einer Websuche)
Funktionsweise:
• Jede Suche kann ein RSS Nachrichtenstrom sein
• Suchergebnisse können nach Aktualität geordnet werden
• Suchergebnisse können automatisch weiterverarbeitet werden (RSS Reader, Alerts, u.s.w.)
Beispiel: Ausschreibungssuche
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
Anwendungen: Business Analytics, SEO, Web-Admin
SEO & Web- Admin Tools
fremde Server durchstöbern
und Strukturen analysieren
Funktionen:
• Die Datenstruktur fremder Server durchstöbern und Strukturen analysieren
• Tote Links aufdecken
• Visualisierung von Verlinkungsstrukturen
• Durchsuchbarkeit des eigenen Webauftritts testen
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
Anwendungen: zusätzliche nützliche Funktionen
Finden was andere nicht
finden (können)z.B. öffentl. FTP Server, torrents, div. binaries, etc.
Suchergebnisdarstellung:
• mehr Suchinterfaces: nicht nur 'übliche' Websuche, sondern auch GSA-Interface, RSS-Nachrichten, File-Suche, Opensearch, JSON, XML, native Solr-Interface
• Facetten zu Hosts, Zeit, Dateitypen, Autoren, Protokoll
• Benutzergenerierte Suchfacetten über Vokabularien
• nicht ausschliesslich http(s), auch ftp + SMB-Shares
Harvester, Datenaquise:
• Parser: ,unübliche‘ Formate (z.B. torrents), Anpassung an spezielle Unternehmensdaten möglich
• Skalierbarkeit durch Vernetzungsfähigkeit
• besseres Timing: Individueller Crawler-Scheduler
• Vielfältiges Harvesting: Crawler, Intranet-Scanner, sitelist, RSS feed import, OAI-PMH Import, mediawiki-Dump u.s.w.
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
search server
web interface
Wissen wie Suchmaschinen funktionieren
I
crawlerrobots balancer queues
parser pdf
html rss zipxls
doc
eml
network interfacesfile http ftp smb oai-pmh
apiopensearch gsa solr
monitoring
administration/ steering
I/O requests Disk/RAM
search index
facetsschema
moderationranking
document cache
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
search server
crawler
parser
network interfaces
api
monitoring
administration/ steering
search index
document cache
YaCy Komponenten
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
Embedded SolrSolr ist die Indexing-Engine in YaCy
oder: externer SolrSolr kann per Solr-API extern eingebunden werden, Schemas lassen sich anpassen.
Solr API in YaCyder in YaCy integrierte Solr kann über die Standard Solr-API (http/xml) angesprochen werden
YaCy subsumiert Solr
crawler parser
search interface
monitoring
administration
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
Solr mit YaCy als Framework
YaCy ist ein Suchmaschinen-Framework für Solr- Solr Schema in YaCy basiert auf dem „Solr Cell“ Schema- Support für remote Solr- Das YaCy Schema kann einem externen Solr Schema angepasst
werden
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
freie dezentrale Suchmaschine für alle
freeworld:
http://search.yacy.net
Suchmaschine, bestehend aus den Peers freiwilliger
1200 Peers im Monat, weltweit verteilt
> 1 Milliarde Dokumente
YaCy Nutzer: Peer-to-Peer Netz ,freeworld‘
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
http://www.uni-mainz.de/Gutenberg-Universität Mainz
YaCy Nutzer: Johannes Gutenberg Universität Mainz
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
http://fsfe.orgFree Software Foundation Europe
YaCy Nutzer: Free Software Foundation Europe
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
YaCy Nutzer: Karlsruhe Institut für Technologie
http://www.kit.eduKarlsruhe Institut für Technologie
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
YaCy Nutzer: Verwaltungssuchmaschine NRW
http://vsm.d-nrw.deVerwaltungssuchmaschine NRW
> 10 Millionen Dokumente
Anpassungen an YaCyfür die Migration der Verwaltungssuchmaschine NRW von einer GSA im Vollausbau nach YaCy:
• Implementierung des GSA Anfrage- und Suchergebnisformates, entsprechend https://developers.google.com/search-appliance/documentation/68/xml_reference
• Mandantenfähigkeit• Crawler-Verbesserungen• Synonym-Matching• Host Browser / Crawling - Diagnose
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
YaCy Nutzer: EnergieCity Leipzig
http://www.energiecity-leipzig.de/Energie- und Umwelttechnik für nachhaltiges Bauen
Michael [email protected], http://yacy.net
Suchportale & Intranet-Suchmaschinen mit YaCyOpen-IT Summit, Messegelände Berlin, 23.05.2013
YaCy Betrieb: automatische Prozesse, Verfügbarkeit
Search InterfaceLoad Balancer using a Reverse Proxy withFailover Configuration
Sear
ch-A
PI
yacy0: master node
yacy1: replication node
Index Backup Storage
Search
Requests
Search Requests
,hot dump‘
,hot restore‘
Cron-Jobsduring set-up:
•Set-Up-Replikation:full copy of master node to replication node
• Index Replikation:dump to Backup + Restore from Backup
•Supervisor:checkalive-Ping +restart if peer is dead
•Software Update:automated download and alternating update
•No Downtime:Availability is ensured for all processes
Linux Back-End
Sear
ch-A
PIAd
min
ApplianceAdministration
Config + Crawls
port 443
port 8100 (or 80)
port 8090
port 8091Search Users
PortalAdmin
SearchEngine
Bitte sprechen Sie mich an!Messestand 139, Halle 7.1A
Dipl. Inf. Michael [email protected]
http://pro.yacy.net
QR-Code: vCard
Produkte und Beratung:
• YaCy Search Appliance - Vorkonfiguration und Migration
• Betriebssupport - Inbetriebnahme, Support
• Software Entwicklung - Funktionserweiterungen, Suchportale
• Schulungen - Suchmaschinentechnik, Wissensmanagement, YaCy Operating