das webarchiv Österreich - bibliotheksverband · 2019. 6. 26. · top-level domain .at (1,3 mio)...
Post on 24-Sep-2020
2 Views
Preview:
TRANSCRIPT
Das Webarchiv Österreich
Andreas Predikaka
Österreichische Nationalbibliothek
webarchiv@onb.ac.at https://webarchiv.onb.ac.at
Kulturerbe Web, 29.03.2019 1
2
1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF
Das Webarchiv Österreich, 16.05.2019
Rechtliche Basis
• 1998 ezines.onb.ac.at 1
• 1999 Pilotprojekt AOLA 2
• 2005 Anregung einer Novelle zum Mediengesetz
• 2007 Machbarkeitsstudie
• 2008 Begutachtungsverfahren abgeschlossen und Projektstart Webarchiv Österreich
• Herbst 2008 Neuwahlen
• 2009 Mediengesetznovelle
3
(1) https://webarchiv.onb.ac.at/web/20120203110731/http://ezines.onb.ac.at:8080/quint/
(2) https://www.ifs.tuwien.ac.at/~aola/
Das Webarchiv Österreich, 16.05.2019
Mediengesetz (Sammlung)
• Novelle 1. März 2009 1
• Ablieferungspflicht für Online-Medien
• Berechtigt 4x jährlich die generelle Sammlung von Medieninhalten unter .at oder Domains mit inhaltlichen Bezug zu Österreich
• Berechtigt auch einzelne Medieninhalte zu sammeln, wenn der Medieninhaber davor schriftlich in Kenntnis gesetzt wird
• Passwort geschützte Seiten, wenn archivierungswürdig
4
(1) https://www.ris.bka.gv.at/Dokument.wxe?Abfrage=BgblAuth&Dokumentnummer=BGBLA_2009_I_8
Das Webarchiv Österreich, 16.05.2019
5
1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF
Das Webarchiv Österreich, 16.05.2019
Domain Crawl
Domain-Listen von Registrierungsstellen
Top-Level Domain .at (1,3 Mio)
TLD .wien (15.000)
TLD .tirol (4.000)
Andere Domains mit Österreich-Bezug (11.000, manuelle Auswahl)
Durchführung anfangs alle zwei Jahre (2009/11/13/15), seit 2017 jährlich
6 Das Webarchiv Österreich, 16.05.2019
Selektive Crawls
Medieninhaber wird per Email informiert
Medienkollektion (täglich)
Politikkollektion (täglich)
Frau / Gender (mehrmals jährlich)
Demnächst Crawl on demand
7 Das Webarchiv Österreich, 16.05.2019
Event Crawls
EU-Wahl 2009, 2014, 2019
Bundespräsidenten-Wahl 2010, 2016
Olympia 2010, 2014
Gedenkjahr Erster Weltkrieg 2014
Song Contest 2015
Flüchtlingskrise 2015
EU-Ratsvorsitz 2018
100 Jahre Republik 2018
8 Das Webarchiv Österreich, 16.05.2019
9
1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF
Das Webarchiv Österreich, 16.05.2019
Software
• NetarchiveSuite 5.5
• Heritrix 3.3
• Umbra (dockerized)
• Openwayback 2.3.2
• Elasticsearch 6.5
• Kibana 6.5
10
Betriebssystem
• CentOS
Das Webarchiv Österreich, 16.05.2019
NetarchiveSuite
• Entwicklung http://netarchive.dk 2004
• Open Source seit 7/2007 (LGPL)
• Kooperation:
• KB Dänemark (Kopenhagen/Aarhus)
• Bibliothèque nationale de France
• Spanische Nationalbibliothek
• KB Schweden
• Österreichische Nationalbibliothek
Das Webarchiv Österreich, 16.05.2019 11
NetarchiveSuite
• Java 8 (auch OpenJDK)
• Postgresql
• Heritrix 3.3 (eigener Fork) voll integriert
• ARC und WARC Support
• Umbra Support
• Horizontal skalierbar
• Keine Benutzerverwaltung
• Domain steht im Zentrum
• Domains nicht löschbar
12 Das Webarchiv Österreich, 16.05.2019
NetarchiveSuite
13 Das Webarchiv Österreich, 16.05.2019
14
NetarchiveSuite
15
NetarchiveSuite
16
NetarchiveSuite
17
NetarchiveSuite
Infrastruktur
• 8 Server für NetarchiveSuite (8 GB, 500 GB)
• 7 Server für Volltext (4-24 GB RAM)
• 4 Server für Tests, Umbra, Reporting und Administration (4-8 GB RAM)
• 3 Server für Zugriff (4 GB RAM) Zur Zeit Infrastrukturänderung: Server mit 16 GB für NetarchiveSuite. Die alten Server werden den Volltextcluster erweitern
• Speicher bis 2017 im Bundesrechenzentrum
• Seit 2017 im ZID (gespiegelt, Kopie ZAS)
• Speicherbudget: 6 TB pro Jahr
18 Das Webarchiv Österreich, 16.05.2019
19
1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF
Das Webarchiv Österreich, 16.05.2019
Mediengesetz (Benützung)
• Benützung nur am Standort von berechtigten Bibliotheken
• Nur Ausdruck, kein elektronisches Verarbeiten
• Passwortgeschützte Seiten nur Einzeluser
• Sperren bis 1 Jahr möglich
• Regionale Aufteilung bei Selektiven und Event Harvestings (nach Sitz des Medieninhabers)
20
Das Webarchiv Österreich, 16.05.2019
Zugänge
Online Suche https://webarchiv.onb.ac.at
API https://webarchiv.onb.ac.at/api.html
Metadaten (auch kein Vorschautext)
Suche an Uni- und Landesbibliotheken
Daten aus den Domaincrawls
Suche an ÖNB und Administrativer Bibliothek des Bundeskanzleramtes
Alle Daten
21
Das Webarchiv Österreich, 16.05.2019
Berechtigte Bibliotheken
Administrative Bibliothek des Bundeskanzleramtes
Burgenländische Landesbibliothek
Kärntner Landesbibliothek
Niederösterreichische Landesbibliothek
Oberösterreichische Landesbibliothek
Österreichisches Staatsarchiv
Parlamentsbibliothek
Salzburger Landesarchiv (Bibliothek)
Steiermärkische Landesbibliothek
Tiroler Landesarchiv (Bibliothek)
Universitäts- und Landesbibliothek Tirol
Universitätsbibliothek der Universität Klagenfurt
Universitätsbibliothek Graz
Universitätsbibliothek Linz
Universitätsbibliothek Salzburg
Universitätsbibliothek Wien
Vorarlberger Landesbibliothek
Wienbibliothek im Rathaus
22 Das Webarchiv Österreich, 16.05.2019
Zugriff von berechtigten Bibliotheken
VPN (demnächst Zwei-Faktor Authentifizierung)
RDP-Session auf einen Terminalserver ohne Internet
Wayback mit eigenem Domain-Crawl Index
Zwischenablage-Funktion deaktiviert
Keine vertragliche Regeln mit Bibliothek
Bibliothek bestätigt nur, dass Weitergabe der Zugangsdaten ausgeschlossen ist
Elektronische Verarbeitung über Screenshots kann nicht ausgeschlossen werden
23 Das Webarchiv Österreich, 16.05.2019
webarchiv.onb.ac.at
24 NetarchiveSuite Meeting, Aarhus, 29./30.10.12
25 Kulturerbe Web, 29.03.2019
26 Das Webarchiv Österreich, 16.05.2019
27 Das Webarchiv Österreich, 16.05.2019
28 Kulturerbe Web, 29.03.2019
Monat Unique Visitors
7/2016 29
7/2017 529
7/2018 556
8/2018 547
9/2018 653
10/2018 776
11/2018 895
12/2018 760
1/2019 911
2/2019 757
3/2019 814
4/2019 734
Kennzahlen
127 TB Speicher (komprimiert & dedupliziert 57,5 TB)
> 2 Mio. Domains
> 3,46 Mrd. Dateien
16 % ohne PUID (541 Mio. Dateien)
> 600.000 Arc Dateien
> 110 Mio. Objekte im Volltext (zur Zeit reduziert auf knapp 8 Mio.)
30 Das Webarchiv Österreich, 16.05.2019
Fragen?
Danke!
Kulturerbe Web, 29.03.2019 31
Andreas Predikaka
Österreichische Nationalbibliothek
webarchiv@onb.ac.at https://webarchiv.onb.ac.at
top related