Sinn

Einfaches Anlegen von Informationszusammenstellungen wie z.B.:

Das Ganze soll am Ende auch durchsuchbar sein. So ist man nicht mehr abhängig von dem guten Willen einiger Websitebetreiber und der Verfügbarkeit der Server. (Und nebenbei kann man seinen Jäger und Sammeltrieb befriedigen.)

Konzeption

Der Ablauf ist generell folgender:

  1. URL in das Frontend reinschmeißen
  2. Website wird runter geladen und es wird geraten in welche Kategorie sie gehört
  3. Die Kategorie wird vom Benutzer bestätigt oder eine andere wird ausgewählt
  4. Die Website wird im vorher ausgewählten Umfang gespeichert

Webfrontend

Ein einfaches Webfrontend sollte zur Konfiguration des Tools reichen. Beim einfügen einer Website in das Archiv sollten mehrere Optionen zur Verfügung stehen. Wie z.B. die gesamte Site sammt der Bilder, das komplette Verzeichnis o.ä.

Kategorisierung

Dateien verschiedener Art (PDFs, HTML, jpg,...) sollen semi-automagisch in einem Verzeichnisbaum archiviert werden.

Zuerst werden die Verzeichnisse angelegt. In diese Verzeichnisse kommt jeweils eine Konfigurationsdatei die folgendes enthält:

keywords={in CSV-Form aufgeführte Schlüsselwörter die zur Einordnung in die Richtige Kategorie}

Anhand der Keywords wird eine Baum durchlaufen. Zuerst wird in der ersten Ebene geschaut in welche Kategorie die Datei passt. Die einfachste Methode hierfür ist, die Treffer zu zählen und die Kategorie mit den meisten Hits weiter zu benutzen. Wenn diese gefunden ist, wird in dieser die nächste sub-Kategorie ausgewählt usw.

Verzeichnisstruktur (Beispiel):

Archivieren

Für jede neue Datei oder Dateien wird ein neues Verzeichnis angelegt, dessen Name bezeichnend sein soll. Hinzu kommt eine Datei die folgendes enthält:

Diese Datei kann evtl. mit gnupg signiert werden. Damit wird sichergestellt, dass nur die Person die das Archiv angelegt hat die Dateien im nachhinein verändert hat.

suchen

htdig bietet sich als Suchmaschine an. auch die Erkennung von Texten aus Bildern und PDFs kann eingebaut werden.

LugOwlWiki: OpenArchiveSoftware (zuletzt geändert am 2009-03-08 14:45:23 durch localhost)

Impressum Datenschutz