|
BookGears ist
der Data Grabber für Bookpiles.
Es
gibt tausende von öffentlichen Bibliotheken und Büchereien,
deren Bücher man im Web suchen kann. Fast jede zeigt die Daten zu
ihren Büchern unterschiedlich an. Wie kann man diese Daten in
einen Buch Organizer bekommen, ohne abtippen?
BookGears ist den Daten Grabber für Bibliotheken und schickt die Buch Daten zum Buch Organizer Bookpiles.
BookGears benutzt Informationen über die jeweilige Bibliothek und
deren Web Seiten und reguläre Ausdrücke, um Daten von einer
Web Seite zu holen.

Diese regulären Ausdrücke zu erstellen ist nicht ganz
einfach, aber es muss ja auch nur einmal je Bibliothek gemacht werden.
Außer ein Web Designer ändert die Web Seite, dann
müssen diese Parameter eventuell angepasst werden.
Kann diese
Technik für alle Bibliotheks-Webseiten angewandt werden?
Es funktioniert
bei den meisten Webseiten, aber nicht bei allen.
Manchmal sind die
Daten unvollständig und nicht gut strukturiert. Manche Bibliotheken benutzen
auf ihren Webseiten viel Java Script. Dann findet ein regulärer Ausdruck nicht
immer eine Zeichenkette.
Ein regulärer
Ausdruck ist eine Zeichenkette, die als Muster für eine Menge von Zeichenketten
benutzt wird.
Ein Beispiel
Auf einer
Webseite werden Informationen über ein Buch angezeigt, z.B. so:

Die Webseite
besteht aus HTML Text. Für das Beispiel oben ist es folgender HTML Text:
<NOBR><strong><font face="Arial, Helvetica, sans-serif">Autor : </strong> Kurzweil, Ray</NOBR>
<NOBR><strong><font face="Arial, Helvetica, sans-serif">Titel : </strong></NOBR> Homo s@piens
Der reguläre
Ausdruck
Titel : </strong></NOBR>(.*?)
beschreibt die
Suche nach dem Namen des Autors.
Die benutzen Zeichen
mit einer besonderen Bedeutung sind:
. ein beliebiges zeichen
* ein Iterator, 0 oder mehr Zeichen
? nicht-gierige Suche. Suche nach der
kleinsten Anzahl Zeichen, auf die der Ausdruck zutrifft
( ) Gruppe, um einen Teil String zu finden.
Die Suche nach
dem Namen des Autors erfolgt in dem Beispiel so
Suche auf der
Webseite nach der Zeichenkette Titel : </strong></NOBR> danach kommen 0 bis viele beliebige Zeichen,
danach die Zeichenkette
Weil die Suche
nicht-gierig ist, nimm die erste Zeichenkette
Der Name des
Autors ist der Text in der ersten (und einzigen) Gruppe.
Dieser reguläre
Ausdruck kann für alle Autorennamen einer Bibliothek benutzt werden.
Ich
habe mal mit ein paar Bibliotheken angefangen. Falls jemand eine
interessante Bibliothek kennt und benutzt und BookGears dafür
testen will: Bitte melden.
|