...Buch Data Grabber  
Home
Bookpiles
BookGears
Download
Auf englisch
Beispiele
Bildschirme
Kontakt
SF Projekt
Fehler Reporting
Monatliche News
Auf dieser Site suchen


SourceForge.net Logo


Letzte Änderung 30 Mar 2007

BookGears Homepage

BookGears ist der Data Grabber für Bookpiles. 

Es gibt tausende von öffentlichen Bibliotheken und Büchereien, deren Bücher man im Web suchen kann. Fast jede zeigt die Daten zu ihren Büchern unterschiedlich an. Wie kann man diese Daten in einen Buch Organizer bekommen, ohne abtippen?

BookGears ist den Daten Grabber für Bibliotheken und schickt die Buch Daten zum Buch Organizer Bookpiles.

BookGears benutzt Informationen über die jeweilige Bibliothek und deren Web Seiten und reguläre Ausdrücke, um Daten von einer Web Seite zu holen.


Diese regulären Ausdrücke zu erstellen ist nicht ganz einfach, aber es muss ja auch nur einmal je Bibliothek gemacht werden. Außer ein Web Designer ändert die Web Seite, dann müssen diese Parameter eventuell angepasst werden.

Kann diese Technik für alle Bibliotheks-Webseiten angewandt werden?

Es funktioniert bei den meisten Webseiten, aber nicht bei allen.

Manchmal sind die Daten unvollständig und nicht gut strukturiert. Manche Bibliotheken benutzen auf ihren Webseiten viel Java Script. Dann findet ein regulärer Ausdruck nicht immer eine Zeichenkette.  

 

Ein regulärer Ausdruck ist eine Zeichenkette, die als Muster für eine Menge von Zeichenketten benutzt wird.

 

Ein Beispiel

Auf einer Webseite werden Informationen über ein Buch angezeigt, z.B. so:


 

Die Webseite besteht aus HTML Text. Für das Beispiel oben ist es folgender HTML Text: 

<NOBR><strong><font face="Arial,
Helvetica, sans-serif">Autor : </strong> Kurzweil, Ray</NOBR>&nbsp;
<NOBR><strong><font face="Arial,
Helvetica, sans-serif">Titel : </strong></NOBR> Homo s@piens&nbsp;

 

Der reguläre Ausdruck

	Titel : </strong></NOBR>(.*?)&nbsp;

beschreibt die Suche nach dem Namen des Autors.

 

Die benutzen Zeichen mit einer besonderen Bedeutung sind:

.           ein beliebiges zeichen

*          ein Iterator, 0 oder mehr Zeichen

?          nicht-gierige Suche. Suche nach der kleinsten Anzahl Zeichen, auf die der Ausdruck zutrifft

( )         Gruppe, um einen Teil String zu finden.
 

Die Suche nach dem Namen des Autors erfolgt in dem Beispiel so

Suche auf der Webseite nach der Zeichenkette Titel : </strong></NOBR>        danach kommen 0 bis viele beliebige Zeichen, danach die Zeichenkette  &nbsp;

Weil die Suche nicht-gierig ist, nimm die erste Zeichenkette &nbsp;

Der Name des Autors ist der Text in der ersten (und einzigen) Gruppe.

Dieser reguläre Ausdruck kann für alle Autorennamen einer Bibliothek benutzt werden.

 

Ich habe mal mit ein paar Bibliotheken angefangen. Falls jemand eine interessante Bibliothek kennt und benutzt und BookGears dafür testen will: Bitte melden.

 

 

Aktuelles Release: 0.81

Lizenz: GPL

 

Download BookGears 0.81

 

BookGears News

30 Mar 07

Version 0.81 veröffentlicht, zusammen mit Bookpiles 1.1.

22 Dec 06

Version 0.8 veröffentlicht zusammen mit Bookpiles Version 1.0.

1 Oct 06

Version 0.7 veröffentlicht zusammen mit Bookpiles Version 0.9.