-->Hallo, sam,
von welchen *.DAT-Dateien, die zusammengeführt 56MB -"bereinigt" 22 MB - ergeben, schreibst du?
Da ich eine eigene Applikation fertige, kann ich da auch meine eignen Gedanken zur Dateiverwaltung umsetzen. Auch wenn ich damit besimmt ein kleines Rad neu"erfinde", so hat dies doch den Vorteil, dass ich speziel auf die themenbezogene Bedürfnisse reagieren kann.
Die einzelnen HTM-Dateien werden gelesen, und es werden die"reinen" Textteile, ohne Satzzeichen und HTML-Tags, URLs zu Links von Seiten und Bildern, in eien Datei geschrieben, die z.Z. die angegeben ca. 200 MB für die Texte der Zeit vom 17.02.2000 bis 04.12.2003 belegen. Die"Altbestandteile des Vortextes werden, soweit durch einfache Programmlogik erkennbar, ebenfalls herausgefillter.
Die Anfangspositionen der Texte in der Datei werden in eienr gesonderten Index-Datei geschrieben, die neben der Position auch noch die Datum-Zeitangabe, die Autorennummer und weitere Dateipositionsindexe (Baumstrukturdatei, Titelzeilendatei, Link- und Images-URLs-Datei) enthält. Ihre Größe ist z.Z. mit 12 MB zu erwarten (es sind noch nicht alle Teile implementiert).
Die Autorenliste umfaßt, einschließliche der Einträge zur Chronologie, ca. 64kB.
Die Baumstruktur, die die Beitragsnummern sowie den Titel, Autor und den Datums-/Zeitstempel beinhaltet, beansprucht auf meinem Datenträger z.Z, 20 MB. Auf die Baumstruktur kann man natürlich verzichten, da man mit der Beitragsnummer sich die URL aufbauen kann und dieses an den Browser übergibt (siehe Applikationsfenster in meiner früheren Darstellungeben, wo in der Liste der gefunden Beiträge ein Beitrag selektiert und im HTML-Fenster angezeigt wird; damit ist die volle"Manöverierfähigkeit" im Baum geliefert und auch das Antwirten aus diesem heraus ist möglich, wie ein Test gezeigt hatte; ist halt eine einfache Browser-Aüülikation).
Alles zusammen sind dies 239.792.1228 Bytes (228,7 MB) bei derzeit ca. 236.567 erfassten Beiträgen (z.Z. erfasste letzte Beitragsnummer:..messages239342.htm).
Obwohl die eingebaute Suchfunktion nun bereits nach einer Gruppe von Autoren suchen kann, die zu einer bestimmten Worte-Verknüpfung in ihrem Beitrag verwendet haben und damit weiter geht, als die"parsimony-Suche", scheint jedoch mit der Restaurierung dieser Suchfunktion eine ausreichende Orientierungshilfe wieder hergestellt worden zu sein, zumal nun auch wieder die Beiträge ab dem 17.02.2000 erreichbar sind.
Hoffe, dass ich hiermit einen Teile der Frage:"Wie handhabst du das?", beantwortet haben zu können.
Gruß,
Uwe
|