Fürst Luschi
02.12.2003, 22:19 |
Forum offline durchsuchen Thread gesperrt |
-->geht so:
1. die zip-Archive mit den Beiträgen runterladen.
http://f17.parsimony.net/forum30434/zip.htm
2. entpacken (Begrenzungen des Dateisystems beachten: FAT32 kann pro Ordner nur max. 32768 Dateien aufnehmen)
3. um in den Beiträgen zu suchen, muss ein Volltextindex angelegt werden. Folgendes gilt für WindowsXP:
-auf Start klicken -> Rechtsklick auf Arbeitsplatz -> Verwalten
4. es hat sich die Computerverwaltung geöffnet.
5. Doppelklick auf"Dienste und Anwendungen". Klickt man auf Indexdienst findet man den Katalog"System". In diesem Katalog werden ganze Festplatten indiziert. Braucht man diesen Riesen-Index nicht, dann kann man diesen Katalog löschen. Sonst rappelt die immer wieder neu zu indizierende Festplatte während den Arbeitspausen umsonst.
6. Rechtsklick auf Indexdienst -> Neu -> Katalog
7. Name für den Katalog eingeben und den Pfad wo der zu erstellende Katalog gespeichert werden soll. Dann auf den Katalognamen doppelklicken, danach auf Verzeichnisse rechtsklicken ->Neu -> Verzeichnis und den Pfad angeben an dem man die zip-Archive entpackt hat. Also das Verzeichnis das indiziert werden soll.
8. falls man den Indexdienst deaktiviert hat -> zuerst aktivieren und manuell starten mit Rechtsklick auf Indexdienst -> starten.
9. Der Indexdienst läuft im Hintergrund und indiziert nur während Leerlaufzeiten. Kann also dauern. Schneller gehts wenn man den PC über Nacht eingeschaltet lässt - oder ihn ein paar Stunden, ohne ihn zu benutzen, indizieren lässt.
10. wenn der Volltextindex erstellt ist kann man alle Texte durchsuchen: über die Computerverwaltung -> Dienste und Anwendungen -> Indexdienst -> Katalog durchsuchen
es öffnet sich ein Abfrage-Formular in dem man mit der üblichen Abfragesyntax nach mehreren Worten suchen und die Ausgabe nach Rang, Grösse oder Zeit sortieren lassen kann.
11. Um sich nicht immer zum Indexdienst durchklicken zu müssen kann man sich eine Verknüpfung auf dem Desktop anlegen: Rechtsklick auf dem Desktop -> Neu -> Verknüpfung. In dem aufpoppenden Fenster ciadv.msc eingeben und auf weiter und fertigstellen klicken.
12. Da der Text nicht in verschiedene Objekte zerlegt wird (Autor - Text) muss man die Suchanfragen"trickreich" abfassen.
Beispiel: man gibt in die Abfragemaske::"geschrieben von dottore" and Debitismus and Japan:: ein, um die Anzahl"falscher" Treffer zu minimieren. Noch ein Beispiel: @doctitle dottore and urschuld. Damit sucht man im Titel nach"dottore" und im Text nach"Urschuld".
Oder: @doctitle Gold and Siegmund and Freud.
mit @doctitle kann man im Dokumententitel suchen. Auf die Zeit hat man automatisch Zugriff über das Attribut der htm-Datei. Im Abfrageformular kann man"nach Zeit ordnen" einstellen.
weiteres zum Indexdienst und zur Abfragesyntax gibt es in der Windows-Hilfe.
|
igelei
02.12.2003, 22:27
@ Fürst Luschi
|
Find ich gut, schönen Dank... mkT |
-->... brauch ich zwar nicht selber, weil DSL-Flat und Standleitung auf Arbeit, aber die Idee ist sicher Klasse. Wie oft wird die Zip aktualisiert? Vielleicht kann Elli ja einen Link ins Forum legen...
MfG
igelei
>geht so:
>1. die zip-Archive mit den Beiträgen runterladen.
>http://f17.parsimony.net/forum30434/zip.htm
>2. entpacken (Begrenzungen des Dateisystems beachten: FAT32 kann pro Ordner nur max. 32768 Dateien aufnehmen)
>3. um in den Beiträgen zu suchen, muss ein Volltextindex angelegt werden. Folgendes gilt für WindowsXP: > -auf Start klicken -> Rechtsklick auf Arbeitsplatz -> Verwalten
>4. es hat sich die Computerverwaltung geöffnet.
>5. Doppelklick auf"Dienste und Anwendungen". Klickt man auf Indexdienst findet man den Katalog"System". In diesem Katalog werden ganze Festplatten indiziert. Braucht man diesen Riesen-Index nicht, dann kann man diesen Katalog löschen. Sonst rappelt die immer wieder neu zu indizierende Festplatte während den Arbeitspausen umsonst. >
>6. Rechtsklick auf Indexdienst -> Neu -> Katalog
>7. Name für den Katalog eingeben und den Pfad wo der zu erstellende Katalog gespeichert werden soll. Dann auf den Katalognamen doppelklicken, danach auf Verzeichnisse rechtsklicken ->Neu -> Verzeichnis und den Pfad angeben an dem man die zip-Archive entpackt hat. Also das Verzeichnis das indiziert werden soll.
>8. falls man den Indexdienst deaktiviert hat -> zuerst aktivieren und manuell starten mit Rechtsklick auf Indexdienst -> starten.
>9. Der Indexdienst läuft im Hintergrund und indiziert nur während Leerlaufzeiten. Kann also dauern. Schneller gehts wenn man den PC über Nacht eingeschaltet lässt - oder ihn ein paar Stunden, ohne ihn zu benutzen, indizieren lässt.
>
>10. wenn der Volltextindex erstellt ist kann man alle Texte durchsuchen: über die Computerverwaltung -> Dienste und Anwendungen -> Indexdienst -> Katalog durchsuchen
>es öffnet sich ein Abfrage-Formular in dem man mit der üblichen Abfragesyntax nach mehreren Worten suchen und die Ausgabe nach Rang, Grösse oder Zeit sortieren lassen kann.
>11. Um sich nicht immer zum Indexdienst durchklicken zu müssen kann man sich eine Verknüpfung auf dem Desktop anlegen: Rechtsklick auf dem Desktop -> Neu -> Verknüpfung. In dem aufpoppenden Fenster ciadv.msc eingeben und auf weiter und fertigstellen klicken.
>
>12. Da der Text nicht in verschiedene Objekte zerlegt wird (Autor - Text) muss man die Suchanfragen"trickreich" abfassen.
>Beispiel: man gibt in die Abfragemaske::"geschrieben von dottore" and Debitismus and Japan:: ein, um die Anzahl"falscher" Treffer zu minimieren. Noch ein Beispiel: @doctitle dottore and urschuld. Damit sucht man im Titel nach"dottore" und im Text nach"Urschuld".
>Oder: @doctitle Gold and Siegmund and Freud.
>mit @doctitle kann man im Dokumententitel suchen. Auf die Zeit hat man automatisch Zugriff über das Attribut der htm-Datei. Im Abfrageformular kann man"nach Zeit ordnen" einstellen.
>weiteres zum Indexdienst und zur Abfragesyntax gibt es in der Windows-Hilfe.
|
Uwe
02.12.2003, 22:46
@ Fürst Luschi
|
Re: Forum offline durchsuchen |
-->Hallo, Fürst L.
Vielen Dank für Deine Anwendungshinweise. Wenn in das HTM-Dokument zip.htm noch das Archiv x0xxxx.zip integriert werden kann, dann ist alles aus einer Quelle abrufbar.
Gruß,
Uwe |
Uwe
02.12.2003, 23:04
@ Fürst Luschi
|
Re: Wer zu spät kommt,... |
-->... der erspart sich Zeit...
[
Gruß,
Uwe
P.S.
Die zip-Dateien (x0xxxx.zip bis x23xxxx.zip) benötigen entpackt z.Z. ca. 920MB.
|
-- Elli --
02.12.2003, 23:23
@ Uwe
|
Re: Wer zu spät kommt,... / Was? War alles umsonst? oT |
-->>... der erspart sich Zeit...
>[
>Gruß,
>Uwe
>P.S.
>Die zip-Dateien (x0xxxx.zip bis x23xxxx.zip) benötigen entpackt z.Z. ca. 920MB. >
|
Fürst Luschi
02.12.2003, 23:38
@ Uwe
|
Re: Wer zu spät kommt,... |
-->hi Uwe
will auch haben. Die Autorenspalte sticht natürlich sofort ins Auge. Wie hast du das gemacht?
Das mit den 920MB ist natürlich schon richtig fett. Und in den Quelltexten sieht man, dass der Grossteil aus Ballast besteht. Wenn man die Nutzdaten mit nem Parser extrahieren und in einer Mysql-Datenbank speichern würde, bliebe wohl nur noch ein Bruchteil übrig. Mal schauen.
Grüsse
FL
|
FOX-NEWS
03.12.2003, 00:06
@ Fürst Luschi
|
Re: Forum offline durchsuchen |
-->Hallo,
So viele Dateien auf die Platte klatschen? Wie Uncool!
Ich schau morgen mal, ob man das Ganze nicht einem News-Reader zu Frass vorwerfen kann. [img][/img]
Am besten wäre es, wenn das Team elli alle Forumsbeiträge auf einem NEWS-Server ablegen würde.
sam
|
Uwe
03.12.2003, 00:07
@ Fürst Luschi
|
Re: Wer zu spät kommt,... |
-->Richtig, FL,
die"Nutzdaten" (Daten des Textblockes) belegen z.Z. ca. 265MB, bereinigt man diese noch von den stehen gelassenen Vorgängertexten (soweit diese durch das vorgestellt > erkennbar sind), verringert man den Platz nochmals z.Z. um ca. 65MB aus 200MB. Hier könnte man nun noch die ganzen Wortarten wie Pronome, Verben und ihre Konjugationen, Konjuntionen ahezu"gefahrlos als möglche von der Liste der möglichen Suchbegriffe streichen. Dies bei den englichen Textteieln ebenso angewandt, ergäbe sich vermutlich eine weitere, bedeutendere Verringung als die zuvor genannte. Doch dies ist nahezu nicht mehr notwendig - heutige Rechnerleistung vorausgesetzt - und ist als"Hobbyübung" zu werten.
Das dargestellte Arbeitsfenster ist das Hauptfenster einer, für diese Zwecke programmierte Anwendung, die die reduzierte Datei erzeugt und in dieser Datei sucht. Eine speziell erstellte Index-Datei, die u.a. die Zeiger zu den Anfangstellen in der"Worte-Datei" enthält, ermöglicht das schnelle auffinden.
Leider jedoch noch nicht im"Beta-Test", da die Funktion der automatischen Aktualisierung noch fehlt.
Gruß,
Uwe
|
Uwe
03.12.2003, 00:12
@ -- Elli --
|
Re:... Im Leben ist nichts umsonst, hat alles eine Bedeutung ;-) (owT) |
-->
|