- OT (statistisches zum Forum): Wenn man denn nichts anderes zu tun hat,.... - Uwe, 13.08.2005, 00:36
- Kleine Statistik zwecks etwaiger Gegenrechnung ;-) - Gundel, 13.08.2005, 10:13
- Re: Kleine Statistik zwecks etwaiger Gegenrechnung ;-) - Uwe, 15.08.2005, 00:34
- Re: Kleine Statistik zwecks etwaiger Gegenrechnung ;-) - Uwe - nereus, 15.08.2005, 08:18
- Re: @nereus: Zur Justierung des BauchgefĂŒhls... - Uwe, 15.08.2005, 10:04
- Re: @nereus: Zur Justierung des BauchgefĂŒhls... - Uwe, Danke (o.Text) - nereus, 15.08.2005, 12:46
- Re: @nereus: Zur Justierung des BauchgefĂŒhls... - Uwe, 15.08.2005, 10:04
- Die Kommunisten verderben den Schnitt ;-) - Histrio, 16.08.2005, 05:02
- Re: Kleine Statistik zwecks etwaiger Gegenrechnung ;-) - Uwe - nereus, 15.08.2005, 08:18
- Re: Kleine Statistik zwecks etwaiger Gegenrechnung ;-) - Uwe, 15.08.2005, 00:34
- Re: OT (statistisches zum Forum): WOW..... - Elli (Boardmaster)--, 13.08.2005, 12:48
- Kleine Statistik zwecks etwaiger Gegenrechnung ;-) - Gundel, 13.08.2005, 10:13
OT (statistisches zum Forum): Wenn man denn nichts anderes zu tun hat,....
-->... dann kann man dann wohl auch auf solche Ideen kommen, wie man denn dann wenigsten einen Computer beschÀftigen könnte.
Das Ergebnis ist eine Art vereinfachter"Pisa-Test" des Forums. Die Auswertung am"Wortschatz" des Forums gemessen.
Nun ergeben sich leider dabei ein paar Probleme, die ich nicht ausrÀumen werde, so dass die Studie nur einen eingeschrÀnkten Aussagewert hat.
Bisher wurden hier ca. 330.000 BeitrĂ€ge geschrieben. Sofern es EDV-mĂ€Ăig leicht möglich war, wurden die Worte der BeitrĂ€ge von TextbereichsĂŒbernahmen aus den VorbeitrĂ€gen befreit (Textzeilen, die mit einer Spitzklammer nach rechts weisend beginnen). So ergab sich eine Datei, die die Einzelworte aller BeitrĂ€ge in Reihe nach ihrer Erstellung beinhaltet. Satzzeichen und auch Formatierungszeichen wurden nicht erfasst.
Die der Untersuchung zugrunde gelegt DateigröĂe, in der jeder Buchstabe und jedes Leerzeichen zwischen den Buchstaben ein Byte beansprucht (ASCII), betrĂ€gt 290.816.827 Bytes. Genau ein Leerzeichen trennt eine Einheit von der nĂ€chsten Einheit. Alle weiteren Leerzeichen, die in den BeitrĂ€gen enthalten sind, sind nicht gespeichert worden.
Eine Einheit ist eine zusammenhĂ€ngende Zeichenkette druckbarer Zeichen. Es sind damit Worte, AbkĂŒrzungen, Zahlen, Alpha-Numerische AusdrĂŒcke und auch Phantasiewörter mit dem Begriff der Einheit gemeint. Eine Einheit ist auch ein Wort, dass orthographische Fehler aufweist.
Bei der WortzĂ€hlung werden alle Einheiten berĂŒcksichtigt, die aus mindestens zwei zusammenhĂ€ngenden Zeichen bestehen und mit einem Buchstaben des Alphabets beginnen. Die so festgestellten Elemente werden nach dem Alphabet sortiert, egal ob sie ein sinnhaftes Wort darstellen oder nicht. Auch nach Sprache wird nicht unterschieden.
Wörter, die mit einem der Umlaut (Ă Ă- à À ö ĂŒ) beginnen, werden der Abteilung des jeweiligen Grundbuchstaben (A O U) zugeordnet.
Innerhalb des Registers eines Buchstabes, werden die HÀufigkeiten der Zeichenfolge eines jeweiligen Elements gezÀhlt. Jedes Element, das in ein Register aufgenommen wird, wird als Wort gezÀhlt.
Soweit zur allgemeinen Voraussetzungen der WortzĂ€hlung, die vielleicht erahnen lassen, wo die Schwachpunkte des"Testes" liegen (Stichworte: Fehlerworte,"Unsinns"- und Phantasiewörter, Wörter aus unterschiedlichen Sprachen, Worte aus FremdartikelĂŒbernahme bzw. Zitaten).
Neben diesen GrundmĂ€ngeln, ergibt sich noch eine"handwerklicher" Mangel: Das EXCEL-VBA-Programm, das die Arbeit durchfĂŒhren soll, liest und wertet ca, 3.000.000 Bytes pro Stunde aus, also ca. 1% des Gesamten Dateibestandes. Das bedeutet aber, dass der Computer nun ca. 100 Stunden (=100/24 = ca. 5 bis 6 Tage) beschĂ€ftigt ist. Daher hier vorab das erste Zwischenergebnis nach der Auswertung von ca. 3,8% des Gesammtdatenumfanges:
<pre>
Gesamtzahl der Bytes: 290.816.827
gelesene Bytes : 11.030.000
3,79% von 290.816.827
Gesamtanzahl der Wort: 1.676.914
Anzahl der vers. Worte 105.181</pre>
Hieraus ergibt sich eine bisherige DurchschnittswortlÀnge von 5,5 Buchstaben. Der Wortumfang, der bei den bisher erfassten ersten BeitrÀgen erfasst wurde, ist mit 1.676.914 Worten gezÀhlt.
Der ZĂ€hler fĂŒr den Wortschatz der dabei verwendet wurde (einschl. Fehler-/Phanasie- und Fremdsprachen) bleb bei 105.181 Worten stehen.
FĂŒr die weitere Auswertung, die die HĂ€ufigkeit von Worten in den Buchstabengruppen betrifft (die drei rechten Spalten in der nachfolgenden Tabelle), wurden Pronome, PrĂ€positionen, Konjuktionen und Interjektionen von der Wertung ausgeschlossen (ĂŒbrigens, da es vor kurzer Zeit ein Nebenthema hier war: das Persomalpronomen 1.Pers. sg.,"ICH", wurde 23.702 mal eingesetzt; zum Vergleich: die Artikel"DER","DIE" und"DAS" wurden bis hierher je 46.460, 36.104 und 21.040 mal gezĂ€hlt).
[img]" alt="[image]" style="margin: 5px 0px 5px 0px" />
Die"Wortumfangtabelle des Forums":
[img][/img]
Soweit der Stand der Dinge nach der Auswertung der ersten 11 Mill. Bytes, die etwa die ersten 12.500 BeitrÀge (nach Dreisatzauswertung) erfassen. Nun kann der Computer weiter ungestört arbeiten, denn eine Unterbrechung habe ich nicht programmiert.
GruĂ!
P.S.
Bilder können durch Anklicken vergröĂert werden.
P.P.S.
Sofern der Rechner und das Programm ob dieser Art von TĂ€tigkeit nicht streikt, werde ich, falls Interesse, die"Wortschatztabellen", die den Diagrammen zugrunde liegen, am Ende der Auswertung vorstellen.

gesamter Thread: