Uwe
13.08.2005, 00:36 |
OT (statistisches zum Forum): Wenn man denn nichts anderes zu tun hat,.... Thread gesperrt |
-->... dann kann man dann wohl auch auf solche Ideen kommen, wie man denn dann wenigsten einen Computer beschäftigen könnte.
Das Ergebnis ist eine Art vereinfachter"Pisa-Test" des Forums. Die Auswertung am"Wortschatz" des Forums gemessen.
Nun ergeben sich leider dabei ein paar Probleme, die ich nicht ausräumen werde, so dass die Studie nur einen eingeschränkten Aussagewert hat.
Bisher wurden hier ca. 330.000 Beiträge geschrieben. Sofern es EDV-mäßig leicht möglich war, wurden die Worte der Beiträge von Textbereichsübernahmen aus den Vorbeiträgen befreit (Textzeilen, die mit einer Spitzklammer nach rechts weisend beginnen). So ergab sich eine Datei, die die Einzelworte aller Beiträge in Reihe nach ihrer Erstellung beinhaltet. Satzzeichen und auch Formatierungszeichen wurden nicht erfasst.
Die der Untersuchung zugrunde gelegt Dateigröße, in der jeder Buchstabe und jedes Leerzeichen zwischen den Buchstaben ein Byte beansprucht (ASCII), beträgt 290.816.827 Bytes. Genau ein Leerzeichen trennt eine Einheit von der nächsten Einheit. Alle weiteren Leerzeichen, die in den Beiträgen enthalten sind, sind nicht gespeichert worden.
Eine Einheit ist eine zusammenhängende Zeichenkette druckbarer Zeichen. Es sind damit Worte, Abkürzungen, Zahlen, Alpha-Numerische Ausdrücke und auch Phantasiewörter mit dem Begriff der Einheit gemeint. Eine Einheit ist auch ein Wort, dass orthographische Fehler aufweist.
Bei der Wortzählung werden alle Einheiten berücksichtigt, die aus mindestens zwei zusammenhängenden Zeichen bestehen und mit einem Buchstaben des Alphabets beginnen. Die so festgestellten Elemente werden nach dem Alphabet sortiert, egal ob sie ein sinnhaftes Wort darstellen oder nicht. Auch nach Sprache wird nicht unterschieden.
Wörter, die mit einem der Umlaut (Ä Ã- Ü ä ö ü) beginnen, werden der Abteilung des jeweiligen Grundbuchstaben (A O U) zugeordnet.
Innerhalb des Registers eines Buchstabes, werden die Häufigkeiten der Zeichenfolge eines jeweiligen Elements gezählt. Jedes Element, das in ein Register aufgenommen wird, wird als Wort gezählt.
Soweit zur allgemeinen Voraussetzungen der Wortzählung, die vielleicht erahnen lassen, wo die Schwachpunkte des"Testes" liegen (Stichworte: Fehlerworte,"Unsinns"- und Phantasiewörter, Wörter aus unterschiedlichen Sprachen, Worte aus Fremdartikelübernahme bzw. Zitaten).
Neben diesen Grundmängeln, ergibt sich noch eine"handwerklicher" Mangel: Das EXCEL-VBA-Programm, das die Arbeit durchführen soll, liest und wertet ca, 3.000.000 Bytes pro Stunde aus, also ca. 1% des Gesamten Dateibestandes. Das bedeutet aber, dass der Computer nun ca. 100 Stunden (=100/24 = ca. 5 bis 6 Tage) beschäftigt ist. Daher hier vorab das erste Zwischenergebnis nach der Auswertung von ca. 3,8% des Gesammtdatenumfanges:
<pre>
Gesamtzahl der Bytes: 290.816.827
gelesene Bytes : 11.030.000
3,79% von 290.816.827
Gesamtanzahl der Wort: 1.676.914
Anzahl der vers. Worte 105.181</pre>
Hieraus ergibt sich eine bisherige Durchschnittswortlänge von 5,5 Buchstaben. Der Wortumfang, der bei den bisher erfassten ersten Beiträgen erfasst wurde, ist mit 1.676.914 Worten gezählt.
Der Zähler für den Wortschatz der dabei verwendet wurde (einschl. Fehler-/Phanasie- und Fremdsprachen) bleb bei 105.181 Worten stehen.
Für die weitere Auswertung, die die Häufigkeit von Worten in den Buchstabengruppen betrifft (die drei rechten Spalten in der nachfolgenden Tabelle), wurden Pronome, Präpositionen, Konjuktionen und Interjektionen von der Wertung ausgeschlossen (übrigens, da es vor kurzer Zeit ein Nebenthema hier war: das Persomalpronomen 1.Pers. sg.,"ICH", wurde 23.702 mal eingesetzt; zum Vergleich: die Artikel"DER","DIE" und"DAS" wurden bis hierher je 46.460, 36.104 und 21.040 mal gezählt).
[img]" alt="[image]" style="margin: 5px 0px 5px 0px" />
Die"Wortumfangtabelle des Forums":
[img][/img]
Soweit der Stand der Dinge nach der Auswertung der ersten 11 Mill. Bytes, die etwa die ersten 12.500 Beiträge (nach Dreisatzauswertung) erfassen. Nun kann der Computer weiter ungestört arbeiten, denn eine Unterbrechung habe ich nicht programmiert.
Gruß!
P.S.
Bilder können durch Anklicken vergrößert werden.
P.P.S.
Sofern der Rechner und das Programm ob dieser Art von Tätigkeit nicht streikt, werde ich, falls Interesse, die"Wortschatztabellen", die den Diagrammen zugrunde liegen, am Ende der Auswertung vorstellen.
|
Gundel
13.08.2005, 10:13
@ Uwe
|
Kleine Statistik zwecks etwaiger Gegenrechnung ;-) |
-->Hallo Uwe,
hab mal zu diesem Behufe mal die Suchmaschine des Forums bemüht. Die durchsucht aber nicht immer das ganze Forum, sondern listet nur noch maximal 1000 mal den Suchbegriff unter den neueren Postings auf jeweils auf max 40 Seiten. Das ließe sich dann aber hochrechnen..
Auf die Schnelle und für den Anfang habe ich mal folgende Worte gecheckt:
Unternehmen: 1000 x (bis 15.11.2004)
USA: 1000 x (bis 23.4.05)
Usrael: 163 x
Israel: 1000 x (bis 15.2.04
Spiegel: 1000 x (bis 30.8.2004)
Euklid: 1000 x (bis 9.2.2005) Schulden: 1000 x (bis 23.11.2004)
Angie: 698 x
Bundeskanzler: 1000 x (bis 30.8.2002)
Bundeskasper: 5 x
Kasperltheater: 70 x
Demokratie: 1000 x (bis 17.12.3003)
Demokrattie: 28 x
Kommunisten: 894 x
Kommunismus: 1000 x (bis 4.10.2001)
Wiedervereinigung: 568 x
Wessi: 201 x
Ossi: 1000 x (bis 17.12.03)
Oskar: 323 x
Usw. Wie Du richtig sagst: wenn man ich anderes zu tun hat. Ich habe jetzt aber... ;-)
Gruss von Gundel
|
Elli (Boardmaster)--
13.08.2005, 12:48
@ Uwe
|
Re: OT (statistisches zum Forum): WOW..... |
-->Das häufigste W-Wort: Welle. Schön ;-)
-
-
[img][/img]
-
-
P.S.: Bitte die Endauswertung bekanntgeben, kommt in die Autoren-Sammlung.
|
Uwe
15.08.2005, 00:34
@ Gundel
|
Re: Kleine Statistik zwecks etwaiger Gegenrechnung ;-) |
-->Danke für das Gegenrechen, Gundel,
das für mich - zeitlich gesehen - eher ein Vorrechnen ist, da ich - gemeint ist natürlich das Programm; wer übernimmt schon gern Verantwortung für die Trägheit"anderer"? ;) - erst bei den Beiträgen aus November 2001 bin bzw. ist.
Allerdings kann ich nicht nachvollziehen, wie Deine Zählung für"Kommunismus" bis zum 4.10. 2001 auf 1000 Einträge gekommen ist, wo ich doch gerade einmal auf 17 (siebzehn!) Stück kommen. Kann es sein, dass Du den Zeitraum ab 4.10.2001 bis heute meinst?
Jedoch werde ich wohl Gelegenheit haben, mein Zählsystem nochmals modifizieren zu können, da mein Ansatz, alles in einem Zug zu erledigen (Daten lesen, sortieren und Häufigkeit zählen), zwar einfach gedacht ist, aber nicht berücksichtigt, dass es Datentypen-Grenzen gibt, die, wenn sie im Vorfeld nicht korrekt festgelegt werden, standardmäßig an Grenzen stoßen (Überlauf).
Derzeit ist nach zwei"Computer-Arbeitstagen" ein Volumen von 20% der zu untersuchenden Bytes erledigt. Dabei ergeben sich bereist annähernd 30.000 Worte für den Wortschatz, die mit dem Buchstaben"S" beginnen. Datentypmäßg wird die"funktionsfähigkeit" des Programms sich bei 32.768 entscheiden, da ich an einer Stelle nicht sauber deklariert habe.
Es zeigt sich allerdings bereits, dass sich die Wortschatzverteilung auf die Buchstabengruppe annähernd mir der Wortschatzverteilung des Dudens deckt.
<pre> Verteilung im
Duden Forum
A 7,24% 7,98%
B 5,38% 6,48%
C 1,64% 2,64%
D 4,92% 4,94%
E 4,51% 5,56%
F 3,49% 4,21%
G 4,36% 6,42%
H 4,12% 4,38%
I 2,38% 2,44%
J 0,85% 1,22%
K 7,20% 4,77%
L 3,27% 2,89%
M 5,50% 4,96%
N 2,60% 2,81%
O 1,68% 1,66%
P 6,87% 4,22%
Q 0,49% 0,27%
R 4,23% 4,03%
S 11,99% 9,66%
T 4,04% 3,57%
U 3,46% 3,77%
V 3,90% 4,20%
W 2,95% 4,11%
X 0,06% 0,08%
Y 0,11% 0,15%
Z 2,76% 2,57%</pre>
Die Wortverteilung nach dem Duden (1996) wurde grob ermittelt, indem die Anzahl der Seiten - unter Berücksichtigung der"Teilseiten" -, die für die einzelnen Buchstaben gebraucht werden.
[img]" alt="[image]" style="margin: 5px 0px 5px 0px" />
Die"Wortschatztabelle des Forums" (Zwischenstand):
[img]" alt="[image]" style="margin: 5px 0px 5px 0px" />
So, nun hoffe ich, dass Du, Gundel, als verläßliche Gegenrechnerin hier nicht ausfallen möchtest.
Gruß,
Uwe
|
nereus
15.08.2005, 08:18
@ Uwe
|
Re: Kleine Statistik zwecks etwaiger Gegenrechnung ;-) - Uwe |
-->Hallo Uwe!
Danke für Deine interessante Forumsstatistik.
Ich glaube an die Zahlen des Dudens und auch an Deine Redlichkeit. [img][/img]
Allerdings überrascht mich die Häufigkeit oder besser Seltenheit des Buchstabens C .
Rein gefühlsmäßig ist dieser Konsonant am Wortanfang sicherlich selten, aber durch die Zeichenketten ch und sch hätte ich diesen Buchstaben deutlich öfter erwartet.
Da kann mal sehen, wie das mit dem Gefühl so ist.
Oder hattest Du Deine Auswertung nur auf das erste Zeichen eines Wortes bezogen?
Du schriebst nämlich einleitend: Dabei ergeben sich bereits annähernd 30.000 Worte für den Wortschatz, die mit dem Buchstaben"S" beginnen.
In diesem Fall wären Bauch und Statistik wieder im Lot.
mfG
nereus
|
Uwe
15.08.2005, 10:04
@ nereus
|
Re: @nereus: Zur Justierung des Bauchgefühls... |
-->Guten Tag, Nereus!
>nereus: [i]Danke für Deine interessante Forumsstatistik.[/i]
Deinen Dank werde ich mir mit dem"Ausführenden" natürlich entsprechend der jewieligen Einsatzleitung teilen.
>nereus: [i]Ich glaube an die Zahlen des Dudens und auch an Deine Redlichkeit.
>nereus: [i]Allerdings überrascht mich die Häufigkeit oder besser Seltenheit des Buchstabens C [/i].
>Rein gefühlsmäßig ist dieser Konsonant am Wortanfang sicherlich selten, aber durch die Zeichenketten [/i] ch [/i] und [/i] sch [/i] hätte ich diesen Buchstaben deutlich öfter erwartet.[/i][/i]
Nereus, Du gibst Dir die Antwort bereits selber richtig, denn sortiert wird nur nach dem Anfangsbuchstaben.
Gut, es kann natürlich auch sein, dass ich - und bestimmt so ein paar andere Mitschreiber - besonders wenige Worte mit dem"C" am Wortanfang falsch schreiben, wodurch die Anzahl der"Wort-Kreationen" in dieser Buchstabengruppe sich verringern, doch bei der Vielzahl der bisher gezählten Worte, dürfte diese Verfälschung, nämlich die, dass ich besonders viele"Wortschöpfungen" in anderen Buchstabengruppen hervorbringe, nicht von bedeutung sein.
Nun hoffe ich, dass ich für Dein leibliches Wohlbefinden, speziell das in der Bauchgegend, ausreichend viel Informationen Dir zur Verfügung stellen konnte.
Gruß,
Uwe
|
nereus
15.08.2005, 12:46
@ Uwe
|
Re: @nereus: Zur Justierung des Bauchgefühls... - Uwe, Danke (o.Text) |
-->
|
Histrio
16.08.2005, 05:02
@ Uwe
|
Die Kommunisten verderben den Schnitt ;-) |
-->Hallo Uwe,
ein interessantes Thema. Ich bekam auch 1000 x"Kommunismus" angezeigt, und zwar den ältesten Beitrag am 20.10.2001 und den jüngsten am 15.8.05
Durch diesen Eintrag würde sich das Ergebnis erneut um eine Stelle verschieben.
Das Problem liegt u.U. darin, dass Du das Feld sozusagen von hinten aufrollst und die Parsimony-Suchmaschine von vorn. Es wird sich aber erledigt haben, wenn Dein Rechner fertig ist mit Rechnen. (Sag mal, der muss inzwischen doch völlig erschöpft und schweissgebadet sein ;-))
Eine Gegenrechnung wäre auch insofern möglich, als man weniger oft gebrauchte Begriffe auswählt und die in der Beziehung ihrer Häufigkeit zueinander betrachtet. Da die Suchmaschine aber nicht zwischen Einzel- und Mehrfach-Postings.unterscheidet, sollte sie - logisch - mehr Begriffe finden, als Du in der bereinigten Form.
Praktische Beispiele:
Xerox (Uwe 60) Parsimony 157
Xetra (Uwe 121) Parsimony 296
Beiträgen (Uwe 248) Parsimony 1000 bis 20.4.01) (Beginn des Forums war 2000, also schätzen wir mal großzügig 50 zu)
Counts (Uwe 402) Parsimony1000 bis 20.5.2001 (dito)
Xau (Uwe 310) Parsimony1000 bis 8.4.2001 (dito)
Stand der Auswertungen bei Dir 20%, bei Parsimony 100%
Du siehst also, dass diese wenigen Werte dennoch durchaus in einem annähernd korrekten Verhältnis zueinander stehen, mit deinen Werten verglichen.
Dass Du allerdings nur 17 x Kommunismus gefunden hast (statistisch wären das 85 bei einer 100prozentigen Auswertung), wundert mich ein wenig.
Vielleicht kommt die Kommunistenmasse erst bei den jüngeren Daten ans Tageslicht. Entspräche ja auch der Realität. Man wird sehen...
Würde mich sehr interesieren, was das für ein Ende nimmt.
Grüße von Histrio, mit [img][/img] für Deine Arbeit
Jetzt aber endlich gute Nacht, gähn.
|