Archive

Posts Tagged ‘Suchmaschinen’

“Das NBL beruht auf der Gleichverteilung der Mantissen der Logarithmen der Zahlenwerte des Datensatzes”

June 18th, 2009 No comments

Heise hat gestern einen Artikel veröffentlicht, in dem von Wahlfälschungen bei der Iranischen Wahl die Rede ist (gefällt mir; andere sprechen immer schön euphemistisch von “Unregelmäßigkeiten”). Diese werden begründet durch statistische Analysen mittels des Newcomb-Benford’s Law (NBL). Dieses Gesetz finde ich hochinteressant, ist allerdings länger her, dass ich mir das angeschaut hatte. Was ist zu tun in diesem Fall? -> ganz klar, Wikipedia aufrufen. Entgegen meiner Gewohnheit habe ich die deutsche Wikipedia genutzt. Folgendermaßen wird das NBL erklärt:

Das NBL besagt, dass die Auftretenswahrscheinlichkeiten der Ziffernsequenzen in den Zahlen von realen Datensätzen (damit sind hier solche gemeint, die keinen Manipulationen unterlagen) genügend umfangreich sind und Zahlen in der Größenordnung von x bis mindestens 10000 x aufweisen. Daten also, welche einigermaßen weit verteilt (dispergiert sind), nicht gleichverteilt sind, sondern logarithmischen Gesetzen folgen. Das bedeutet, dass die Auftretenswahrscheinlichkeit einer Ziffernsequenz umso höher ist, je kleiner sie wertmäßig ist und je weiter links sie in der Zahl beginnt. Am häufigsten ist die Anfangssequenz ‚1‘ mit theoretisch 30,103 %. Das NBL beruht auf der Gleichverteilung der Mantissen der Logarithmen der Zahlenwerte des Datensatzes. Der Grund für das erstaunlich häufige Gelten des NBL liegt an dem Umstand, dass viele reale Datensätze log-normalverteilt sind, nicht also die Häufigkeiten der Daten selbst, sondern die Häufigkeiten der Logarithmen dieser Daten einer Normalverteilung folgen. Bei genügend breiter Dispersion der normalverteilten Logarithmen (wenn die Standardabweichung größer/gleich etwa 0.74 ist) kommt es dazu, dass die Mantissen der Logarithmen stabil einer Gleichverteilung folgen. Ist die Standardabweichung allerdings kleiner, sind auch die Mantissen normalverteilt, und das NBL gilt nicht mehr, zumindest nicht mehr in der dargestellten einfachen Form. Ist die Standardabweichung kleiner als 0.74, kommt es zu dem in der Statistik nicht allzu häufigen Effekt, dass sogar der jeweilige Mittelwert der Normalverteilung der Logarithmen die Auftretenshäufigkeit der Ziffernsequenzen beeinflusst. Geht man einerseits vom NBL in der heutigen Form aus, so existieren zahlreiche Datensätze, die dem NBL nicht genügen. Andererseits gibt es bereits eine Formulierung des NBL in der Form, dass ihm sämtliche Datensätze genügen. Die Formulierung des „allgemeinen NBL“ ist wesentlich komplexer und enthält die bekannte Form des NBL als Grenzverteilung. Ihre Darstellung würde den Rahmen dieser Seite sprengen.

Das Benfordsche Gesetz gilt insbesondere für Zahlenmaterial, das natürlichen Wachstumsprozessen unterliegt. Dann nämlich verändern sich die Zahlen im Laufe der Zeit und verzehnfachen sich. Die erste Position der Mantisse verharrt für ca. 30% der Zeit auf der 1, 18% der Zeit auf der 2 usw: Das entspricht der logarithmischen Verteilung, die das benfordsche Gesetz vorhersagt und ist unabhängig von der Zeit in der eine Verzehnfachung erfolgt. Dann beginnt der Zyklus von Neuem bei der 1. Bei einer Momentaufnahme der Preise eines Supermaktes, wird man genau diese Verteilung finden, egal wann die Erhebung durchgeführt wird.

Quelle: http://de.wikipedia.org/wiki/Benfordsches_Gesetz (Autoren und Lizenz auf der Seite)

WTF?! Ich möchte mal wissen, wer das kapieren soll, der das Gesetz nicht schon kennt oder Mathematik studiert. Nun ist die englische Wikipedia in diesem Fall auch nicht viel einfacher zu verstehen, aber folgender Absatz war doch hilfreich:

A simple example may help clarify how this works. To say that a quantity is “growing exponentially” is just another way of saying that its doubling time is constant. If the quantity takes a year to double, then after one more year, it has doubled again. Thus it will be four times its original value at the end of the second year, eight times its original value at the end of the third year, and so on. Suppose we start the timer when a quantity that is doubling every year has reached the value of 100. Its value will have a leading digit of 1 for the entire first year. During the second year, its value will have a leading digit of 2 for a little over seven months, and 3 for the remaining five. During the third year, the leading digit will pass through 4, 5, 6, and 7, spending less and less time with each succeeding digit. Fairly early in the fourth year, the leading digits will pass through 8 and 9. Then the quantity’s value will have reached 1000, and the process starts again. From this example, it’s easy to see that if you sampled the quantity’s value at random times throughout those years, you’re more likely to have measured it when the value of its leading digit was 1, and successively less likely to have measured it when the value was moving through increasingly higher leading digits.

This example makes it plausible that data tables that involve measurements of exponentially growing quantities will agree with Benford’s Law. But the Law also appears to hold for many cases where an exponential growth pattern is not obvious.
Quelle: http://en.wikipedia.org/wiki/Benford%27s_law (Autoren und Lizenzen auf der Webseite)

Im Prinzip geht es also darum, dass bei konstanter Verdopplungszeit der Sprung von 1 auf 2 genauso lange braucht wie von 2 nach 4, so dass etwa die 3 kürzer bzw. seltener aufzutreffen ist als die 1,5 (weil im ersten Fall in der gleichen Zeit nur halb so viele Werte zu durchlaufen sind wie von 2 nach 4 oder ein Viertel von 4 bis 8). Geht doch. Die “Gleichverteilung der Mantissen der Logarithmen der Zahlenwerte des Datensatzes” geht mir in diesem Fall sonstwo vorbei. Dieser Satz taugt zwar zur Erheiterung, aber nicht zur Erklärung.

Deutsch ist meine Muttersprache. Auch wenn mein Englisch sicherlich verhältnismäßig gut ist, so wird es bei vielen Sachen vermutlich immer einfacher sein, mich in Deutsch auszudrücken. Dennoch ist es so, dass ich Computerrelevantes seit langem fast ausschließlich in Englisch mache. Ein paar weitere Beispiele:

  • Mein Betriebssystem (Ubuntu) ist auf Englisch eingestellt. Der Grund ist einfach: Wie mit jeder großen Software gibt es Probleme, die gelöst werden müssen. Die deutsche Community um Ubuntu ist recht groß, aber das offizielle Forum und vor allem Bug-Reports sind auf englisch. Um ein Problem zu beheben kommt man deswegen mit den englischen Originalbegriffen deutlich schneller ans Ziel. Davon abgesehen finde ich die englischen Bezeichnungen oft eingängiger.
  • In Google suche ich mittlerweile nur noch auf Englisch; hier ist der Wechsel anfangs sicherlich schwieriger, weil man sich halbwegs sicher mit den passenden Begriffen sein muss. Wenn man aber erstmal so weit ist, dass die Suchbegriffe ähnlich gut wie im Deutschen sind, kommt schon alleine ein quantitativer Sprung hinzu: Es gibt einfach wesentlich mehr im Englischen zu finden als im Deutschen.

Letzter Punkt ist im Prinzip wesentlich dafür, dass Recherchen im Internet i.d.R. im Englischen bessere Ergebnisse erbringen; viele Menschen schreiben und unterhalten sich in ihrer Muttersprache und in Englisch (s. diese Blog), so dass Englisch, auch als internationale Sprache, wesentlich stärker vertreten ist als eine einzelne andere Sprache. Die Qualität des Geschriebenen ist dadurch im Schnitt nicht besser als in Sprachen, in denen weniger veröffentlicht wird (s. wieder dieses Blog 😉 ), aber ein anderer Effekt tritt auf: Suchmaschinen wie Google mit ihrem PageRank-Algorithmus sind mittlerweile einigermaßen gut dazu in der Lage, die besten Suchergebnisse zu finden und entsprechend zu platzieren, so dass die ebenfalls große Menge schlechter Suchergebnisse nicht dargestellt wird.

Durch diesen Ansatz wirkt sich letztlich Quantität auch positiv auf die Qualität aus, da schlechte Beiträge in den Nirwanas der Suchmaschinenfilter verschwinden. Ein weiterer Grund, die englische Grundbildung in unserer Gesellschaft wesentlich stärker zu betonen, als es momentan der Fall ist.

(gefällt mir; andere sprechen immer schön euphemistisch von “Unregelmäßigkeiten”)