Julehygge med Benfords lov: En matematisk pudsighed afslører tegn på valgsvindel i Iran - og andre uregelmæssigheder

Klumme: Slidte sider i en logaritmetabel viste sig at være en matematisk finurlighed, som kan afsløre tegn på valgsvindel og andre uregelmæssigheder. Få hele forklaringen her.

Annonce:
Annonce:
Her i december-travlheden er det sundt en gang i mellem, at læne sig tilbage og tage sig tid til at tænke på noget andet end juleforberedelser og alle de ting man skal nå på arbejdet før ferien kan begynde.

Søndag havde jeg et par timer til overs og besluttede mig for at lege lidt med en matematisk pudsighed, som kaldes Benfords lov om talrækker.

Det er glimrende hjernegymnastik og ganske fascinerende, så det vil jeg da lige dele med jer.

Det er lidt snyd, at Benford har fået æren, da fænomenet oprindelig blev opdaget i 1881 af en amerikansk astronom (Simon Newcomb), men fysikeren Frank Benford efterviste den eksperimentelt i 1938, og han blev altså navnefar.

Slidte sider i logaritmetabellen gav ideen
I gamle dage, længe før lommeregneren, havde man logaritmetabeller, og Simon Newcomb konstaterede, at når han skulle slå en logaritme op i tabellen, var de første sider altid mere slidte, end de følgende sider.

Det viser sig, at det kan man faktisk formulere i en lov, der udtrykker sandsynligheden for forekomsten af det første ciffer i hvert element i en talrække.

Talrækken siges at overholde Benford's lov, hvis det første ciffer, $d,~hvor~d\in ~\left\{ 1,2,3,\cdots ,9 \right\}~$opstår med sandsynligheden $P\left( d \right)=lo{{g}_{10}}\left( 1+\frac{1}{d} \right)$

Med andre ord er sandsynligheden for, at første ciffer er 1, cirka 30 pct., 18 pct. for 2 og så videre til kun under 5 pct. for, at det er et 9-tal.

Ikke alle talrækker overholder Benfords lov, da der er nogle forudsætninger:

Det skal for det første være en "naturligt og frit forekommende talrække", og der må ikke være pålagt kunstige maksimum og minimum".

For det andet skal talrækken helst spænde over flere størrelsesordner (der skal mindst være en faktor 1.000 mellem minimum og maksimum).

For det tredje skal talrækken bestå af mange elementer, helst over 1.000.

Underligt, ikke? Lad os prøve at undersøge sagen.

Figur 1: Tallene fra 1 til 100.000 overholder ikke Benfords lov.

Figur 1
Hvis vi nu bare tæller fra 1 til 100.000, så er sandsynligheden for de enkelte cifre naturligvis præcis den samme, og dermed overholder denne talrække ikke Benfords lov. Det er ikke en "naturligt forekommende" talrække.


Figur 2
Hvis vi genererer 100.000 tilfældige tal, alle med det samme antal cifre, så bryder vi den anden regel, og de overholder derfor heller ikke Benfords lov.

Hvis man tænker lidt over det, vil sandsynligheden for forekomsten af første ciffer ved en tilfældig talrække af samme cifferlængde jo også være netop tilfældig og dermed have samme sandsynlighed.

Figur 2: 100.000 tilfældige tal af samme længde har naturligvis den samme sandsynlighed for forekomsten af alle tal i første ciffer.

Så langt, så godt.

Jeg kan lide at leve på kanten, så lad os for en ordens skyld også lige bryde sidste regel.


Figur 3
Nu laver vi en tilfældig talrække med forskellig cifferlængde, men holder antallet af samples nede på 100.

Figur 3: Hvis talrækken er utilstrækkelig lang, vil forekomsten af tal i første ciffer ikke slå konsekvent igennem.

Nu begynder det at ligne noget, men antallet af samples er for lavt til, at reglen slår ordentligt igennem. 


Figur 4
Hvis vi nu øger talrækken til 100.000 elementer mellem 1 og 5 cifre, så rammer vi rimelig tæt på Benford-distributionen.

Figur 4: 100.000 tilfældige tal, 1-5 cifre overholder Benfords lov.

Er det ikke interessant? Det er stadig fuldstændig tilfældige tal (eller så tilfældige som min Matlab-distribution nu kan lave dem).

Hvad kan vi så bruge det til, andet end at lege med Matlab?

Bevares, jeg hænger ofte ud i Matlab - vi har jo alle vores små underligheder. Jo, vi kan prøve at kaste andre talserier fra den virkelige verden efter Benford.


Figur 5
Befolkningen pr. land i verden viser f.eks. en tydelig tendens til at passe på Benford-fordelingen.

Figur 5: Verdens befolkning fordelt på lande viser sig at passe (nogenlunde) på Benford-fordelingen. Der er ikke nok lande i verden til, at regel nr. 3 er tilstrækkeligt overholdt.

Det er jo alt sammen meget sjovt, og det bliver endnu mere interessant, hvis vi kigger på talserier, hvor vi har interesse i rigtigheden. 


Figur 6
Lad os tage folketingsvalget i 2011 og fordele på antal stemmer på hvert parti pr. valgkreds. Det giver en liste på godt 4.000 elementer.

Figur 6: Et folketingsvalg i Danmark overholder Benfords lov. Og det skal vi være glade for, da det antyder, at der ikke er manipuleret med data!

Valgdata giver en næsten perfekt distribution i forhold til Benfords lov, og det kan vi faktisk bruge til at vurdere, om data er manipuleret.

Det forholder sig nemlig sådan, at hvis der havde været manipuleret med valgresultaterne, ville det slå igennem på distributionen af første ciffer i valgdata, og Figur 6 ville tydeligt vise det.


Figur 7
Hvis vi nu tager præsidentvalget i Iran i 2009, hvor der var stor kontrovers og mange beskyldninger om valgsvindel både indenrigs og fra eksterne observatører, og foretager en tilsvarende analyse, viser det en tydelig afvigelse ved tallet 7.

Figur 7: Valgdata fra Iran i 2009 overholder ikke Benfords lov, hvilket er et indicium på manipulerede data. Det er ikke et bevis i sig selv, men absolut et stærkt indicium.

Benfords lov bruges i mange sammenhænge til at vurdere validiteten af data. 

Det er som sagt ikke alle typer data, som kan vurderes med Benford, men f.eks. økonomiske data viser sig at passe godt.

Derfor kan analyser ved hjælp af Benfords lov bruges som indicium på manipulation af f.eks. regnskabsdata i retssager om økonomisk kriminalitet i USA.

Jeg ved ikke, om man kan bruge det i Danmark. Hvis nogen ved det, så skriv endelig i kommentarfeltet!

Forskere har sågar benyttet Benfords lov til at sandsynliggøre, at de makroøkonomiske tal, som Grækenland sendte til EU's statistiske agentur (det skal alle EU lande gøre) før den økonomiske krise, var manipulerede.

Fascinerende, at en lille matematisk finurlighed kan benyttes på så mange måder, ikke sandt?

Nok om Benford, og tilbage til juleforberedelserne.

I ønskes alle en rigtig glædelig jul og et godt nytår.

Annonce:



Ytringer på debatten er afsenders eget ansvar - læs debatreglerne
Indlæser debat...

Computerworld
Den næste iPhone bliver kedelig - men så sker der noget virkelig interessant
ComputerViews: Til næste år sker der noget interessant med iPhonen, og derfor kan iPhone-brugere gøre klogt i at vente med at udskifte den gamle iPhone.
CIO
Sådan fik Johnny Vad reduceret it-nedetiden fra 37.000 timer til næsten nul på et enkelt år
Ved at overvåge it-leverandørernes præstationer røg antallet af spildte arbejdstimer ned fra 37.000 til ganske få timer på et enkelt år. "Det er ganske enkelt og uhyre effektivt," fortæller it-chefen, der fik ideen.
Comon
Stortest af antivirusprogrammer: Microsofts sikkerhedsprogram havner helt i bunden
Microsoft havner helt i bunden af denne antivirustest. I den modsatte ende af skalaen klarer en russisk produceret sikkerhedspakke sig bedst. Læs en sammenlignende test af 19 antivirusprogrammer her.
Channelworld
Microsoft skruer gevaldigt op for dansk udviklingscenter: Hyrer udviklere i bundter
Microsoft ansætter op mod 50 nye udviklere i selskabets største investering på dansk jord siden opkøbet af Navision i 2002.
White paper
Lær at håndtere de mobile enheder
Læs i dette white paper hvordan du behersker "det mobile øjeblik"