Julehygge med Benfords lov: En matematisk pudsighed afslører tegn på valgsvindel i Iran - og andre uregelmæssigheder

Klumme: Slidte sider i en logaritmetabel viste sig at være en matematisk finurlighed, som kan afsløre tegn på valgsvindel og andre uregelmæssigheder. Få hele forklaringen her.

Her i december-travlheden er det sundt en gang i mellem, at læne sig tilbage og tage sig tid til at tænke på noget andet end juleforberedelser og alle de ting man skal nå på arbejdet før ferien kan begynde.

Søndag havde jeg et par timer til overs og besluttede mig for at lege lidt med en matematisk pudsighed, som kaldes Benfords lov om talrækker.

Det er glimrende hjernegymnastik og ganske fascinerende, så det vil jeg da lige dele med jer.

Det er lidt snyd, at Benford har fået æren, da fænomenet oprindelig blev opdaget i 1881 af en amerikansk astronom (Simon Newcomb), men fysikeren Frank Benford efterviste den eksperimentelt i 1938, og han blev altså navnefar.

Slidte sider i logaritmetabellen gav ideen
I gamle dage, længe før lommeregneren, havde man logaritmetabeller, og Simon Newcomb konstaterede, at når han skulle slå en logaritme op i tabellen, var de første sider altid mere slidte, end de følgende sider.

Det viser sig, at det kan man faktisk formulere i en lov, der udtrykker sandsynligheden for forekomsten af det første ciffer i hvert element i en talrække.

Talrækken siges at overholde Benford's lov, hvis det første ciffer, $d,~hvor~d\in ~\left\{ 1,2,3,\cdots ,9 \right\}~$opstår med sandsynligheden $P\left( d \right)=lo{{g}_{10}}\left( 1+\frac{1}{d} \right)$

Med andre ord er sandsynligheden for, at første ciffer er 1, cirka 30 pct., 18 pct. for 2 og så videre til kun under 5 pct. for, at det er et 9-tal.

Ikke alle talrækker overholder Benfords lov, da der er nogle forudsætninger:

Det skal for det første være en "naturligt og frit forekommende talrække", og der må ikke være pålagt kunstige maksimum og minimum".

For det andet skal talrækken helst spænde over flere størrelsesordner (der skal mindst være en faktor 1.000 mellem minimum og maksimum).

For det tredje skal talrækken bestå af mange elementer, helst over 1.000.

Underligt, ikke? Lad os prøve at undersøge sagen.

Figur 1
Hvis vi nu bare tæller fra 1 til 100.000, så er sandsynligheden for de enkelte cifre naturligvis præcis den samme, og dermed overholder denne talrække ikke Benfords lov. Det er ikke en "naturligt forekommende" talrække.


Figur 2
Hvis vi genererer 100.000 tilfældige tal, alle med det samme antal cifre, så bryder vi den anden regel, og de overholder derfor heller ikke Benfords lov.

Hvis man tænker lidt over det, vil sandsynligheden for forekomsten af første ciffer ved en tilfældig talrække af samme cifferlængde jo også være netop tilfældig og dermed have samme sandsynlighed.

Så langt, så godt.

Jeg kan lide at leve på kanten, så lad os for en ordens skyld også lige bryde sidste regel.


Figur 3
Nu laver vi en tilfældig talrække med forskellig cifferlængde, men holder antallet af samples nede på 100.

Nu begynder det at ligne noget, men antallet af samples er for lavt til, at reglen slår ordentligt igennem. 


Figur 4
Hvis vi nu øger talrækken til 100.000 elementer mellem 1 og 5 cifre, så rammer vi rimelig tæt på Benford-distributionen.

Er det ikke interessant? Det er stadig fuldstændig tilfældige tal (eller så tilfældige som min Matlab-distribution nu kan lave dem).

Hvad kan vi så bruge det til, andet end at lege med Matlab?

Bevares, jeg hænger ofte ud i Matlab - vi har jo alle vores små underligheder. Jo, vi kan prøve at kaste andre talserier fra den virkelige verden efter Benford.


Figur 5
Befolkningen pr. land i verden viser f.eks. en tydelig tendens til at passe på Benford-fordelingen.

Det er jo alt sammen meget sjovt, og det bliver endnu mere interessant, hvis vi kigger på talserier, hvor vi har interesse i rigtigheden. 


Figur 6
Lad os tage folketingsvalget i 2011 og fordele på antal stemmer på hvert parti pr. valgkreds. Det giver en liste på godt 4.000 elementer.

Valgdata giver en næsten perfekt distribution i forhold til Benfords lov, og det kan vi faktisk bruge til at vurdere, om data er manipuleret.

Det forholder sig nemlig sådan, at hvis der havde været manipuleret med valgresultaterne, ville det slå igennem på distributionen af første ciffer i valgdata, og Figur 6 ville tydeligt vise det.


Figur 7
Hvis vi nu tager præsidentvalget i Iran i 2009, hvor der var stor kontrovers og mange beskyldninger om valgsvindel både indenrigs og fra eksterne observatører, og foretager en tilsvarende analyse, viser det en tydelig afvigelse ved tallet 7.

Benfords lov bruges i mange sammenhænge til at vurdere validiteten af data. 

Det er som sagt ikke alle typer data, som kan vurderes med Benford, men f.eks. økonomiske data viser sig at passe godt.

Derfor kan analyser ved hjælp af Benfords lov bruges som indicium på manipulation af f.eks. regnskabsdata i retssager om økonomisk kriminalitet i USA.

Jeg ved ikke, om man kan bruge det i Danmark. Hvis nogen ved det, så skriv endelig i kommentarfeltet!

Forskere har sågar benyttet Benfords lov til at sandsynliggøre, at de makroøkonomiske tal, som Grækenland sendte til EU's statistiske agentur (det skal alle EU lande gøre) før den økonomiske krise, var manipulerede.

Fascinerende, at en lille matematisk finurlighed kan benyttes på så mange måder, ikke sandt?

Nok om Benford, og tilbage til juleforberedelserne.

I ønskes alle en rigtig glædelig jul og et godt nytår.


Ytringer på debatten er afsenders eget ansvar - læs debatreglerne
Indlæser debat...

CIO
Skandalerne i Skat er en urimelig sejr for de digitaliserings-modvillige
Klumme: Skandalerne i Skat er en vigtig sejr for dem, som ikke tror på digitalisering af den offentlige sektor. Og Skats problemer bliver ikke løst af organisationsændringer.
Comon
25.000 danskere gået i kuponsvindel-fælde på Facebook på blot seks timer: "Det spredte sig som en steppebrand"
Fakta, Netto, Aldi, Lidl, Lego og flere andre varemærker bliver lige nu udnyttet i forbindelse med kuponsvindel på Facebook, og danskerne klikker i hobetal. Læs hvad der sker, hvis du klikker.
Channelworld
Dansk hosting-direktør: På disse tre områder banker danske hosting-firmaer Microsoft og Amazon af banen
Den danske hostingbranche er godt polstret til at modstå konkurrencen fra globale cloud-spillere som Amazon og Microsoft. Her er tre grunde til, at danske hostingudbydere ikke blæser omkuld i konkurrencen.
White paper
Kør digitalt med the Internet of Things
Digitalisering er skabt for kunderne. Den eneste grund til at teknologi er afgørende i den digitale udvikling, er at kundernes præferencer og adfærd, mere end nogensinde før, er drivkraften bag virksomhedernes teknologiske valg. Bliv klogere på digitalisering i dette white paper.