Computerworld i mobilproblemerEn række artikler bliver pt. ikke vist på tablets og telefoner. Vi arbejder på det.

Julehygge med Benfords lov: En matematisk pudsighed afslører tegn på valgsvindel i Iran - og andre uregelmæssigheder

Klumme: Slidte sider i en logaritmetabel viste sig at være en matematisk finurlighed, som kan afsløre tegn på valgsvindel og andre uregelmæssigheder. Få hele forklaringen her.

Her i december-travlheden er det sundt en gang i mellem, at læne sig tilbage og tage sig tid til at tænke på noget andet end juleforberedelser og alle de ting man skal nå på arbejdet før ferien kan begynde.

Søndag havde jeg et par timer til overs og besluttede mig for at lege lidt med en matematisk pudsighed, som kaldes Benfords lov om talrækker.

Det er glimrende hjernegymnastik og ganske fascinerende, så det vil jeg da lige dele med jer.

Det er lidt snyd, at Benford har fået æren, da fænomenet oprindelig blev opdaget i 1881 af en amerikansk astronom (Simon Newcomb), men fysikeren Frank Benford efterviste den eksperimentelt i 1938, og han blev altså navnefar.

Slidte sider i logaritmetabellen gav ideen
I gamle dage, længe før lommeregneren, havde man logaritmetabeller, og Simon Newcomb konstaterede, at når han skulle slå en logaritme op i tabellen, var de første sider altid mere slidte, end de følgende sider.

Det viser sig, at det kan man faktisk formulere i en lov, der udtrykker sandsynligheden for forekomsten af det første ciffer i hvert element i en talrække.

Talrækken siges at overholde Benford's lov, hvis det første ciffer, $d,~hvor~d\in ~\left\{ 1,2,3,\cdots ,9 \right\}~$opstår med sandsynligheden $P\left( d \right)=lo{{g}_{10}}\left( 1+\frac{1}{d} \right)$

Med andre ord er sandsynligheden for, at første ciffer er 1, cirka 30 pct., 18 pct. for 2 og så videre til kun under 5 pct. for, at det er et 9-tal.

Ikke alle talrækker overholder Benfords lov, da der er nogle forudsætninger:

Det skal for det første være en "naturligt og frit forekommende talrække", og der må ikke være pålagt kunstige maksimum og minimum".

For det andet skal talrækken helst spænde over flere størrelsesordner (der skal mindst være en faktor 1.000 mellem minimum og maksimum).

For det tredje skal talrækken bestå af mange elementer, helst over 1.000.

Underligt, ikke? Lad os prøve at undersøge sagen.

Figur 1
Hvis vi nu bare tæller fra 1 til 100.000, så er sandsynligheden for de enkelte cifre naturligvis præcis den samme, og dermed overholder denne talrække ikke Benfords lov. Det er ikke en "naturligt forekommende" talrække.


Figur 2
Hvis vi genererer 100.000 tilfældige tal, alle med det samme antal cifre, så bryder vi den anden regel, og de overholder derfor heller ikke Benfords lov.

Hvis man tænker lidt over det, vil sandsynligheden for forekomsten af første ciffer ved en tilfældig talrække af samme cifferlængde jo også være netop tilfældig og dermed have samme sandsynlighed.

Så langt, så godt.

Jeg kan lide at leve på kanten, så lad os for en ordens skyld også lige bryde sidste regel.


Figur 3
Nu laver vi en tilfældig talrække med forskellig cifferlængde, men holder antallet af samples nede på 100.

Nu begynder det at ligne noget, men antallet af samples er for lavt til, at reglen slår ordentligt igennem. 


Figur 4
Hvis vi nu øger talrækken til 100.000 elementer mellem 1 og 5 cifre, så rammer vi rimelig tæt på Benford-distributionen.

Er det ikke interessant? Det er stadig fuldstændig tilfældige tal (eller så tilfældige som min Matlab-distribution nu kan lave dem).

Hvad kan vi så bruge det til, andet end at lege med Matlab?

Bevares, jeg hænger ofte ud i Matlab - vi har jo alle vores små underligheder. Jo, vi kan prøve at kaste andre talserier fra den virkelige verden efter Benford.


Figur 5
Befolkningen pr. land i verden viser f.eks. en tydelig tendens til at passe på Benford-fordelingen.

Det er jo alt sammen meget sjovt, og det bliver endnu mere interessant, hvis vi kigger på talserier, hvor vi har interesse i rigtigheden. 


Figur 6
Lad os tage folketingsvalget i 2011 og fordele på antal stemmer på hvert parti pr. valgkreds. Det giver en liste på godt 4.000 elementer.

Valgdata giver en næsten perfekt distribution i forhold til Benfords lov, og det kan vi faktisk bruge til at vurdere, om data er manipuleret.

Det forholder sig nemlig sådan, at hvis der havde været manipuleret med valgresultaterne, ville det slå igennem på distributionen af første ciffer i valgdata, og Figur 6 ville tydeligt vise det.


Figur 7
Hvis vi nu tager præsidentvalget i Iran i 2009, hvor der var stor kontrovers og mange beskyldninger om valgsvindel både indenrigs og fra eksterne observatører, og foretager en tilsvarende analyse, viser det en tydelig afvigelse ved tallet 7.

Benfords lov bruges i mange sammenhænge til at vurdere validiteten af data. 

Det er som sagt ikke alle typer data, som kan vurderes med Benford, men f.eks. økonomiske data viser sig at passe godt.

Derfor kan analyser ved hjælp af Benfords lov bruges som indicium på manipulation af f.eks. regnskabsdata i retssager om økonomisk kriminalitet i USA.

Jeg ved ikke, om man kan bruge det i Danmark. Hvis nogen ved det, så skriv endelig i kommentarfeltet!

Forskere har sågar benyttet Benfords lov til at sandsynliggøre, at de makroøkonomiske tal, som Grækenland sendte til EU's statistiske agentur (det skal alle EU lande gøre) før den økonomiske krise, var manipulerede.

Fascinerende, at en lille matematisk finurlighed kan benyttes på så mange måder, ikke sandt?

Nok om Benford, og tilbage til juleforberedelserne.

I ønskes alle en rigtig glædelig jul og et godt nytår.


Ytringer på debatten er afsenders eget ansvar - læs debatreglerne
Indlæser debat...

Computerworld
Kæmpeopdatering af Windows 10 i næste uge: Disse nye features og ændringer på vej
Microsoft udsender i næste uge en stor opdatering af Windows 10 under navnet 'Anniversary Update,' som kommer til at indeholde flere nyheder. Se nogle af de vigtigste her.
CIO
Undgå disse fem skadelige forhindringer og få stor succes med din analytics-strategi
Klumme: Der er meget store gevinster at hente, hvis man forstår at udnytte sine data ordentligt. Men mange løber ind i en række forhindringer. Her har du nogle af de typiske.
Comon
Manden bag verdens største torrent-site anholdt
Den formodede hjerne bag verdens største torrentsite KickassTorrents er blevet anholdt i Danmarks naboland Polen. Herfra forsøger amerikanske myndigheder at få ham udleveret til retsforfølgelse i USA. Læs her, hvad han står anklaget for.
Channelworld
Nordmænd køber dansk software-hus - medarbejderne bliver
Norske Amesto Solutions har købt det det danske CRM-firma Adwiza, der har haft svært ved at opnå tilstrækkelig lønsomhed. Men det skal der laves om på nu, lyder det fra Norge.
White paper
Hvorfor investere i et output management værktøj?
Standard ERP-systemer er ikke bygget til at fremstille individuelt tilpassede forretningsdokumenter, som opfylder dine kunders behov. Læs med og bliv klædt på til den dag, hvor din virksomhed skal vælge en løsning.