Artikel top billede

Sådan rangordner Google verdens nyhedsartikler

Google har for tredje gang siden 2003 indsendt en patentansøgning, der skal raffinere selskabets algoritme til rangordning af nyhedsartikler. Se nogle af de nye parametre her.

Computerworld News Service: En patentansøgning, indsendt af Google sidste år, giver et detaljeret indblik i nogle af de parametre, selskabet vægter i rangordningen af nyhedshistorier, der afgør, i hvilken rækkefølge de vises på Google News.

Patentansøgningen, der blev indsendt i februar 2012 og offentliggjort fem måneder senere, er en videreudvikling af et patent, Google fik tildelt i 2009 med titlen Systems and Methods for Improving the Ranking of News Articles.

Computerworlds amerikanske søstermedie faldt over dokumentet ved søgning på den amerikanske patentstyrelses website i anden sammenhæng.

En talsmand fra Google har ingen kommentarer til detaljerne i patentansøgningen.

"Vi indsender patentansøgninger om mange forskellige ideer, vores medarbejdere får," kommenterer han via e-mail.

Modnes til faktiske produkter

"Nogle af de ideer modnes senere til faktiske produkter, mens andre ikke gør. Man kan ikke nødvendigvis udlede fremtidige produktlanceringer fra vores patentansøgninger."

Patentansøgningen fra sidste år giver dog et indblik i en række forskellige parametre, som selskabet bruger til at rangordne nyhedshistorier på nettet.

Hvordan Google bedømmer og behandler nyhedshistorier har været kritiseret af forskellige medievirksomheder, som for eksempel har hævdet, at selskabet krænker deres ophavsrettigheder.

Mange har også påtalt, at Google i praksis kan åbne eller lukke for en strøm af besøgende til nyhedswebsites, alt efter hvordan deres nyhedshistorier rangordnes.

Google rangordning påvirker, hvilke nyhedshistorier folk bliver præsenteret for, hvilket potentielt er med til at forme deres opfattelse af begivenhederne.

Siden lanceringen i 2002 er Google News blevet en af de største aggregatorer af nyhedshistorier på nettet.

Websitet, hvis indhold sammensættes helt automatisk, indsamler og viser overskrifter fra tusindvis af nyhedskilder fra hele verden.

Her er parametrene

I patentansøgningen beskrives parametre såsom antallet af nyhedsartikler produceret af en nyhedskilde i en given periode, den gennemsnitlige længde af en artikel fra en nyhedskilde og hvor vigtig dækningen fra en nyhedskilde er.

Af andre parametre nævnes en vurdering af nyhedskilders aktualitet samt faktorer som brugsmønstre, menneskelige holdninger, oplagsstatistik og antallet af medarbejdere hos en given nyhedskilde.

Desuden tages der højde for, hvor mange nyhedsbureauer en given nyhedskilde er associeret med, andelen af originale nyhedsartikler i nyhedskildens samlede mængde af nyhedsartikler, nyhedskildens bredde i sin generelle dækning, mængden og diversiteten af international trafik til nyhedskildens website og endda nyhedskildens skrivestil.

Ligner redaktørernes parametre

Patentansøgningen giver således et indblik i, hvordan selskaber som Google rangordner indhold på nettet, kommenterer Sree Sreenivasan, der underviser i faglig praksis ved Columbia Universitys Journalism School. Han er desuden universitets første chief digital officer.

"I den teknologiske verden er mange ting uigennemskuelige. Det er rart at få lidt klarhed om det her," siger Sreenivasan.

Han bemærker, at nogle af de parametre, Google tilsyneladende anvender til at bedømme kvaliteten af en nyhedskilde, er meget lig de parametre, redaktører selv bruger til at bedømme nyhedskilders troværdighed.

Her fremhæver han parametre såsom medarbejderantal og målgruppens mangfoldighed.

Også Googles anvendelse af nyhedshistoriers længde er et godt parameter, vurderer Sreenivasan.

Ved første øjekast ser det ud som om, Google lægger vægt på kvantitet fremfor kvalitet, siger han.

Men i dag er det sådan, at mange medievirksomheder, der producerer indhold af høj kvalitet, producerer mere, end de gjorde tidligere.

Derfor kan det forsvares at bruge nyhedshistoriers længde og antal ord som parameter, forklarer han.

"Det afspejler virkeligheden i journalistikken i dag," siger Sreenivasan.

Google: Sådan udvælger vi artiklerne

I en artikel fra The Atlantic fra sidste september udtalte chefer fra Google News, at websitet "algoritmisk" indsamler nyhedshistorier fra flere end 50.000 nyhedskilder og har flere end en milliard unikke brugere hver uge.

Kritikken fra mange især i den europæiske mediebranche lyder, at Google snylter læsere og annoncekroner ved hjælp af Google News.

Men kun få har indtil videre blokeret for, at deres indhold kan vises på Googles website, selvom Google tilbyder en ret nem måde at gøre det.

Google selv giver ikke mange oplysninger om de algoritmer, der bruges til at opdage og rangordne nyhedshistorier.

Sådan udvælges artikler

Selskabet oplyser blot, at nyhedsartikler udvælges og rangordnes på baggrund af parametre såsom hvor mange og på hvilke websites, de vises; indholdets aktualitet; geografisk område; relevans og diversitet.

Google har tidligere udtalt, at selskabet konstant justerer i sin rangordning af nyheder, for at sikre at der vises indhold af høj kvalitet.

Patentansøgningen ser ud til at være det seneste tiltag i denne raffineringsproces og giver et sjældent indblik i nogle af vigtigste parametre, som Google vægter:

Historiestørrelsen bedømmes

- For at afgøre kvaliteten af en nyhedskilde kan Google enten se på antallet af producerede originale ("ikke-genbrugte") nyhedsartikler eller ligefrem tælle antallet af originale sætninger produceret af en given nyhedskilde.

- For at afgøre hvor væsentlig en given dækning er, bedømmer Google en "historiestørrelse" for alle originale nyhedsartikler produceret af en medievirksomhed i løbet af en uge, en måned eller en længere periode. "For eksempel ... hvis D er en artikel om ulykken med rumfærgen Columbia og der var 500 andre separate artikler om emnet, så ville historiestørrelsen være 500."

- For at beregne en "breaking news-karakter" for en given medievirksomhed kan Google "måle nyhedskildens evne til at udgive en historie hurtigt efter en vigtig begivenhed har fundet sted."

- For at vurdere en nyhedskildes evne til at producere originalt indhold af høj kvalitet benyttes antallet af personer, der nævnes i nyhedshistorierne med særlig vægt på personer, der ikke i udbredt grad citeres andre steder. "Dette kan indikere, at nyhedskilden er i stand til at producere original journalistik."

Google holder også øje med links fra søgemaskiner til individuelle nyhedsartikler. "Velkendte websites såsom CNN foretrækkes ofte fremfor mindre populære websites med for eksempel ukendte lokalnyheder, som brugerne kan tænkes at gå uden om," står der i patentansøgningen.

Oversat af Thomas Bøndergaard




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Targit A/S
Udvikling og salg af software til business intelligence.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Compliance og strategisk it-sikkerhed efter DORA

Finansielle koncerner har i snit 85 sikkerhedsløsninger i drift – men er i snit op til 100 dage om at opdage et igangværende cyberangreb. Ydermere viser øvelser, at det typisk tager 4-6 uger at rense og genetablere sikker drift af centrale systemer efter et stort angreb. Fokus for dagen vil derfor være på henholdsvis governance samt om, hvordan du som it-leder i den finansielle sektor skal kunne håndtere fremtidens cybertrusler og arbejde effektivt med sikkerhed på et strategisk niveau.

04. april 2024 | Læs mere


EA Excellence Day

Hvad er det, der gør it-arkitektens rolle så vigtig? Og hvad er det for udfordringer inden for områder som cloud, netværk og datacentre, som fylder hos nogle af landets bedste it-arkitekter lige nu? Det kan du her høre mere om og blive inspireret af på denne konference, hvor du også får lejlighed til at drøfte dette med ligesindede.

16. april 2024 | Læs mere


IAM - din genvej til højere sikkerhed uden uautoriseret adgang og datatab

På denne dag udforsker vi de nyeste strategier, værktøjer og bedste praksis inden for IAM, med det formål at styrke virksomheders sikkerhedsposition og effektiviteten af deres adgangsstyringssystemer og dermed minimere risikoen for uautoriseret adgang og datatab. Og hvordan man kommer fra at overbevise ledelsen til rent faktisk at implementere IAM?

18. april 2024 | Læs mere