Artikel top billede

Facebook flytter 30 petabyte data til nyt datacenter

Eksponentiel vækst i datamængderne får Facebook til at sætte gang i sit hidtil største datamigrationsprojekt.

Computerworld News Service: Som verdens største sociale netværk akkumulerer Facebook større mængder data på en enkelt dag, end mange virksomheder af en pæn størrelse genererer på et helt år.

Facebook gemmer meget af denne datamængde i sin enorme Hadoop-klynge, som er vokset eksponentielt i de seneste år.

I dag indeholder klyngen svimlende 30 petabyte data (30.000.000.000.000.000 byte) eller - som Facebook beskriver det - omtrent 3.000 gange så megen information som i USA's kongresbibliotek.

Facebooks lager af data er vokset med mere end en tredjedel i det forløbne år, bemærker virksomheden.

For at have plads til de stigende datamængder igangsatte Facebook tidligere i år et initiativ for at flytte den evigt voksende Hadoop-klynge til et nyt og større datacenter i Prineville i Oregon. Facebooks største datamigration nogensinde blev gennemført i juni, oplyser virksomheden.

Paul Yang, der er ingeniør i Facebooks datainfrastruktur-team, opridsede i sidste uge projektet på virksomhedens blog. Her fortæller Yang, at det var nødvendigt at migrere til det nye datacenter, fordi der ikke længere var kapacitet til at tilføje flere noder til Hadoop-klyngen.

Det var ikke umiddelbart muligt for Yang at lade sig interviewe til Computerworld om projektet.

Facebooks erfaringer med Hadoop vil dog sandsynligvis være af interesse for det stigende antal virksomheder, der anvender open source-softwaren fra Apache til at opbevare og analysere enorme mængder af både struktureret og ustruktureret data.

En stor del af tiltrækningskraften ved Hadoop er dens evne til at bryde meget store datasæt ned i mindre blokke, der derefter distribueres på tværs af en klynge af systemer bestående af standard serverhardware, så de kan behandles hurtigere.

En rapport fra Ventana Research, der udkom i sidste uge, viser, at et stigende antal virksomheder er begyndt at anvende Hadoop til at indsamle og analysere enorme mængder af ustruktureret og maskingenereret data såsom lognings- og hændelsesdata, søgemaskineresultater samt tekst- og multimedieindhold fra sociale medier.

Facebook anvender Hadoop til dagligt at indfange og gemme milliarder af informationer genereret af det sociale netværks brugere. Disse data analyseres ved hjælp af open source-værktøjssættet til datawarehousing Apache Hive.

Andre datatunge virksomheder anvender Hadoop til lignende formål heriblandt eBay, Amazon og Yahoo. Yahoo er selv en af de store bidragydere af kode til Hadoop.

Replikerer fra klynge til klynge

Bloggere påpegede allerede i maj 2010, at Facebooks Hadoop-klynge var verdens største.

På daværende tidspunkt bestod klyngen af i alt 2.000 maskiner - 800 systemer med 16 processerkerner og 1.200 systemer med otte processerkerner - der hver især lagrede mellem 12 og 24 terabyte data.

Facebook havde et par metoder at vælge imellem til flytning af klyngen til det nye datacenter, beskriver Yang i sit blogindlæg.

Virksomheden kunne fysisk flytte hver node til den nye beliggenhed, hvilket "med nok hænder til jobbet" kunne gennemføres på få dage, fortæller han. Facebook besluttede dog at gøre noget andet, da denne tilgang ville have resulteret i en uacceptabel lang nedetid, oplyser han.

I stedet besluttede Facebook at bygge en ny, større Hadoop-klynge og simpelthen replikere dataene fra den gamle klynge over på den nye. Denne tilgang var en mere kompliceret løsningsmodel, da kildedataene, som Facebook skulle replikere, var på et live system, hvor filer kontinuerlig blev oprettet og slettet, forklarer Yang i sit blogindlæg.

Derfor var Facebooks udviklere nødt til at bygge et nye replikerings-system, der kunne håndtere den uden sidestykke store klynge og den uhørt store databelastning.

"Da replikering minimerer nedetiden, var det den tilgang, vi besluttede at bruge til denne kolossale migration," fortæller han.

Replikation ved nedbrud

Datareplikerings-projektet blev ifølge Yang gennemført i to trin.
Først blev de fleste af dataene og registrene fra den oprindelige Hadoop-klynge kopieret i sin helhed til den nye klynge ved hjælp af open source-værktøjet DistCp.

Derefter blev alle ændringer af filer og data, der var sket, efter massekopieringen blev foretaget, replikeret til den nye klynge ved hjælp af Facebooks nyligt udviklede system til filreplikering. Disse filændringer blev registreret af et plugin til Hive, der ligeledes var blevet udviklet inhouse af Facebooks egne udviklere.

Da det blev tid til at foretage omstillingen, lukkede Facebook midlertidigt for Hadoops evne til at oprette nye filer og lod sit replikerings-system færdiggøre replikeringen af alle data til den nye klynge. Herefter var der kun tilbage at ændre DNS-indstillingerne til at pege på den nye server.

Facebooks eget hurtige værktøj til data-replikering var ifølge Yang afgørende for migrationsprojektets succes.

Udover anvendelse til datamigration giver replikerings-værktøjet ifølge Yang også Hadoop-klyngen nye muligheder i forhold til genoprettelse efter it-nedbrud, den såkaldte disaster recovery-disciplin.

"Vi har vist, at der er muligt på en effektiv måde at holde en aktiv klynge på adskillige petabyte ordentligt replikeret med kun en lille forsinkelse," siger han.

"Med anvendelse af replikering kan driften relativt let flyttes over til den replikerede klynge i tilfælde af nedbrud."

Oversat af Thomas Bøndergaard




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Ed A/S
Salg af hard- og software.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Cloud giver dig fleksibilitet, skalerbarhed og agilitet – men hvordan håndterer man sikkerheden?

Cloudsikkerhed handler om effektiv orkestrering og automatisering for at muliggøre hurtig detektion af og reaktion på hændelser. Det handler om at eliminere kompleksitet, sikre smidighed og sikre fleksibilitet. På dette seminar bliver du klogere på hvordan du planlægger, designer, implementerer og kører dit cybersikkerhedsprogram effektivt.

23. juni 2021 | Læs mere


Effektiv drift og support af applikationer i Dynamics 365 FO

Med Microsoft Dynamics 365 for Finance and Operations (FO) er forretningssystemet flyttet i skyen. Dermed er det slut med store opgraderingsprojekter, og virksomheder og organisationer skal i stedet være klar til løbende opdateringer, som sendes ud flere gange om året. Det kræver et særligt fokus på effektiv drift af applikationerne, hvis stabiliteten i applikationerne skal opretholdes og konkurrenceevnen bevares. I dette webinar bliver du inspireret til, hvordan du får mest muligt ud af din investering i Microsoft Dynamics 365 FO med en driftsaftale, så platformen udvikler sig sammen med din forretning.

24. juni 2021 | Læs mere


The intelligent business: From neat idea to reality

The choice to become a more intelligent business and optimize workflows is not always straightforward, but it requires that you take a step back and see the possibilities in other ways. Come inside when we try to focus on the intelligent business. Hear how SAP S / 4HANA makes processes intelligent and transforms traditional workflows.

01. juli 2021 | Læs mere






Premium
Den nye kulørte iMac er så Applesk at det næsten gør ondt – og derfor ville jeg ikke selv købe en
Apple-dyderne lever i allerbedste velgående i selskabets nye, lækre og farverige iMac – og det bør få dig til at se dig om efter noget andet.
Computerworld
Efter Windows 11-lækket: Her er de nye elementer - og lanceringsdatoen
Podcast: Hvad kan Windows 11 tilbyde? Hvad kræver det af dit hardware? Hvornår kommer det? Og hvorfor har NNIT indsat Pär Fors som ny topchef? Ham har vi mødt på hans kontor i Søborg. Få svarene i denne episode af Computerworlds nyhedspodcast.
CIO
Der findes ikke noget vigtigere for din virksomhedskultur end psychological safety
Klumme: Forskningen er entydig: Vidensarbejde er mere effektiv, når du tør stille spørgsmål, rejse kritik og indrømme fejl helt uden frygt for at blive straffet eller gjort til grin. Hvis du ikke har fokus på denne del af din virksomhedskultur, så lever din virksomhed og dine medarbejdere ikke op til deres fulde potentiale.
White paper
Derfor virker mailbårne angreb – og sådan beskytter du dig
Cyberangreb via email er blandt de mest udbredte cybertrusler, og i dette whitepaper får du viden om hvordan de mest udbredte typer fungerer, detekteres og afvises.