Her er Danmarks fem bedste CIO’er lige nu:Se de fem nominerede til prisen som Årets CIO 2024

Artikel top billede

(Foto: Jason Madara Photography 2010 / Jason Madara)

Facebook flytter 30 petabyte data til nyt datacenter

Eksponentiel vækst i datamængderne får Facebook til at sætte gang i sit hidtil største datamigrationsprojekt.

Computerworld News Service: Som verdens største sociale netværk akkumulerer Facebook større mængder data på en enkelt dag, end mange virksomheder af en pæn størrelse genererer på et helt år.

Facebook gemmer meget af denne datamængde i sin enorme Hadoop-klynge, som er vokset eksponentielt i de seneste år.

I dag indeholder klyngen svimlende 30 petabyte data (30.000.000.000.000.000 byte) eller - som Facebook beskriver det - omtrent 3.000 gange så megen information som i USA's kongresbibliotek.

Facebooks lager af data er vokset med mere end en tredjedel i det forløbne år, bemærker virksomheden.

For at have plads til de stigende datamængder igangsatte Facebook tidligere i år et initiativ for at flytte den evigt voksende Hadoop-klynge til et nyt og større datacenter i Prineville i Oregon. Facebooks største datamigration nogensinde blev gennemført i juni, oplyser virksomheden.

Paul Yang, der er ingeniør i Facebooks datainfrastruktur-team, opridsede i sidste uge projektet på virksomhedens blog. Her fortæller Yang, at det var nødvendigt at migrere til det nye datacenter, fordi der ikke længere var kapacitet til at tilføje flere noder til Hadoop-klyngen.

Det var ikke umiddelbart muligt for Yang at lade sig interviewe til Computerworld om projektet.

Facebooks erfaringer med Hadoop vil dog sandsynligvis være af interesse for det stigende antal virksomheder, der anvender open source-softwaren fra Apache til at opbevare og analysere enorme mængder af både struktureret og ustruktureret data.

En stor del af tiltrækningskraften ved Hadoop er dens evne til at bryde meget store datasæt ned i mindre blokke, der derefter distribueres på tværs af en klynge af systemer bestående af standard serverhardware, så de kan behandles hurtigere.

En rapport fra Ventana Research, der udkom i sidste uge, viser, at et stigende antal virksomheder er begyndt at anvende Hadoop til at indsamle og analysere enorme mængder af ustruktureret og maskingenereret data såsom lognings- og hændelsesdata, søgemaskineresultater samt tekst- og multimedieindhold fra sociale medier.

Facebook anvender Hadoop til dagligt at indfange og gemme milliarder af informationer genereret af det sociale netværks brugere. Disse data analyseres ved hjælp af open source-værktøjssættet til datawarehousing Apache Hive.

Andre datatunge virksomheder anvender Hadoop til lignende formål heriblandt eBay, Amazon og Yahoo. Yahoo er selv en af de store bidragydere af kode til Hadoop.

Replikerer fra klynge til klynge

Bloggere påpegede allerede i maj 2010, at Facebooks Hadoop-klynge var verdens største.

På daværende tidspunkt bestod klyngen af i alt 2.000 maskiner - 800 systemer med 16 processerkerner og 1.200 systemer med otte processerkerner - der hver især lagrede mellem 12 og 24 terabyte data.

Facebook havde et par metoder at vælge imellem til flytning af klyngen til det nye datacenter, beskriver Yang i sit blogindlæg.

Virksomheden kunne fysisk flytte hver node til den nye beliggenhed, hvilket "med nok hænder til jobbet" kunne gennemføres på få dage, fortæller han. Facebook besluttede dog at gøre noget andet, da denne tilgang ville have resulteret i en uacceptabel lang nedetid, oplyser han.

I stedet besluttede Facebook at bygge en ny, større Hadoop-klynge og simpelthen replikere dataene fra den gamle klynge over på den nye. Denne tilgang var en mere kompliceret løsningsmodel, da kildedataene, som Facebook skulle replikere, var på et live system, hvor filer kontinuerlig blev oprettet og slettet, forklarer Yang i sit blogindlæg.

Derfor var Facebooks udviklere nødt til at bygge et nye replikerings-system, der kunne håndtere den uden sidestykke store klynge og den uhørt store databelastning.

"Da replikering minimerer nedetiden, var det den tilgang, vi besluttede at bruge til denne kolossale migration," fortæller han.

Replikation ved nedbrud

Datareplikerings-projektet blev ifølge Yang gennemført i to trin.
Først blev de fleste af dataene og registrene fra den oprindelige Hadoop-klynge kopieret i sin helhed til den nye klynge ved hjælp af open source-værktøjet DistCp.

Derefter blev alle ændringer af filer og data, der var sket, efter massekopieringen blev foretaget, replikeret til den nye klynge ved hjælp af Facebooks nyligt udviklede system til filreplikering. Disse filændringer blev registreret af et plugin til Hive, der ligeledes var blevet udviklet inhouse af Facebooks egne udviklere.

Da det blev tid til at foretage omstillingen, lukkede Facebook midlertidigt for Hadoops evne til at oprette nye filer og lod sit replikerings-system færdiggøre replikeringen af alle data til den nye klynge. Herefter var der kun tilbage at ændre DNS-indstillingerne til at pege på den nye server.

Facebooks eget hurtige værktøj til data-replikering var ifølge Yang afgørende for migrationsprojektets succes.

Udover anvendelse til datamigration giver replikerings-værktøjet ifølge Yang også Hadoop-klyngen nye muligheder i forhold til genoprettelse efter it-nedbrud, den såkaldte disaster recovery-disciplin.

"Vi har vist, at der er muligt på en effektiv måde at holde en aktiv klynge på adskillige petabyte ordentligt replikeret med kun en lille forsinkelse," siger han.

"Med anvendelse af replikering kan driften relativt let flyttes over til den replikerede klynge i tilfælde af nedbrud."

Oversat af Thomas Bøndergaard




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Konica Minolta Business Solutions Denmark A/S
Salg af kopimaskiner, digitale produktionssystemer og it-services.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
OT og IT: Modernisér produktionen og byg sikker bro efter et årelangt teknologisk efterslæb

Moderne produkter skal have mere end strøm for at fungere – og deres navlestreng skal ikke klippes når de forlader fabrikshallen. På denne konference kan du derfor lære mere om hvordan du får etableret det sikre setup når der går IT i OT.

30. april 2024 | Læs mere


Roundtable for sikkerhedsansvarlige: Hvordan opnår man en robust sikkerhedsposition?

For mange virksomheder har Zero Trust og dets principper transformeret traditionelle tilgange til netværkssikkerhed, hvilket har gjort det muligt for organisationer at opnå hidtil usete niveauer af detaljeret kontrol over deres brugere, enheder og netværk - men hvordan implementerer man bedst Zero Trust-arkitekturer i et enterprise set up? Og hvordan muliggør Zero Trust-arkitekturen, at organisationer opnår produktivitetsfordele med AI-værktøjer samtidig med, at de forbliver sikre i lyset af fremvoksende trusler?

01. maj 2024 | Læs mere


ERP-trends 2024

Bliv derfor inspireret til, hvordan du kan optimere dine systemer og processer når af nogle af de fremmeste eksperter på ERP-markedet dele deres iagttagelser af det aktuelle marked og vurderinger af, hvad vi har i vente de kommende 3-5 år. Vi sætter også fokus på, hvordan udviklingen kommer til at påvirke din organisation, hvordan du bedst forbereder og planlægger ERP-indsatsen og om, hvilke faldgruber du skal være opmærksom på.

02. maj 2024 | Læs mere