Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den BioTech d. 6. marts 2003.
BIO-IT: Biotekselskaber som ACE Bioscience, MDS Proteomics og Pride Proteomics skaber tonsvis af data i deres
arbejde med at kort-lægge proteiner og finde nye drugtargets.
Case 1
Proteomics er en ekstrem datatung forskningsdisciplin, der kræver massiv beregningskraft i form af kraftige computere, masser af digital hyldeplads og kostbar instrumentering. Blandt forskere er der stadig ikke enighed om, hvilke metoder der er de mest effektive til at identificere proteiner. Men i øjeblikket bruges oftest to metoder: Gel-fri protein-separering og efterfølgende massespektrometri. Det er analyseteknikker, der skaber store datamængder."
"Vi har et stort Linux-cluster i Toronto. Det cluster udgør rygraden i vore bestræbelser på at fastlægge proteiners funktioner herunder finde de mest sygdomsrelevante proteiner, som er målet for udvikling af nye drug targets. MDS proteomics har en strategisk alliance på plads med IBM og har opbygget en IT-infrastruktur, der gør det muligt at samle data over proteinernes interaktion i virksomhedens egen database. Det betyder, at vi kan visualisere processerne i cellen og øge kvaliteten i processen med at udvælge gode drug targets."
"I et selskab af vores art er det især massespektrometri, der skaber data. Her har vi udviklet vore egne, automatiserede værktøjer til at finde og forklare funktioner i membran-proteiner, f.eks. receptor-proteiner på cellens overflade, proteiner inden i cellen, samt post-translational modifikationer af proteiner. I øjeblikket vil jeg skyde på, at MDS Proteomics' samlede datamængde ligger i størrelsesordenen 40 terabytes, og på årsplan genererer vi adskillige terabytes nye data."
"Skabelsen af nye data afhænger selvfølgelig af, hvilke og hvor mange eksperimenter vi kører, og på hvilken type instrumentering de bliver afviklet. Vi benytter bl.a. flere QStar-massespektrometre fra MDS Sciex, og med det udstyr skaber vi typisk 100 MB i timen. Men vores udfordring er egentlig ikke at generere og gemme data, men derimod at generere gode data og få mening ud af dem. Infrastrukturen skal selvfølgelig sikre lagringen og tilgængeligheden af rådata. Men hvad, der er endnu vigtigere, er, at data skal raffineres og gøres tilgængelig for de analytiske applikationer f.eks. den egenudviklede bioinformatik software, vi bruger. Det er jo her, vi skal differentiere os i konkurrencen med andre virksomheder og finde de interessante drug targets."
"Alle data bliver opsamlet på kraftige pc'er, der er forbundet med vore instrumenter. Ligegyldigt om de data bliver opsamlet i Odense eller andre af vore afdelinger, så bliver data overført og parkeret i et centralt SAN (Storage Area Network), der befinder sig i vores datacenter i Toronto. Horisonten for at have data online på diske er cirka et år. Herefter bliver data overflyttet til near-online medier som f.eks. taperobotter."
Brian Ramsgaard, ansvarlig for Data og
Workflow Management, MDS Proteomics.
ILLUSTRATION: LARS VEGAS NIELSEN
Case 2
Ace automatiserer processen
ACE Biosciences er en forskningsvirksomhed, der screener store informationsmængder med det mål at finde nye drugtargets. Det betyder, at vi er mere dataintensive end biotekvirksomheder, der f.eks. arbejder med at udvikle Èn konkret lægemiddelkandidat. Vi bruger ikke proteomics
alene. Det er faktisk kun en lille del af det, vi laver. Vi forsker i infektionssygdomme og ser på, hvilke proteiner der er involveret i, at en infektion kan finde sted. De proteiner får vi fra et laboratorium, hvor vi fremdyrker sygdomsfremkaldende organismer. Generne, der koder for disse proteiner, undersøger vi dernæst i et molekylærbiologisk laboratorium, hvorefter de sendes videre til et nyt laboratorium, hvor vi anvender en række forskellige proteomics-relaterede analyseteknikker til at finde interessante drug-targets."
"IT-infrastrukturen spiller en afgørende rolle i denne proces. Den skal gøre det muligt at styre flow af prøver igennem hele laboratorieforløbet. Helt tilbage fra man starter med mikroorganismerne, til de ender i den færdige analyse i massespektrometrien. Alle computere, der er involveret i processen, opsamler data i et laboratoriemanagement-system. Vi skal til enhver tid kunne dokumentere analyser og målinger på en prøve. Derfor har vi automatiseret hele processen, så vi til enhver tid ved, hvornår og hvem der har lavet hvad; hvilke kemikalier der er blevet anvendt og meget mere. Det er især massepektrometrien, der er skurken, når det gælder data. De filer, der bliver gemt fra massespektrometrien, er kæmpe store, og man laver typisk mange."
"Dataopsamlingen fylder i sig selv meget, men databehandlingen i form af bioinformatikken er også dataintensiv. På det område er vi priviligerede, fordi vi har et godt samarbejde på plads med en tysk bioinformatikvirksomhed,
Lion Biosciences, der er en af verdens førende bioinformatik-softwareleverandører. Her har vi adgang til software, som endnu ikke er kommerciel tilgængelig, fordi vi har sagt ja til at være med i udviklingen af nye applikationer. Det betyder, at vi kan integrere information fra forskellige forskningsområder - altså f.eks. fra mikrobiologi eller molekylærbiologi og tyde de data ved at sammenholde dem med andre relevante datakilder."
Ejvind Mørtz, adm. dir. i ACE Biosciences
Case 3
Pride: Sorte
pletter skaber data
Proteomics er i sin natur et særdeles dataintensivt forskningsområde. Vi arbejder med drugdiscovery og grundforskning. Det indebærer blandt andet, at vi skaber et væld af datatunge digitaliserede billeder af f.eks. røntgenfilm, hvor der er tusindvis af små sorte pletter med information om pletstørrelse, position, konfiguration, mængder og tæthed. Det er proteinanalyser eller såkaldte 2D-geler. Nogle er flurocentfarvede, mens andre er indmærket med radioaktivitet, der efterfølgende analyseres i en fosforimager. Akkurat som andre områder i vores forretning skaber det arbejde store datamængder, der ikke bare skal lagres, men også skal sikres, spejles og være tilgængelig til analyse."
adm. Dir. Peter Mose Larsen,
Pride Proteomics.