Avatar billede mrgumble Nybegynder
23. maj 2011 - 09:45 Der er 1 løsning

Algoritme søges: clustering af distinkte sæt

Hej,

Jeg søger en algoritme eller blot navnet på den. Algoritmen må da gerne være grådig, bare den er mere effektiv end n^2.
Mit problem er bioinformatisk (bare for at prale) og er sat følgende sammen:
Jeg har et stort antal gener, som hver kan være tilknyttet et eller flere pathways. Antallet af tilknyttet pathways per gen er stærkt varierende. Et pathway kan være repræsenteret i et eller flere gener; kun pathways der er repræsenteret i gensættet er medtaget. Gener og pathways er blot identificeret med et id.
Dvs., men pseudo matematisk notation:
[code]gene_1 = {path_a, path_c}
gene_2 = {path_a, path_b}
gene_3 = {path_d}
gene_4 = {path_c, path_e}
[/code]
eller opstilles som link matrix:
[code]
  a b c d e
1  1 0 1 0 0
2  1 1 0 0 0
3  0 0 0 0 1
4  0 0 1 0 1
[/code]

Udfordringen er nu, at gruppere flest mulige gener sammen i færrest mulige grupper, således at en pathway kun er tilknyttet ét gen ad gangen. Ved ovenstående kan gene 1 og 3 grupperes sammen og 2 og 4 grupperes sammen.

Er der nogen idéer. Det skal implementeres i R.
Avatar billede mrgumble Nybegynder
28. juli 2011 - 15:16 #1
Suk.
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester