PLoS ONE: Bayesian Hierarkisk Clustering for studere Cancer genekspression data med Ukendt Statistics

Abstrakt

Clustering analyse er et vigtigt redskab i at studere genekspression data. Bayesian hierarkiske clustering (BHC) algoritme kan automatisk udlede antallet af klynger og bruger Bayesian model valg for at forbedre klyngedannelse kvalitet. I denne artikel præsenterer vi en udvidelse af BHC algoritmen. Vores Gaussisk BHC (GBHC) algoritme repræsenterer data som en blanding af gaussiske fordelinger. Det bruger normal-gammafordelingen som et konjugat forud på middelværdien og præcision af hver af de gaussiske komponenter. Vi testede GBHC over 11 cancer og 3 syntetiske datasæt. Resultaterne på kræft datasæt viser, at i prøve klyngedannelse, GBHC i gennemsnit producerer en klyngedannelse partition, der er mere overensstemmende med jorden sandheden end dem, der opnås fra andre almindeligt anvendte algoritmer. Desuden GBHC ofte udleder antallet af klynger, der ofte er tæt på jorden sandheden. I gen klyngedannelse, GBHC producerer også en klyngedannelse partition, der er mere biologisk plausibel end flere andre state-of-the-art metoder. Dette tyder GBHC som et alternativt værktøj til at studere genekspression data

Gennemførelsen af ​​GBHC er tilgængelig på https://sites.google.com/site/gaussianbhc/

Henvisning:. Sirinukunwattana K , Savage RS, Bari MF, Snead DRJ, Rajpoot NM (2013) Bayesian Hierarkisk Clustering for studere Cancer Gene Expression data med Ukendte Statistik. PLoS ONE 8 (10): e75748. doi: 10,1371 /journal.pone.0075748

Redaktør: Ferdinando Di Cunto, universitetet i Torino, Italien

Modtaget: Marts 1, 2013; Accepteret: August 19, 2013; Udgivet: 23. oktober 2013 |

Copyright: © 2013 Sirinukunwattana et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Korsuk Sirinukunwattana er delvist finansieret af Qatar National Research Fund giver no. NPRP5-1345-1-228 og dels af Datalogisk Institut, University of Warwick. RSS anerkender støtte fra en Medical Research Council Biostatistik Fellowship (G0902104). MFB anerkender støtte for videregående uddannelse Kommissionen og Dow Universitet for Medicin, Pakistan. Støtte til indsamling af lungevævet var fra West Midlands Lung Tissue Consortium. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Clustering analyse er et vigtigt redskab i at studere genomiske data såsom genekspressionsprofiler og kan bruges til at udlede biologisk funktion og regulering af gener. Eisen

et al.

[1] fandt, at i gær

S. cerevisiae

, gener, der er grupperet sammen deler ofte lignende biologisk funktion eller co-reguleret, hvilket fører til den erkendelse, at gener i samme klynge kan være funktionelt relateret eller reguleret af et fælles sæt af transkriptionsfaktorer. Det er blevet vist i litteraturen, at biologiske funktion af en klynge kan udledes ontologi annotation af sine gener [2], og biologiske funktion af en karakteriseret gen kan også udledes af viden om gener i sin klynge [3], [ ,,,0],4]. Desuden er der i moderne medicinsk forskning, clustering analyse er blevet anvendt til at identificere sygdomstilstande undertyper baseret på genetisk variation [5], [6], og at identificere et genekspression signatur, kan anvendes som en prognostisk markør for kendt sygdom undertyper [7] – [9]. Dette hjælper lagdeling af patienter til skræddersyet medicin.

Talrige almindeligt anvendte klyngedannelse algoritmer har en betydelig begrænsning i, at de er afhængige af

ad hoc

metoder til at identificere antallet af klynger inden for data. I hierarkiske clustering algoritmer [10] – [12], for eksempel, identificere antallet af klynger afhænger hovedsagelig af visuel identifikation, mens antallet af klynger er nødvendig som et input til andre algoritmer såsom -means [13] og selvorganiserende kort [14]. Desuden er mange klyngedannelse algoritmer kræver valget af en afstand metric at angive styrken af ​​lighed /ulighed mellem datapunkter eller klynger. Men der er lidt systematisk vejledning om, hvordan man vælger en metrik for data såsom genekspression målinger, der afspejler ganske godt forholdet mellem data. Ofte er det vanskeligt at definere forholdet, især i høj-dimensionelle rum. To almindelige valg af målinger i gen clustering analyse litteratur er euklidiske afstand og Pearson korrelationskoefficient [15]. Men euklidiske afstand er følsom over for skalering og forskelle i gennemsnit. Pearson korrelationskoefficienten kan kun fange lineært forhold mellem data, og det er ikke robust til outliers og ikke-Gauss-fordeling [16]. Modelbaserede clustering algoritmer kan løse begge disse problemer. I modelbaserede algoritmer, er data repræsenteret ved en blanding model [17], [18] af parameteriserede distributioner, hvor hver komponent repræsenterer en anden klynge. Problemerne med hvordan man kan identificere antallet af klynger og afstanden metriske kan derfor støbes som en markering model problem -. Hvordan man vælger en statistisk model, der bedst beskriver data

Bayesian hierarkisk klyngedannelse (BHC) [19 ], [20] er en modelbaseret clustering algoritme baseret på Dirichlet processen blanding model (DPM) [18], [21], [22]. Det har stærke fordele frem for andre modelbaserede tilgange. For det første giver en hierarkisk clustering struktur, som er mere informativ end en flad én. For det andet bruger Bayesian model valg til at bestemme den hierarkiske struktur, snarere end en

ad hoc

afstand metrisk, og derved øge kvaliteten af ​​resulterende klynger. Multinomial BHC (MBHC) [23] repræsenterer data i hver blanding komponent som et produkt af multinomial sandsynligheder, underkastes en Dirichlet forud, og har vist sig at producere højere dendrogram renhed og mere biologisk meningsfuld klynger end andre almindeligt anvendte algoritmer til

Arabidopsis thaliana

microarray datasæt [23]. Men ved hjælp af multinomial sandsynligheder, algoritmen kræver en kategorisk tilnærmelse af en kontinuerlig variabel,. Det kan derfor ikke fuldt ud fange den underliggende struktur af kontinuerlige genekspression data. Gauss sandsynligheder er et oplagt alternativ her, da de ikke kræver tilnærmelse af data og er blevet brugt til at beskrive genekspression data i mange clustering analyser. Tidligere arbejde på udtryk datasæt æggestok og gær cellecyklus viser, at modelbaserede klyngedannelse algoritmer, der bruger finite Gaussisk blanding model udarbejde sammenlignelige klynger af høj kvalitet til en førende heuristisk klyngedannelse algoritme, selv om dataene ikke helt tilfredsstille Gaussisk blanding antagelse [24]. I en sammenlignende undersøgelse af klyngedannelse algoritmer til kræft genekspression data, da det faktiske antal klynger, finite Gaussisk model tilgang er førende i at tildele data til den korrekte klynge [25]. Rasmussen

et al.

[26] foreslå en modelbaseret clustering algoritme med uendelig Gaussisk blanding model til at studere Rosetta kompendium af udtryk profiler af

S. cerevisiaie

, og opdager, at klyngedannelse resultaterne ikke kun bekræfte tidligere offentliggjorte clustering analyser men også afsløre finere klyngedannelse niveau, er nye og biologisk konsekvent.

I dette papir, foreslår vi en udvidelse af BHC algoritme til gen udtryk data, som vi kalder som Gauss BHC (GBHC). GBHC giver flere fordele frem for andre klyngedannelse algoritmer: første, antager en uendelig Gaussisk blanding model for genekspression data, som har vist sig at være biologisk plausibelt i litteraturen [24] – [26]; sekunder, den beskæftiger blandingen model i en Bayesian ramme for at udføre en modelbaseret hierarkisk gruppering af genekspression data afslører hierarkisk struktur til stede i data tredje, det udleder antallet af klynger automatisk fra data og fjerde, bruger den gaussiske blanding antagelse at beskrive data og bruger en normal-gamma fordeling som et konjugat før på ukendte midler og præciseringer af Gauss sandsynligheder. Vi introducerer to varianter af GBHC: en med hyperparameter optimering over hele træet (GBHC-TREE), og en anden med hyperparameter optimering ved hver fusion (GBHC-NODE). Endvidere vi udlede en medgørlige formulering til at fremskynde hyperparameter optimering i tilfælde af GBHC-NODE, hvilket resulterer i en speedup faktor på op til 11 i løbet af GBHC-TREE. Vi sammenligner disse to algoritmer med en række andre klyngedannelse metoder, udførelse af en undersøgelse over 3 syntetiske datasæt og 11 cancer genekspression datasæt. Resultaterne viser, at selv om data er ikke meget godt repræsenteret ved en blanding af gaussiske fordelinger, begge varianter stadig forbedre klyngedannelse kvalitet, hvis dataene er normaliseret og ikke har en stærk korrelation mellem variable. I gennemsnit begge varianter af vores GBHC algoritme producere klyngedannelse resultater, der tåler sammenligning med de eksisterende tilgange.

Materialer og metoder

Notationer

Bayesian Hierarkisk Clustering algoritme

BHC [19] forudsætter, at data er genereret ud fra en blanding model, hvor hver klynge inden dataene svarer til en forskellig fordeling komponent af modellen. Antag, at datapunkter i en klynge uafhængigt og identisk genereres fra en probabilistisk model med ukendte parametre, og er underlagt en forudgående med hyperparametrene. Således marginale sandsynlighed for kan udtrykkes ved (1) Algoritmen oprindeligt placerer hvert datapunkt i sin egen triviel klynge og iterativt slår de to mest lignende klynger, indtil alle datapunkter bringes i en enkelt cluster. Denne fusion proces kan være repræsenteret af en dendrogram (figur 1A).

A) En dendrogram repræsenterer fusionsprocessen af ​​BHC. Hver lodret linje repræsenterer en klynge. En vandret linje, der forbinder mellem to lodrette linjer repræsenterer fusion af klynger, hvor højden er relateret til forskellighed foranstaltning mellem de fusionerede klynger. B) En skematisk viser datasæt og fusioneret ind i, hvor, og er de tilknyttede fusioner, der gør, og hhv. C) BHC svesker den dendrogram ved, hvilket resulterer i den endelige partition.

Begrebet lighed mellem klyngerne er relateret til sandsynligheden for, at de skal slås sammen. Dette er defineret på grundlag af Bayes hypoteseafprøvning som følger. At flette klynger og ind (figur 1B), BHC betragter nulhypotesen: og tilhører og den alternative hypotese: består af to eller flere klynger. Sandsynligheden for, at og bør flettes beregnes ved hjælp af Bayes ‘regel: (2), hvor en marginal sandsynlighed er defineret rekursivt ved (3) er en marginal sandsynlighed for givet i ligning (1), og er en forudgående, at og bør slås sammen og er defineret rekursivt ved (4) (5), hvor vi har sat, og for hver indledende klynge. Vi bemærker, at definitionen af ​​defineres her gør ligning (3) en tilnærmelse af en marginal sandsynlighed for DPM. Desuden er værdien af ​​koncentrationen parameter forbundet til det forventede antal klynger, BHC udleder. En stigning i indebærer en stigning i det forventede antal klynger.

At, og er mere tilbøjelige til at tilhøre den samme klynge end på. Derfor får vi det endelige antal klynger og partition, når alle de resterende par af fusionen har (figur 1C).

Den Marginal Sandsynlighed for Gauss Distribution med Ukendt Mean og Precision

Betragt et datasæt hvor hver observation består af variabler, dvs.. Vi antager, at

A 1 datasættet er normaliseret, dvs. det har betyder nul og en enhed varians,

En 2 for hver observation, dens variabler er uafhængige og genereret fra forskellige gaussiske fordelinger;

a 3 realisation af hver variabel, i klyngen er uafhængige og identisk fordelte og trukket fra Gauss med ukendt middelværdi og præcision, og forud er en normal-gamma fordeling med hyperparameter.

tæthedsfunktionen af ​​en Gauss-fordeling er defineret som (6) og tæthedsfunktionen for en normal-gammafordelingen defineres som (7)

fra ovennævnte forudsætninger, den marginale sandsynlighed for kan udtrykkes som (8), hvor (9) og (10) (11) (12) (13) følger (8), er det hyperparameter som angiver middelværdien af ​​parameteren indstillet til at afspejle Assumption A1. Ligning (8) er alt, hvad der kræves i GBHC.

Hyperparameter Optimering

GBHC udleder værdierne af hyperparametrene ved hjælp af oplysninger, der fortæller os, hvor godt klyngedannelse hierarki passer dataene. Denne følgeslutning kan gøres via to optimering ordninger som følger.

Optimering globalt over hele træet (træ). GBHC-TREE finder kun ét sæt af optimale hyperparametrene der passer til hele data, og er givet ved (14), hvor er den marginale sandsynlighed (3) af det endelige fusion i BHC. At lære de optimale hyperparametrene i dette tilfælde er dyrt, eftersom stigninger på med hensyn til hyperparametrene er analytisk umedgørlig, medmindre strukturen af ​​klyngedannelse hierarkiet er fast. (Se [19] for flere detaljer om optimering af i tilfælde af, at klyngedannelse hierarki er fast.)

Optimering ved hver fusion (NODE). GBHC-NODE finder optimale hyperparametrene for hver fusion i BHC ved at udføre (15), hvor (16), og vi antager, at (17) (18) (19) tæthedsfunktionen af ​​en Gamma fordeling er defineret ved (20) Således loggen -likelihood funktion i (16) kan skrives som (21) og dets gradienter med hensyn til hyperparametrene er (22) (23) (24) Se afsnit S1 i Materiale S1 til afledning af ligning (22) – (24). Vi bruger svagt informative priors løbet hyperparametrene i ligninger (17) – (19), under forudsætning af, at de data er normaliseret, (25) Vi bemærker, at ligning (15) er relateret til optimering af, hvor tilnærmelse og maksimering af dets bageste hensyn til distribution. Vi kan se, at GBHC-NODE finder den optimale struktur af klyngedannelse hierarki i et enkelt løb ved at søge efter den bedste fusion på hvert niveau, mens hierarkiet er opbygget. Så det er mere tidsbesparende end GBHC-TREE.

Den mulige begrænsning af både optimering ordninger er, at optimering objektive funktioner (14), (15), kan være ikke-konveks. Dette vil resultere i GBHC-TREE og GBHC-NODE kun finde hyperparametrene, der er lokalt optimal. Ikke desto mindre, i vores eksperimenter med klyngedannelse syntetiske data og genekspression data har begge ordninger lovende resultater.

Andet Clustering Algoritmer

Vi sammenligner GBHC-TREE og GBHC-NODE til andre klyngedannelse algoritmer i tabel 1. algoritmer og deres lighed /ulighed foranstaltning vil blive refereret til som forkortelserne i tabellen. For eksempel, APE står for affinitet formering ved hjælp af negativ euklidiske afstand. Derudover beskæftiger vi L-metoder [27] for at udlede antallet af klynger i AC, AE, CC, CE, KC, og KE, som er de algoritmer, der kræver forhånd bestemt antal klynger.

i dette arbejde, vi gennemfører GBHC-TREE, GBHC-Node og MBHC i MATLAB. Vi bruger AP som er offentligt tilgængelig på forfatternes hjemmeside (https://www.psi.toronto.edu/index.php?q=affinity\\%20propagation). Alle de resterende algoritmer kunne findes som Matlabs indbyggede funktioner.

datasættene

Syntetiske datasæt.

GBHC-TREE og GBHC-NODE skal udføre meget godt, hvis den Forudsætninger A1-A3 er opfyldt. Men forventes, ægte udtryk data til at være ikke helt tilfreds Gauss blanding antagelse, og sammenhængen mellem datavariable er mulig. Det er meget vigtigt at evaluere resultaterne af GBHC-TREE og GBHC-NODE i forhold til de andre clustering algoritmer, når nogle af de antagelser krænkes. Her bruger vi syntetiske datasæt for at studere GBHC-TREE og GBHC-NODE i tre forskellige scenarier som følger (se afsnit S2 i Material S1 for flere detaljer om, hvordan data genereres)

Syntetisk Dataset1:. Blanding af Gaussisk distributioner og uafhængige data variabler.

1000 indlæg af 10.-dimensional stokastisk vektor er hentet fra en blanding af 7 multivariate gaussiske fordelinger, hvor hver multivariat Gauss fordeling har diagonal kovarians matrix. Så dataene er normaliseret

Syntetisk Dataset2:.. Blanding af Gauss fordelinger og korreleret datavariable

I lighed med det første scenario, er 1000 indlæg af 10.-dimensional stokastisk vektor trukket fra en blanding af 7 multivariate gaussiske fordelinger, men kovariansmatricen af ​​hvert multivariat Gauss-fordeling har ikke-diagonale poster, som er ikke-nul. Så dataene er normaliseret

Syntetisk Dataset3:.. Blanding af flere distributioner

Vi genererer 1000 indlæg af 10.-dimensional stokastisk vektor fra en blanding af 7 forskellige multivariate fordelinger. For de første 6 multivariate bestanddele i en blanding, nemlig Gauss, gamma, ensartet, Students t, Weibull, og chi square distributioner, stokastiske variable i forskellige dimensioner er uafhængige. For den sidste multivariate komponent i en blanding, som er en Gauss-fordeling, der er korrelation mellem tilfældige variabler i forskellige dimensioner. Dette datasæt normaliseres før brug.

genekspression datasæt.

udførelsen af ​​alle de førnævnte clustering algoritmer vurderes gennem 11 kræft datasæt, som beskrevet i tabel 2. Blood1, Blood2, Bone Marrow, Brain1, Brain2, Colon, Multi-tissue1, Multi-tissue2, Prostate1 downloades fra https://algorithmics.molgen.mpg.de/Static/Supplements/CompCancer/datasets.htm. Disse datasæt er allerede filtreres ifølge protokollen beskrevet i [25]. Vi forvandler hver datasæt ved og normalisere det, før du bruger.

Prostate2 er hentet fra Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) (GDS1439). Datasættet er forvandlet af, og derefter filtreret af Wilcoxon rank-sum test på signifikansniveau 0,001. Testen udføres mellem en gruppe af godartet og en gruppe af primær og metastatisk. Datasættet er normaliseret, før du bruger.

Lung er tilgængelig på Gene Expression Omnibus (GSE44447). Den microarray eksperiment disse data blev gennemført på Agilent SurePrint G3 Human Gene Expression 8 × 60 K mikroarrays (Agilent Technologies, Wokingham, UK), ved hjælp af lungevæv, der var etisk godkendt under multicenter Research etiske komité (MREC) godkendelse. Eksperimentet blev designet til at sammenligne genekspressionsprofilerne af to typer nært beslægtede høj kvalitet neuroendokrine carcinomer, lille cacinoma og storcellet neuroendokrine karcinom, som er vanskelige at klassificere korrekt selv for pulmonale patologer. Den rå udtryk data behandles ved hjælp af R BioConductor pakke

limma

(https://www.bioconductor.org/packages/2.10/bioc/html/limma.html), løss og quantiled normaliseret og korrigeret for batch effekt ved hjælp af

Combat

(https://www.bu.edu/jlab/wp-assets/ComBat/Abstract.html). Vi filtrere denne datasæt ved hjælp Wilcoxon rank-sum test til test af forskellen mellem normale og cancer grupper på signifikansniveau 0,001, og normalisere det før klyngedannelse.

Clustering ydeevneværdierne

Vi bruger to målinger at evaluere clustering præstationer: (i) justeret Rand indeks (ARI) [28], og (ii) biologisk homogenitet indeks (BHI) [29]. I clustering af syntetiske data, da den sande partition af data klasser er kendt, ARI bruges som et mål for aftale mellem klyngedannelse partition og den sande partition. ARI scorer et par af skillevægge mellem 0 og 1, og en højere score ARI indikerer højere aftale. Vi bruger også ARI i prøve clustering eksperiment af genekspression data.

I gen gruppering af genekspression data, vi er interesseret i, hvordan biologisk meningsfuld de clustering resultaterne er. BHI anvendes til at måle den biologiske sandsynlighed gen klyngedannelse resultater genereret af en algoritme. It scorer et partition mellem 0 og 1, hvor en højere score vil blive tildelt mere biologiske homogene partition baseret på en reference sæt af funktionelle klasser. I dette tilfælde bruger vi Gene Ontology (GO) indføring i BioConductor pakke (afsnit S3, tabel S1 i Material S1), mens BHI beregnes ved hjælp af R-pakken

clValid

[30].

Resultater og diskussion

Syntetiske datasæt

ARI snesevis af klyngedannelse algoritmer er vist i tabel 3, og antallet af klynger udledes af algoritmerne er givet i afsnit S5, tabel S2 i Material S1 . Nærmere oplysninger om den eksperimentelle indstilling kan også findes i afsnit S4 i Material S1. Til visuel inspektion af klyngedannelse resultater, vi anvender en tilgang reduktion dimension kaldes t-Distributed Stochastic Neighbor Embedding (t-SNE) [31] algoritme til at reducere dimensionen af ​​de oprindelige syntetiske data i 2-dimensional euklidisk rum. t-SNE kort data ved at bevare den lokale struktur; således data, som er i samme klynge vil blive placeret tæt ved hinanden i det nederste dimensionelle rum. De billeder af klyngedannelse resultater er vist i figur 2, 3, er 4.

Klynger repræsenteret ved forskellige farver eller typer af markør. A) 7 faktiske klynger. B) Clustering resultat produceret af GBHC-TREE har 7 klynger. C) Clustering resultat produceret af GBHC-NODE har 7 klynger. D) Clustering resultat produceret af AE har 7 klynger.

Klynger repræsenteres af forskellige farver eller typer af markør. A) 7 faktiske klynger. B) klyngedannelse resultat produceret af GBHC-TREE har 14 klynger. C) klyngedannelse resultat produceret af GBHC-NODE har 37 klynger. D) klyngedannelse resultat produceret af KE har 4 klynger.

Klynger repræsenteres af forskellige farver eller typer af markør. A) 7 faktiske klynger. B) Clustering resultat produceret af GBHC-TREE har 22 klynger. C) Clustering resultat produceret af GBHC-NODE har 12 klynger. D) Clustering resultat produceret af KE har 5 klynger

Syntetisk Dataset1:.. Blanding af Gauss Distributions og uafhængige data variabler

Når Forudsætninger A1-A3 er opfyldt, GBHC -Tree og GBHC-NODE udkonkurrerer de andre ved korrekt udlede medlemskab af datapunkter samt antallet af klynger. På den anden side er der nogle mindre til høj nedbrydning i klyngedannelse resultater fra de andre algoritmer

Syntetisk Dataset2:.. Blanding af Gauss fordelinger og korreleret datavariable

I det tilfælde, hvor Assumption A2 overtrædes, er opførelser af GBHC-TREE og GBHC-NODE meget afholdt af sammenhængen mellem data variabler. Fra figur 3, kan vi se, at GBHC-TREE og GBHC-NODE udlede mange sub-klynger af selve ene. Årsagen er, at en større klynge af korrelerede data giver en stærkere bevis for, at data ikke er genereret ud fra den model, der ligger til grund GBHC-TREE og GBHC-NODE. Således den marginale sandsynlighed (8) bliver mindre som klyngen bliver større, og dermed GBHC-TREE og GBHC-NODE går ind for ikke at sammenlægge mindre klynger ind i en større en i henhold til Bayes ‘regel (2). I vort eksperiment, fandt vi, at nedbrydningen afhænger både af antallet af korrelerede par af variable og graden af ​​korrelation. Stigningen i enten faktor resulterer i stigning i antallet af afledte sub-klynger (se afsnit S5, tabel S3, S4 i Material S1 for detaljer)

Syntetisk Dataset3:.. Blanding af flere distributioner

GBHC-TREE og GBHC-NODE er i stand til at genkende alle de klynger, der genereres fra ikke-Gauss fordelinger selvom fordelingerne er stærkt afveg fra Gauss fordeling, da Forudsætninger A1, A2 er opfyldt.

det fremgår, at den tætte sammenhæng mellem datavariable er den vigtigste faktor, der begrænser udførelsen af ​​GBHC-TREE og GBHC-NODE. Man kunne forsøge at omdanne data til at reducere sammenhængen mellem variablerne før klyngedannelse, men man må huske på, at omdannelsen kan ødelægge betydningen af ​​originale data variabler. På trods af nedbrydning i klyngedannelse resultater, GBHC-TREE og GBHC-NODE stadig udkonkurrerer alle de andre metoder på en helhed.

genekspression datasæt

Vi sammenligner prøve klyngedannelse og gen-clustering opførelser af GBHC- TREE og GBHC-NODE til de andre algoritmer. Bemærk, at i gen klyngedannelse, vi behandler sonder som observationer og ekspressionsniveauerne tværs af forskellige prøver som variable. I prøve clustering, på den anden vej rundt, prøver behandles som observationer og ekspressionsniveauerne tværs af forskellige sonder behandles som variable.

I prøve clustering, tabel 4 viser, at GBHC-Node og GBHC-TREE give højeste ARI i 4 datasæt (Blood2, Multi-tissue2, Prostate1, Prostate2) og 2 datasæt (knoglemarv, Prostate2) hhv. De andre algoritmer give højeste ARI i højst 2 datasæt. De første tre algoritmer med den højeste gennemsnitlige ARI er GBHC-NODE, GBHC-TREE, og CC. Der er dog ingen signifikante forskelle mellem dem (p-værdi, afsnit S6, tabel S5 i Material S1). Med hensyn til nøjagtighed i udledning af antallet af prøver klasser (afsnit S6, tabeller S6, S7 i Material S1), de første tre algoritmer i gennemsnit er GBHC-TREE, KE, og GBHC-NODE, men der er ingen signifikante forskelle mellem dem . (p-værdi, afsnit S6, tabel S8 i Material S1)

for gen clustering, tabel 5 viser, at GBHC-Node og GBHC-TREE give den bedste BHI i 2 datasæt (Brain1, Multi -tissue2) og 1 datasæt (Lung), hvorimod den maksimale og gennemsnittet af antallet af datasæt, hver algoritme giver den bedste BHI er 3 og 1,17, henholdsvis. I gennemsnit de første tre algoritmer med den højeste gennemsnitlige BHI er APE, GBHC-Node, og GBHC-TREE. Igen er der ingen signifikante forskelle mellem dem (p-værdi, afsnit S7, tabel S10 i Material S1). Antallet af gen-klynger udledes af algoritmerne kan også findes på afsnit S7, tabel S11 i Material S1.

Med hensyn til gennemførelsestid (Afsnit S6, tabel S9 og afsnit S7, tabel S12 i Materiale S1), GBHC-TREE og GBHC-NODE er langsommere end ikke-BHC metoder på grund af deres høje beregningsmæssige belastning, bidrog fra den statistiske model og hyperparametrene optimering. Som forventet, vil GBHC-TREE og GBHC-NODE ikke altid klarer sig bedre end andre klyngedannelse algoritmer i hvert datasæt siden underliggende struktur af naturlige data er mere kompliceret og generelt ikke er i overensstemmelse med de forudsætninger A1-A3. Ikke desto mindre kan vi se fra de resultater, som GBHC-TREE og GBHC-NODE er de eneste algoritmer, der i gennemsnit producerer resultater højere kvalitet i både prøve og gen klyngedannelse. Desuden er de mere tilbøjelige til at udlede antallet af prøven klasser, som er tæt på den faktiske én.

Sammenligning mellem BHC algoritmer.

I forhold til MBHC, for prøve klyngedannelse, GBHC-NODE og GBHC-TREE producere højere ARI end MBHC, men GBHC-NODE giver signifikant højere resultat (afsnit S6, tabel S5 i Material S1). Desuden giver de betydeligt lavere forskel mellem afledte og faktiske antal eksempler klasser end MBHC (Afsnit S6, tabel S8 i Material S1). Med hensyn til gennemførelsestiden, GBHC-NODE løber rundt 4 gange hurtigere end MBHC, og omkring 11 gange hurtigere end GBHC-TREE i prøve clustering (afsnit S6, tabel S9 i Material S1). For gen klyngedannelse, GBHC-NODE løber rundt 1,2 gange hurtigere end MBHC og omkring 6,3 gange hurtigere end GBHC-TREE (afsnit S7, tabel S12 i Material S1). Vi bemærker, at GBHC-TREE og MBHC køre langsommere end GBHC-NODE fordi deres hyperparameter optimeringer er mere regnekraft, da de kræver at klyngedannelse resultat af hele data til at vurdere den objektive funktion. Således GBHC-TREE og GBHC-NODE gevinst forbedret clustering kvalitet, og GBHC-NODE får også en speed-up.

Konklusioner

I dette papir, vi præsenteret en modelbaseret clustering algoritme som anvender en Gaussisk blanding model til model genekspressionsprofilerne i en Bayesian ramme. Den foreslåede algoritme, der betegnes som den gaussiske BHC eller GBHC, anvender en Gauss blanding model sammen med en normal-gamma forud for de ukendte middelværdi og præcisionsparametre af blandingen komponenter for at fange den iboende struktur af dataene. Vi foreslog to variationer af GBHC algoritmen: GBHC-TREE og GBHC-NODE, efter to forskellige hyperparameter optimering ordninger. En omfattende sammenligning mellem disse variationer og andre kendte clustering algoritmer blev udført baseret på 3 syntetiske datasæt og 11 cancer datasæt. De eksperimentelle resultater på syntetiske datasæt viste, at GBHC-TREE og GBHC-NODE, generelt klaret sig bedre end de andre clustering algoritmer, hvis dataene blev normaliseret og kunne være godt repræsenteret ved en blanding af multivariate gaussiske fordelinger, hvor hver variate var uafhængig af de andre. Selv blev dataene meget afveg fra en blanding af multivariate gaussiske fordelinger eller havde moderat grad af sammenhæng mellem variable, GBHC-Node og GBHC-TREE stadig forbedret clustering resultater. For genekspression clustering, både GBHC-TREE og GBHC-NODE gav stærke præstationer på det hele. De konsekvent givet resultater højere kvalitet i både prøven og gen klyngedannelse og var mere tilbøjelige end de andre clustering algoritmer i udledning af antallet af faktiske prøve klasser. I forhold til MBHC som er en tidligere udvidelse af BHC for microarray data, de GBHC algoritmer havde også bedre klyngedannelse forestillinger. Endvidere vores formulering af log-sandsynligheden tilladt os at bruge et konjugat gradient algoritme til effektivt at finde optimale hyperparametrene fører til GBHC-NODE variant er i gennemsnit over 10 gange hurtigere end den GBHC-TREE variant af vores algoritme uden at kompromittere clustering ydeevne.

tilgængelighed

MATLAB gennemførelse af GBHC-TREE og GBHC-NODE findes på https://sites.google.com/site/gaussianbhc/

Støtte Information

Materiale S1.

Bayesian hierarkisk klyngedannelse for at studere Cancer genekspression data med Ukendt Statistik

doi:. 10,1371 /journal.pone.0075748.s001

(PDF)

Tak

forfatterne takker Katherine A. Heller for at dele sin kode til den oprindelige BHC algoritme.

Be the first to comment

Leave a Reply