PLoS ONE: SPARCoC: en ny ramme for Molekylær Pattern Discovery og Cancer Gene Identifikation

Abstrakt

Det er en udfordring at klynge kræftpatienter af en vis histopatologisk type i molekylære undertyper af klinisk betydning og identificere gen signaturer direkte relevante for undertyper. Aktuelle klyngedannelse tilgange har iboende begrænsninger, som forhindrer dem i at måle den subtile heterogenitet af de molekylære undertyper. I denne afhandling præsenterer vi en ny ramme: SPARCoC (Sparse-CoClust), som er baseret på en roman Common-baggrund og Sparse-forgrund nedbrydning (CSD) model og Maximum Block Improvement (MBI) co-clustering teknik. SPARCoC har klare fordele sammenlignet med udbredte alternative tilgange: hierarkisk klyngedannelse (Hclust) og ikke-negativt matrix faktorisering (NMF). Vi anvender SPARCoC til studiet af lunge adenocarcinom (ADCA), en ekstremt heterogen histologisk type, og en betydelig udfordring for molekylær subtypning. For test og verifikation, bruger vi høj kvalitet genekspression profilering data for lunge ADCA patienter, og identificere prognostiske gen signaturer, som kunne klynge patienterne i undergrupper, der er væsentligt forskellige i deres samlede overlevelse (med p-værdier 0,05). Vores resultater er kun baseret på genekspression profilering dataanalyse, uden at inkorporere nogen anden funktion valg eller kliniske oplysninger; vi er i stand til at replikere vores resultater med helt uafhængige datasæt. SPARCoC er bredt anvendelig til store genomiske data til at styrke mønster opdagelse og kræft gen identifikation

Henvisning:. Ma S, Johnson D, Ashby C, Xiong D, Cramer CL, Moore JH, et al. (2015) SPARCoC: en ny ramme for Molekylær Pattern Discovery og Cancer Gene Identification. PLoS ONE 10 (3): e0117135. doi: 10,1371 /journal.pone.0117135

Academic Redaktør: Xia Li, Harbin Medical University, KINA

Modtaget: August 27, 2014 Accepteret: December 19, 2014; Udgivet: 13 Mar 2015

Copyright: © 2015 Ma et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed: Rammerne SPARCoC (Sparse-CoClust for Pattern Discovery og Kræft Molekylær Subtypebestemmelse) er implementeret i Matlab og kildekoden er tilgængelig fra:. https://bioinformatics.astate.edu/code

Finansiering: SM er støttet af Hongkong Research Grants Council (RGC) Tidlig karriere Scheme (ECS) (Projekt ID: CUHK 439.513). S.Z. er støttet af NSF tilskud (CMMI-1.161.242). J. M. er støttet af NIH tilskud LM010098 og LM009012. Dette arbejde er også delvist støttet af National Institute of Health tilskud fra National Center for Research Resources (P20RR016460) og Statens Institut for General Medical Sciences (P20GM103429). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Der er en betydelig interesse i at udvikle effektive beregningsmæssige metoder til at studere massive genomiske profilering data, såsom hel-genom genekspression data, af kræftpatienter. På grund af cancertumor heterogenitet (se [1-5]), som er velkendt til marken, er det udfordrende at analysere de genomiske data for at klynge cancerpatienter af en bestemt histologisk eller patologisk cancer type i forskellige molekylære undergrupper ( undertyper) af genetiske, biologiske og klinisk betydning, og identificere kræft gener eller gen-mønstre, der er direkte relevant at skelne de forskellige undertyper. Forskningsindsatsen i molekylær subtypning og kræft gen signatur opdagelse kunne bemyndige vigtige medicinske anvendelser og kliniske oversættelser som molekylær diagnose, prognose, og personlig medicin.

For nylig er der undersøgelser i omfattende molekylære beskrivelser af forskellige kræftformer, herunder brystkræft molekylær undersøgelse kræft [6-9], kolorektal cancer (CRC) klassifikation [10], lungekræft adenocarcinom (ADCA) eller planocellulært (SQ) subtypning [11-15]. Den molekylære subtypning af hver af disse undersøgelser indebærer anvendelse af en specifik koncentration og biclustering /co-clustering metode. Hierarkisk klyngedannelse (Hclust) [16], ikke-negativt matrix faktorisering (NMF) [17], integrativ klyngedannelse (iCluster) [18] og ConcensusClusterPlus [19] er de flere populære for øjeblikket anvendes i molekylær subtypning af disse undersøgelser for brystkræft, tyk- kræft eller lungekræft osv [6-15].

Men de eksisterende clustering metoder [f.eks 16-19] har iboende begrænsninger. De arbejder som regel godt til at skelne forskellige histologiske eller patologiske typer af kræft, men ikke til at skelne fine detaljerede molekylære undertyper af en histologisk heterogen kræft type. Også på grund af den beregningsmæssige udfordring i at analysere store genomiske data, de fleste nuværende fremgangsmåder vælger at bruge en approksimativ beregningsmæssige model som grundlag. Aktuelle tilgange normalt preprocess de hel-genom data for gen eller funktion valg; eller de er stærkt afhængige af klinisk information til at guide gruppering af kræftpatienter [11-15]. forbehandling af data, kan dog miste information vigtige gener eller gen-mønstre forbundet med kræft, og at være alt for afhængig af klinisk information vil potentielt introducere skævhed til kræft heterogene molekylær subtypning. Begrænsningerne af aktuelle klyngedannelse metoder vil blive yderligere diskuteret i detaljer i næste Methods afsnit.

At indse en af ​​de iboende begrænsninger af eksisterende metoder er, at de fælles træk i baggrunden af ​​de storstilede genomiske data for kræft patienter kan tilsløre påvisning af sjældne, men vigtige data variationer, dvs., de vigtige genomiske træk definerer de fine detaljerede molekylære undertyper af patienter. Som i imaging behandling, når de præsenteres med tusindvis af overvågning billeder af den samme baggrund område, hvis vi kunne fjerne distraktion af den fælles baggrund og blot fokusere på den sparsomme interessante forgrunden oplysninger, kunne vi let og klart påvise de vigtige mønstre. Her præsenterer vi SPARCoC (Sparse-CoClust), en ny opsyn klyngedannelse ramme for at opdage molekylære mønstre og kræft molekylære undertyper. Rammerne er baseret på en ordning kaldet common-baggrund sparsomme-forgrund nedbrydning (CSD) og en teknik kendt som Maximum Block Improvement (MBI) skakternet co-klyngedannelse. Denne nye rammer synes at have betydelige fordele i kræft molekylær subtypning og identifikation gen signatur. Som vi skal se senere med et eksempel (fig. 1A), at klyngedannelse ved fællestræk (som er filosofien bag næsten alle eksisterende clustering metoder) er grundlæggende forkert i forbindelse med kræft molekylære subtypning. I stedet kan detektere abnormitet skjult bag fælles baggrund er kernen i vores nye tilgang

(a) En kunstig eksempel:. Givet input genekspression M matrix, hvor er de “interessante gener” skjult? (Dvs. som er generne væsentlige til at skelne de potentielle forskellige molekylære undertyper?) De “interessant” gener ikke let detekteret fra den givne M matrix med de nuværende populære clustering metoder, fx NMF eller Hclust. Imidlertid kunne vi tydeligt se “forgrundsviden” (en co-klynge af størrelse 5 × 5, vises med grønt af Y matrix) efter distraherende “baggrunden” X matrix fjernes gennem nedbrydning. De “interessant” gener (rækker 10-14) udtrykkes forskelligt for prøver /søjler 10-14 af Y-matrix. (B) Det nye klyngedannelse ramme. Denne nye ramme omfatter to moduler: den fælles-baggrund og sparsom-forgrunden nedbrydning (CSD) og Maximum Block Improvement (MBI) co-klyngedannelse. Givet en M matrix, vil CSD modul nedbrydes M og generere en “forgrundsviden” Y matrix; Derefter vil MBI co-clustering modul arbejder på Y matrix og output co-klynger, der giver oplysningerne om grupper af prøver og grupper af gener, der er forbundet med visse grupper af prøver.

Vores clustering rammer udfører clustering med “sparsom-forgrundsviden” ensartethed

,

, mens mange nuværende klyngedannelse metoder normalt foretage klyngedannelse med “baggrund” ensartethed

.

Vi evaluerer denne nye ramme for at studere lunge adenocarcinom (ADCA), hvilket er en ekstrem heterogen lungekræft histologiske type (https://www.cancer.gov/cancertopics/), og som nu er et paradigme for molekylær subtypning. Undersøgelserne af lungekræft med mange forskere har allerede vist muligheden for klassificering cancer (klasse opdagelse og klasse forudsigelse) baseret på genekspression profilering af kræftpatienter [20-24, 13, 14]. Mange undersøgelser foretage genekspression klyngedannelse og søge efter genekspression signaturer; imidlertid de offentliggjorte prognostiske gen signaturer fra forskellige undersøgelser har ingen (eller meget få) gener til fælles [25]. Denne mangel på overlapninger kan indikere, at mange gener er involveret i lungekræft patologi; lige så sikkert det kan også være en følge af uforudsete faldgruber med klyngedannelse baseret på et lille antal gener efter beskæring og forbehandling.

Vi anvender SPARCoC at analysere hel-genom genekspression profilering data for lunge ADCA patienter. Disse datasæt (samlet med profiler af mere end 600 lunge ADCA patientprøver) er af høj kvalitet og opsamles med omfattende kliniske oplysninger af patienterne. SPARCoC kunne klynge lunge ADCA og fase I lunge ADCA patienter baseret på deres genekspression profiler i undergrupper med markant forskellige kliniske overlevelse udfald, og de identificerede gen signaturer, når kontrolleres ved hjælp af helt uafhængige patient profilering datasæt, kunne adskille patienterne i undergrupper af distinkte overlevelse resultater . Konkret Kaplan-Meier analyse af den samlede overlevelse lunge ADCA og fase I lunge ADCA patienter med identificeret 128-gen signatur viste, at høj- og lav risiko grupper er signifikant forskellige i deres samlede overlevelse (med p-værdier 0,05). Bemærk, at processen med lunge ADCA patienter klyngedannelse, identifikation gen signatur, overlevelse analyse og krydsvalidering er klassisk for feltet (De interesserede læsere henvises til, f.eks [11-15]).

Vi tror vores nye rammer SPARCoC, når den anvendes til genomisk profilering af kræftpatienter, kan potentielt føre til nye opdagelser i studiet af kræft molekylære subtypning at guide medicinske behandlinger og ny identifikation af kræft gener eller gen mønstre for kræft prognose eller som medicinske mål.

Metoder

SPARCoC: en ny ramme for molekylær opdagelse mønster og kræft gen identifikation

Vores nye clustering ramme (fig. 1) omfatter to moduler: den fælles-baggrund og sparse- forgrunden nedbrydning (CSD) og Maximum Block Improvement (MBI) co-klyngedannelse. Følgende er et overblik og nogle korte diskussioner af de to moduler. I CSD modul, er den beregningsmæssige model baseret på sparsomme optimering; i co-clustering modul, er en blok optimering model vedtaget. Som det er diskuteret i detaljer i det følgende, vores rammer SPARCoC har nye funktioner, som gør det meget effektive i molekylær mønster opdagelse, og vores beregningsmæssige model er forskellig fra den model af robust principal komponent analyse (RPCA) og andre løbende klyngedannelse og biclustering /co -clustering metoder.

Et eksempel for at illustrere ideen om vores klyngedannelse rammer med CSD nedbrydning og MBI co-clustering (se fig. 1)

Dette eksempel indeholder tre filer (se S1 fil for detaljerne i eksempel filer): M.csv, Y.csv, og X.csv. Baggrunden X matrix (størrelse: 20 × 20; entry værdier fra 1 ~ 100) er en rang-én matrix tilfældigt genereret i MATLAB; forgrunden Y matrix (størrelse: 20 × 20 med indgangsværdier alle indstillet til at være 0, bortset fra en co-klynge af størrelse 5 × 5 med indgangsværdier alle indstillet til at være 10) til baggrunden X matrix, får vi M matrix (størrelse: 20 × 20), som nu er en rang-to matrix. Når givet M.csv (M matrix), vores CSD nedbrydning model tilbage nøjagtigt X.csv (X matrix) og Y.csv (Y matrix) som er angivet (Bemærk, at CSD model anvendte vi er (M3) model, som vil blive angivet senere, med K = 1, og støjniveauet δ = 0). Når vi teste effektiviteten af ​​MBI på Y.csv (Y matrix), får vi præcis rigtige co-klynge af størrelse: 5 × 5. Denne kunstige eksempel viser, at vores nye clustering rammer baseret på CSD nedbrydning og MBI co-clustering effektivt kan adskille “interessant” forgrund information (af interessante gener og interessante prøver) fra baggrundsinformation. Vi vil gerne påpege, at selv med dette simple eksempel, er det svært for andre klyngedannelse tilgange, såsom NMF, at korrekt adskille de interessante prøver fra de andre prøver, når M matrix er givet.

Den fælles -Baggrund og sparse-forgrund nedbrydning (CSD) modul

Vi brugte de følgende to modeller for fælles-baggrund og sparsom-forgrunden nedbrydning:. (M1) og (M2)

(Model 1 ) modellen er at skrive en given matrix M som summen af ​​tre matricer: X, Y og Z, på en sådan måde, at M = X + Y + Z, mens X er en rang-on matrix i form af X = x * ι hvor x er en beslutning vektor og ι er alt-én række vektor, og Z er støj matrix. Specifikt den pågældende model er (M1)

Bemærk at X har således en fælles-vektor struktur i den forstand, at alle søjlevektorer i X er de samme.

Det bemærkes ud, at vores fælles-vektor model er teoretisk forskellig fra RPCA model foreslået i Candes et al. [26] og Chandrasekaran et al. [27]. Den væsentligste forskel er RPCA kræver X at være lav-rang, men vores model (M1) kræver, X til at være en særlig rang-én matrix. L

1 normen i målsætningen om (M1) fremmer naturligt sparsitet i matricen Y. For nylig er en lignende model til billeddannelse baggrund ekstraktion blev også anset uafhængigt af Li, Ng og Yuan [28] i forbindelse med billedbehandling til applikationer i videoovervågningssystemer. Vi løser (M1) af den såkaldte Skiftende Direction Metode til multiplikatorer (ADMM), som er en første ordens optimering rutine, tillader os at løse meget store størrelse modeller.

(Model 2) Overveje genekspression matricer m

k af samme dimension m × n og k = 1, 2, …, K. indeks k betegner en given tilstand. For en given k, matrix M

k = (a

k

ij) m × n indeholder ekspressionsniveauet af gen i henhold tidspunkt j, hvor i = 1, 2, …, m og j = 1, 2, …, n. Vi kan modellere baggrund udsving af udtrykket niveau ved en lav rang matrix, og de resterende sparsomme matricer derefter afspejle forgrunden som “viser” et udtryk for de “interessante” eller “aktive” gener. Denne information kan anvendes til at analysere forholdet eller korrelationen mellem genekspressionsniveau /mønster og type /undertyper. Optimeringen model af interesse er: (M2), hvor ǁY

0 er L

0-norm (aka kardinaliteten) af Y

jeg betegner støjniveauet, og

i 0 er nogle passende valgt vægtning parameter. Den tilsvarende konvekse afslapning model er:. (M3)

Bemærk at (M3) bliver en fælles-vektor model (M1), når vi tilføjer en ekstra begrænsning X = x * ι til det

Se følgende for pseudo kode for common-baggrund og sparsom-forgrund nedbrydning model (M1)

Input:. dataene matrix

M

, og støjniveauet parameteren δ.

Output: den fælles-baggrund vektor

x

den sparsomme-forgrunden matrix

Y

Begynd:.

(initialisering ). Definer augmented Lagrange funktion for (M1):

Bemærk at

D

er Lagrange multiplikator er forbundet med den begrænsning lighed i (M1), og

r

0 er en straf parameter. Set startværdier:

Y

: =

Y

0,

Z

: =

Z

0,

D

; =

D

0. Indstil værdi for parameter

r

. Sæt løkken tæller

k

: = 0.

(Minimering af augmented Lagrange funktion med hensyn til

x

,

Y

,

Z

skiftevis). Løs følgende tre simple optimeringsproblemer sekventielt:

(Opdatering af Lagrange multiplikator). Beregn

(Stop kriterium). Hvis visse standsning kriterium er opfyldt, så stop. Ellers sæt

k

: =

k

en, og gå til trin 1.

(Udsendelse

x

og

Y

). Output fælles-baggrund vektor

x

k + 1

og den sparsomme-forgrunden matrix

Y

k + 1

.

Den maksimale Block Improvement (MBI) co-clustering modul

Vores klyngedannelse tilgang er baseret på en tensor optimering model og en optimering metode betegnes Maximum Block Improvement (MBI) [29]. Overvej følgende formulering til co-clustering problem for en given tensor datasæt M ∈ R

n1 × n2 … × nd: hvor f er en given nærhed foranstaltning. I [29], den såkaldte

foreslås Maximum Block Improvement

(MBI) metode til at løse ovenstående model (CC), med opmuntrende numeriske resultater. Interesserede læsere henvises til vores tidligere arbejde i [29] for pseudo-koderne for de MBI model for tensor co-clustering og for 2D matrix co-klyngedannelse. Bemærk, at den ovenstående model for tensor co-clustering er

overstående

, i den forstand, at hvis der findes nøjagtige co-klynger derefter ovenstående model på sit optimale opnår den mindste værdi nul.

MBI kan anvendes clustering tilgang til co-cluster genekspression data i 2D matricer (gener versus prøver) samt data i høj dimensional tensor formular. De nye rammer er fleksibel, at det er let at omfatte en række målinger klyngedannelse kvalitet. Vores foreløbige forsøgsprøvning viser sin effektivitet og [30, 29]. MBI, som skakternet co-klyngedannelse tilgang, uden gen-trimning, kunne give identifikation af cancer undertyper og også gener korreleret med undertyper på samme tid, mens de fleste tidligere bi-clustering eller co-clustering metoder (f.eks LAS [31 ], QUIBC [32], osv) er mere fokuserede på at udvinde sammenhængende genekspressionsmønstre, normalt ikke udføre godt for kræft subtypning. Teoretisk, sammenlignet med andre co-klynger tilgange, er vores model baseret på en nøjagtig formulering til co-clustering mens du søger efter en tilnærmet løsning til den præcise model. I denne ånd, andre tilgange (f.eks SVD lav rang matrix metode [33] og NMF-metoden [17]) basen indsatsen på en omtrentlig formulering af co-klyngedannelse.

Tag NMF metoden som en eksempel, som er en af ​​de for tiden udbredte tilgange til kræft molekylær subtypning. Der er to iboende mangler for NMF: (1) det kræver de registreringer input genekspression matrix til at være alle ikke-negative værdier; (2) den deler inputmatrixen i det samme antal grupper for de rækker (gener) og for søjlerne (prøver). Da antallet af generne (~ 30.000) er normalt betydeligt større end antallet af prøverne (ca. flere hundrede), kan det ikke være meget meningsfuldt at opdele generne (rækker) og prøverne (kolonner) i samme antal grupper, hvor sædvanligvis antallet af forskellige molekylære undertyper er lille, fx mellem 2 og 5. for eksempel når antallet af grupper k = 2, vil NMF fremgangsmåden få en 2 × 2 separation af en pilsner genekspression matrix (såsom 22.000 rækker × 276 søjler) i 4 blokke, hvilket giver en meget grov separation af matrixen. På lige fod vores MBI tilgang er fleksibel nok til at give et ordentligt fin detaljeret separation, siger, med antallet af rækken grupper k

1 100, og antallet af kolonnegrupper k

2 = 2.

Vi vil gerne påpege, at antallet af k

1 og k

2 er vigtige dimension parametre for MBI co-klyngedannelse. Der er ingen effektive metoder, der kunne udlede de optimale tal for k

1, k

2, men vi kunne anvende en lokal søgning proces [29] for at søge efter en lokal optimale tal for k

1, k

2.

Bemærk at næsten alle ukontrollerede klyngedannelse tilgange vil ikke altid generere nøjagtig de samme klynger danner alle kørsler med forskellige parameter opsætninger på samme datasæt. Ligesom NMF tilgang, den nye MBI algoritmen kan eller ikke konvergere til den samme opløsning for hvert forsøg, afhængigt af de forskellige tilfældige begyndelsesbetingelser. Vi anvender også ideen om konsensus klyngedannelse, under hensyntagen til de oplysninger af hver to prøver, der grupperet sammen fra et bestemt antal MBI kører. Hvis to prøver er af samme type eller undertype, vi så forvente, at prøve opgaver varierer lidt fra køre at køre [17].

Nye funktioner i vores nye rammer SPARCoC

I det følgende gives den grundlæggende af den fælles-baggrund og Sparse-forgrund nedbrydning (CSD) model og Maximum Block Improvement (MBI) co-clustering teknik, og også opsummerer kort de nye funktioner i SPARCoC sammenlignet med eksisterende clustering metoder:

Hvor er kræft gener er vigtige for at definere forskellige molekylære undertyper af kræft? En af de store opdagelser gennem vores undersøgelse viser, at de repræsenterer en “forgrund” af genekspression profilering data for patienter, der typisk skjult i “baggrunden” af et ocean af støjende genekspression data. Indsatsen i vores nye clustering ramme baseret på CSD nedbrydning og MBI co-clustering er at definere forskellige molekylære undergrupper af patienter og hjælpe enkelt ud de vigtige effekt-making “forgrund” gener fra deres støjende baggrund.

Bemærk, at næsten alle andre aktuelle klyngedannelse og co-clustering metoder er baseret på den opfattelse at identificere fællestræk; dermed de er fanget af mønstre af baggrunden

,

stedet for at fokusere på de oplysninger-rige “forgrunden” af genekspression data

(se fig. 1A).

CSD nedbrydning modul letter effekten af ​​de vigtige “interessant” gener at skille sig ud af “baggrund”, og dermed hjælpe med at identificere kræft gener og fin-detaljerede molekylære undertyper, som ellers vil være umuligt at opdage (se 1A, tabel 1).

MBI co-clustering modul, som et skakternet co-klyngedannelse tilgang, kan generere både rækken gruppering og kolonne gruppering på samme tid, og dermed hjælpe med at identificere kræft gener (rækker) definere de forskellige molekylære klynger /undergrupper af patienter (kolonner) (se fig. 2).

Vores tilgang kan anvendes på storstilede genomisk profilering datasæt patienter uden nogen gen trimning eller funktion valg. Det viser sig at være meget effektiv og kører på hel-genom genekspression datasæt samt andre datasæt såsom mutation, kopiantal, miRNA, methylering, exome sekventering og omvendt sætning Proteinarray etc. Det er i stand til at identificere potentielt nye molekylære undertyper af kræft og kræft gener eller gen-mønstre. Vejviser

. For genekspression datasæt studeret her, MBI co-clustering samtidig give genet (række) grupperinger og prøven (kolonne) grupperinger, identificere de gener, der er forbundet med de forskellige typer eller undertyper. (A) Heat kort viser klare co-klynger identificeret af MBI. Handlingen er baseret på reelle værdier af Y-matrix af genekspression profilering data (data1 med tre typer: Coid /20, CM /13, NL /17; henviser til S1 fil). Hver række svarer til et gen; hver kolonne svarer til en prøve. Denne varme Kortet viser udtrykket værdier på 100 gener på tværs af alle de 3 forskellige typer. (B) Heat map viser klare co-klynger identificeret af MBI. Handlingen er baseret på værdierne Y-matrix for Canada stage1 datasæt (zonekort for Canada stage1 datasæt med 562 gener med k

1 = 100 og k

2 = 2. De to grupper er adskilt af en tyk sort lodret linje).

se testresultaterne fremlægges her og i underbyggende oplysninger (

se

S1 fil

for yderligere testresultaterne

), som viser de klare fordele ved vores nye klyngedannelse rammer. Vores test viser, at: (1) CSD tilgang letter identifikation af genmarkører, de potentielle genmarkører skiller sig ud af “baggrunden”; (2) Den MBI tilgang præsterer bedre på Y versus på M, hvor M er den oprindelige genekspression matrix, og Y er den sparsomme matrix genereres gennem CSD nedbrydning; (3) vores nye clustering ramme udfører meget bedre i forhold til de udbredte clustering fremgangsmåder, f.eks Hclust og NMF (se også fig 3A og 3B, fig 3C og 3D,.. De mindre p-værdier fra log rank test (Fig . 3; tabel 2) og de lavere procentdele af 3-års samlet overlevelse af højrisikogrupper (

også se

S1 fil

for yderligere testresultaterne

) indblande vores CSD + MBI model er en bedre clustering model).

(a) og (b). Sammenligning af Kaplan-Meier-overlevelse plots baseret på uovervågede klynger af Hierarkisk klyngedannelse (Hclust), og at af MBI, når det gives samme genekspression matrix M (lunge ADCA Canada datasæt fra Shedden et al. [7]. (A) Kaplan Meier overlevelse plot baseret på Hclust. (b) Kaplan-Meier overlevelse plot baseret på MBI klyngedannelse (med leave-one-out-cross-validering (LOOCV) ~ 99% nøjagtighed). MBI viser en bedre adskillelse af den aggressive undergruppe fra andre to undergrupper sammenlignet med Hclust Bryant et al [6] P-værdier beregnes ved log-rank test,.. den LOOCV blev udført ved anvendelse PAM [18] (c) og (d) Sammenligning af Kaplan-Meier.. overlevelse plots baseret på uovervåget gruppering af NMF (c), og at af MBI (d), når det gives samme genekspression matrix M (lunge ADCA Canada datasæt fra Shedden et al. [7]). når de får den samme genekspression test data, overlevelseskurverne fra MBI klyngedannelse viser en mere markant adskillelse end dem fra NMF klyngedannelse. de p-værdier beregnes ved log-rank test.

Sammenlignet med andre ukontrollerede clustering metoder, vores nye clustering rammer udfører robust samlet, og viser en væsentligt forbedret clustering resultatet på visse datasæt. Faktisk udførelsen af ​​en klyngedannelse algoritme kan blive væsentligt påvirket af de datasæt: nogle datasæt med forskellige former som “æble og appelsin” typer, mens nogle andre datasæt med typer, der har meget subtil forskel som forskellige “æble” typer. Formålet med dette papir er i virkeligheden at foreslå en omhyggeligt designet ny effektiv klyngedannelse rammer, for at imødekomme udfordringerne i kræft heterogen molekylær subtypning (differentiere subtilt ændrede “æble” typer). I det følgende anvender vi vores nye rammer for at studere meget udfordrende, ekstrem heterogen lungekræft adenocarcinom (lunge ADCA og fase I lunge ADCA).

Resultater

I dette afsnit har vi analyseret høj -kvalitet genekspression profilering data for samlet ~ 600 patientprøver, og vores metode let giver klynger af lunge ADCA patienter med forskellige kliniske overlevelse resultater og identificerer gen underskrifter, som, når kontrolleres ved hjælp af helt uafhængige datasæt, er i stand til at skelne lunge ADCA patienter i undergrupper med signifikant forskellig samlet overlevelse (p-værdier 0,05). Vi kunne replikere vores resultater under anvendelse helt uafhængige datasæt. Statistiske analyser udført for at demonstrere resultaternes robusthed.

Vi bruger SPARCoC at analysere genekspressionsprofiler af lunge adenocarcinom (ADCA) patienter og præsentere vores resultater af molekylær subtypning og prognostisk gen signatur opdagelse. Baseret på hel-genom genekspression profilering af lunge ADCA patienter, SPARCoC klynger patienternes i forskellige undergrupper; og patient samlet overlevelse er signifikant forskellig blandt undergrupperne. Det hjælper med at identificere kræft gen underskrifter, som, når verificeres med helt uafhængig genekspression profilering af data, kunne adskille lunge ADCA og fase I lunge ADCA patienter i undergrupper med forskellige kliniske overlevelse resultater.

Bemærk, at resultaterne præsenteres her, er baseret på genekspression profilering dataanalyse kun, uden at inkorporere enhver anden funktion valg, eller kliniske oplysninger, som er forskellig fra andre analyser i litteraturen (fx [34, 35, 15] ). Men stadig kan vi se, at vi er i stand til at replikere vores resultater med helt uafhængige datasæt

.

For test og verifikation, vi bruger i vores undersøgelse følgende datasæt med genekspression profiler af kollektivt mere end 600 lunge ADCA patientprøver; disse store datasæt er af høj kvalitet og opsamles med omfattende kliniske oplysninger af kræftpatienter.

Datasæt anvendes

Jacob datasæt.

442 ADCA prøver, med genekspression og kliniske data fra National Cancer Institute (NCI) direktørens Challenge Consortium [11]. Denne datasæt består af 4 forskellige patientgrupper kohorter, herunder Toronto /Canada (TC, n = 82, med trin I n = 57), Memorial Sloan-Kettering Cancer Center (MSKCC, n = 104, med trin I n = 62), H . Lee Moffit Cancer center (HLM, n = 79, med trin i n = 41), og University of Michigan Cancer center (UM, n = 177, med trin i n = 116). Lignende som i [15], datasæt TC og MSKCC er kombineret sammen kaldes TM (n = 186), og datasæt HLM og UM kombineres sammen kaldet HM (n = 256).

ACC datasæt.

117 ADCA prøver af Aichi Cancer center, opnået fra https://www.ncbi.nlm.nih.gov/geo, tiltrædelse nummer GSE13213 [36].

GSE5843 datasæt.

46 ADCA prøver (fase IA 16 prøver; fase IB 30 prøver)., opnået fra https://www.ncbi.nlm.nih.gov/geo, tiltrædelse nummer GSE5843 [37]

Det er kendt, at lungekræft er den hyppigste årsag til kræft-relaterede dødsfald på verdensplan (https://seer.cancer.gov/statfacts/). Næsten 50% af patienter med fase I og II ikke-småcellet lungekræft (NSCLC) i sidste ende dø af tilbagevendende sygdom trods kirurgisk resektion. Det er meningsfuldt at opdage lungekræft molekylære undertyper med forskellige kliniske resultater, således at hver molekylær undertype har foreslået retningslinjer for behandling, der omfatter specifikke analyser, målrettede behandlinger, og kliniske forsøg. Men det er svært at studere de subtile heterogene forskelle i molekylære undertyper af lunge adenocarcinom (ADCA) og især dem af trin I lunge ADCA, uden adgang til klynger fra magtfulde opsyn clustering tilgange såsom romanen clustering rammer SPARCoC udviklet her (se udførelsen sammenligning af vores klyngedannelse tilgang og NMF eller Hclust i det foregående afsnit og S1 File).

clustering lungeadenokarcinom (ADCA) patienter

Tydelige undergrupper af patienter af TM og HM datasæt.

TM og HM datasæt blev brugt som uddannelsen datasæt for vores analyse. Tabel S2.

Be the first to comment

Leave a Reply