PLoS ONE: Integreret analyse af flere Microarray Datasæt Identificerer en reproducerbar Survival Predictor i æggestokkene Cancer

Abstrakt

Baggrund

Offentlig dataintegration kan hjælpe med at overvinde udfordringer i klinisk implementering af microarray profiler. Vi har integreret flere ovariecancer datasæt til at identificere en reproducerbar indikator for overlevelse.

Metodologi /vigtigste resultater

Fire microarray datasæt fra forskellige institutioner omfatter 265 fremskredne stadie tumorer blev ensartet igen omdannes til en enkelt træning datasæt, også justering for mellem laboratorier variation ( “batch-effekten”). Overvåget principal overlevelse komponent analyse blev anvendt til at identificere prognostiske modeller. Modeller blev uafhængigt valideret i en 61-patient kohorte hjælp af en brugerdefineret vifte GeneChip og en offentligt tilgængelig 229-matrix datasæt. Molekylær korrespondance af høj- og lav risiko resultatet grupper mellem uddannelse og validering datasæt blev demonstreret ved hjælp Underklasse Mapping. Tidligere etablerede molekylære fænotyper i 2

nd validering sæt blev korreleret med høj og lav risiko resultatet grupper. Funktionel repræsentationelle og sti analyse blev anvendt til at undersøge gen netværk er forbundet med høje og lave risiko fænotyper. En 19-gen model viste optimal ydeevne i træningssættet (median OS 31 og 78 måneder, p 0,01), 1

st validering sæt (median OS 32 måneder versus ikke-endnu-nået, p = 0,026) og 2

nd validering sæt (median OS 43 versus 61 måneder, p = 0,013) at opretholde selvstændig prognostisk magt i multivariat analyse. Der var stærk molekylær korrespondance af de respektive høj- og lavrisiko-tumorer mellem uddannelse og 1

st validering sæt. Lav og høj-risiko tumorer blev beriget for gunstige og ugunstige molekylære undertyper og veje, der tidligere er defineret i det offentlige 2

nd validering sæt.

Konklusioner /Betydning

Integration af tidligere genereret kræft microarray datasæt kan føre til robuste og bredt anvendelige overlevelse prædiktorer. Disse prædiktorer er ikke blot en samling af prognostiske gener, men synes at spore sande molekylære fænotyper af goodwill og dårlig resultat

Henvisning:. Konstantinopoulos PA, Cannistra SA, Fountzilas H, Culhane A, Pillay K, Rueda B et al. (2011) Integreret analyse af flere Microarray Datasæt Identificerer en reproducerbar Survival Predictor i kræft i æggestokkene. PLoS ONE 6 (3): e18202. doi: 10,1371 /journal.pone.0018202

Redaktør: Chad Creighton, Baylor College of Medicine, USA

Modtaget: November 17, 2010; Accepteret: 23 februar 2011; Udgivet: Marts 29, 2011

Copyright: © 2011 Konstantinopoulos et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne undersøgelse blev støttet via NIH /NCI P50CA105009 kræft i æggestokkene SPORE (Career Development Award til Dimitrios Spentzos, og Project 4 til Daniel Cramer /Stephen Cannistra), den Clinical Investigation Training Program, Beth Israel Deaconess Medical center og Harvard-MIT Division of Health Sciences og Teknologi, Boston, til Panagiotis Konstantinopoulos, den Bernice Shopkin Weisman Fund, den æggestokkene Cancer Research Fund til minde om Amy Sachs Simon, LeAnn Fond, og de søstre Against kræft i æggestokkene. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

epitelovariecancer (EOC) præsenterer et eksempel på løftet og udfordringer ved brug af microarray analyse for prognostisk biomarkør forskning. Baseret på dets stærkt heterogen klinisk forløb [1], [2], [3] (selv inden avanceret EOC, som udgør over 70% af tilfældene) og den beskedne diskriminerende magt konventionelle prognostiske faktorer (mængde af tilbageværende sygdom efter indledende kirurgi, alder, tumorklassificering, og histologisk subtype [1], [4], [5]), microarray undersøgelser blev videreført i et forsøg på at forklare den molekylære og biologiske kompleksitet af sygdommen [6], [7], [8] , [9], [10]. Men ingen produceret en genekspression signatur, har været passende til klinisk anvendelse. Dette skyldes i høj grad, blandt andre grunde, variabel eller lille prøve størrelse, mangel på tilstrækkelig validering, eller integration af undertyper (klar celle, mucinøse, papillære EOCs), som udgør distinkte molekylære enheder [11]. Mens kollektivt disse undersøgelser kan være tilstrækkelig til at identificere brugbare underskrifter, der kombinerer data eller analyseresultaterne er svært for mange grunde, herunder brug af en bred vifte af array-platforme, forskellige data normalisering og analyse tilgange, og variabilitet i eksperimentelle protokoller og patient udvælgelse. Endelig i mange tilfælde er det ikke klart, om de prognostiske underskrifter afspejler reproducerbare stabil sygdom fænotyper eller er simpelthen en kombination af prognostiske gener. Disse begrænsninger, som ikke er enestående for kræft i æggestokkene, viser de udfordringer, der begrænser anvendelsen af ​​microarray signaturer i kræft pleje og forskning, især i kræft med mere begrænset adgang til passende ressourcer væv.

I et forsøg på at løse disse udfordringer, vi samles, kurateret, og behandlet en samling af 265 rå genekspression arrays fra fire tidligere rapporterede æggestokkræft microarray undersøgelser [10], [12], [13], [14] anvender konsekvent data normalisering, kvalitetskontrol, og analytisk metoder. En multi-gen model blev identificeret i denne sammensatte sæt, der blev derefter uafhængigt valideret i to separate tumor kohorter, hvoraf den ene blev profileret på en brugerdefineret vifte GeneChip og den anden var en offentligt tilgængelig standard oligonukleotid vifte datasæt [15]. Endelig viste vi, at denne multi-gen-modellen er ikke blot prognostisk af resultatet, men afspejler reproducerbare ovariecancer fænotyper og tilsyneladende samtidigt spore deregulering af flere biologiske eller onkogene veje i denne sygdom.

Resultater

Udvikling af multi-gen prognostiske klassificører i den integrerede uddannelse indstillet

Figur 1 viser arbejdsgangen i vores undersøgelse (consort diagram). Vi har designet en brugerdefineret vifte gen chip, der omfattede ca. 650 top udfører kandidatgener identificeret ved at anvende den overvågede principal overlevelse komponent analyse i hver af de fire tidligere rapporterede datasæt. Derefter, vi kombinerede alle fire microarray datasæt i en sammensat træningssæt (eksklusive 39 outlier prøver), som bestod af 239 tumor arrays (tabel 1, figur 1). Hierarkisk klyngedannelse i den kombinerede træningssæt afslørede, at, før påføring af tilpasningen batch algoritme, hver datasæt klart adskilt fra alle de andre, der afspejler ikke-biologisk eksperimentel variation ( “batch-effekten”), mens efter justering for batch effekt, tumor prøver fra alle datasæt var godt blandet (Figur 2).

Rå data (Affymetrix .CEL-filer) fra fire tidligere rapporterede microarray datasæt fra forskellige institutioner blev brugt. Outlier prøver blev udelukket, og batch effekt blev justeret som medfører en endelig træningssæt (239 arrays). 650 gener blev udvalgt ved at udføre overlevelse analysen i hvert datasæt og blev anvendt til at udvikle prognostiske modeller i det endelige træningssæt. Data forbehandling (kvalitetskontrol og batch justering) og normalisering resulterer i et integreret træningssæt blev særskilt fra udvælgelsen af ​​650 gener, som blev valgt uafhængigt ved at udføre overlevelse analyse i hver af de 4 datasæt (MD Anderson, Penn, DUKE , BIDMC). Disse forudvalgte 650 gener blev derefter anvendt til at udvikle prognostiske modeller i det kombinerede træningssæt. Disse modeller blev uafhængigt valideret i to uafhængige datasæt: en 61-tumor kohorte hjælp af en brugerdefineret array med de 650 forudvalgte gener og en 229-tumor nylig offentliggjort ovariecancer microarray datasæt. Korrespondancen af ​​lav- og højrisiko-fænotyper blev vurderet ved hjælp SubMap.

Multidimensional skalering af den kombinerede træningssæt afslørede, at hver datasæt før anvendelse af justering batch algoritme, klart adskilt fra alle de andre ( “batch-effekten”), hvorimod efter korrektion af batch effekt, prøver fra alle datasæt var godt sammenblandet.

Vi brugte efterfølgende puljen af ​​de 650 markørgener (uden kendskab til deres effektivitet på brugerdefinerede array) for at generere flere gen prognostiske klassificører i den kombinerede træningssættet. Gener forbundet med overlevelse (p 0,05) blev rangeret baseret på deres absolutte Cox regressionskoefficienter, og prognostiske modeller med topplacering gener blev udviklet ved hjælp af overvåget principal overlevelse komponent analyse [16]

Da vores mål var at. udvikle oligogene prognostiske underskrifter vi først identificerede modeller med det laveste antal af gener, der kunne give prognostisk information i den integrerede træningssæt. Modeller med så få som to gener fremtrædende mellem en høj og en lav risikogruppe for overlevelse i den kombinerede træning sæt (HR = 1,7, p = 0,003). Så vi evaluerede modeller med højere antal gener i træningssættet og bemærket progressivt øget hazard ratio (timer), indtil der var et plateau, med stabile, statistisk signifikante HRs mellem 14 og 19 gener (dvs. HR = 2.1-2.3, s 0,001). Af disse modeller viste 19-genet model den bedste prognostiske præstation som tydeligt ved dens højere hazard ratio sammenlignet med de andre. Den bedste prognostiske model (19 gener, tabel 2) skelnes mellem en høj og en lav risikogruppe (median OS 31 og 78 måneder henholdsvis log rank p 0,01, permutation p = 0,02) (Figur 3)

19-gen model skelnes mellem en høj og en lav risiko gruppe i uddannelsen sæt med en median OS på 31 måneder og 78 måneder henholdsvis (log rank p 0,01, permutation p = 0,02), en høj og en lav -risk gruppe til OS i en

st validering sæt (median OS 32 måneder versus ikke-endnu-nået henholdsvis log rank p = 0,026), og en høj og en lav risikogruppe til OS i 2. validering sæt (median OS 43 måneder versus 61 måneder henholdsvis log rank p = 0,013).

Uafhængig validering af de multi-gen prognostiske klassificører

19-genet prognostisk klassificeringen blev anvendt uden yderligere modifikation af 1

st validering sæt som omfattede udtryk data fra en uafhængig kohorte af fremskreden ovariecancer (tabel 1, n = 61) ved hjælp af vores custom array med de 650 tidligere valgte gener; disse gener var blevet valgt uden forudgående viden om deres prognostiske præstationer i valideringen sæt. Den 19-gen model skelnes mellem en høj og en lav risikogruppe (median OS 32 måneder versus ikke-endnu-nået henholdsvis log rank p = 0,026, ved 33 måneder median opfølgning, figur 3). Notatet når vi prioriteret de 19 gener baseret på deres sammenhæng med de vigtigste komponenter i datasæt eller vægten af ​​deres bidrag til den model, klassificører, herunder de øverste 8-19 gener var også prognostisk gyldige i 1. validering sæt (Tekst S1 ).

19-genet prognostisk klassifikatør blev også anvendt uden yderligere ændringer til 2. validering sæt, som omfattede udtryk data fra 229 ovariecancer (tabel 1, n = 229). Igen, adskiller den 19-genet model mellem en høj og en lav risikogruppe (median OS 43 måneder versus 61 måneder henholdsvis log rank p = 0,013, figur 3). Svarende til en

st validering sæt, når vi prioriteret de 19 gener baseret på deres korrelation med de vigtigste komponenter eller deres vægt af bidrag til den model, flere klassificører herunder de øverste 8-19 gener var også prognostisk gyldige i 2. validering sæt (Text S1).

det er vigtigt, vi forsøgte at gengive den prognostiske effekt af to tidligere rapporterede underskrifter, fra BIDMC og Duke datasæt henholdsvis [6], [10]. Hverken signatur var reproducerbar i nogen af ​​de to uafhængige validering sæt (Tekst S1). Ræsonnement, at dette kan skyldes forskellige analytiske algoritmer anvendt i de tidligere undersøgelser, vi har forsøgt at bygge nye signaturer ved hjælp af overvåget principal overlevelse komponent metode separat i hver af de 4 datasæt, der omfattede den integrerede træningssæt. Igen kunne ingen af ​​disse signaturer valideres i nogen af ​​de to uafhængige sæt (Text S1). Disse observationer understreger værdien af ​​at integrere flere udtryk datasæt for at udlede bredt reproducerbare underskrifter.

Uafhængig prognostisk betydning af klassificeringen korrigeret for kendte kliniske og patologiske prognostiske faktorer

Vi udførte multivariat analyse og formelt fastslået, at 19-genet model opretholdt uafhængig prognostisk betydning justeret for forstyrrende faktorer, både i træning og de to uafhængige validering sæt (figur 4A og tabel 3). Konkret Hazard Ratio (HR) for død for det ugunstige versus den gunstige gruppe var 2.47 i træningssættet (95% CI, 1,71-3,56; p 0,01), 2,2 i 1

st validering sæt (95% CI, 1,01 til 7,76; p = 0,04), (figur 4A) og 1,59 i 2

nd validering sæt (95% CI, 1,05 til 2.4 p = 0,03), (tabel 3). Fordi kun 8/229 (3%) af tumorerne blev endeligt kendt for at være suboptimalt debulked i 2

nd validering sæt blev debulking status inkluderet i den multivariate analyse af 2

nd valideringssættet som “groft synlig “versus” ikke synlige “residual sygdom efter operationen. Navnlig den uafhængige prognostiske værdi af profilen holdes gælder, uanset om lav kvalitet blev defineret som grad 1 eller grad 1 og 2 sygdom (tabel 3).

A) prognostiske værdi af 19-Genekspressionsprofil justeret for kendte prognostiske faktorer ved Cox proportionel risiko regressions i uddannelse og 1

st validering sæt. B) Kaplan-Meier-analyse til OS som en funktion af den 19-genet profil for homogene undergrupper af patienter med optimal og suboptimal debulking status i træningssættet. C) Kombinationen af ​​optimal debulking og lav risiko 19-gen profil blev associeret med en median OS 119 måneder i uddannelsen sæt og ikke-endnu-nået i valideringen sæt, mens kombinationen af ​​suboptimal debulking og høj risiko 19 -genet profil var forbundet med en median OS på 23 måneder i træningssættet (HR = 7,3, 95% CI 3,4-13,5) og 21 måneder i en

st validering sæt (HR = 5,8, 95% CI 2.1- 16).

data om kemoterapi reaktion var kun tilgængelig for 1. validering sæt. Når vi indgår kemoterapi respons (dvs. opnåelse af komplet klinisk respons (CCR) efter første linje kemoterapi versus ikke opnåelsen af ​​CCR) i den multivariate analyse for 1. validering sæt, den 19-genet profil fastholdt sin uafhængige prognostisk betydning (HR = 3,96, 95% CI 1,56 til 10,1;. p = 0,004)

Figur 4B viser også, at 19-genet profil stadig var prognostiske af OS, når den anvendes i de homogene undergrupper af patienter med optimal og suboptimal debulking status i uddannelsen sæt. Denne delmængde analyse kunne ikke udføres i en

st validering sæt på grund af begrænsninger størrelse prøve, og i 2

nd validering sæt fordi kun 8/229 tumorer (3%), var absolut kendt for at være suboptimalt debulked .

Gene udtryk modeller og debulking status var de stærkeste uafhængige prædiktorer for overlevelse; derfor var vi interesserede til at vurdere deres samlede prognostiske magt, som også er vist i figur 4C. Især blev kombinationen af ​​optimal debulking og lav risiko 19-gen profil forbundet med en median OS 119 måneder i uddannelsen sæt og ikke-endnu-nået i 1

st validering sæt, mens kombinationen af ​​suboptimal debulking og høj risiko 19-gen profil blev associeret med en median OS på 23 måneder i træningssættet (HR = 7,3, 95% CI 3,4-13,5) og 21 måneder i en

st validering sæt (HR = 5,8, 95% CI 2,1 til 16), der viser, at kombinationen af ​​de to variabler er langt mere kraftfuld end nogen af ​​dem individuelt. Denne kombination kunne ikke vurderes på 2

nd validering sæt fordi kun 3% af tumorerne absolut var kendt for at være suboptimalt debulked.

Genom-bred molekylær korrespondance af høj og lav risikogrupper mellem uddannelse og validering sæt

Det er ofte uklart, om prognostisk genekspression modeller er surrogater for underliggende bredere molekylære eller biologiske fænotyper, eller blot en kombination af individuelle prognostiske gener. For at teste hypotesen om, at vores prognostiske modeller sporer molekylære fænotyper af høj versus lav risiko ovariecancer, brugte vi en metode (underklasse Mapping-SubMap), der er entydigt egnet til at vurdere hele genomet molekylær korrespondance af forud specificerede undertyper i uafhængige og endda teknisk uensartede datasæt [17]. Konkret har vi undersøgt, om høj eller lav risiko tumorer i den kombinerede uddannelse sæt var molekylært homologe med høj eller lav risiko tumorer i 1

st validering sæt, ud over den håndfuld af gener, der er indeholdt i modellerne. Dette gøres ved at påvise berigelse af genet profil af “høj risiko” (eller “lav risiko”) gruppe i træningssættet for et stort antal af markører gener for “høj risiko” (eller “lav risiko”) gruppe i valideringssættet og vice versa. Som vist i figur 5A, for 19-genet model, høj og lav risiko tumorer i den kombinerede træning sæt svarede med høj grad af statistisk sikkerhed med høj og lav risiko tumorer henholdsvis i valideringen sæt (tabel S1). Dette resultat blev reproduceret ved hjælp af forskellige undergrupper af markørgener for 19-genet model.

SubMap analyse af genom-dækkende korrespondance (lighed) mellem respektive høje og lave risici grupper i uddannelse og 1

st validering sæt. Legenden viser forholdet mellem farve og FDR-justerede p-værdier. Rød farve angiver høj tillid til korrespondance; blå farve angiver manglende overensstemmelse (tabel S1). B) Funktionel gen sæt analyse og funktionel repræsentative analyser i prøver høj og lav risiko sygdom. Gensæt analyse (GSA) over et bredt område af differentielt udtrykte gener afslørede 8 veje, der var konsekvent statistisk signifikant forskelligt udtrykte. (Efron-Tibshirani GSA, s 0,05). Udvalgte veje-gen sæt er vist, at var overrepræsenteret blandt høj-risiko og lav risiko tumorer ved funktionel repræsentative analyse ved hjælp EASE (inden-systemet FDR ≤0.01). En komplet liste over disse veje findes i tabel S2, S3 og S4. Stjerner (*) betegne veje, der blev ligeledes udtrykt i tilsvarende prognostiske grupper i 2

nd validering sæt.

For 2

nd validering datasæt, gunstig (C3 og C6) og ugunstige (C1, C2, C4, C5) prognostiske molekylære undertyper allerede blevet defineret af forfatterne [15]. Vi har derfor vurderet, om disse tidligere definerede molekylære undertyper blev gengivet i de lave og højrisikogrupper som defineret af vores 19-gen profil i 2

nd validering sæt (figur 3). Ja, i de 2

nd validering sæt, blev den lave risikogruppe (som defineret af 19-genet profil) beriget for den gunstige (C3 og C6) undertyper og højrisikogruppe blev beriget for uheldige undertyper, som tidligere defineret [15] (2-sidet Fishers eksakte p = 0,0016).

pathway analyse i sygdomsgrupper høj og lav risiko

for at få indblik i vejen kompleksitet høj og lav risiko for sygdom, vi udførte vej og repræsentative analyser til at identificere kommenterede veje og funktionelle gen grupper, der blev overrepræsenterede (beriget) i gen-profiler af de to risikokategorier i store træningssæt (den brugerdefinerede array, ved design, indeholdt for få gener til at udføre denne analyse i valideringen sæt).

GSA pathway analyse blev udført over et bredt udvalg af differentielt udtrykte gener mellem høj og lav-risikogrupper [ved hjælp af en t-test p fra 0,01 (3264 gener ) til så lavt som 0,0001 (1698 gener)], og afslørede otte veje (figur 5B), der var konsekvent statistisk signifikant forskelligt udtryk (Efron-Tibshirani GSA test p. 0,05)

Vi udførte også funktionelle repræsentationelle analyse ved hjælp EASE blandt gener, der blev opreguleres og nedreguleres i høj versus patienter med lav risiko (ved hjælp af en t-test p 10

-6). Vi fandt 22 og 54 veje overrepræsenteret blandt gener opregulerede og nedreguleret i højrisiko-tumorer henholdsvis på et inden-systemet FDR tærskel på 0,01. En komplet liste over disse veje findes i tabel S2, S3 og S4, mens udvalgte veje er vist i figur 5B.

Interessant, flere af disse veje (figur 5B), som blev opreguleret i risiko tumorer høje dvs. “cytokin-cytokin receptor interaktion”, “celle kommunikation”, “ECM-receptor interaktion”, “patogene invasion”, “celle vækst”, og lav risiko tumorer dvs “differentiering”, blev også tilsvarende udtryk i høj og lav-risiko tumorer som tidligere rapporteret i

nd validering sæt 2 [15].

Prognostisk genekspression modeller afspejler aktivering af kendte onkogene veje i de enkelte tumorprøver

da GSA eller EASE ikke kan tildele pathway aktivering status for individuelle tumorprøver, anvendt vi tidligere udviklet genekspression “udlæsninger” som følge af eksperimentelt kontrolleret aktivering af specifikke onkogene veje (src, b-catenin og E2F3), der har vist sig at bære prognostisk relevans i ovariecancer [12]. Vi opdagede, at i 239-tumor træningssæt, odds-forhold mellem aktivering af src og b-catenin veje i vores høje versus lav risiko gruppen var 3,42 (95% CI 1,89-6,18) og 2,77 (95% CI 1.59- 4.8) henholdsvis mens odds-ratio for E2F3 var 0,251 (95% CI 0,141-0,446). Dette er i overensstemmelse med tidligere undersøgelser, der antyder, at aktivering af src og b-catenin veje er forbundet med dårligt resultat, mens aktivering af E2F3 er forbundet med godt resultat, og indikerer, at vores analyse indfanger biologisk relevant information, som ikke er umiddelbart indlysende ved at undersøge indholdet af 19-genet profil. I multivariate analyse, herunder 19-genet model og de 3 onkogene veje, den 19-genet model opretholdt uafhængig prognostisk betydning, mens aktivering mønstre af de onkogene veje ikke gjorde (data ikke vist).

Diskussion

Selvom egnetheden af ​​genekspression profilering for prognosticering er blevet påvist i ovariecancer [6], [8], [10], en række udfordringer skal løses, før det bliver et klinisk nyttigt værktøj. Tidligere prognostiske microarray undersøgelser blev begrænset af prøvens størrelse, interkalibrering variation, mangel på ekstern (ud af studiet) validering, ikke-standardiserede analytiske tilgange og inddragelse af histologiske undertyper med forskellige genetiske profiler og resultatet (dvs. klar celle, og mucinøse kræft) [11 ]. I denne undersøgelse beskrev vi en vellykket rørledning, der kan også være nyttige til lignende bestræbelser i andre kræftformer. Vi oparbejdes og integreret rådata fra fire separate, tidligere genererede microarray datasæt [10], [12], [13], [14] med oprindelse fra forskellige laboratorier og køre på forskellige platforme, i en stor og homogen sæt, eksklusive mucinøs og klar celle EOCs, dermed maksimere vores magt for at identificere robuste profiler samtidig minimere falsk positive resultater. Vi rettede den ikke-biologiske eksperimentelle variation ( “batch-effekten”) [18], som var tydeligt på tværs af studier (figur 2) og sammensat en endelig uddannelse kohorte af 239 tumorer. Vi brugte også en standardiseret overlevelse analysemetode, der tåler sammenligning med andre metoder, der anvendes på microarray data [16], [19]. Den resulterende prognostiske model blev valideret to gange, i to separate uafhængige sæt. Det er første gang, at vi ved, at dette er blevet forsøgt i denne sygdom. Tumorer, der indgår i de to validering kohorter stammede fra forskellige institutioner og blev kørt i forskellige laboratorier og tidsperioder end tumorer, der indgår i den samlede uddannelse kohorte. En tilpasset chip blev anvendt til 1

st validering sæt, og et stort offentligt tilgængelig hel-genom datasæt blev anvendt som en 2

nd validering sæt, mens uddannelses- prøverne tidligere blev kørt på forskellige (hel-genom) platforme mange år tidligere. Ud over den stramning af denne valideringsproces, vores brug af offentligt tilgængelige datasæt og et tilpasset design chip minimerer omkostningerne ved at indføre gen-profilering teknologi til rutinemæssig klinisk praksis.

En 19-gen model med optimal prognostisk præstation i træningssættet diskriminerede mellem en høj og en lav risikogruppe til OS i de to validering sæt, samtidig bevare sin uafhængig forening med overlevelse i multivariat analyse justering for kendte clinicopathologic forstyrrende faktorer. Af note, tidligere rapporteret genekspression signaturer fra individuelle komponent datasæt træningssættet [6], [10], eller nyligt genererede modeller ved hjælp af vores nuværende metode i disse datasæt, var ikke reproducerbare i nogen af ​​de to uafhængige validering datasæt. Dette antyder, at vores strategi med at integrere information fra forskellige og teknisk forskellige datasæt i en sammensat uddannelse sæt øger vores evne til at indfange bredt reproducerbare prognostiske genekspression mønstre. Variabiliteten i hazard ratio estimater for 19-genet profil mellem uddannelse og to validering sæt, afspejler sandsynligvis forskellene mellem de forskellige kliniske kohorter, hvis specifikationer er sjældent identiske i microarray studier. For eksempel kan 2

nd validering sæt tilsyneladende overvældende bestå af optimalt debulked, således forbedrede prognose patienter. Ikke desto mindre, dette yderligere understreger gyldigheden af ​​profilen når den anvendes til en bred vifte af kræft i æggestokkene patientpopulationer.

Gene udtryk modeller var så kraftig som debulking status, den stærkeste kendte kliniske indikator for overlevelse i avanceret EOC [4 ], og kombinationen af ​​optimal debulking og lav risikoprofil defineret en befolkning med en lang overlevelse plateau (70% 5-års overlevelse i både træning og 1

st validering sæt). Omvendt kombinationen af ​​suboptimal debulking og højrisiko-profil defineret en befolkning med kun 10% 5-års overlevelse. En sådan stærk prognostisk lagdeling i avanceret EOC er ikke muligt at bruge konventionelle kliniske faktorer på tidspunktet for diagnose og kan være nyttige for lagdeling af højrisikopatienter, der anses for testpræparater tilgange hjælp vedligeholdelse og /eller konsolidering strategier, eller lav risiko lægeligt ustabil patienter, der kan undgå den relativt giftige intraperitoneal kemoterapi [20].

Vores undersøgelse også til formål at undersøge visne profilen er ikke blot en matematisk kombination af 19 prognostiske variable, men også spore molekylære fænotyper af høj versus lav -risk kræft i æggestokkene. Ved hjælp af en metode (SubMap), der er entydigt egnet til at vurdere den bredere genomisk lighed af undertyper identificeret i flere, uafhængige og forskelligartede datasæt [17], bekræftede vi, at de lave og højrisikogrupper tildelt af vores prognostiske modeller var molekylært homologe mellem uddannelse og validering sæt, hvilket tyder på, at vi ikke bare har valideret en matematisk prognostisk funktion, men også sande molekylære fænotyper af goodwill og dårlig resultat. I 2. validering sæt, havde molekylære udfald undertyper allerede oprettet af forfatterne [15]. Vores fund, at disse molekylære undertyper blev overrepræsenteret (beriget) i de høje og lave risikogrupper identificeret af vores 19-gen profil yderligere vidner forestillingen om, at profilen sporer sande og reproducerbare resultatmål fænotyper i EOC.

Mens det var uden for vores undersøgelse til at undersøge den præcise biologiske rolle nogen specifik vej, er det bemærkelsesværdigt, at veje, der blev opreguleret i høj- risikogruppe har været impliceret i æggestokkene carcinogenese og /eller i forbindelse med aggressiv sygdom og dårligt resultat [21], [22], [23]. Desuden veje, der blev overrepræsenteret blandt gener overudtrykt i højrisiko-tumorer er også blevet forbundet med ringere resultat [24], [25], [26], udlån biologisk plausibilitet til fænotyper vi opdagede. Vigtigere er flere af disse veje (figur 5B) blev også tilsvarende udtryk i de høje og lav risiko tumorer tidligere er rapporteret i den offentligt tilgængelige 2

nd validering sæt, demonstrerer reproducerbarhed af biologiske netværk er forbundet med gode og dårlige-resultat mellem forskellige datasæt [15].

Endelig tog vi fordel af tidligere udviklet genekspression “læse outs” som følge af eksperimentelt kontrolleret onkogen-aktivering (src, b-catenin og E2F3) for at vurdere aktivering status i de enkelte tumorprøver [12], [27]. Selv om der er en løbende debat om, hvordan den onkogene pathway analyse beskrevet af Bild et al. [12]. blev påført i en bestemt undersøgelse [28], den oprindelige onkogene pathway analyse beskrevet af Bild et al. ikke er blevet anfægtet. I overensstemmelse med kendte tidligere data, src og b-catenin veje blev oftere aktiveret i høj risiko sammenlignet med lav risiko tumorer, mens det modsatte var tilfældet for E2F3 vej [12], [27], [29]. Romanen associering onkogene pathway aktivering status med en fænotype “fanget” af en markør 19-gen profil, hvoraf ingen af ​​pathway generne er medlem, viser, at biologisk følgeslutning i microarray undersøgelser ikke bør begrænses til de ofte anvendte metode til screening af en liste over top markørgener i en prognostisk signatur. Notatet mistede disse onkogene veje uafhængig prognostisk betydning i multivariat analyse, når profilen var medtaget, hvilket tyder på, at vores prognostiske klassificeringen optager komplekse fænotyper, og at resultatet forskelle i kræft i æggestokkene, kan ikke i tilstrækkelig grad forklares ved deregulering af en enkelt onkogen eller signalvejen.

Som konklusion, vores tilgang eksempel på, hvordan integration og disciplineret analyse af rige indhold af oplysninger offentliggjort, men uensartede kræft microarray datasæt kan overvinde tidligere begrænsninger og føre til udvikling af robuste og potentielt bredt anvendelige prognostiske klassificører. En tilpasset matrix kan også være et praktisk redskab i undersøgelsen og forvaltning af cancer.

Be the first to comment

Leave a Reply