PLoS ONE: Robust Selection Algoritme (RSA) for Multi-OMIC Biomarkør Discovery; Integration med Funktionel Network analyse for at identificere miRNA Regulerede Pathways i flere Cancers

Abstrakt

MikroRNA’er (miRNA) spiller en afgørende rolle i opretholdelsen af ​​cellulære homeostase ved at regulere ekspressionen af ​​deres målgener. Som sådan har den dysregulering af miRNA udtryk været hyppigt forbundet med kræft. Med hastigt akkumulerende molekylære data knyttet til patientresultatet, behovet for identifikation af robuste multi-OMIC molekylære markører er kritisk for at tilvejebringe klinisk effekt. Mens tidligere bioinformatiske værktøjer er blevet udviklet til at identificere potentielle biomarkører i kræft, disse metoder ikke mulighed for hurtig klassificering af onkogener versus tumorsuppressorer under hensyntagen robust differential udtryk, cutoffs, p-værdier og ikke-normalitet af data. Her foreslår vi en metode, Robust Selection algoritme (RSA), der behandler disse vigtige problemer i store data omik analyse. Robusthed overlevelse analyse sikres ved identifikation af optimale cutoff værdier omik udtryk, styrket af p-værdi beregnet gennem intensiv tilfældig resampling under hensyntagen til eventuelle ikke-normalitet i data og integration i multi-OMIC funktionelle netværk. Her har vi analyseret pan-cancer miRNA patientdata til at identificere funktionelle veje involveret i cancer progression, der er forbundet med udvalgte miRNA identificeret af RSA. Vores tilgang viser den måde, hvorpå eksisterende overlevelse analyseteknikker kan integreres med en funktionel netværksanalyse rammer til effektivt at identificere lovende biomarkører og nye terapeutiske kandidater på tværs af sygdomme

Henvisning:. Sehgal V, Seviour EG, Moss TJ, Mills GB, Azencott R, Ram PT (2015) Robust Selection algoritme (RSA) for Multi-OMIC Biomarkør Discovery; Integration med Funktionel Network analyse for at identificere miRNA Regulerede Pathways i flere kræftformer. PLoS ONE 10 (10): e0140072. doi: 10,1371 /journal.pone.0140072

Redaktør: Xia Li, Harbin Medical University, KINA

Modtaget: 21. maj 2015; Accepteret: September 20, 2015; Udgivet: 27 oktober 2015

Copyright: © 2015 Sehgal et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed: De data, vi har brugt blev opnået fra TCGA og søgeparametre og downloades data er forklaret i afsnittet Metoder. TCGA data kan findes på denne URL https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.htm

Finansiering:. Arbejdet præsenteres her er delvist støttet af National Institutes of Health (NIH ) U54-CA112970 og Blanton-Davis æggestokkene Cancer Foundation (PTR). TJM understøttes af en uddannelse stipendium fra Keck Center Gulf Coast Consortium (NLM T15LM007093) og Odysseen Program på University of Texas MD Anderson Cancer Center. VS er understøttet af en uddannelse stipendium fra CPRIT Computational Cancer Biology Training Program (CPRIT RP101489)

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

MikroRNA’er (miRNA) er små ikke-kodende RNA-regulatorer, der binder til komplementære sekvenser på mål messenger RNA (mRNA’er), hvilket resulterer i målet mRNA ‘translationel undertrykkelse eller nedbrydning. MiRNA kan også binde til komplementære sekvenser i promotorområdet af målgenerne og forårsage transkriptionel aktivering [1, 2]. Således ændringer i miRNA udtryk påvirker genregulering, hvilket igen fører til ændringer i cellulær homeostatiske stabilitet [3, 4]

Flere miRNA har vist sig at spille en vigtig rolle i cancer [5-7].; og undersøgelser har også vist, at mere end 50% af miRNA gener er placeret i cancerassocierede genomiske regioner [8]. Mange miRNA er blevet vist at spille afgørende roller som cancer-fremkaldende oncomiRs eller som tumorsuppressor Mirs [9]. For eksempel MIR-21 er et velundersøgte oncomiR der er opreguleret i mange forskellige cancere, [10, 11]. og spiller en vigtig rolle i lægemiddelresistens [12]. Medlemmer af miR-17-92 familie fungerer også som fremtrædende oncomiRs [13] og kan fremme udviklingen af ​​kræft ved negativt at regulere tumorsuppressorgener. På den anden side, miRNA såsom dem i lad-7 familie funktion som tumorsuppressor Mirs [14-16], og kan inhibere kræft ved at hæmme onkogener og regulering funktioner såsom apoptose og celledifferentiering. Salg

Flere grupper har studeret kapacitet miRNA skal anvendes som biomarkører for cancere [17-22]. I de fleste af disse undersøgelser, forskere brugte sekventering, microarrays eller PCR-baserede teknikker til global profilering af miRNA, og har derved identificeret flere miRNA, der spiller en vigtig rolle i kræft. lider imidlertid disse tilgange fra flere begrænsninger. Som det fremgår af vores papir, kan de nuværende metoder til analyse af miRNA eller andre omik data, der er afhængige af vilkårlige valg såsom plukke tærskler for at adskille patienter i høj og lav udtryk grupperne være

meget følsom

for små tilfældige ændringer i den gruppe af patienter, hvilket resulterer i en høj falsk opdagelse sats. Således præsenterer vi en innovativ robuste systemer analyse, hvor miRNA er koblet til patientens overlevelse resultater på tværs af forskellige typer kræft til hurtigere og mere effektivt identificere potentielle oncomiRs og tumor suppressor Mirs.

En yderligere begrænsning af de nuværende metoder er den høje antallet af identificerede miRNA og den tilhørende svært ved at validere så mange miRNA eksperimentelt. For yderligere at indsnævre antallet af miRNA til dem med det største potentiale på flere typer cancer, vi desuden søgt at integrere funktionelle netværk analyse. Den primære funktion af miRNA er i regulering mRNA niveauer i cellen ved binding til sekvenser i 3’UTR af mRNA’et, hvilket resulterer i en ændring i steady state niveauerne af mRNA og efterfølgende ændringer i den funktionelle udgang af genet [23 -25]. Derfor søgte vi at identificere funktionelle miRNA-mRNA netværk baseret på korrelationen af ​​miRNA og mRNA ekspressionsniveauer i patientens tumorer, hvor miRNA viste klinisk betydning.

Med den eksponentielle stigning i mængden af ​​data, der genereres fra patientprøver måler forskellige molekylære karakteristika ved omik eller globalt plan fra hver patient, udvikling af supplerende bioinformatik og systembiologi analyseværktøjer er bydende nødvendigt. Vi heri foreslå et workflow, der integrerer overlevelse analyse af omik data med funktionelle netværk analyseteknikker til at identificere potentielle miRNA-biomarkører og veje, de har indflydelse på tværs af forskellige typer kræft. Da vores tilgang tager højde for den potentielle

ikke-lineære

funktionelle relationer mellem potentielle markører ‘ekspressionsniveauerne og patienternes overlevelse resultater, dens præstationer overstiger værdien af ​​traditionel korrelationsanalyse, som er begrænset til at opdage ca.

lineær

funktionelle relationer. Desuden foreslår vi ikke-parametriske data analyseteknikker for hvilke der ikke kræves implicitte normalitet antagelser om fordelingen af ​​genekspression niveauer, da hovedparten af ​​omik data ikke følger normalfordelingen. I dette studie viste vi nytten af ​​denne tilgang med patient datasæt fra The Cancer Genome Atlas (TCGA) for at identificere prognostiske biomarkører og yderligere godkendt det foreslåede arbejdsgang ved hjælp af en tidligere publiceret datasæt.

Metoder

Fordi vi forsøgt at identificere miRNA, der fungerer som enten tumor undertrykkere eller som oncomiRs, vi klassificeret hver miRNA med stærk virkning i form af patientens survivalas har enten høj ekspression knyttet til god patient overlevelse (GS miRNA) eller høj ekspression knyttet til dårlig patient overlevelse (PS miRNA). Vi revideret patientdata til kliniske resultater og miRNA ekspressionsniveauerne; Vi har udviklet en ny Robust Selection algoritme (RSA), som vi brugte til at klassificere miRNA som værende forbundet med enten god eller dårlig overlevelse. Vi introducerede og beregnet en innovativ

robust p-værdi

at kvantificere effekten af ​​hver kandidat miRNA om god eller dårlig overlevelse (Fig 1A og figur A og figur B i S1 File). For at demonstrere den foreslåede arbejdsgang, vi anvendt vores RSA og den efterfølgende funktionelle vej analyse TCGA datasæt for fem kræftformer: bryst, ovarie, hoved og hals, lunge, og nyre (information nyttig til at downloade denne data er fundet i S1 tabel).

(A) Skematisk viser overblik over RSA. Indgangene er kliniske data og miRNA udtryk data resultaterne er kandidat miRNA korreleret med enten god eller dårlig overlevelse. (B) Validering af RSA hjælp tidligere offentliggjorte gen signaturer korreleret med overlevelse resultater. Vi anvendte RSA til brystkræft datasæt i Martin et al. Og så på overlapningen af ​​gener korreleret med god og dårlig overlevelse beregnes af RSA og fra deres resultater. Heatmap af disse overlappende gener blev tegnet vise den høje gen intensitet i gult og lav gen intensitet i blåt.

Data og Forbehandling

TCGA indeholder forskellige former for omik data, herunder miRNA udtryk, mRNA-ekspression. Det indeholder også kliniske data fra disse patienter med oplysninger om overlevelse for patienter. Brug af forskellige kræftpatienters RNA sekvens data fra TCGA, udvundet vi hver miRNA s gennemsnitlige moden og stjerne streng udtryk separat. TCGA har data til rådighed i miRNAseq form og vi var i stand til at søge 2092 miRNA (de samlede miRNA, som der foreligger data) for at identificere kandidat miRNA hvis forskellen udtryk korreleret med overlevelse.

TCGA miRNA udtryk data er erhvervet ved hjælp af enten Illumina Hiseq eller Illumina GA platform. Løb vores indledende analyser på disse to platforme separat afkaster forskellige resultater. Vi derefter undersøgte de to platforme ‘miRNA udtryk distributioner at bestemme, om vi kunne kombinere de to platforme “prøver at få et større antal patientprøver. For at sammenligne de to platforme ‘miRNA-distributioner, anvendte vi Kolmogorov-Smirnov test med nul-hypotesen, at de to fordelinger er de samme ved 5% signifikans. Det hjalp os med at identificere hvilke miRNA havde samme (selvom henholdsvis tydelig) udlodninger i begge platforme.

Vi hentede også kliniske data for hver af de 5 cancertyper nævnt ovenfor fra TCGA. Ud fra disse data, vi udvindes patienternes overlevelse gange, indtil død eller censurering. Adskillige patientdata i TCGA blev kommenteret som havende ingen opfølgning tid og dermed blev systematisk fjernet fra vores endelige datasæt analyse. Vi derefter matches de patienter, for hvem var tilgængelige kliniske og RNA data sekvens.

Homogenisering data på tværs af platforme

TCGA miRNA udtryk data for forskellige typer kræft blev generelt erhvervet ved hjælp af forskellige platforme. For at normalisere miRNA ekspressionsniveauerne og korrekte for artefakter på grund af datagenerering ved hjælp af forskellige erhvervelse modaliteter, samlet vi alle de tilgængelige TCGA miRNA udtryk data og udsat det til en homogenisering skridt som forklaret yderligere i dette afsnit. Vi derefter brugt disse normaliserede værdier for vores endelige datasæt analyse. Denne homogenisering trin er vigtigt, da det korrigerer for data artefakter på grund generation data via forskellige platforme og modaliteter erhvervelse.

De to platforme ‘miRNA distributioner ikke var meget ens, og derfor ikke kunne kombineres ved hjælp af en standard median normalisering trin . Derfor udførte vi følgende homogenisering procedure til at kombinere de platforme ‘miRNA udtryk fordelinger for hver kræftform. At opnå en identisk kumulative fordelingsfunktion (CDF) af de homogeniserede ekspressions-værdierne opnået med begge platforme, vi homogeniseret de to miRNA ekspressions fordelinger afledt af de to platforme. Den “mål” CDF er defineret som den gennemsnitlige CDF af de to platforme, nemlig

F (x) = 0

.

5F1 (x) + 0

.

5F2 (x )

, hvor F1 og F2 er CDF-vis af de to platforme henholdsvis. Lad

G

være den inverse funktion af

F

. Hver udtryk værdi

x

fra platform 1 er tilpasset til en homogeniseret udtryk værdi,

z (x)

, som beregnes ved at vende funktionen

F dele på værdien

F1 (x)

; således,

z (x) = G (F1 (x))

. Hvert udtryk værdi fra platform 2 homogeniseres tilsvarende, med

z (y) = G (F2 (y))

.

For enhver værdi, 0≤ K ≤ 1, {F (z (x)) ≤ K} iff {z (x) ≤ G (K)} iff {G (F1 (x)) ≤ G (K)} iff {F1 (x) ≤ K}, og tilsvarende {F ( z (y)) ≤ K} iff {z (y) ≤ G (K)} iff {G (F2 (y)) ≤ G (K)} iff {F2 (y) ≤ K}.

således har vi matche fraktilerne

x

og

y

i de separate distributioner med deres fraktiler

z (x)

og

z (y)

i den kombinerede fordeling

F

.

Robust Selection Algoritme

en søgning litteratur blev udført for at identificere en metode, der kunne bruges til at forbedre eksisterende metoder til evaluering miRNA og identifikation af kræftrelaterede veje de påvirker. Vi identificerede en undersøgelse, der evaluerede prognostiske værdier af specifikke miRNA i flere kræfttyper [26]; Men har vi kontrolleret, at metoden til [26] er potentielt ganske følsom over for selv små forstyrrelser af den eksisterende gruppe patienter, og vi har valideret denne ustabilitet ved at anvende det til vores data.

For at teste følsomheden af metoden til patientgruppe, brugte vi nyrekræft datasæt downloades fra TCGA. Fra dette datasæt, vi skabt 100 simulerede datasæt ved tilfældigt at droppe 2% af patienterne i hver simulerede datasæt. På hver simulerede datasæt, vi derefter brugt den metode af [26] for at vælge Mirs stærkt korreleret med patientens overlevelse. På denne måde opnåede vi 100 lister over udvalgte miRNA. Vi derefter opregnede alle de miRNA som udkom i 99 eller flere af disse 100 lister. Stabiliteten af ​​den metode, blev derpå karakteriseret ved at kigge på histogrammet af den del af den valgte miRNA som var stabile. Siden 2% variation i patientgrupper er en lille variation, bør vi kræve en robust metode til at vælge lignende miRNA gentagne gange. Men vores simulationer antyder, at metoden i [26] kun vælger 68% stabil miRNA, med resten er følsomme over for den specifikke sammensætning af patientgruppen (se S30 Fig for en kvantificering af, hvordan små ændringer i de data, kan føre til en stor reduktion i stabiliteten af ​​identificerede biomarkører).

Endvidere denne og andre sådanne undersøgelser, ofte bruge en enkelt tærskel på udtryk data til at sammenligne overlevelseskurverne, og giver resultater for ansøgerlandene miRNA for en kræftform på et tid. Derfor har vi udviklet et robust udvalg algoritme (RSA), der bruger et ikke-parametrisk statistisk fælles analyse af patientdata overlevelsesdata og patientspecifikke miRNA ekspressionsniveauerne at kvantificere den prognostiske værdi af hver miRNA. I modsætning til metoder, der bruger en enkelt tærskel for at sammenligne overlevelsesdata, vores RSA eliminerer brugen af ​​enkelt tærskel for Kaplan-Meier overlevelse kurve analyse, ved at vælge fra en bred vifte af cutoffs fra udtryk data ved hjælp af en vifte af statistisk relevante cutoff værdier. Således udførelsen af ​​vores RSA er meget modstandsdygtige over for små tilfældige forstyrrelser af gruppen patienter.

Klinisk miRNA hvis udtryk er forbundet med forskellige tiltag der ydes forskellig behandling. For eksempel er en miRNA hvis høj ekspression korreleret med længere overlevelse (det vil sige tumorsuppressorer) behandles anderledes end en, hvis høj ekspression er korreleret med kortere overlevelse (det vil sige oncomiRs). Derfor vi først klassificere hver miRNA som en GS miRNA (høj ekspression-god overlevelse) eller en PS miRNA (høj ekspression-dårlig overlevelse). Denne første klassifikation trin udføres ved først at beregne den mediane overlevelse for alle tilgængelige patienter, fra Kaplan-Meier overlevelse estimater og derefter klassificere miRNA som følger.

Brug TCGA data, vi først beregne Kaplan-Meier-estimater af censureret overlevelsestid for patienterne, hvor en miRNA udtrykkes. Vi bruger så udtryk histogramdata at identificere to patientgrupper: patienter med forhøjet miRNA udtryk og patienter med lav miRNA udtryk. For hver miRNA,

m

j

adskiller vi patienter i høj miRNA udtryk eller lave miRNA udtryk grupper ved hjælp af et begrænset net af cut-offs,

C

, der spænder fra 45% fraktil til 60% fraktil af fordelingen af ​​ekspressionsniveauerne i intervaller på 1%. Ved hver sådan cut-off

C

vi definerer

G

høj

= gruppe af patienter med høj miRNA udtryk = gruppe, hvor miRNA udtryk er større end (

C

4) fraktil af ekspressionsniveauerne fordeling

G

lav

= gruppe af patienter med lav miRNA udtryk = gruppe, hvor miRNA udtryk er mindre end den

C

fraktil af ekspressionsniveauerne fordeling

de høje miRNA udtryk og lav miRNA udtryk grupper er adskilt af en ” neutral “gruppe, hvor miRNA ekspressionsniveauerne er mellem

C

% og (

C

+4)%. Dette 4% margen kan øges uden at forringe analysen, så længe den høje miRNA udtryk og lave miRNA udtryk grupper er rimeligt stort.

For hver cutoff C%, vi hver for sig beregne Kaplan-Meier-estimater for overlevelse kurver for den

G

høj

G

lave

grupper. Log-rank test anvendes til at vurdere forskellen mellem de to Kaplan-Meier-overlevelseskurver, og en p-værdi,

PVAL (C)

, beregnes. Nulhypotesen for log rank test er, at de to overlevelseskurverne er ens. Den optimale cut-off

C%

til adskillelse patienter i

G

høj

eller

G

lav

er valgt for at minimere

PVAL (C)

. Lad

q

j

være det optimale valgte cut-off for hver miRNA

m

j

. For hver miRNA

m

j

, vi beregne median overlevelse for patienter i den høje miRNA udtryk gruppe (

Med

høj

) og for patienter i den lave miRNA udtryk gruppe (

med

lav

) ved den optimale cut-off

qj

. Vi derefter klassificere miRNA i følgende to grupper:

Eksempler på denne type af miRNA karakterisering vises i figur B fra S1 File. For hver miRNA m

j, der tilhører GS eller PS-grupper, den foregående beregning også give os

j = PVAL (q

j

)

, der kvantificerer betydningen af ​​den potentielle sammenhæng mellem miRNA

m

j

og patient overlevelsestid. Kaplan-Meier-overlevelse grunde til patienter med de fem signifikante kandidat miRNA af interesse på tværs af forskellige typer kræft sammen med den overordnede overlevelse kurven for patienter med at kræft type er vist i S27 og S28 fig.

Generation of Robust p- værdier

Vi har gentagne gange bemærkes, at p-værdier beregnet med den foregående fremgangsmåde kan være lidt følsom over for den særlige gruppe patienter. For at eliminere denne følsomhed, vi indføre og anvende en innovativ resampling procedure til at generere

robuste p-værdier

. Fremgangsmåden beskrevet i det foregående afsnit metode anvendes til at bestemme, om miRNA udtryk en potentiel ikke-lineær signifikant korrelation med overlevelse. For hver GS miRNA eller PS miRNA, introducerer vi en tilfældig resampling teknik til at beregne en robust p-værdi,

PV (M

j

)

, til erstatte den foregående p-værdi,

pv (m

j

)

. For at gennemføre denne resampling, for hver cut-off

C%

og hver fast miRNA

m

j

, vi tilfældigt falde 1% af patienterne fra hver af de to grupper

G

høj

G

lav

. og vi beregne Kaplan-Meier overlevelseskurver for disse to urolig patientgrupper.

Som ovenfor, vi først beregne den optimale cut-off, der bedst adskiller miRNA udtryk fordelingen baseret på pertuberede Kaplan-Meier overlevelse plots og derefter beregne p-værdien

pv (m)

eller overlevelse på denne optimale cut-off. For hver fast miRNA

m

j

, gentage randomiserede forstyrrelse proces 500 gange genererer et sæt af 500 virtuelle p-værdier

pv (m)

. For at definere en pålidelig øvre grænse

PV (m

j

)

for den ukendte p-værdi

PVL (m

j

)

sætter vi

PV (m

j

)

at være lig med den 75

percentil af de 500 virtuelle p-værdier. Vi kalder

PV (p

j

)

robust p-værdi

for miRNA

m

j

. Den miRNA

m

j

med betydelige robuste p-værdier

PV (m

j

)

derefter klassificeret som kandidat miRNA, der er korreleret med god eller dårlig overlevelse, hvilket giver en liste over miRNA hvis differentielle ekspression er korreleret med enten gode eller dårlige overlevelsestid. Den skematiske af algoritmen er vist i S29 Fig.

I vores analyser, vi kassere alle miRNA som har en gennemsnitlig 0 ekspression over patientgruppe. Desuden TCGA prøver kommenteret som værende uden opfølgende tid blev ikke medtaget i vores analyse.

Kræft Typer

For at identificere kandidat miRNA hvis forskellen udtryk er stærkt forbundet med mere end en kræfttype, vi anvendt vores RSA til flere kræftpatient datasæt til rådighed i TCGA. Vi anvendte vores RSA til datasæt kræfttyper repræsenteret af mindst 400 prøver, og som matchede kliniske og miRNA udtryk data var til rådighed, nemlig bryst (BRCA), æggestokkene (OVCA), hoved og hals (HNSC), lunge (LUAD ), og nyre (KIRC) kræft. Antallet af matchede prøver for hver af disse cancertyper er vist i S1 Fig. Eftersom brystcancer er en undertype-specifik sygdom, vi også undersøgt brystkræft undertyper individuelt at bestemme, om en bestemt undertype var ansvarlig for den stærke sammenhæng mellem forskellen miRNA udtryk og tålmodig overlevelse.

Validering

Martin

et al

. [27, 28] samlet matchede overlevelse og genekspression data fra seks forskellige brystkræft patient datasæt og fandt, at samle de data, synergistisk påvirket klassificering ydeevne og forbedret gen signatur stabilitet. Forfatterne anvendte det samlede datasæt til at identificere et genekspression signatur forbundet med patientens overlevelse. Fordi vores RSA kan anvendes til at analysere ikke blot miRNA ekspression data, men også gen eller protein udtryk data, valgte vi dette datasæt til validering. Vi brugte dette datasæt (tilgængelig via Gene Expression Omnibus) for at validere resultaterne af vores RSA identificere mRNA korreleret med patientens overlevelse. Vi anvendte vores RSA til det samlede datasæt fra Martin et al. at identificere gener, hvis forskellen udtryk blev forbundet med patientens overlevelse. I deres papir, de identificerede klynger af gener stærkt korreleret med god og dårlig overlevelse. Anvendelse af vores metode RSA til deres datasæt identificerede også 1 klynge af gener, hvis høje ekspression blev stærkt forbundet med god overlevelse og en anden klynge af gener, hvis høje ekspression var knyttet til ringe overlevelse. Desuden de to metoder gav et overlap på 22 gener. En Heatmap af de fælles gener med angivelse af deres korrelation med overlevelse vises i figur 1B.

Integration Fælles miRNA-mRNA Expression Niveauer til at generere Funktionelle Networks

For at identificere de veje, der reguleres af hver kandidat miRNA vores RSA valgt, samledes vi patientspecifikke fælles miRNA-mRNA udtryk data fra TCGA og analyseret dem til at generere miRNA-mRNA korrelation netværk. Korrelationer blev beregnet under anvendelse af en multivariabel lineær model, der tegner sig for mRNA-ekspressionsniveauet variationer induceret af DNA kopital ændringer og promotor-methylering på genlocus. Vi computer undersøger rangeret lister over gener og tilsvarende regressionskoefficienter som tidligere [29] beskrevet. For at reducere potentiel vildledning af data på grund af stromal forurening i prøverne, vi fjernede gener, der er forbundet med den ekstracellulære matrix (S8 Fig). I stedet for at fokusere på de enkelte gener, der er stærkt korreleret med en given kandidat miRNA, vi brugte NetWalker [30], en softwarepakke, der integrerer genekspression data og molekylære interaktion data til at score kendte interaktioner, for at identificere hele interaktion netværk, der var positivt eller negativt korreleret med kandidaten miRNA. Brug af miRNA-mRNA regressionskoefficienter som indgangsværdier for NetWalker, vi beregnede kant flux-værdier for de kendte molekylære interaktioner, og vi brugte de interaktioner med de højeste kant flux værdier (top 200 positive og top 200 negative interaktioner) til at generere netværkene. Den log2 af beta-værdier vises for alle netværk.

Vi konstrueret miRNA-mRNA interaktion netværk for de fem mest robuste kandidat miRNA, der var signifikant korreleret med overlevelse resultater i fire kræfttyper (dvs. LUAD, HNSC , KIRC, og OVCA). Disse fem kandidatlande miRNA netværk, som omfatter gener, som er enten positivt (gul) eller negativt (blå) korreleret med høj miRNA udtryk, er vist i S9-S29 fig. For at identificere veje potentielt reguleret af disse fem ansøgerlande miRNA på tværs af forskellige typer kræft, vi først identificeret de kræftformer, hvor disse miRNA var forbundet med den samme prognose (dvs. enten god eller dårlig overlevelse) og derefter analyseret de fælles gen ontologi vilkår forbundet med de netværk for disse kræftformer.

Resultater

Vi anvendte vores RSA til TCGA patient data, der omfatter miRNA ekspressionsniveauerne og kliniske resultater. Efter forbehandling af de data, som omfattede homogenisering procedure, til at fjerne virkningerne af forskellige platforme for udvinding af miRNA udtryk, vi først beregnet en optimal tærskel, der bedst adskille miRNA ekspressionsniveauerne i form af overlevelse resultater beregnes ved hjælp af Kaplan-Meier fremgangsmåde og log-rank test. Vi derefter grupperet de miRNA i grupper, miRNA forbundet med god overlevelse (GS miRNA) og miRNA forbundet med dårlig overlevelse (PS miRNA), ved at sammenligne den mediane samlede overlevelse i optimale grupper med median samlet overlevelse af hele befolkningen. Brug intensiv stikprøver, vi beregnet en robust p-værdi for hver kandidat miRNA til at identificere kandidat GS miRNA eller PS miRNA for hver kræftform.

Dernæst vi karakteriseret de identificerede kandidat miRNA ved kromosom placering og genomisk stabilitet og konstrueret miRNA-mRNA funktionelle net. Ved at analysere samspillet mellem prognostiske miRNA markører og funktionelle involverede veje i kræft progression, vi bestemt de vigtigste veje disse miRNA prognostiske markører påvirker.

miRNA-Disease Survival Network

For hver kræft type, nemlig , bryst (BRCA), æggestokkene (OVCA), hoved og hals (HNSC), lunge (LUAD), og nyre (KIRC) kræft, vi identificeret kandidat miRNA hvis forskellen udtryk var stærkt forbundet med patientens overlevelse i flere typer kræft. GS miRNA og PS miRNA kandidater for hvilke en betydelig robust p-værdi er angivet en korrelation med overlevelse i mindst 3 forskellige cancertyper er vist i fig 2A. Vi definerede og bygget miRNA-sygdom overlevelse netværk, der kodede foreninger mellem miRNA og kræft typer (Fig 2B). Forskellige cirkler indeholder miRNA forbundet med prognosen i (fra venstre til højre) en, to eller tre kræftformer. Nedenfor disse 3 cirkler, de miRNA signifikant forbundet med prognosen hos fire kræfttyper er angivet. Da vores første prioritet var at identificere mål, der er gyldige i flere typer kræft, valgte vi fem miRNA (MIR-24-1 *, miR-30e, miR-15b, mir-485, og miR-487b), der var stærkt forbundet med overlevelse (robust p-værdi ≤ 0,01) i flere forskellige typer kræft

(A) kandidatlande miRNA fra RSA signifikant (robust p-værdi 0,01). korreleret med god overlevelse eller ringe overlevelse i mindst 3 kræftformer . (B) miRNA-sygdom overlevelse netværk. Cirklerne angiver miRNA stærkt forbundet med patientens overlevelse på tværs af forskellige typer kræft. Venstre mod højre: miRNA knyttet til prognosen i en kræfttype, 2 kræftformer, og 3 kræftformer. Hvide rektangler repræsenterer kræftformer. Gule rektangler repræsenterer miRNA. Farven på kanten mellem en miRNA og en kræfttype, angiver, om miRNA er korreleret med god (blå) eller dårlig (orange) prognose i en kræftform.

Kopier nummer Alterations

Hver kandidat miRNA stærkt knyttet til patient overlevelse i mindst 4 forskellige typer kræft blev yderligere undersøgt med hensyn til dens kromosom placering og udtryk mønster i patienter. De transportcenter scores i kopital ændringer for hver af kromosom placeringer af disse miRNA i hver kræft type blev opnået fra cBio data portalen og er vist i fig 3A. MIR-485 og MIR-487b, som er placeret meget tæt på hinanden på kromosom 14, har lignende forbindelser med prognose i forskellige cancertyper og har lignende kopital ændringer på tværs af disse cancertyper (Fig 3A). miR-15b er stærkt forbundet med god overlevelse i HNSC og OVCA og viser lignende kopi nummer gevinster i disse kræftformer. En gevinst i kopi nummer på et givet kromosom placering ville indikere forøget ekspression af relevante miRNA. For hvert udvalgt miRNA, mønstrene i dens ekspressionsniveauer i normale og tumorvæv ligner de tilsvarende profiler af kopital ændringer (Fig 3B). (Vi kunne ikke lave en lignende sammenligning i OVCA, da vi ikke har data for normale vævsprøver.)

(A) Yderligere karakterisering af de 5 stærk kandidat miRNA i form af kopi nummer variation og udtryk. De transportcenter-identificerede kopi nummer ændringer på hvert af kromosomet loci for miRNA i forskellige typer kræft vises. Den “GS” eller “PS” inde i hver cirkel angiver sammenhængen med god (blå) eller dårlig (orange) prognose. (B) Ekspression i tumor og normalt væv for hver af de stærk kandidat miRNA. For OVCA, de normale væv data ikke var tilgængelige.

Vi beregnede også sammenhængen mellem kopi nummer ændringer på kromosom placeringen af ​​hver kandidat miRNA og ændringerne i methylering niveauer for hver kræft typen individuelt og for alle 5 cancertyper kombineret (S2-S6 Figner). Vi fandt signifikant sammenhæng mellem miRNA-ekspression og kopi nummer variation på disse loci og mellem miRNA-ekspression og methylering niveauer i de relevante typer kræft. Når vi analyserede poolede data fra de 5 kræfttyper, vi stadig observeret signifikante korrelationer mellem miRNA udtryk og kopiere nummer variation og methylering niveauer.

Be the first to comment

Leave a Reply