PLoS ONE: ICAN: En integreret Co-Ændring Network for at identificere kræft i æggestokkene-Related Genes

Abstrakt

Baggrund

I det sidste årti, et stigende antal integrative undersøgelser af kræft-relaterede gener er blevet offentliggjort. Integrative analyser har til formål at overvinde begrænsningen af ​​en enkelt datatype, og give et mere fuldstændigt billede af carcinogenese. Langt størstedelen af ​​disse undersøgelser anvendte prøve-matchede data for genekspression og kopitallet for at undersøge virkningen af ​​kopital ændring på genekspression, og at forudsige og prioritere kandidat onkogener og tumorsuppressorgener. Men korrelationer mellem gener blev forsømt i disse undersøgelser. Vores arbejde har til formål at evaluere co-ændring af antal kopier, methylering og udtryk, hvilket giver os mulighed for at identificere kræft-relaterede gener og væsentlige funktionelle moduler i kræft.

Resultater

Vi byggede den integrerede Co -alteration netværk (ICAN) baseret på multi-omik data, og analyseret netværket til at afdække cancerrelaterede gener. Efter sammenligning med tilfældige netværk, vi identificeret 155 ovariecancer-relaterede gener, herunder velkendte (

TP53

,

BRCA1

,

RB1 ​​

PTEN

) og også nye kræftrelaterede gener, såsom

PDPN

og

EphA2

. Vi sammenlignede resultaterne med en konventionel metode: CNAmet, og opnåede en væsentlig bedre areal under kurven værdi (ICAN: 0,8179, CNAmet: 0,5183)

Konklusion

I dette papir, beskriver vi. en ramme til at finde kræft-relaterede gener baseret på en integreret Co-ændring netværk. Vores resultater viste, at ICAN præcist kunne identificere kandidat cancer gener og give øget mekanistisk forståelse af carcinogenese. Dette arbejde foreslog en ny forskning retning for biologisk netværk analyser involverer multi-omik data

Henvisning:. Zhou Y, Liu Y, Li K, Zhang R, Qiu F, Zhao N, et al. (2015) ICAN: En integreret Co-Ændring Network for at identificere Ovariecancer-gener. PLoS ONE 10 (3): e0116095. doi: 10,1371 /journal.pone.0116095

Academic Redaktør: Lars Kaderali, Technische Universität Dresden, Medicinske Fakultet, TYSKLAND

Modtaget: Juli 14, 2014 Accepteret: December 4, 2014; Udgivet: 24 marts 2015

Copyright: © 2015 Zhou et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed: All ovariecancer datasæt blev opnået fra The Cancer Genome Access, og er offentligt tilgængelige fra TCGA hjemmeside (https://tcga-data.nci.nih.gov/tcga/)

Finansiering:. Dette arbejde blev støttet delvist af National Natural Science Foundation of China (Grant nr 81.372.492), og delvist af videnskabelig Fund Research of Heilongjiang Provincial Education Department (No.12541278) og Natural Science Foundation of Heilongjiang provinsen (Grant nr D201116). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

med den hurtige udvikling af avanceret teknologi, databaser som The Cancer Genome Atlas-projektet (TCGA) [1], og kræftcellen Linje Encyclopedia (CCLE) [2] har givet mange høj opløsning molekylære profiler af de samme kræft prøver, der involverer genekspression, kopiere nummer, methylering og miRNA udtryk data. Disse datasæt aktiveret integrativ analyser med fokus på identifikation af kræftrelaterede gener. Human tumorgenese og progression er drevet af den afvigende funktion af gener, der regulerer aspekter af celleproliferation, apoptose, genomstabilitet, angiogenese, invasion og metastase [3]. En stor udfordring er at identificere cancer-relaterede gener, især dem, der spiller en vigtig rolle i initieringen og udviklingen af ​​kræft. Identifikation sådanne gener vil bidrage til den videre udvikling af skræddersyet medicin [4].

I løbet af de sidste ti år, er der blevet foreslået en række metoder til integration af genekspression og kopiere nummer data. Disse metoder kan groft inddeles i to kategorier: trinvis integration og fælles metoder [3]. . For eksempel Akavia et al [5] udviklet “genomisk fodaftryk” teori, hvor de udvindes driver gener ved en metode baseret på et Bayesiansk netværk; men de forsømt korrelationen mellem de gener, der er samtidigt ændres på flere niveauer. Bicciato et al. [6] udviklet en trinvis metode kaldet The betydelig overlapning af differentielt udtrykte og Genomisk ubalanceret Regioner (SODEGIR) at identificere diskrete genomiske regioner med koordinerede kopi nummer ombygninger og ændringer på transkriptionelle niveauer. Salari et al. [7] udviklet en R pakke kaldet DRI at identificere mRNA med overensstemmende kopi nummer til udtryk forhold. Der har også været integrative tilgange baseret på kanonisk korrelationsanalyse, der har til formål at kvantificere sammenhængen mellem antal kopier og udtryk [8, 9]. I det hele taget sådanne metoder repræsenterer en bioinformatik procedure for integrerende, gen-stillingen baseret analyse af CN og GE data, der muliggør identifikationen af ​​diskrete kromosomale regioner eller gener af koordinerede kopital forandringer og ændringer i transskriptionelle niveau. Ud over disse metoder, Louhimo et al. [10] udføres en integrativ analyse af kopital, DNA methylering og genekspression data, ved hjælp CNAmet, at identificere gener, der er koordineret amplificeret, hypomethylated og opreguleres eller koordineret slettet, hypermethyleret og nedreguleres . Selv om deres arbejde integreret flere datatyper, fandt vi, at de bare var fokuseret på regionerne eller gener med ledsagende CN /GE ændring. og ikke undersøge direkte eller indirekte sammenhæng mellem ændrede gener.

Men cellulære funktioner sjældent bestemt af et enkelt gen, men snarere af mange gener kombineret i form af netværk eller klynger. Mere end ét gen ændres i udviklingen af ​​kræft, fulgte de forskellige mønstre af forstyrrelser, og samarbejdede at bidrage til tumor fænotype [11]. For eksempel, en nylig undersøgelse viste, at RSF1 regulerer gener involveret i unddragelse af apoptose (

CFLAR

,

XIAP

,

BCL2

BCL2L1

) og regulerer en inflammatorisk gen (

PTGS2

) [12]. Desuden har undersøgelser observeret, at ændringerne i kræft tendens til at forekomme i nært beslægtede moduler og samfund [13]. Derfor bør der tages korrelationer på tværs af flere niveauer i betragtning alvorligt. Undersøgelserne er nævnt ovenfor ikke lægger vægt på gen-gen sammenhænge. Nogle andre undersøgelser har overvejet disse sammenhænge på forskellige niveauer; dog blev tumor aktivering /undertrykkelse mekanismer, de afslørede begrænset til et enkelt niveau. De mente ikke, omfattende bidraget til udviklingen kræft ved genomiske og epigenomic funktioner. De undersøgte kun en drivkraft af et gen på et enkelt niveau for cancer progression. For eksempel co-ekspression er den mest almindelige form for korrelation. I 2005 Sean et al. [14] opdagede forholdet mellem det høje niveau coekspression af

JAG1

NOTCH1

og dårlig prognose for brystkræft. Desuden blev indflydelsen af ​​co-mutationer mellem gener også undersøgt i forhold til sygdom. . I 2010 Yunyan et al [15] undersøgte den funktionelle sammenhæng mellem co-muterede gener; deres resultater forudsat ny indsigt i de komplicerede koordineringsmekanismer af molekylære processer. For nylig, at øge nøjagtigheden af ​​kandidat-gen-screening, nogle forskere også medtaget data for mRNA-ekspression og protein-interaktioner. Bashashati et al. [16] udviklet DriverNet algoritme, som er baseret på gen-interaktion, og identificeret sjældne lokomotivføreraspiranten mutationer, der kan forstyrre transkriptionelle netværk. På trods af disse bestræbelser, er der stadig plads til forbedringer. Integration multi-omik data vil hjælpe os med at udvikle sig i silico modeller, der er tættere på virkeligheden, forbedre nøjagtigheden af ​​kræft-relaterede gen identifikation, og giver en mere omfattende forståelse af den molekylære patologi af cancer.

I denne undersøgelse, foreslog vi en ramme for at konstruere en integreret Co-ændring netværk (ICAN). Vi har integreret protein-protein-interaktion oplysninger og parrede data for kopital, DNA-methylering og genekspression i 574 æggestokkene prøver. Canonical korrelationsanalyse (CCA) blev anvendt til at analysere sammenhænge på tværs af genomiske, transkriptomisk og epigenetiske niveauer, hvilket er grundlaget for vores netværk. Især kan vores tilgang ikke kun identificere genpar, der er co-ændret på et enkelt niveau, men også genpar med multi-level co-ændring. Vi fandt, at

CHEK1

,

IGF1R

,

ISG15

,

MSH3-

PODXL

blev co-ændret ved kopi nummer , ekspressions- og methylering niveauer på samme tid. En co-ændring netværk af gener effektivt kan vurdere styrken af ​​en sammenhæng mellem gener på flere niveauer. Hub gener i dette netværk foreslå intracellulære interaktioner og komplekse funktioner. Vi derefter udført funktionel analyse og overlevelse analyse til at validere kandidat cancerrelaterede gener identificeret ved tilfældig walking. Efter flere test sammenhænge, ​​vi endelig fået 17 genændringer med prognostisk værdi.

Den kanoniske korrelationsanalyse metode er normalt bruges til at analysere graden af ​​korrelation mellem to grupper af variabler. I modsætning til Pearson korrelationskoefficient, kan CCA effektivt afsløre den lineære afhængighed af to grupper af variabler, så vi kunne måle gener ‘korrelation ved hjælp af flere funktioner. Vi sammenlignede co-ændring netværk med enkelt-faktor korrelation netværk (co-ekspression netværk, co-CNA-netværk, co-methylering net) fra perspektivet af moduler, og fandt modulerne fra den integrerende metode var mere kompakt og mere signifikant (p-værdi = 2.2E-16). Funktionel berigelse analyse af gener i modulerne viste, at de var beriget for visse funktioner, herunder celle apoptose, cellecyklus og kræft veje.

Ved at forske kræft-relaterede gener og deres indbyrdes, vil vores arbejde giver en værdifuld systemniveau teoretiske grundlag for diagnose, behandling og lægemiddeldesign på bioinformatik. Vores arbejde understreger vigtigheden af ​​systematisk integrering, og giver klinik forskere med en ny indsigt i de molekylære mekanismer i tumorigenese og progression.

Materialer og metoder

Data

The Level 3 datasæt af genekspression, kopital og DNA-methylering for det samme sæt af kræft i æggestokkene prøver (tabel 1) blev opnået fra den offentligt tilgængelige TCGA hjemmeside (https://tcga-data.nci.nih.gov/tcga/). Gistic2.0 blev anvendt til at analysere kopiantallet datasæt (niveau 3) til identifikation af tilbagevendende regioner af kopiantal ændring og kopitallet af gener. Beta værdier af DNA-methylering er kontinuerte, i området fra 0 (ikke-methyleret) til 1 (fuldstændig methyleret). De probe id’er blev kortlagt til Gene symboler med annotation tabellen for Illumina Menneske-Methylation27 platform, som opdaget methylering niveau på 27.578 CpG loci placeret inden de proksimale promotorområder af transcription start steder af 14.495 gener. Hvis der var flere sonder, der svarer til det samme gen, vedtog vi den gennemsnitlige intensitet af disse prober som betaværdi af genet og fjernet sonderne med nogen værdi eller tilsvarende gen. Vi valgte en K-nærmeste nabo-baserede metode, der tilregner manglende værdier i genekspression profiler, som blev gennemført af en R-pakke (imputere). Derudover har vi tilføjet en liste over prøverne i supplerende materiale (se S1 tabel).

At integrere HPRD [17], Reactome [18], MSKCC Cancer Cell Kort og NCI /Nature Pathway Interaction Database [19], Pathway interaktionsdata og protein-protein interaktion data blev anvendt til at etablere den første netværk. Pathway datasæt for Reactome blev NCI /Nature Pathway Interaktion Database, og MSKCC Cancer Cell Kort downloades i Simple Interaction Format (SIF) format fra Pathway Commons, protein-protein interaktion data hentet fra HPRD. The Human Baggrund Network (HBN) var den samlet sæt af de fire datasæt. Samtidig blev overflødige kanter og selvstændige tilsluttet kant fjernet (tabel 2).

HBN vi byggede består af gener og interaktioner i form af knuder og kanter. Interaktionen afspejler de funktionelle sammenhænge mellem to gener, såsom en fysisk interaktion eller en indirekte interaktion via den fælles pathway.

Vi erhvervede 973 frøgener (S2 Table) fra fire veletablerede kræft- og sygdoms- relaterede gen-databaser: Cosmic [20], GAD [21], OMIM [22] og phenopedia [23]. Ovariecancer frøgener blev defineret som kendte onkogener eller tumorsuppressorgener forbundet med kræft i de velkendte databaser. Arbejdsgangen i vores tilgang er afbildet i fig. 1 og yderligere detaljer findes i næste afsnit.

Forskel analyse af gener i et enkelt niveau

Gistic2.0 [24] blev anvendt til at analysere kopi nummer datasættet for at identificere tilbagevendende regioner af kopiantal ændring og kopitallet af gener. Vi identificerede en række tilbagevendende arrangementer omdrejningspunkt somatiske kopi nummer ændring (SCNA), herunder 55 væsentlige amplifikationer og 48 sletning toppe. SAM [25] algoritme blev anvendt til to sæt af æggestokkene prøver (tumor /normal) for at identificere differentielt udtrykte gener: vi identificeret 549 højt udtrykte gener og 805 lav-udtrykte gener, der blev differentielt udtrykt i cancer (fold ændring = 2 og falsk opdagelse sats (FDR) 0,05). Til DNA methylering data identificerede vi stærkt signifikant (FDR 0,005) differentielt methylerede gener i tumorprøver sammenlignet med normale prøver ved anvendelse af Mann-Whitney-Wilcoxon test, herunder 1445 hypermethyleret gener og 1219 hypomethylated gener

Konstruktionen. af den integrerede co-ændring netværk og performance sammenligning

for at samtidig bruge flere funktioner af gener og etablere sammenhængen mellem gener på genomet, epigenome og transkriptom niveau, vi designet en ramme baseret på CCA, en statistisk metode at analysere graden af ​​korrelation mellem to sæt af tilfældige variable. CCA kan slå den almindelige sammenhæng mellem to variable i den kanoniske korrelation mellem to sæt variabler. Formålet med CCA er at søge maksimering af sammenhængen mellem to lineære kombinationer af de variabler [26, 27]

I dette arbejde, funktionerne i generne blev set som stokastiske variable.; . Mulighed for to gener, som samtidigt ændres på alle niveauer blev derefter målt ved den følgende fremgangsmåde

Vi definerede to gener: g

1, g

2. Antag, at

G

1 = [g

1

(1), g

1

(2) …, g

1

(p)]

T

,

g

2 = [g

2

(1), g

2

(2) …, g

2

(p)]

T

, og de to vektorer består af

p

typer oplysninger af g

1 og g

2. I denne undersøgelse, vi har sat

s = 3 fotos .Tage

G

1

for eksempel:

g

(1)

betegnet udtrykket værdier g1 i prøver,

g

en

(2)

betegnet de kopi talværdier af g1 i prøver, og

g

en

(3)

betegnet de methylering værdier g1 i prøver. Ligeledes kan vi definere

G

2

.

Lad,

Så kovariansmatricen er defineret som :, hvor hvert element beregnes ved formlen (1).

(1)

Vi bruger korrelationen af ​​lineær kombination af vektorer (dvs. en

TG

1, b

TG

2) til at måle den lineære sammenhæng mellem G

1 og G

2.

opførelsen af ​​ICAN blev gennemført ved at søge den maksimale korrelationskoefficient mellem

U = en

T

G

1

og

V = b

T

G

2

(2)

Løsninger til optimering problemet (2) opfyldte betingelserne:

Var (a

TG

1) = 1, Var (b

TG

2) = 1

.

Vores formål var at søge den bedst egnede

en

b

sådan, at

corr

(U, V) var den største. Det første par af lineære kombinationer blev kaldt det første par kanoniske variabler; deres største korrelation

ρ Hotel (U

1, V

1) blev kaldt den første kanoniske korrelation. Dernæst hvis der findes

en

k

og

b

k

sådan, at følgende betingelser var opfyldt:

var ukorrelerede med oprindeligt K-1 par kanoniske variable;.

korrelationskoefficienten mellem og er den største

blev kaldt den første K par kanoniske variable og

ρ (U

k, V

k)

blev kaldt den første K kanoniske korrelation. I denne undersøgelse, vi satte K = 3. Rayleigh kvotient matrix :.

Den første korrelationskoefficient er lig med kvadratroden af ​​den største egenværdi

λ

1

af matricen R. Tilsvarende den første K korrelationskoefficienten er lig med kvadratroden af ​​den største egenværdi

λ

k

af matricen

R

. Efter at den lineære korrelationskoefficient (

ρ

1,

ρ

2

ρ

3) blev beregnet mellem hvert gen par i datasættet

Canonical korrelation er en udvidelse af almindelig korrelation.; det kan måle sammenhængen mellem to sæt af variabler [28]. Sammenlignet med anvendelse af en enkelt datatype, det viste mere nøjagtighed i kvantificeringen af ​​de lineære relationer mellem gener ved hjælp af deres forskellige egenskaber [29]. Dernæst ligner tidligere værker [29], brugte vi den chi-squared test for at måle, om den kanoniske korrelationskoefficient (

ρ

1,

ρ

2

ρ

3) [30] var signifikant

nulhypotesen er H

0:.

λ

k

= … =

λ

s

= 0

Lad P

k være det

s

-værdi af K-th teststørrelsen

T

k

, med :, og

T

k

~ [29], hvor

n

er antallet af prøver. Endelig brugte vi en kombination af vægte (3) for at tildele en vægt til kanterne forbinder to gener, (3) For

Slutvægten,

ω

, repræsenterer korrelationen mellem gener mere netop.

ω

foranstaltninger mulighed for to gener bliver co-ændret på niveauet af kopi nummer, DNA methylering og genekspression. Vi derefter tildelt vægt på HBN og bygget den integrerede co-ændring netværk kaldet ICAN. Fremgangsmåden kan måle styrken af ​​sammenhængen mellem gener på flere niveauer. I dette arbejde har vi implementeret CCA-metoden og chi-square-baserede statistisk signifikans test af biblioteket “CCA” og “Chi-square test” i R statistisk software.

I mellemtiden har vi beregnet den Pearson korrelationskoefficient af udtrykket profiler (kopi nummer profiler og methylering profiler) mellem hvert par af gener og etableret en co-ekspression netværk (GCE), en co-kopi nummer netværk (GCC) og en co-methylering netværk (GCM). Denne proces blev også implementeret i R statistisk software. For bedre at afspejle udførelsen af ​​vores netværk, vi sammenlignet ICAN og CNAmet, og mellem tre enkelt datanet.

Identifikation kandidat æggestokkene kræftrelaterede gener

Random Walk med Genstarter [31] er en sorteringsalgoritme. Det simulerer processen med at gå trin for trin fra frø noder til direkte nabo noder; noder i netværket er sorteret efter sandsynlighederne for at nå node. Antages

W

er nabomatricen af ​​ICAN og

P

t er en vektor, hvis i’te element besidder sandsynligheden for at nå frem til knude

jeg på

trin

t

, den random walk blev beregnet ved Hotel (4)

fordelingen af ​​værdier af frø knuder i den indledende sandsynlighed vektor

P

0 blev fastsat som ensartet, med summen af ​​sandsynlighederne lig med 1;

r

repræsenterer sandsynligheden for at genstarte ved frø noder, som blev sat til 0,7. Efter N trin, vil denne sandsynlighed nå en stabil tilstand, som blev bestemt ved forskellen mellem

P

t og

P

t + 1. Vi udførte iteration indtil L1 normen mellem dem faldt under 1E-10. Random Walk med Genstarter sandsynlighed for alle generne i netværket blev beregnet. Vi analyserede derefter forskellen ændring af de øverste 20% gener i de forskellige niveauer.

Kaplan-Meier overlevelsesanalyse for kandidatlande cancer-relaterede gener

En ikke-parametrisk Kaplan-Meier estimator blev anvendt at estimere påvirkningen af ​​forskellige faktorer på overlevelsestiden. I dette arbejde, at undersøge mulighederne for prognostiske værdi af identificerede kandidatgener, brugte vi “overlevelse” pakke i

R

statistik software. En

s

-værdi 0,05 og en FDR 0,25 blev anvendt som en cutoffs for statistisk signifikans ved log-rank test.

Vi undersøgte ændringen af ​​hvert gen i prøverne, og diskretiseres de tre datasæt ifølge trækkene af onkogener og tumorsuppressorgener, dvs. , amplifikation, overekspression, hypometylering; og omvendt: sletning, lav udtryk og hypermethylering hhv. For kopi nummer data, vi vedtog resultaterne af GISTIC2.0 diskret kopi nummer kalder. Prøverne blev klassificeret som gen homozygot deletion (-2) eller amplifikation (1/2). For genekspression data, vi beregnet middelværdien og standardafvigelsen (SD) for hver gen: de værdier, der var højere end betyde + SD blev anset overekspression. Omvendt blev de værdier, som var lavere end den gennemsnitlige-SD betragtes som lav ekspression. For data DNA methylering, vi sætte grænsen baseret på empiriske analyse af beta værdi fordelinger: en beta-værdi mindre end 0,2 blev betragtet som hypometylering; en værdi mere end 0,8 blev betragtet som hypermethylering.

Identifikation funktionelle moduler til ICAN

Vi identificerede funktionelle moduler fra ICAN og bygget tre single-level-netværk ved hjælp MCODE [32]. Brugen af ​​MCODE blev foretrukket til en lettere sammenligning af ICAN og de tre enkelt-faktor net, som de samme moduler blev identificeret fra det uvægtede netværk. Proceduren for kant-vægtning blev udført separat for hvert netværk, og M scoringer af hvert modul blev beregnet efter en scoring formel (se Ekstra fil S4 Tabel for detaljer). En funktionel berigelse analyse blev udført på kandidatlisten cancerrelateret gen sæt, og de gener inde i modulet ved hjælp af DAVID værktøjet [33] (https://david.abcc.ncifcrf.gov/).

Resultater

ICAN har egenskaberne for komplekse netværk

Den integrerede co-ændring netværk er repræsenteret som en ikke-orienteret vægtet graf, hvor noder repræsenterer gener og kanter forbinder knudepunkterne repræsenterer korrelationer af co-ændring mellem gener . Først gør brug af menneskelige interaktion data og sti viden, etablerede vi en HBN, der omfattede 9.195 knuder og 65,720 kanter.

I 574 æggestokkene kræft tumor prøver, der er 11,384 gener, der er til stede i alle tre profiler af kopi nummer, promotor methylering og genekspression. Ifølge CCA, vi derefter beregnet vægten mellem hver to gener for at måle deres lineære korrelation af de tre funktioner. Derefter blev kanterne i netværket tildeles vægte og generne ikke indeholdt i molekylære profiler blev fjernet. Til sidst, konstruerede vi ICAN, der omfattede 6,345 knuder og 40,125 kanter. Jo tættere

ω

er på 1, jo højere korrelationen mellem de to gener. Derudover brugte vi Pearson korrelationskoefficient for niveauerne af genekspression, kopiere nummer, og DNA methylering til at konstruere tre samme størrelse netværk.

Netværk topologi spiller en vigtig rolle i de biologiske funktioner og information transmission i netværk. Efter analyse af egenskaberne i netværkstopologien, fandt vi, at ICAN viste en skala-fri struktur, med en power-lov distribution af node grader. Det betyder, at ICAN omfatter kun et lille antal knudepunkter, hvis grad er høj, hvilket antyder vigtigheden af ​​navet knudepunkter. Vi anvendte derefter den vægtede tilfældige gå metode til at identificere hub noder. Denne metode effektivt kan optimere kandidat sygdomsgener og præcist forudsige kandidat centrale gener for kræft.

ICAN forbedrer nøjagtigheden af ​​prioritering kandidat kræftrelaterede gener

ICAN indeholder 604 kendte ovariecancer-relaterede gener, der blev anvendt som den gyldne standard for at plotte receiver operator karakteristiske kurver, og at beregne arealet under kurven (AUC). Baseret på fem gange krydsvalidering, valgte vi 80% af de gener som frøgener; de resterende 20% var forbeholdt endelige validering. For at bevise rigtigheden af ​​vores metode under anvendelse af samme datasæt, vi anvendte CNAmet metode til at forudsige onkogener og tumorsuppressorgener, og sammenlignet resultaterne med ICAN resultat. Som et resultat, AUC værdi CNAmet var betydeligt mindre end AUC af ICAN (ICAN: Max AUC = 0,8179; CNAmet: AUC = 0,5183, p-værdi = 3.158e-14, de to første plader i S5 Table) (fig. 2). Betydningen af ​​forskellen af ​​AUC for to ROC kurver blev bestemt ved DeLong test i “Proc pakke” [34].

Black linje repræsenterer ICAN, røde stiplede linje repræsenterer CNAmet. Vandret akse er den falsk positiv rate, den lodrette akse er den sande positive sats.

For at mere præcist at forudsige kræft-relaterede gener i kræft i æggestokkene, vi brugte en vægtet tilfældig gå metode til beregning af nærhed mellem andre noder og frø gener til at bestemme korrelationer med onkogener. Denne metode anvendes ofte benævnt “skyld-by-direct-association” -princippet, hvorved gener, der er forbundet med sygdomsgener tendens til at have lignende funktioner. Vi valgte tilfældigt gener i ICAN som frøgener, og sammenlignede dem med de oprindelige resultater. Denne fremgangsmåde blev gentaget 1000 gange; en justeret

s

-værdi under 0,05 blev betragtet som signifikant for cancer-relaterede gener. På den anden side, sammenlignede vi forskellen i graden [35] og gen længde mellem kandidatgener og andre gener. Nyere forskning har vist, at en større gen længde ofte resulterer i flere domæner i den oversatte proteiner, hvilket fører til øget interaktivitet, hvilket betyder en større mulighed for genet er kræft-gen [36]. Resultaterne viste, at ikke blot var der signifikante forskelle i genet længde af kandidat cancerrelaterede gener sammenlignet med de andre gener (

s

værdi = 2.64E-02, fig. 3, S6 tabel), men også resultaterne var ens med hensyn til gen-grad (

s

værdi = 6.176E-07).

i fig. 3 (a), lysegrøn betegner kandidatgener, grå repræsenterer de andre gener i ICAN, og den lodrette akse repræsenterer graden af ​​gener. I fig. 3 (b), lysegrøn betegner kandidatgener, grå repræsenterer de andre gener i ICAN, og den lodrette akse repræsenterer længden af ​​gener.

Endelig har vi identificeret 155 kandidat cancerrelaterede gener (S7 tabel), og analyseret de co-alteration begivenheder af disse gener i detaljer. CHEK1, IGF1R og MSH3- var co-ændres i fælles på alle tre niveauer; CHEK1, IGF1R, MSH3- og FANCA var co-ændret ved kopi nummer og ekspressionsniveauerne; og CHEK1, FGF18, IGF1R, IGFBP1, IGFBP2, MSH3-, Plau, RAD51 og EIF2AK2 blev co-ændret på niveauet af DNA methylering og udtryk.

CHEK1, FANCA og RAD51 er involveret i inspektion af breakpoints i cellecyklus regulering og reparationsprocessen, og spiller en vigtig rolle enten i p53-signalvejen eller MAPK signalvejen. MAPK signalvej er et vigtigt cancer pathway; aktivering af denne pathway kan fremme endotelcelleproliferation og angiogenese. De nyligt genererede blodkar kunne give flere næringsstoffer til tumorceller, accelererer tumorvækst og fremme proliferation af cancerceller [37]. MSH3- og IGF1R har vigtige roller i DNA-replikation, rekombination, og reparation. Mangel på mismatch reparation, især tab af ekspressionen af ​​de syv vigtigste gener (MSH2, MSH3-, MSH6, MLH1, MLH3, PMS1- og PMS2), kan øge risikoen for kræft i æggestokkene [38].

Desuden vi analyserede forskellen andel af de øverste 20% gener i ICAN ved tilfældig gå. Fig. 4 viser, at andelen af ​​forskellen methylering var den højeste i hver søjle blandt top 100; dog kun to gener har samtidige differentierede ændringer på alle tre niveauer. Antallet af gener med kun én type ændring (CNA, differential methylering eller differential udtryk) var 13, 19 og 18, henholdsvis. Vi fandt, at antallet af gener, der blev differentielt ændret på flere niveauer tendens til at stabilisere efter top 600, hvilket indikerede, at sandsynligheden for disse gener er meget højere, hvilket antyder en tættere forbindelse med kendte frøgener.

vi valgt TOP 20% gen i ICAN af Random Walk, hver søjle repræsenterer antallet af differentierede ombygning gener. GE repræsenterer de gener, der kun var blevet differentielt udtrykt i tumorprøver, ligeledes, CN betegner ændring af genkopital; DM betegner DNA-methylering; GD betegner genekspression og DNA-methylering; GC repræsenterer genekspression og kopi nummer, CD betegner kopital og DNA-methylering; GCD repræsenterer de gener ændret i tre funktioner.

Ændringen af ​​et gen på et enkelt niveau repræsenterede en kopi nummer abnormitet, differential udtryk eller differential methylering henholdsvis (S3 Table, ark 1-3).

Nye kræftrelaterede gener af kræft i æggestokkene kan påvirke overlevelse

for at vurdere virkningen af ​​kandidat gener på patientens overlevelse, og se efter genomiske og epigenetiske genomiske funktioner i forbindelse med patienternes prognose, vi anvendte overlevelsesanalyse at estimere bidraget fra 6 funktioner for hver af de 155 gener (930 total funktioner) på overlevelsestiden. Vi identificerede seks betydende onkogene risikofaktorer og 11 betydende tumor suppressor faktorer (S8 tabel).

Interessant, virkningen af ​​homozygote sletninger af kandidatgener på overlevelse var ikke signifikant. Vi spekulerede, at det kunne skyldes heterogenitet af tumor prøver. Selv om høj ekspression af PDPN ikke havde en særlig stor indflydelse på dårlig prognose (

s

værdi = 7.80E-04, FDR = 0,12, fig. 5). Kræftceller med høj PDPN udtryk har højere maligne potentiale på grund af forbedret trombocytaggregation, som fremmer ændring af celle motilitet, metastase og epitelial-mesenkymale overgang [39]. Tidligere undersøgelser har vist, at overekspression af PDPN i fibroblaster er signifikant korreleret med en dårlig prognose i ovariecancer [40].

I venstre panel, den røde linje repræsenterer prøverne med PDPN høj udtryk og den grønne linje repræsenterer prøven slækket i PDPN høj ekspression.

Be the first to comment

Leave a Reply