PLoS ONE: Afstemning-Based Cancer Module Identifikation ved at kombinere Topologiske og Data-Driven Properties

Abstrakt

For nylig beregningsmæssige metoder integrerer kopi nummer afvigelser (CNA’er) og genekspression (GE) er blevet grundigt undersøgt for at identificere cancerrelaterede gener og pathways. I dette arbejde, vi integrere disse to datasæt med protein-protein-interaktion (PPI) information til at finde kræftrelaterede funktionelle moduler. At integrere CNA og GE data, vi først bygget et gen-gen forholdet netværk fra et sæt af frø gener ved direkte at nævne alle typer af parvise korrelationer, f.eks GE-GE, CNA-GE, og CNA-CNA, over flere patienter. Dernæst foreslår vi en afstemning baseret kræft modul identifikation algoritme ved at kombinere topologiske og datadrevne egenskaber (VToD algoritme) ved hjælp af gen-gen-forholdet netværk som en kilde til data-drevne information, og PPI data som topologisk information. Vi anvendte VToD algoritme til 266 glioblastoma multiforme (GBM) og 96 ovariecancer (OVC) prøver, der har både udtryk og eksemplarnummer målinger og identificeret 22 GBM moduler og 23 OVC moduler. Blandt 22 GBM moduler, 15, 12 og 20 moduler var signifikant beriget med kræftrelaterede Kegg, BioCarta veje, og GO vilkår, hhv. Blandt 23 OVC moduler, 19, 18 og 23 moduler var signifikant beriget med kræftrelaterede Kegg, BioCarta veje, og GO vilkår, hhv. Ligeledes har vi også observeret, at 9 og 2 GBM moduler og 15 og 18 OVC moduler blev beriget med kræft gen folketælling (CGC) og specifikke kræft driver gener hhv. Vores foreslåede modul-afsløring algoritme markant bedre end andre eksisterende metoder i form af både funktionelle og kræft gen sæt berigelser. De fleste af de kræftrelaterede veje fra begge cancer datasæt fundet i vores algoritme indeholdt mere end to typer af gen-gen relationer, der viser stærke positive korrelationer mellem antallet af forskellige typer af forbindelser og CGC berigelse -værdier (0,64 til GBM og 0,49 for OVC). Denne undersøgelse tyder på, at identificerede moduler, der indeholder både udtryk ændringer og CNA’er kan forklare kræft-relaterede aktiviteter med større indsigt

Henvisning:. Azad AKM, Lee H (2013) Afstemning-Based Cancer Module Identifikation ved at kombinere topologisk og Data- Driven Egenskaber. PLoS ONE 8 (8): e70498. doi: 10,1371 /journal.pone.0070498

Redaktør: Dongxiao Zhu, Wayne State University, USA

Modtaget: November 9, 2012; Accepteret: 19. juni 2013; Udgivet: August 5, 2013 |

Copyright: © 2013 Azad, Lee. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde (nr 2011 til 0.029.447) blev støttet af Mid-karriere Forsker Program via en Grundforskningsfonden tilskud finansieret af Ministeriet for Uddannelse, Videnskab og Teknologi. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Kræft er en fælles genetisk sygdom og en verdensomspændende førende dødsårsag. Kræft genomforskning identificerer ændringer i gener, der spiller en vigtig rolle i kræft initiering og progression. Årtiers forskning har vist, at kræft er nært beslægtet med unormale ændringer i regulatoriske og signalveje under sin vækst og malignance [1], [2]; sådanne dysregulations i vigtige veje forekomme på grund af kombinationer af genetiske ændringer og ekspressionssystemer ændringer af onkogener eller tumorsuppressorgener [3] – [5]. Derfor har mange algoritmer blevet udviklet til at identificere veje relateret til kræft [6] -. [9] med DNA CNAs, GE ændringer, PPI, og så videre

Omfattende anvendelser af GE til at studere molekylære veje har hjulpet i klassificere kræft undertyper, forudsige prognose, og udvikle lægemidler mod kræft. Men kun bruger GE data til identifikation cancerrelaterede gener er ikke nok, fordi nogle vigtige gener i cancer-relaterede veje måske ikke differentielt udtrykte og nogle differentielt udtrykte gener måske ikke være relevant for cancer. CNAs er strukturelle variationer af DNA-sekvenser, der repræsenterer unormale kopier af DNA-segmenter i en form for deletion eller amplifikation i cellen [10]. CNAs er kendt for at være kendetegnende for cancer og metoder, herunder transportcenter [11], RAE [12], og WIFA [13], er blevet anvendt til at påvise cancer-driver gener i afvigende genomiske regioner. En nylig storstilet analyse af GBM prøver fra The Cancer Genome Atlas (TCGA) [8] viste genetiske ændringer, herunder mutationer, deletioner og amplificeringer af DNA i 78%, 87% og 88% af 206 GBM prøver i de centrale komponenter af RB, TP53, og RTK /PI3K veje hhv.

Flere undersøgelser har for nylig rapporteret betydningen af ​​at integrere CNA’er og GE datasæt til identifikation af kræftrelaterede veje. TCGA forskning i kræft i æggestokkene viste, at genetiske ændringer og genekspression ændringer samtidigt forekomme i retinoblastoma signalvejen [14]. Jörnsten

et al.

[15] udviklet en model, der forklarer effekten af ​​CNAs på GE i en storstilet netværk. Baseret på modellen, blev prognostiske scores beregnes og cancerrelaterede gener blev identificeret. Akavia

et al.

[16] ansat en integrativ Bayesian tilgang til at identificere biologisk og terapeutisk vigtig drivkraft gener i genetisk ændrede områder ved at knytte kandidat driver gener med differentielt udtrykte gener. De anvendte den foreslåede metode til en melanom datasæt og identificerede kendte driver gener i melanom, sammen med nye kræft driver gener TBC1D16 og RAB27A. En vigtig fremskridt kombinere CNAs og GE analyserer gener som et modul i stedet for som individuelle gener. Witten

et al.

[17] anvendte kanonisk korrelationsanalyse for integration CNAs og GE. Denne metode links CNA moduler med GE-moduler og optimerer CNA-GE interaktioner.

konstruere moduler eller undernetværk har PPI’er blevet brugt som forudgående information til at indarbejde tilslutningsmuligheder blandt gener. Cerami

et al.

[9] foreslog en metode til at konstruere undernetværk indeholder et betydeligt antal muterede gener med humane PPI og identificere veje, der er relateret til GBM. Chuang

et al.

[6] foreslået en tilgang, der integrerer PPI’er og GE datasæt at identificere på underordnede markører, der klassificerer metastatiske og ikke-metastatiske tumorer.

Vi foreslår en beregningsmæssige ramme for at indarbejde CNA -CNA, CNA-GE, og GE-GE relationer til protein interaktion netværk for at identificere kræftrelaterede moduler, hvor genetiske ændringer i gener forklares ved disse forhold. Selv om GE-GE forhold er blevet undersøgt i årtier [18] – [20], CNA-CNA [21] – [23] og CNA-GE [7], [24] – [27] relationer er først for nylig blevet undersøgt . Det bemærkes, at amplifikationer og deletioner af DNA-segmenter kan påvirke ekspressionsniveauer af gener i den samme placering, samt fjernt beliggende gener [25]. Denne trans-beliggende associering mellem CNA og GE kan være en af ​​de mekanismer, der forklarer komplicerede forhold mellem gener i signal- og regulatoriske pathways. For at indarbejde disse komplekse relationer, vi konstruere en gen-gen forholdet netværk ved hjælp differentielt udtrykte og betydeligt antal kopier ændrede gener i parrede datasæt indeholder både DNA- og RNA-data på det samme sæt af patienterne. Så vi indarbejde også PPI oplysninger for at udnytte tidligere funktionelle afhængigheder mellem gener. Vi brugte en stemme tilgang til at finde repræsentative gener, er stærkt relateret til andre gener gennem foreninger blandt CNAs, GE, og PPI. Disse repræsentative gener anvendes til at konstruere pre-moduler ved at indbefatte stærkt beslægtede gener. Derefter er pre-moduler fusioneret med andre præ-moduler, der har statistisk signifikante associationer gennem CNAs, GE og PPI relationer, og endelige moduler genereres.

Den foreslåede fremgangsmåde blev anvendt på GE og CNAs data af GBM og OVC prøver fra TCGA at identificere kræftrelaterede moduler. De identificerede moduler blev vurderet i to aspekter: deres funktionelle sammenhæng og relevans for kræft. For at teste, at modulerne er sammensat af funktionelt sammenhængende gener, vi anvendte funktionelle berigelse forsøg med Kegg [28], BioCarta veje [29], og GO biologisk proces [30]. For at teste, at de genererede moduler er relateret til kræft, vi først valgte kræftrelaterede veje fra disse tre kategorier af veje. Da der stadig ikke enighed om, hvilke veje eller funktionelle termer er relateret til kræft, mener vi, at en vej er relateret til kræft, hvis det er væsentligt beriget med cancer-relaterede gener fra en kræft-gen folketælling (CGC) [31]. Så vi anvendt berigelse forsøg med disse kræft-relaterede veje. Vores resultater viste, at kræftrelaterede veje blev beriget med vores identificerede moduler i både GBM og OVC datasæt, og at et betydeligt antal af gener i modulerne var forbundet med andre via CNA-CNA, CNA-GE, og GE-GE relationer .

Resultater

en ramme for at kombinere Topologiske og data-drevne Egenskaber

Vi har udviklet VToD tilgang at konstruere moduler, der er sammensat af et sæt af funktionelt sammenhængende og kræft- beslægtede gener. VToD blev udviklet baseret på fire overordnede ideer; (i) gener med lignende genekspressionsprofiler og kopi nummerændringer er mere tilbøjelige til at være i samme modul, (ii) gener kan tildeles i flere moduler for at afspejle den biologiske viden, at nogle gener er involveret i flere veje, (iii) gener i en kort afstand i PPI-netværket er mere tilbøjelige til at tilhøre samme modul, og (iv) hub gener i PPI-netværket er mere tilbøjelige til at indgå i modulerne da mange hub gener, der har en lang række interagerende partnere kan bidrage til udvikling af kræft. De to førstnævnte ideer Overvej datastyret egenskaber og de to sidstnævnte afspejler topologiske egenskaber af gener i PPI-netværket.

skematisk diagram af vores foreslåede VToD fremgangsmåde er vist i figur 1. VToD konstruerer et gen-gen forholdet netværk, ved at integrere GE og CNA datasæt, hvor er et sæt af frø gener og er et sæt af gen-gen-relationer. Seed gener er udvalgt ved at kombinere differentielt udtrykte (DE) gener og CNA gener, hvor der opnås CNA gener fra TCGA [8], [14] og er anført i tabel S1. For GBM blev 4.821 frøgener valgt ved at kombinere 2.976 DE gener og 2,073 CNA gener. For OVC blev 6,649 frøgener konstrueret ved 710 DE gener og 6.510 CNA gener. Bemærk, at nogle frøgener er begge differentielt udtrykt og kopiantal ændret. De gen-gen relationer blev bygget, hvor to gener har stærk korrelation i mindst én af tre typer af relationer: GE-GE, CNA-GE, og CNA-CNA. Derefter VToD integrerer en PPI datasæt med genet-gen forholdet netværk

BSI

ved at følge fire store skridt.

(A) Gene udtryk, og deres parrede CNA data indsamles. (B) Et gen-gen-forholdet netværk,

BSI

er konstrueret ved hjælp af direkte og indirekte relationer GE-GE, CNA-GE, og CNA-CNA. (C) En roman algoritme, VToD, fund overlappende moduler kombinerer

BSI

netværk og PPI oplysninger. (D) Funktionel og kræft gen sæt berigelser testes for identificerede moduler

Beregn sammenhængen mellem gener:.

For hver to gener, og en forening værdi fra gen til gen er beregnet ved at kombinere det gen-genet forholdet og PPI datasæt. Foreningen værdi kaldes en – i denne undersøgelse, da vi antager, at gen-stemmer for gen til at repræsentere styrken af ​​sammenhængen mellem to gener

Vælg repræsentative gener af hvert gen: Hus Til. gen, er stemme-værdierne fra alle andre gener sorteret i faldende rækkefølge, og gener beliggende inden toppen% af stemmerne-værdier er valgt som repræsentative gener af genet.

Form pre-moduler :

Hvis et gen er valgt som et repræsentativt gen fra flere gener, andre gener vælge genet som repræsentant gen sammen med genet selv danne en pre-modul

Merge pre-moduler. :.

to pre-moduler flettes hvis parvise medlemmer af de to pre-moduler er stærkt relateret i genet-gen forholdet netværk og er tæt forbundet i PPI-netværket

VToD algoritme er inspireret af en dynamisk signaltransduktionssystem (STM) algoritme [32], hvor der for hvert gen, der er de mest forbundne gener udvalgt til dannelse pre-moduler baseret på kun PPI topologi. Men den klare forskel ligger mellem STM og VToD i processen af ​​(i) at beregne sammenhængen mellem to gener og (ii) fusionerende pre-moduler, da vores tilgang integrerer GE, CNAs, og PPI datasæt.

De konstruerede moduler blev vurderet i to aspekter; (I) vi målte funktionel relevans af de identificerede moduler ved at teste, om gener i et modul blev beriget for Kegg, BioCarta veje, og biologiske processer i GO vilkår (kaldet en funktionel berigelse test), og (ii) vi vurderede relevansen af moduler til kræft ved at anvende en berigelse test til kræftrelaterede veje eller kræftrelaterede biologiske funktioner, som er delmængder af de tre ovennævnte kategorier af veje /GO vilkår beriget med cancer-relaterede gener fra CGC [31] (kaldet en kræft- relaterede vej berigelse test). Endvidere testede vi, om gener i de identificerede moduler blev beriget med kræft gener fra CGC, GBM driver gener [33], og OVC-relaterede gener [34]. I disse vurderinger blev den hypergeometriske statistikker anvendes til berigelse test.

Moduler fra VToD Algoritme

De fordelinger af alle opregnede parvise gen-gen-relationer (GE-GE, CNA-GE, og CNA-CNA) blandt frø-gener er vist i figur S1, og fordelingerne af alle synes-værdier for GBM og OVC datasæt er vist i figur S2. Da antallet af pre-moduler afhænger af% værdier i trin 2 i VToD algoritme, vi forsøgte tre værdier for at undersøge, hvordan værdier indflydelse på de konstruerede pre-moduler. Afstemning-værdier for den øverste 1%, 0,25% og 0,1% i sidste ende gav 100, 68, og 43 pre-moduler til GBM, og 138, 53, og 34 pre-moduler til OVC. Så vi anvendt de funktionelle berigelse tests og kræftrelaterede vej berigelse tests til at pre-moduler genereret ved hjælp af de tre tærskelværdier ovenfor. Figur 2 viser den del af beriget pre-moduler; selv om mange pre-moduler har betydelige overlapninger med kendte veje på tværs af alle tre tærskler, pre-moduler fra = 0,25% og 0,1% har flere overlapninger med veje i forhold til = 1%, hvilket viser, at højere stemme-værdier generere højere brøkdel af funktionelt relevant og cancer-relaterede moduler.

(A) er for GBM og (B) er for OVC. Barer repræsenterer fraktioner af moduler beriget med Kegg, BioCarta, GO biologisk proces, cancer-relaterede Kegg, kræft-relaterede BioCarta, kræft-relaterede GO biologisk proces, og kræft-gen folketælling (CGC) i tre forskellige afstemning tærskler. Derudover er der i hvert tilfælde blev stemme-værdier beregnet ved hjælp af kun topologiske egenskaber, kun bruger datadrevne egenskaber, og ved at kombinere dem til at sammenligne deres individuelle påvirkning af præstation. Antallet af gener (NGS) i hver pre-modul sæt vises tilsvarende.

Vi testede også vigtigheden af ​​at overveje både topologiske og datadrevne egenskaber til parvis stemme beregning. Vi genererede pre-moduler ved hjælp af kun topologiske og kun datadrevne egenskaber. Ved det indre egenskab blev anvendt, blev det samme antal genpar udvalgt med den af ​​genpar udvalgt ved at kombinere begge egenskaber for hver værdi af. På tværs af alle tre værdier for tærsklen, den del af funktionelt berigede moduler var højere, når topologiske og datastyret egenskaber blev kombineret, end når kun en enkelt egenskab blev anvendt til både GBM og OVC, som vist i figur 2.

Vi valgte = 0,1% som en tærskel for yderligere analyse. Brug af denne tærskel, for GBM, blev opnået 43 pre-moduler. Ved at flette disse forudsætninger moduler blev 22 moduler genereret, og det gennemsnitlige antal af gener i modulerne var 24. For OVC anvendelse af den samme tærskel, 34 pre-moduler blev genereret, og 23 moduler blev opnået efter fletning pre-moduler, hvor gennemsnittet af antallet af gener er 57. Alle gener i modulerne er anført i tabel S2 og tabel S3. Den statistiske signifikans af de identificerede moduler er vist i figur S3.

Da VToD algoritmen tillader flere forekomster af gener i flere moduler, vi beregnet det gennemsnitlige forhold af fælles gener mellem modulerne. For GBM er forholdet mellem fælles gen var 16,07%, hvilket svarede til de af de Kegg og BioCarta pathways. Desuden blev fordelingen af ​​forhold af fælles gener beregnet. Omkring halvdelen af ​​modulerne havde 10% af de fælles gener, hvilket indikerer, at de endelige moduler vil blive beriget med distinkte funktionelle veje eller vilkår (figur S4A og s4b). Vi undersøgte også tre forskellige typer af direkte relationer (GE-GE, CNA-GE, og CNA-CNA) mellem genpar inden for hver af disse 22 GBM moduler (Figur S5A). Omkring 64% af modulerne indeholdt mindst to typer af relationer, der viser (i) at gener med lignende genekspression og DNA-kopi nummerændringer er mere tilbøjelige til at være i samme modul, og (ii) at aktiviteten af ​​generne i disse identificerede moduler kan forklares ved forskellige molekylære mekanismer (tabel S4).

for 23 OVC moduler, det gennemsnitlige forhold af fælles gener var 11,68%, hvilket også var lavere end dem fra Kegg og BioCarta, og mere end halvdelen af ​​de 23 OVC moduler havde 10% af de fælles gener (figur S4C og S4D). Omkring 83% af alle 23 OVC moduler (figur S5B) indeholdt mindst to typer af direkte relationer.

Kræft-relaterede moduler identificeret af VToD algoritme til GBM.

Vi anvendte funktionelle og kræft gen sæt berigelse tests til 22 GBM-moduler. Vi fandt, at 19 (86,36%), 14 (63,63%), og 20 (90,9%) moduler var signifikant beriget (FDR -værdien 0,05) med mindst en Kegg, BioCarta eller GO vilkår henholdsvis viser, at identificerede moduler er funktionelt sammenhængende. Også, blev 15 (68,18%), 12 (54,55%), og 20 (90,9%) GBM moduler væsentligt beriget med kræftrelaterede Kegg, BioCarta veje, og GO vilkår, hhv. I tilfælde af kræft gensæt berigelse test, 9 og 2 GBM moduler havde væsentlig overlapning (FDR -værdien 0,05) med CGC [31] og GBM-beslægtede gener [33], hhv. Disse resultater viser, at vores moduler er relateret til udvikling af cancer. Tabel 1 viser en sammenfatning af de fem udvalgte moduler bestilt af GBM-relaterede gen berigelse -værdier; disse moduler indeholder mange GBM-relaterede gener. Alle berigelse resultater for GBM datasættet er vist i tabel S4, S5, S6, og S7.

Vi valgte GBM Modul 2 at forklare i detaljer, hvordan gener interagerer med andre gener og er involveret i biologiske veje i moduler. Vi valgte dette modul til yderligere forklaring, da det har en lav berigelse -værdien med cancer gensæt, og indeholder genpar med stærke korrelationer i tre typer direkte relationer. Dette modul indeholder 1.080 genpar fra 48 gener, og blandt dem var der 300 GE-GE, 9 CNA-GE, og 8 CNA-CNA direkte relationer. Figur 3A viser netværket visning af GBM Modul 2 med kun direkte forbindelser. Der var tre typer af kanter i dette netværk: i) røde kanter for CNA-CNA, ii) blå kanter for CNA-GE, og iii) grønne kanter for GE-GE relationer mellem to gener. Gener, der tilhører væsentligt beriget veje /vilkår blev grupperet sammen. Information til DNA CNAs og /eller ekspression ændringer for gener blev også mærket med dem inden for hver gruppe. Frekvensen af ​​kopi nummer ændringer blev præsenteret som en procentdel af 206 GBM prøver med enten fokal forstærkning eller homozygot deletion i [8]. For at tælle den del af tumor prøver med genekspression ændringer for, vi fandt, at en tumor prøve er over- eller under-udtrykt, hvis værdien af ​​i ligning (1) hører til de øverste 10% af værdier for alle tumorprøver, hvor er udtrykket værdien af ​​en tumor prøve og er middelværdien udtryk for alle prøver for kontrol. Baseret på fordelingen af ​​for GBM og OVC datasæt, 0,4 blev udvalgt til GBM og 0,365 for OVC. (1)

(A) Et netværk visning af GBM Modul 2 kun bruger direkte relationer, tegnet af Cytoscape [ ,,,0],70]. Gener blev grupperet sammen baseret på overlapningen med BioCarta veje, og de procentdele af prøver med CNA’er og GE ændringer vises. CGC gener er farvet i oliven og GBM gener er i lilla. Cytoband og Amp /Del (eller ændring-Expression ændringer) information til CNA-CNA (eller CNA-GE) par er vist i det indsatte tabellen. (B) Pathway berigelse forsøg med Kegg og BioCarta veje for dette modul vises. Blå søjler angiver de berigelse -værdier af veje og røde søjler angiver de overlappende -værdier mellem vejen og GBM driver gener. Lodrette sorte søjler viser -værdi tærskel, 0,05, og bredden af ​​de vandrette stænger afhænger af (-værdi). (C) Røde søjler viser den overlappende -værdien med CGC og GBM driver gener.

En manuel litteratur undersøgelse forudsat understøttende dokumentation for de direkte relationer i GBM Modul 2. Gener i MAPK1-MAPK3, MAPK3- MAPK9, og MAPK1-MAPK9 par er involveret i forskellige cancerrelaterede og GBM-relaterede veje, herunder MAPK signalering, erbB signalering, fokal vedhæftning, og Toll-lignende receptor signalering. I BRCA2-ING1 begge gener spiller kritiske roller i cellecyklus kontrol [35], [36]; ING1 er et tumorsuppressorgen og interagerer med TP53, og dens under-udtryk og genetiske omlægning er observeret i flere kræftformer, herunder GBM [37]; og BRCA2, et tumorsuppressorgen, er for nylig blevet målrettet til sensibilisering gliom celler til at dræbe af anti-cancer medicin [38]. I BTBD2-TEP1, TEP1 er en velkendt GBM suppressor genet og deletion /mutation af dette gen er blevet observeret i mange cancertyper, herunder GBM [39]; polymorfi af BTBD2 er involveret i dobbelt-strenget pause reparationsvej, der kan være nyttige for GBM overlevelse [40]. I ING1-HMGB1, er begge gener beliggende i kromosom 13q, hvor kopiantal tab er blevet rapporteret [41] – [43], hvilket tyder co forekommende deletion af disse to gener. I APEX1-HIF1A og HIF1A-TEP1 have CNA-CNA forhold, APEX1 og HIF1A direkte interagere med hinanden

in vitro

[44]; og, i GBM, kopiere nummer tab på 14q11.1-q13.1, 14q23.2-q23.3, og 14q32.33, hvor disse gener er placeret, er blevet rapporteret af Donovan

et al.

[45]. Forholdet mellem 14q11.1-11.2 og 14q23.1-31.3 er også vist i vores resultater af CNA-GE relationer (APEX1-BRCA1, BRCA1-HIF1A, og BRCA1-TEP1) i dette modul. I BTBD2-BARD1 blev BARD1 foreslået som en mediator af apoptose siden sin overekspression inducerer celledød [46]; og høj LOH er blevet påvist i humane karcinom metastaser til hjernen på kromosom 19p13.3 for BTBD2 [47].

Figur 3B viser berigelse forsøg med Kegg og BioCarta veje for GBM Module 2. For at finde GBM- relaterede veje, vi også beregnet de -værdier for berigelse af GBM-relaterede gener i disse veje hhv. I figur 3B, top 15 af 37 beriget Kegg og toppen 15 af 49 berigede BioCarta veje er vist for GBM Modul 2, sammen med deres tilsvarende overlappende -værdier, sorteret efter disse -værdier. GBM Modul 2 indeholder mange tidligere kendte GBM-relaterede Kegg veje herunder gliom, P53 signalering, MAPK signalering, erbB signalering, mTOR signalering, og VEGF-signalering, og GBM-relaterede BioCarta veje, herunder ATM, G2, G1, RB, P53, PTEN , og MET veje [48]. GBM Modul 2 er også beriget med kræft-relaterede 40 Kegg, 48 BioCarta veje, og 92 GO vilkår.

Vi testede også relevansen af ​​GBM modul 2 med kræft ved hjælp af CGC og GBM-relaterede gener, som vist i Figur 3C. GBM Modul 2 indeholdt 10 CGC gener af TP53, BRCA1, BRCA2, DAXX, DDX5, MDM2, MDM4, NPM1, TEP1, og WRN, hvilket resulterer i en -værdi på 1,0510, og 2 GBM-relaterede gener af TP53 og TEP1, hvilket resulterer i en -værdi på 1,0210.

kræft-relaterede moduler identificeret af VToD algoritme til kræft i æggestokkene.

Blandt 23 OVC moduler, 22 (95,65%), 18 (78,26%), 23 ( 100%), 15 (65,22%), og 18 (78,26%) moduler var signifikant beriget (FDR -værdien 0,05) med mindst en Kegg, BioCarta veje, GO vilkår, CGC [31], eller OVC-relaterede gen-apparater [ ,,,0],34], hhv. Også, blev 19 (82,61%), 18 (78,26%), og 23 (100%) OVC moduler væsentligt beriget med kræft-relaterede Kegg, BioCarta, og GO vilkår, hhv. Tabel 2 viser en sammenfatning af fem udvalgte moduler bestilt af OVC-relaterede gen sæt berigelse -værdier. Alle berigelses- resultater for OVC datasættet er vist i tabellerne S8, S9, S10, og S11

Vi undersøgte OVC Modul 8 i detaljer, som det er vist i figur 4.; den indeholder 629 genpar af 37 gener, og blandt dem var der 2 GE-GE, 28 CNA-GE, og 49 CNA-CNA direkte relationer. I OVC Modul 8 er STAT5B-STAT3 gen par aktiveres i ovariecancer [49], interagerer med hinanden [50], og er involveret i mange veje, herunder Jak-STAT signalering, RAS signalering, kemokinsignalering, EGF, IL10, PDGF og TPO pathways. I STAT5B-PRLR, er begge gener involveret i Jak-STAT signalering, en signaltransduktionsvej med nøgle kontrol over proliferation, differentiering og overlevelse af brystceller [51]. For nylig er det blevet vist, at PRLR og dens nedstrøms STAT5B acetyleres ved CREB-bindende protein (CBP) [52]. I EGF-STAT1 og EGF-STAT3, både gen-par er involveret i kræft i bugspytkirtlen, EGF vej, og signaltransduktionsvej; både STAT1 og STAT3 aktiveres af JAK-kinasen som reaktion på EGF [53] – [55], hvor JAK2 /STAT3 signalering er påkrævet for EGF-drevet ovariecancer [55]. I PIK3R1-IGF1R, disse gener interagerer med hinanden [56] og er involveret i mange funktionelle veje, herunder IGF1, IGF1R, HDAC, BAD, IGF1MTOR, og fokale vedhæftning veje. I ERBB2-STAT er disse gener involveret i bugspytkirtelkræft og signaltransduktionsveje; korrelationen mellem aktiveringen af ​​ERBB2 og STAT3 er blevet observeret i mange humane tumorer [57], [58]. I ERBB2-STAT5B, begge gener interagerer med JAK2 [59], [60] og er involveret i erbB signalering og signaltransduktionsveje. I EGF-ErbB2, disse gener direkte interagere med hinanden [61] og er involveret i mange cancertyper, herunder pancreas, endometrial, prostata, blære og ovariecancere. De er også involveret i erbB signalering og fokale vedhæftning veje. I HRAS-FYN, disse gener interagerer med hinanden

in vitro

[62] og er involveret i mange veje, såsom fokal adhæsion, axon vejledning, T-celle-receptor signalering, og FC epsilon RI signalering, ECM , TCR, og integrin veje.

(A) Et netværk visning af OVC Modul 8 ved hjælp af kun de direkte relationer. CGC gener er farvet i oliven og OVC-relaterede gener er i lilla. (B) Pathway berigelse test tests var de samme som i figur 3 (B), men her, røde søjler angiver de overlappende -værdier mellem pathway og OVC-beslægtede gener. (C) Røde søjler viser de -værdier, som overlapper med de af CGC- og OVC-relaterede gener.

top 15 af 37 beriget Kegg og top 15 af 59 beriget BioCarta veje er også vist for OVC Modul 8 i figur 4B. Det omfatter kendt OVC-relaterede Kegg veje, såsom omdrejningspunkt vedhæftning, JAK-STAT signalering, erbB signalering, cytokin-cytokin receptor interaktion, kemokinsignalering og VEGF-signalering, og OVC-relaterede BioCarta veje, såsom AKT signalering, IL6, RAS, EGF, IGF1, PDGF, VEGF, CXCR4, og HER2 veje [34]. Vi testede også relevansen af ​​OVC Modul 8 til kræft. OVC Modul 8 blev beriget med 39 Kegg, 58 BioCarta veje, og 49 GO vilkår, som var kræftrelaterede delmængder af de oprindelige veje /vilkår. Som vist i figur 4C, OVC Modul 8 indeholdt 7 CGC gener (PTPN11, Akt1, erbB2, FOXO1, HRAS, LIFR, og PIK3R1) med en -værdi på 2,0810 og 6 OVC-beslægtede gener (EGF, EphA2, ERBB2 , PIK3R1, STAT3, og VEGFA) med en -værdi på 5,2310. Disse resultater tyder på, at vores identificerede moduler fra OVC datasæt repræsenterer kræftrelaterede veje.

Sammenligning VToD med andre metoder

Tabel 3 viser sammenligninger af vores foreslåede VToD algoritme og andre clustering metoder ved hjælp af GBM og OVC datasæt; sammenlignet med disse algoritmer, blev en højere brøkdel af VToD moduler funktionelt beriget end moduler fra andre algoritmer. Selvom den funktionelle berigelse af DFM-CIN moduler er sammenlignelige med VToD, VToD identificeret en højere brøkdel af moduler encriched med kræftrelaterede veje end DFM-CIN. Bemærk, at da algoritmer designet til forskellige datatyper, de blev sammenlignet ved hjælp af datatyper i den oprindelige papir. For en hierarkisk klyngedannelse metode blev GE, CNA’er, og PPI datasæt integreret

Hierarkisk klyngedannelse:. For at finde moduler af den hierarkiske clustering algoritme, vi konverteret vores gen-gen-forholdet netværk i en afstand matrix ved hjælp af den topologiske overlap metriske [63] i den WCGNA redskab i R beregningsmæssige suite. Denne afstand matrix blev derefter anvendt til hierarkisk klyngedannelse med den gennemsnitlige binding. Dendrogrammet af klyngen blev skåret ved en dynamisk træ-cut [64] algoritme endelig producerer 216 moduler når GBM datasættet blev anvendt. Vi anvendte funktionelle og kræft gensæt berigelse tests med disse 216 moduler. Vi fandt 14, 0 og 13 moduler, der har betydelige overlapninger med Kegg, BioCarta veje, og gå vilkår henholdsvis og 4, 0 og 4 beriget moduler med kræftrelaterede delmængder af Kegg, BioCarta, og GO vilkår, hhv. Også, blev 5 og 1 moduler beriget med CGC- og GBM-relaterede gener (Tabel S12). Tabel 3 viser den komparative ydeevne mellem hierarkisk klyngedannelse og VToD algoritmer, der viser, at VToD identificeret flere pathway beriget moduler end den hierarkiske clustering algoritme (Tabel S13). Desuden figur S6A viser boksen plot af CGC og GBM driver gen berigelse -værdier, hvilket indikerer højere kræft gen berigelser i VToD sammenlignet med hierarkisk klyngedannelse. Også de cirkeldiagrammer i figur S6B viser forskellige kombinationer af tre typer af direkte relationer (CNA-CNA, GE-CNA, GE-GE). Her VToD produceret en større brøkdel af moduler, der indeholder mere end én type af direkte relationer i forhold til hierarkisk klyngedannelse.

Cerami et. al .: Cerami

et al.

[9] udviklet en algoritme til at integrere DNA-kopier numre, somatisk mutation og PPI datasæt, og anvendt det til 84 TCGA GBM oplysninger [8].

Be the first to comment

Leave a Reply