PLoS ONE: top: En Trend-of-Disease-Progression Procedure fungerer godt for Identifikation Cancer Gener fra Multi-State Kohorte genekspression data til Mennesker Colorectal Cancer

Abstrakt

Markant udtrykte gener udvundet af microarray genekspression data har vist sig meget nyttige til identifikation af genetiske biomarkører for sygdomme, herunder cancer. Men udledning af en sygdom relateret inferens fra en liste over differentielt udtrykte gener har vist sig mindre end ligetil. I en systemer sygdom, såsom cancer, hvordan gener interagerer med hinanden, bør være nøjagtig lige så meget som niveauet af genekspression. Her, i en ny tilgang, vi brugte netværket og sygdomsprogression egenskaberne af de enkelte gener i statslige specifikt gen-gen interaktion netværk (GGINs) for at vælge kræft gener for human kolorektal cancer (CRC) og få en meget højere hit rate af kendte cancer gener sammenlignet med metoder, der ikke er baseret på netværk teori. Vi konstruerede GGINs ved at integrere genekspression microarray data fra flere lande – sund kontrol (Nor), adenom (Ade), inflammatorisk tarmsygdom (IBD) og CRC – med protein-protein-interaktion database og Gene Ontology. Vi sporede ændringer i netværket grader og klyngedannelse koefficienter af individuelle gener i GGINs som sygdomstilstanden ændret fra den ene til den anden. Fra disse vi udledte staten sekvenser Nor-Ade-CRC og Nor-IBD-CRC både udstillet en tendens til (sygdom) progression (top) mod CRC, og udtænkt en Top procedure for udvælgelse kræft gener for CRC. Af de 141 kandidater valgt ved hjælp af top, -50% havde litteratur support cancer gener, sammenlignet med ramme satser på 20% til 30% for standardmetoder kun bruger genekspression data. Blandt de 16 kandidatlande cancer gener, kodede transkriptionsfaktorer, blev 13 kendt for at være tumorigen og tre var roman: CDK1, SNRPF, og ILF2. Vi identificerede 13 i 141 forudsagt cancer gener som kandidat markører for tidlig påvisning af CRC, 11 og 2 på Ade og IBD stater, henholdsvis

Henvisning:. Chung FH, Lee HH-C, Lee HC (2013 ) top: En Trend-of-Disease-Progression Procedure fungerer godt for Identifikation Cancer Gener fra Multi-State Kohorte Gene Expression data til human tyktarmskræft. PLoS ONE 8 (6): e65683. doi: 10,1371 /journal.pone.0065683

Redaktør: Frank Emmert-Streib, Dronningens University Belfast, Storbritannien

Modtaget: December 4, 2012; Accepteret: April 26, 2013; Udgivet 14. juni, 2013 |

Copyright: © 2013 Chung et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af National Science Council (ROC) giver NSC 100-2911-i-008-001 (for center for Dynamiske Biomarkører og Translationel Medicin, nationale centrale Universitet) og NSC 99-2911-i-008-100, og Cathy General Hospital-nationale centrale Universitet Grant 99CGH-NCU-A3. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Kolorektal cancer (CRC) er den fjerde hyppigste årsag til kræft død på verdensplan, men rangerer højere i økonomisk mere udviklede samfund. Ligesom andre former for kræft, CRC er en systemer sygdom, et manifest af flere funktionelle forstyrrelser i de tumorceller. Global genekspression profilering ved anvendelse oligomere mikromatrice er blevet bredt anvendt til at få indsigt i de underliggende mekanismer for komplekse sygdomme, herunder CRC [1], [2]. Tidligere undersøgelser af genekspression profiler har tilvejebragt særskilte perspektiver på det molekylære ætiologi CRC [3] – [6]. Overlapningen mellem offentliggjorte gen signaturer fra forskellige undersøgelser for CRC tendens til at være lille. Tidligt på det blev anerkendt identifikationen af ​​differentielt udtrykte gener (degs) i to kohorte prøver var en potentielt nyttig tilgang [7] – [9]. Tegning en slutning fra en lang liste af DEGS er dog en skræmmende opgave, og kan føre til vidt forskellige resultater [10]. Gene sæt analyse, en metode baseret på

priori

biologisk information såsom Gene Ontology (GO) og Kyoto Encyclopedia of Gener og genomer (Kegg) på moduler, der er funktionelt kommenteret [10], dels tager udfordringen. Begrundelsen for denne tilgang, som grupper degs i funktionelle delmængder hjælp GO eller Kegg (eller noget tilsvarende), stammer fra den iagttagelse, at de fleste gener fungerer som del af en gruppe i stedet for enkeltvis [11]. Men fordi samme kohorte genomiske profiler er kendt for at være meget heterogene, pre-grupperede gen-apparater kan ikke afspejle den faktiske gruppering i en kohorte under undersøgelse. Endvidere et flertal af humane gener er endnu ikke blevet tildelt en bestemt vej eller proteinkompleks [12].

Forskellige årsager til CRC er blevet afsløret, men den globale landskab for dynamiske funktioner carcinogenese processer er stadig uklar. Protein-protein interaktioner (PPI) er grundlæggende for biologiske processer, og protein interaktion netværk (PIN) give en global alligevel statisk visning af cellulære mekanismer i cellen. Dynamiske egenskaber af stifter kan afdækkes gennem integration af PPI-data genekspression profiler [13]. Gener med korrelerede udtryk niveauer over forskellige fysiologiske tilstande eller mere end individer i en kohorte vil sandsynligvis blive involveret i lignende funktioner eller cellulære processer. For eksempel er gener reguleres af en fælles transkriptionsfaktor forventes at have korrelerede genekspressioner. Et gen interaktion netværk (GGIN) konstrueret ved at integrere genekspression data med PPI-data menes en interaktion kort over biomolekyler, der indikerer co-regulerende forbindelser, co-ekspression foreninger, nedstrøms fysisk interaktion mellem proteiner kodet af de “vekselvirkende” gener og eventuelt andre relationer mellem gener [14]. Mange metoder anvender for eksempel korrelation koefficient [15], [16], gensidig information [17], [18], simuleret udglødning [19], og reverse engineering tilgange [20], [21] er blevet anvendt til at re- konstruere GGINs til store genekspression data i modelorganismer, herunder gær og menneske. Flere undersøgelser viste udvinding af dynamiske egenskaber af tilstand-specifikke netværk ved at integrere gen co-ekspressionsmønstre og fysiske protein interaktioner [13], [22], [23].

Med kræft bliver et system sygdom, systemisk ændringer i en kræft celle under kræft progression forventes at målbart manifest i forandringer i de GGINs konstrueret fra data taget ved forskellige tilstande af sygdommen. En vigtig årsag til kræft er serielt akkumulerede genmutationer [24]. De seneste systematiske screeninger af kræft genomer har afsløret et betydeligt antal af funktionelt heterogene gener, eller hubs, der er muteret i kolorektale tumorer [25] – [27]. Fordi hub gener er vigtige i funktionen af ​​en celle, antog vi, at en ændring i status af et knudepunkt gen havde en højere sandsynlighed end en gennemsnitlig gen i afspejler et afbrudt funktionel ændring i cellen. Således en hub gen i en normal tilstand, der blev et ikke-hub gen bør have en højere sandsynlighed i afspejler en sygdom-koblet tab i cellefunktion, mens det modsatte kan afspejle en gevinst i cellefunktion.

Her konstruerede vi GGINs for de fire fysiologiske tilstande – normal (Nor), kolorektal adenom (Ade), inflammatorisk tarmsygdom (IBD), og CRC – ved at integrere genekspression data fra fire tilsvarende sæt af kohorte mikroarrays med human Protein reference Database (HPRD ) [28]. I en given tilstand blev to gener antages at “interagere” Hvis der ekspressionssystemer intensiteter var stærkt korreleret og hvis proteiner kodet af parret var kendt for at interagere. Brug af GGINs vi bygget, vi udtænkt ToP (tendens til progression) procedure, hvorved gener, hvis grader og klyngedannelse koefficienter [29] i GGINs ændret sig i takt med udviklingen i progressionen af ​​kræft, eller gener, der ikke er knudepunkter i Nor netværk, men bliver knudepunkter i CRC-netværket, blev udvalgt som potentielt kræft gener.

Vi anvendte den øverste procedure til de statslige sekvenser Nor-Ade-CRC og Nor-IBD-CRC og udvalgte gener med statistisk signifikans (permutation test

s

-værdi 0,001) ligner dem, der opnås ved konventionelle metoder som eBayes og SAM. Men gener udvalgt af ToP havde en meget højere hitrate (-50%,

s

-værdi 0,001) af kendte cancer gener end hit satser fremstillet ved eBayes og SAM (-20%,

p

-værdi ~ 0,5). Fordi ToP baseret sin analyse på data fra en sekvens af tilstande, vi også brugt det til at identificere potentielle biomarkører til tidlig diagnostisk påvisning af CRC på Ade og ved IBD stater.

Materialer og metoder

prøver og microarrays

data leveres af Gyorffy gruppen [30] om genom-dækkende genekspression profil fra vævsprøver af 53 menneskelige patienter evalueret af HG-U133 Plus 2,0 platform microarrays (Affymetrix, Santa Clara), der list 18.267 gener, blev hentet fra Gene Expression Omnibus (GEO) database (GEO tiltrædelse nr. GSE4183). De arrays var lavet af patienternes væv grupperet i fire fysiologiske tilstande af frosne colon biopsi: 8 for Nor, og 15 hver for Ade, IBD, og ​​CRC, hhv. Colon biopsier blev taget under rutinemæssig endoscopical indgriben før behandling [31]. Nøjagtigheden af ​​de microarray udtryk værdier blev valideret af TaqMan RT-PCR assay [30]. Analyser af microarray data udført i dette arbejde blev udført i R miljø (version 2.12.0).

Udvælgelse af væsentlige degs

Markant udtrykte gener blev valgt ved hjælp af Betydning Analyse af Microarrays algoritme ( SAM) [9] og envejs variansanalyse (ANOVA) [32]. De statistiske tærskler for

s

-værdi af Students

t

-test og fold forandring bruges i SAM blev bestemt ved hjælp af offentliggjorte real-time PCR resultater på 84 gener [30] (figur S1) . Vi anvendte to modes, (1) de to-klassen uparrede tilstand for udvælgelse gener, hvis betyde ekspressionsniveau var signifikant forskellig hos to grupper af prøver (analog med mellem forsøgspersoner

t

-test) og (2) den multi class tilstand for at vælge gener, hvis gennemsnitlige udtryk var anderledes på tværs af en række prøver større end to (analoge med envejs ANOVA). De empiriske Bayes statistik (eBayes) blev anvendt som alternativ statistisk model. For en gennemgang af disse algoritmer se i [33]. FDRs [34] blev beregnet ved hjælp af både Students

t

-tests og ANOVA tests brug af vilkårlig permutation i SAM gennem R-pakken “siggenes”.

Konstruktion af GGIN

Protein -protein interaktion (PPI) oplysninger om 30,047 protein poster og 39,194 interaktioner blev hentet fra HPRD [28] og blev integreret med statslige specifik microarray genekspression data til at konstruere GGINs, en for hver stat. For en given tilstand og en Pearson

s

-værdi (se nedenfor) tærskel

s

0, vi medtaget et par gener i GGIN hvis: (1)

s

-værdi for parret var ikke større end

s

0; (2) proteinet parret kodet af genet pair var forbundet i PPI-data. For en given tilstand og et sæt af microarray data blev en Pearsons korrelationskoefficient (PCC) mellem hvert gen-par beregnes på basis af intensiteter over sættet for parret. Det vil sige, hvis der anvendes et sæt af

n

microarrays for beregningen, PCC, er, at mellem to sæt af

n

intensiteter. Statistisk inferens baseret på PCC blev udført af permutation tests og

t

-Statistik. Vi kalder en

s

-værdi svarende til en PPC en Pearson

s

-værdi. Netværk egenskaber er

n

-afhængig. Resultater vises for 8-sample net. For 8-prøven Nor, ét netværk blev konstrueret (for hver

s

0). For hver af de andre tre 15-sample stater blev 100 net konstrueret, hver fra en otte-prøvesæt tilfældigt udvalgt fra de 15 prøver. Vi bruger standard netværk terminologi. Vi siger en node

i

med graden

k

Jeg

har

k

jeg

naboer. Den clustering koefficient

C

af en node er forholdet mellem antallet af links

e

blandt naboer degree-

k

node til antallet af mulige sådanne links:

C

= 2

e-service /(

k Hotel (

k

-1)) [29]. Layout til netværk blev foretaget ved hjælp af open source-platform Cytoscape (version 2.7.0) gennem den “kant-vægtede fjeder-embedded” layout-funktion. Standardparametre værdier blev anvendt, bortset fra at “antal iterationer” for hver knude blev forøget til 200, og “styrke” blev ændret til 1500 for at undgå kollisioner. Plug-in “GOlorize” [35] blev anvendt til automatisk at tildele farver til gen knudepunkter for at fremhæve berigede gen-ontologi vilkår. Farven og bredde af en kant, blev anvendt til at angive tegn og styrken af ​​korrelation, henholdsvis; rød (blå) for positiv (negativ) korrelation.

Funktionelle Sub-netværk og FFN

Gener i hver stat-specifikke GGIN blev tildelt overrepræsenteret biologiske funktioner, som defineret i GO sigt forening [36]. Berigelse analyser baseret på betinget hypergeometric test [37] blev foretaget ved hjælp af R pakke GOstats [38] downloades fra BioConductor hjemmeside [39]. Baseret på funktionelt gen sætter en GGIIN blev reduceret til FFN for lettere visuel inspektion.

top og top + SAM (TPS) procedurer for udvælgelse Cancer Gene Discovery

Den øverste procedure (figur 1) anvendt til sekvensen Nor-X-CRC (X = Ade eller IBD, som tilfældet kan være) bestod af de trin: (1) Konstruer GGINs for Nor, X, og CRC ved hjælp af en tærskel Pearson

s

– værdi 0,01. (2) Vælg et gen, hvis: (a) det vises i mindst én GGIN; (B) det i det mindste i ét GGIN opfylder grad

D

4 og klyngedannelse koefficient

C

0; (C) dens

D

og

C

stigning langs sekvens (men ingen begrænsning er indstillet på Nor-X par). (3) Form en særlig kategori for forudsagte cancer gener, der koder vigtige transkriptionsfaktorer. I TPS procedure, en ekstra filtrering trin tilføjes: (4) Begræns udvalgte gener til at være en DEG (justeret

s

-værdier 0,05, fold forandring 1,5 eller 1 /1.5) på mindste i X vs. Nor eller i CRC vs. Nor

DEG, differentielt udtrykt gen.; PPIN, protein-protein-interaktion netværk. Kasser i yderste højre kolonne illustrerer, hvordan den forudsagte tumorigen gen CDC6 opfylder Top kriterier: genet-gen interaktion sub-netværk er forbundet med det vokser markant som staten fremskridt fra normal gennem adenom til CRC

Hit rate for cancer gener

Hit rate blev defineret som forholdet mellem udvalgte gener optræder givet som en kræft-relateret gen i

CancerGenes

[40] til det samlede antal udvalgte gener, givet som en procentdel.

CancerGenes

opregner ekspert-annoterede kræftrelaterede gener fra centrale offentlige databaser, herunder Cellmap.org (https://cancer.cellmap.org), Entrez Gene [41], og Sanger CGC [42], og kræft anmeldelser [24], [42] – [44]. I alt 3.165 gener blev indsamlet og forskellige typer af kilder (for eksempel kræft-gen, tumor suppressor, stabilitet gen,

osv.

) Blev alle inkluderet i beregningen hitraten. Fordi Affymetrix HG-U133 Plus 2.0 vifte platform lister 18.267 gener og

CancerGenes

opregner 3.165 gener, ville et tilfældigt udvalg af gener giver en hitrate tæt på 20%.

Randomisering

Vi udførte to slags randomiseringer. Type-1: Separat for hver gen, scramble intensiteterne på hele sæt af arrays. I hvert tilfælde for randomisering blev en sweep over alle gener udført. Denne proces sparer fordelingen af ​​intensiteter for hvert gen, men ødelægger intensiteten korrelation mellem genpar. Type-2: tilfældigt tildele genpar til hvert link i et netværk. Proceduren konserverede antallet af links, men ikke topologi af et netværk. I hvert randomisering blev en sweep over alle links i netværket udføres. Denne proces sparer antallet af links i, men ikke topologi, netværket. Vi forsøgte en tredje, type-3, topologi-bevare randomisering på netværk, hvor topologien forblev uændret, men gener blev randomiseret til knudepunkter i et netværk. Dette viste sig at være ikke en sand randomisering.

Udvælgelse af markører for tidlig Diagnostic Påvisning af CRC

Biomarkører for tidlig påvisning i Ade staten blev udvalgt fra TPS genet sæt for Nor-Ade -CRC sekvens (se Resultater) de, der har en fem gange eller mere stigning i (netværk) grad fra Nor til Ade og være en DEG med en

s

-værdi 0,0001 i Ade vs. Nor. Tilsvarende for biomarkører for tidlig påvisning i IBD stat med IBD erstatter Ade

Resultater

Betydelig differentielt udtrykte gener

Den samlede sæt af udvalgte 2,666 degs (FDR 0,001, Students

t

-test (i SAM)

s

-værdi 0,05, fold forandring 1.5, figur S1) var de faglige degs særskilt valgt blandt tre statslige par; ADE vs. NOR, 1652 gener; CRC vs. NOR, 1100 gener; IBD vs. NOR: 1629 gener. DEGS blev klassificeret i henhold til GO i elleve funktionelle moduler: DNA replikation, DNA reparation, cellecyklus, celleproliferation, RNA metabolisme, transkription, translation, apoptose, signal transduktion, immunsystemet, celle vedhæftning (tabel S1). Et zonekort genereret af to-vejs opsyn hierarkisk klyngedannelse metode (figur S2) viser opsplitningen i to dele af CRC, hvilket afspejler relativ heterogenitet i kræft prøver. Imidlertid blev ingen problemer med at udvinde CRC specifikke degs stødt.

Sygdom Networks var større og mere komplekse, og CRC Network havde Højeste Kompleksitet

Resultater for GGINs vises for 8-sample-netværk. Der var én GGIN men 100 GGINs for hver af sygdomstilstande blev konstrueret (se fremgangsmåder). Antallet af gener og (gen-gen) links begge faldt med faldende Pearson

s

-værdi tærskel

s

0 [45] i konstruerede GGINs (figur 2), som forventet . For givet

s

0 både genet og link numre steg i progressionen heller at ADE til IBD /CRC. Gene nummer i IBD netværket var lidt større end i CRC, men forbindelsen nummer i CRC var signifikant større end IBD. Graden fordelinger af de fire netværk adlød power-love. Med hensyn til netværk kompleksitet (tabel 1), de fire netværk tilhører tre grupper, efter stigende kompleksitet: Nor, Ade og IBD, og ​​CRC. Alle fire netværk bestod af tilsluttede sub-netværk eller klynger. De tre sygdomsinformationsnetværk blev hver domineret af en gigantisk klynge, der indeholder (i gennemsnit) 760, 971, og 1388-generne, for Ade, IBD, og ​​CRC hhv. Den Nor netværk har ikke en kæmpe klynge; sine to største klynger havde henholdsvis 219 og 73 gener.

Antal gener (A) og gen-pair interaktioner (B) i sygdomsspecifikke netværk, som funktioner af Pearson

s

-værdi tærskel,

s

0, i de 8-sample gen-netværk af patienter, der tilhører de fire statslige-typer: Nor, Ade, IBD, og ​​CRC. Ikke-Nor resultater er gennemsnit over 100 tilfældige 8-prøvesæt. Fejl- søjler indikerer standardafvigelser. Stjerner over (under) kurverne giver

p

-værdier af to stikprøver Students

t

-test mellem CRC og IBD (CRC og Nor): *

s

– værdi 10

-4; **

s

-værdi 10

-8; ***

s

-værdi 10

-12; ****

s

-værdi. 10

-16

CRC Network havde den højeste Kompleksitet og var kvalitativt anderledes fra IBD Netværk

Den procentdel af hub-lignende gener steg med sygdommens sværhedsgrad (Figur 3, se figur S3 for et sæt af GGINs). For eksempel, mindre end 0,5% af generne i Nor, men mere end 10% i CRC, havde grader højere end 11; kun CRC havde et betydeligt antal gener med grader 16 eller højere; kun CRC havde en ikke ubetydelig procentdel af gener med grader større end 16, mens besidder det højeste niveau af klyngedannelse koefficient. Selvom meget større, kompleksiteten af ​​IBD-netværket var ligner Ade. IBD havde flere gener af grader op til 5 end CRC, men færre høj grad noder og langt færre noder med høje grader og store klyngedannelse koefficienter (Figur 3).

Gener af graden 1 er ikke vist. Den clustering koefficient af et gen af ​​grad 2 er enten 0 eller 1. Stjerner angiver

s

-værdier (ved Wilcoxon Rank Sum test) i forhold til Nor: *

s

-værdi 0,05 ; **

s

-værdi. 0,01

Størrelser af Gene Sæt af funktionelle moduler i FFNS Generelt Øget med sygdommens sværhedsgrad

FFNS blev reduceret fra GGINs gennem degs partition ifølge GO vilkår (Figur 4, se tabel S2 for GO berigelse analyse for de funktionelle moduler). Størrelser af funktionelle moduler i FFNS generelt steget med sygdommens sværhedsgrad (Figur S4). Relationerne heller CRC og Ade CRC holdt for alle 11 funktioner (den ” ” symbolet refererer til størrelserne i gen antal funktionelle moduler, med p-værdi mindre end 10

-4). Relationen Nor Ade CRC afholdt i 10 af de 11 funktioner (immunsystemet funktion var undtagelsen), med tendensen er særligt stærk for RNA-metabolisme, transkription, DNA-reparation, DNA-replikation, og cellecyklus. Til sammenligning relationen Nor IBD afholdt i kun seks funktioner: oversættelse, celleadhæsion, celleproliferation, immunsystemet, signaltransduktion og apoptose. Relationen Nor Ade IBD ikke holde med god statistisk støtte i nogen af ​​de funktioner

Nodes er funktionelle moduler opkaldt efter Gene ontologi vilkår.. Funktionelle moduler, der indeholder mindre end 70 gener er ikke vist. Diameteren af ​​et modul skalaer med logaritmen af ​​antallet af gener i modulet. Farven skyggen af ​​et modul angiver antallet af intra-modul gen-gen interaktioner pr gen. Tykkelsen af ​​kanten angiver antallet af inter-modul gen-gen interaktioner.

Ade-CRC Pair havde signifikant større Inter-FFN Procent skæringspunkter Funktionelle Link Indstiller

For hver funktion i et FFN en liste af in-funktion links, nemlig interaktioner mellem to gener i funktionelt modul, blev konstrueret, og procentvise Inter-FFN skæringspunkter link sæt blev beregnet (figur 5). Den Ade-CRC kryds stod som en outlier i forhold til de andre fem kryds. For næsten alle funktionelle moduler de fem kryds var tæt fluorescerende på værdier typisk halv størrelse af de tilsvarende Ade-CRC kryds. I forhold til de øvrige fem kryds ADE-CRC kryds havde

s

-værdier af 10

-2 i alle undtagen en af ​​funktionerne (celleadhæsion), og 10

– 3 i syv funktioner (figur 5). En lignende behandling af Ade-IBD kryds fandt, at alle funktioner havde

s

-værdier tæt på sammenhold. Den relativt store overlap mellem DEG sæt fra Ade og CRC er blevet bemærket før [46] – [48]

0 For en given funktionel modul, er den procentvise overlap udtrykt som ration af antallet af links (. tilhører denne modul) fælles for de to netværk til antallet af links i de mindre partner. Stjerner angiver

s

-værdier fra én-prøve Students

t

-test af Ade-CRC kryds versus de andre fem kryds: for *, **, og ***,

s

-værdi. 10

-2, 10

-3 og 10

-4 henholdsvis

Eksempler på TOP Gener

en top gen var forpligtet til at have sin netværksforbindelse og kompleksitet voksede mærkbart langs en tilstand sekvens. Fire eksempler på sådanne gener, der koder transkriptionsfaktorer (TFS) var de tre gener ILF2, CDK1, og SNRPF, kurateret fra både til- og IBD-sekvenser, og MCM10, udelukkende fra IBD-sekvens (figur 6). I hvert tilfælde den forudsagte gen var en lav grad node i det relativt lille Nor netværk, blev en moderat hub i et mærkbart dyrkes Ade eller IBD netværk (eller begge, alt efter omstændighederne være), og endelig en super-hub i store og komplekse CRC netværk.

Delvise netværk, som de øverste fire gener ILF2 (øverst til venstre), CDK1 (nederst til venstre), SNRPF (øverst til højre), og MCM10 (nederst til højre) separat hører til i Nor, ade, IBD og CRC netværk. I hvert tilfælde størrelsen af ​​modulet forbundet med toppen gen stiger langs statens sekvens Nor-Ade-CRC eller Nor-IBD-CRC, eller begge dele. Nodal trim farvekode: overekspression, rød; under-udtryk, blå; neutral, sort. Nodal farvekode for GO funktioner: cellecyklus, grøn; RNA splejsning, lilla; DNA-reparation, brun; kromatin remodellering og histon modifikation, gul.

Discovery of Cancer Gener bruge den øverste Procedure

Den øverste procedure blev anvendt på Nor-Ade-CRC (eller blot Ade) og Nor -IBD-CRC (eller IBD) sekvenser for at vælge cancer-gener, hvilket gav lister af 389 og 381 gener, henholdsvis med 373 gener forekommer i begge lister (tabel S3, fig S5A). TPS Fremgangsmåden gav 134 og 74 gener fra Ade og IBD sekvenser henholdsvis med 67 fælles for begge lister (tabel S4, figur S5B). Til sammenligning toppen valgte kun 7 og 4 gener, henholdsvis fra CRC-Ade-Nor og CRC-IBD-Nor sekvenser, og TPS reduceret sæt til null sæt (data ikke vist), hvilket bekræfter de to sekvenser ikke udviser enhver tendens til en sygdomstilstand. Anvendelse af eBayes og SAM med tærskler

s

-værdi 0,05 og absolutte fold-change 1,5 afkaster DEG lister over 2648 og 2666 gener hhv. Hvert af de trin i den øverste procedure havde en betydelig indvirkning på at reducere puljen af ​​kandidatgener, den øverste krav genet var den største begrænsende faktor. For Ade sekvens kravet om, at gener koder for proteiner opført HPRD reduceret antallet af kandidater fra 18.267 til 9122; at den tilhørte en af ​​de relevante GGINs, til 3556; at det var en ToP gen, til 389; at det var en DEG af SAM, til 134. For IBD sekvens de to første reduktioner var de samme, og de tilsvarende tre sidste numre var 3074, 381, og 74 (figur S6).

permutation Tests

s

-værdier for permutation tests ved randomisering af alle de udvalgte gener lister var 0,001 (figur 7A). Tallene (standardafvigelse i parentes) af eBayes og SAM degs i 1000 type 1 randomiseringer (se metoder) var 228,81 (13,93) og 255,31 (25,57), (figur S7A-B). Fordi randomisering ødelagt intensitet korrelation mellem gener, de 1000 randomiseringer gav kun 0,42 (1,2) gener (figur S7c), hvilket gør det umuligt netværk konstruktion. For den øverste procedure gen intensitet forbundet var genstand for type-1 randomisering og gen-link forbindelse, at type-2 (se metoder). I 1000 randomiseringer antallet af gener udvalgt af toppen og TPS for Ade sekvensen var 29,09 (standardafvigelse 8,18) og 8,31 (3,36), (figur S8A-B); tilsvarende tal for IBD sekvensen var 28,01 (8,15) og 6,58 (2,91) (Figur S8C-D).

Randomisering test er type 1 for eBayes og SAM, og type 2 for Top og Top + SAM (se fremgangsmåder). (A) Antal af gener valgt. (B) Procentdel af gener, der er anført i

CancerGenes

[40] database blandt dem udvalgt i (A). ***,

s

-værdi 0,001 for permutation test ved randomisering; **,

s

-værdi 0,01; *,

s

-værdi. 0,05

Hit priser for kendte Cancer Gener

Fordeling af hit satser for kendte kræft relaterede gener i gen udvalgt i 1000 randomisering af konventionelle metoder (eBayes og SAM, figur S7D-E) og Top baserede metoder (Ade-top, Ade-TPS, IBD-top, og IBD-TPS, Figur S8E-H) har alle gennemsnit i 19% -23 % interval, en forventet værdi i betragtning af de 3.165 kræftrelaterede gener blandt de 18.267 gener på en HG-U133 Plus 2.0 array. De ramte satser de reelle sager (permutation test

s

-værdien ved randomisering i parentes) var 23% (0,422), 22% (0,547), 47% ( 0,001), 50% (0,008) , 51% (0,008), og 54% ( 0,001), henholdsvis (figur 7B). Til sammenligning er den gennemsnitlige hit for udvalgte gener i alle randomisering tests var ca. 20% (figur S8). De ramte satser for de øverste 134 gener fra eBayes og SAM var 27% og 33%, henholdsvis (figur 8). Den kombinerede Ade og IBD TPS listen havde 141 forudsagt cancer gener, hvoraf 67 kom udelukkende fra Ade, 67 var fælles for Ade og IBD, og ​​syv kom udelukkende fra IBD (tabel S3). GO berigelse analyse viste, at GO vilkår nukleare lumen, cellecyklus og nukleosid binding var de mest beriget, der involverer 51%, 33% og 34%, henholdsvis af generne (tabel 2). Sixty-syv af de 141 gener var kendt cancer gener, hvoraf 27, 39, og en henholdsvis kom fra Ade kun, var fælles for Ade og IBD, og ​​kom fra IBD kun (tabel S4).

ikke-tumor TF betyder ikke opført i

CancerGenes

. (A) I gen sæt valgt af statistiske tærskel. (B) I top 134 gener i gen sæt. Tal angivet ovenfor søjler angiver det samlede antal gener i sæt.

CRC Kræft Gener og transkriptionsfaktorer

Fyrre-otte af de 141 gener var blevet rapporteret at være CRC cancer gener , hvoraf 15, 32, og 1, henholdsvis kom fra Ade kun, var fælles for Ade og IBD, og ​​fra IBD kun (tabel 3). Procentdelen af ​​transkriptionsfaktor (TF) -kodende gener blandt de udvalgte gener varieres afhængig anvendte metode (figur 8A). I tilfælde af de øverste 134 gener, antallet af TF gener varierede alligevel fra 10 til 17 (figur 8B). Blandt de 141 TPS generne, 16 var transskription faktor (TF) -kodende (tabel 4), hvoraf 12 blev opført i

CancerGenes

[40] og 11, herunder de tre ikke er anført i

CancerGenes

, var blevet citeret i litteraturen som CRC (tabel 3). PML, opført i

CancerGenes

citeret i litteraturen som CRC relaterede, var den eneste TF blandt de 16 TF’er der kom udelukkende fra IBD sekvens; de fire TF’er CEBPB, E2F5, MYC, og RUVBL1 var fælles for både Ade og IBD sekvenser; de resterende 11 kom udelukkende fra Ade sekvens (tabel 4).

Biomarkører for tidlig Diagnostic Påvisning af CRC

Blandt de 141 forudsagde TPS cancer gener 13 blev identificeret som markører til tidlig diagnose af CRC; 11 til detektering i Ade tilstand, hvoraf 9 udelukkende kom fra Ade sekvens og 2 var fælles for begge sekvenser, og 2, til detektion i IBD tilstand og også fælles for begge sekvenser (tabel 5). I hvert tilfælde kandidaten enten ikke vises eller optrådte som et enkelt-link-gen i (den) Nor (netværk), men blomstrede i en, der har fem eller flere links og var stærkt udtrykt (

s

-værdi . 0,0001) i Ade eller IBD, som tilfældet kan være, og fortsatte med at blive en betydelig hub i CRC

diskussion

de fleste mærkbar om GGINs var, at deres størrelser og kompleksiteter voksede med sværhedsgraden af ​​sygdom (figur 2) i stigende rækkefølge: Nor, Ade, IBD, og ​​CRC. Den IBD netværket havde lidt flere gener, men langt færre links end CRC.

Be the first to comment

Leave a Reply