PLoS ONE: Identifikation af menneskelige HK Gener og Gene Expression forordning Undersøgelse i kræft fra Transcriptomics dataanalyse

abstrakt

Reguleringen af ​​genekspression er afgørende for eukaryoter, som det driver de processer af cellulær differentiering og morfogenese, hvilket fører til skabelse af forskellige celletyper i flercellede organismer. RNA-sekventering (RNA-Seq) giver forskere med en stærk værktøjskasse til karakterisering og kvantificering af transkriptom. Mange forskellige humant væv /celler transkriptom datasæt fra RNA-Seq teknologi er tilgængelige på offentlige data ressource. Det grundlæggende spørgsmål her er, hvordan man udvikler en effektiv analysemetode til at anslå udtryk mønster ligheder mellem forskellige tumorvæv og deres tilsvarende normale væv. Vi definerer genekspression mønster fra tre retninger: 1) udtryk bredde, som afspejler genekspression on /off status, og hovedsagelig bekymringer allestedsnærværende udtrykte gener; 2) lav /høj eller konstant /variabel udtryk gener, baseret på genekspression niveau og variation; og 3) regulering af genekspression på det gen struktur niveau. Klyngen analyse viser, at genekspression mønster er højere relateret til fysiologisk tilstand snarere end væv rumlig afstand. To sæt menneskelig husholdning (HK) gener er defineret i henhold til celle /vævstyper, hhv. At karakterisere genekspression mønster i genekspression niveau og variation, vi først anvende forbedret K-means algoritme og en genekspression variansanalysemodel. Vi finder, at kræft-associerede HK gener (en HK-gen er specifik i kræft gruppe, mens ikke i normal gruppe) udtrykkes højere og mere variabel i kræft tilstand end i normal tilstand. Cancerassocierede HK gener foretrækker at AT-rige gener, og de er beriget med cellecyklusregulering funktioner og udgør nogle cancer signaturer. Ekspressionen af ​​store gener undgås også i cancer gruppe. Disse undersøgelser vil hjælpe os med at forstå hvilken celle typespecifikke mønstre af genekspression varierer mellem forskellige celletyper, og især for kræft

Henvisning:. Chen M, Xiao J, Zhang Z, Liu J, Wu J, Yu J (2013) Identifikation af human HK Gener og Gene Expression forordning Study in Cancer fra Transcriptomics data Analysis. PLoS ONE 8 (1): e54082. doi: 10,1371 /journal.pone.0054082

Redaktør: Rajeev Samant, University of Alabama i Birmingham, USA

Modtaget: Juli 19, 2012; Accepteret: December 6, 2012; Udgivet: 31 januar 2013

Copyright: © 2013 Chen et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne undersøgelse blev støttet af en bevilling (2012AA020409) fra nationale programmer for High Technology Research and Development (863 Program), Ministeriet for Videnskab og Teknologi i Folkerepublikken Kina; og tilskud fra National Science Foundation of China (nr 31.101.063, No. 31.271.386 og nr, 31.000.584). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Genekspression regulering indeholder den proces, celler og virus bruger til at regulere den måde, at oplysningerne i gener bliver til genprodukter, hvoraf de fleste er proteinkodende gener [1] – [3]. Genekspression regulering er essentiel for eukaryoter [4], fordi det driver de processer af cellulær differentiering og morfogenese [5]. Dette fører til skabelsen af ​​forskellige celletyper i flercellede organismer, hvor forskellige celletyper eventuelt besidder forskellige genekspressionsprofiler, om de alle har den samme genomsekvens [6]. En stor udfordring i den aktuelle forskning er, hvordan man definerer tilstanden af ​​genekspression regulering. Baseret på genekspression bredden [7] – [9], gener kan opdeles i ubikvitært udtrykte gener [6] – [10], næsten universel HK gener og vævsspecifikke /cellespecifikke gener. Baseret på genekspression niveau kan genet bestemmes som en lav /høj ekspression genet [11], og som en konstant /variabel ekspression genet [12] – [13]. Genstruktur er en vigtig reguleringsfaktor til genekspression. Det består hovedsagelig af genstruktur sammensætning, genstruktur organisation, gen variation, proteinklasser, cellulær struktur, cellulære processer, og molekylære mekanismer [10], [14] – [25].

RNA-Seq er bliver en mere og mere populær bioteknologi på grund af dens transkription måling ved fremherskende præcision og høj kapacitet til påvisning af svagt udtrykte gener [10] – [11], [15], [26]. På grund af de dramatiske fremskridt i RNA-Seq, transkriptom data stige hurtigt [25] – [27] i SRA database. I tidligere cancer progression og genekspression reguleringsmekanismer studier baseret på microarray data [28] – [30], forskere hovedsagelig sammenlignet genekspression i cancer tilstand vs. normal tilstand med de samme originaler. Denne metode kunne savne mange virkelig opreguleret andet udtryk (DE) gener ved normalisering proces [31], at se bort fra mekanisme i kræft. I denne undersøgelse har vi vælger 12 normale prøver og 9 cancer prøver at udforske den generelle mekanisme for kræft genekspression regulering fra RNA-Seq transkriptom data. Vi definerer genekspression mønster fra tre retninger og karakterisere cancer HK-gener at observere genekspression regulering i cancerceller. Denne forskning vil hjælpe os med at forstå de vigtigste regulatoriske gener og patogenesen af ​​kræft.

Materialer og metoder

RNA-Seq transkriptom datasæt

RNA-Seq prøver under normale og cancer tilstand er udvalgt til at identificere HK gener. To store elementer anses for udvælgelsen, mængden og mætning af de udvalgte prøver. Selvom RNA-Seq prøver voluminøse i den offentlige data ressource, de nyttige prøver til normal vs kræft sammenlignende analyse er begrænsede. Hvis vi havde medtaget flere umættede prøver, ville det have ført til en højere falsk negativ rate primært forårsaget af lav hyppighed gener. Vi er helt opnå 37 forskellige humane væv /cellelinje transcriptomics data fra offentlige SRA database (tabel S1), 22 normale prøver og 15 kræft prøver. Så vi vælger prøver med criterions som følger: 1) fjerne alle blandede cellelinjer prøver, fordi samle metode vil dække forskellen genekspression overflod; 2) fjerne cellelinjer prøver med særbehandling, fordi reguleringsmekanismer er forskellige under forskellige fysiologiske betingelser; 3) filtrering alvorlige umættede datasæt; 4) at vælge den mest mættet prøve, hvis replikater eksisterede, vi ikke foretrækker integration, der ville fremkalde højere falsk negativ rate; 5) udvælge prøver fra Illumina Genome Analyzer, den mest populære sekventering instrument, her forsøger vi at begrænse den oprindelige forskel mellem de forskellige sekventering platforme. Endelig får vi 12 normale væv og 9 cancercellelinier til yderligere analyse. De normale væv i vores analyse omfatter adipøse, hjerne, cerebral cortex, colon, bryst, nyre, lever, lunge, lymfeknude, hjerte, testikler, og skeletmusklerne. Og cancer cellelinjer omfatter K562, DLD-1, HepG2, GM12878, lymfom, BT474, MCF7, MB435 og T47D i de nuværende RNA-Seq datasæt (tabel S1). K562 er en immortaliseret cellelinie fremstillet af en kvindelig patient med kronisk myeloid leukæmi (CML). DLD-1 er et kolon adenocarcinom cellelinie dyrket under 21% oxygen med ikke-målretning siRNA transficeret. HepG2 er en cellelinie afledt fra en mandlig patient med liver carcinoma. GM12878 er en lymfoblastoidcellelinie fremstillet af blod fra en kvindelig donor ved EBV transformation. Lymfom er en Ramos B-celle. De andre cellelinier er alle brystkræft cellelinier afledt fra invasive duktale carcinomer (ATCC). MCF-7, BT474 og T47D er østrogen-receptor-positive og progesteron-receptor-positive; MD435 er negativ for begge. Høj kvalitet CEL filer af menneskelige microarray data på HG-U133A er valgt fra AffayExpress (E-mtab-27) [32] (Tabel S2) til sammenligning.

Efter tilfældige udskrifter filtrering, vælger vi 28.778 menneske RefSeq protein kodning udskrifter (RefGene af UCSC annotation database, Jan 4, 2010 opdatering), og klynge dem i 18.874 menneskelige loci som beskrevet tidligere [9]. 13,038 (69.08%) gener med multi-isoformer og 5836 (30,92%) gener med single-isoform anvendes til yderligere analyse. At kortlægge transkriptionelle datasæt på deres henvisning genomisk sekvens GRCH37 (hg19), bruger vi MAQ mapping software [33] downloades fra UCSC. Så annotation af kortlægning resultater sammenlignes med RefGene.

transkriptomet dataanalyse model

Genekspression overflod normaliseres som læst tæthed, dvs. læser pr kilobase (KB) for kodning sekvens (CDS ) per million læser (RPKM), i RNA-seq data, en million konfigurable læser i et eksperiment [34]. Og ekspressionen af ​​et gen defineres som summen af ​​udtryk for alle isoformer, der hører til dette gen [11]. For at beregne en genekspression niveau præcist, vi citerer en Poisson-fordeling model til at estimere isoformer udtryk [11]. I betragtning af tid omkostninger, vi strengt kræver en læse falder i en exon med at forsømme exon-kryds oplysninger.

For at afgøre om et gen udtrykkes eller ej, er tærsklen baggrund værdien af ​​genekspression udføres ved hjælp af en tidligere metode, koordineret falsk positiv rate (

FPR

) og falsk negative rate (

FNR

) [10]. I dette papir, definerer vi positive sæt som gener med læser falder i sine exons, og negative sæt som gener med læser falder i intergeniske regioner. En observeret udtryk værdi, som er større end tærskelværdien baggrunden er markeret som positiv, og den modsatte er markeret som negativt. Derefter får vi disse to definitioner, (

FP_count

betyder resuméet af intergeniske region tæller for udtryk værdi større end baggrund, Modsat som

TN_count

.

FN_count

betyder sammendrag af gen tæller som gen udtrykker, men udtryk værdi mindre end baggrund, omvendt som

TP_count

).

Identifikation af lave og høje udtryk gener kan skildrer genekspression mønster i en prøve, og dynamisk ændring af genekspression niveau blandt væv /cellelinier afspejler den indre reaktion af genekspression regulering. Tidligere undersøgelser normalt opdelt genekspression niveau i flere intervaller, og mærket to ekstreme gener så lav og høj, henholdsvis [11]. Denne definition er på en måde vilkårlig, fordi det målte genekspression omfang uanset genekspression mønster. I mellemtiden kan ekspressionsniveau uoverensstemmelse af tilstødende ekspressionsniveau gener i to sekventielle undergrupper være svagt. Drevet af denne motivation, vi først anvende den forbedrede K-means algoritme til at identificere tærskler lav og høj ekspression dynamisk, som deler udtrykte gener i tre kategorier: lave ekspressionsniveauer gener (ben), moderate ekspressionssystemer gener (MEG), og høje ekspressionsniveauer gener ( HEG). Som til en prøve, er tærskel lav ekspression defineret som den gennemsnitlige værdi af maksimal genekspression værdi i LEG og mindste genekspression værdi i MEG. For at analysen af ​​genekspression mønster variation blandt forskellige prøver, definerer vi en samlet tærskel lavt udtryk som medianværdien af ​​alle prøver ‘tærskelværdier lave udtryk. tærskel høj ekspression for en prøve defineres som den gennemsnitlige værdi af maksimal genekspression værdi i MEG og minimum genekspression værdier i HEG. Og det forenede høj ekspression tærskel er medianværdien af ​​alle prøver. Metoden er baseret på individuel genekspression fordelingsmønster af en prøve for at identificere lave og høje ekspressionsniveauer gener med dynamisk måling. Og det garanterer den maksimale afstand af genekspression niveau på to sekventielle undergrupper.

Den forbedrede K-betyder algoritme tildeler hver udtrykte gener til klyngen, hvis tyngdepunkt er nærmest som K-betyder algoritme gør. Men afstand af to elementer er defineret som absolutte værdi af forskellen mellem to genekspression værdier. Centroid defineres som udtryk værdi af den midterste gen i klyngen af ​​sortering gener ifølge genekspression værdi. Det er forskelligt fra K-midler algoritme defineret som aritmetiske gennemsnit. Vi initialisere genekspression datasæt til et punkt format (

x

,

y

), hvor

x

er genekspression værdi og y er dens tilsvarende gen tæller. Algoritmen er groft beskrives som følger:

Transformer

x Drømmeholdet værdi ved formlen, hvor

n

er omdanne faktor og dens standardværdien er 1.

Indstil antallet af klyngen

K Hotel (= 3).

tilfældigt vælge

K

elementer fra punkt indstillet som centroider af klynger.

Tildel hver punkt til nærmeste klynge geometriske tyngdepunkt.

Re-compute

K

nye klynge centroider.

Gå til 4), indtil opgaven ikke har ændret nogen mere.

Som et resultat, udtrykte gener er opdelt i 3 kategorier: LEG, MEG, og HEG. Vi sætter normale gruppe resultater som kontrollen standard. De medianværdier af lave tærskler og høje tærskler i 12 normale væv er sat som endeligt lav tærskel og høj tærskel for alle væv /cellelinjer.

Vi bruger variansen af ​​genekspression niveau at skildre genekspression variation, som tidligere undersøgelser gjorde [35] – [37]. Høj ekspression værdier, som kan forstærke variation, bidrager til afvigelseskategorier mere direkte, mens små værdier af genekspression påvirker varians svagere, hvilket kan skjule reel variation. Således er genekspression værdier rangeret som 1, 2 eller 3, til at repræsentere genekspressionsniveau så lavt, moderat eller høj, henholdsvis. Vi bruger disse repræsentationer i stedet for gen råt udtryk værdi til at estimere genekspression variation mønster. For enhver gen, beregner vi variationskoefficient værdi (

CV

) baseret på genekspression rang, hvor

μ

er aritmetiske gennemsnit af genekspression rækker af alle væv /celler line prøver i et gen;

σ

er standardafvigelsen af ​​genekspression rang i et gen, som er det aritmetiske gennemsnit af den kvadrerede afvigelse af genekspression rang fra dens aritmetiske gennemsnit. Vi sætter også normal gruppe som kontrol.

Vi foreslår en MDAD plot at karakterisere forskellen på genekspression mønster i kræft tilstand vs. normal tilstand, baseret på det udbredte MA plot. M Distance (MD) og A afstand (AD) af enhver gen i MDAD plot er defineret som og henholdsvis hvor

max Drømmeholdet værdi i er den maksimale genekspression værdi inden alle normale væv /celler line prøver, og

min Drømmeholdet værdi i er den minimale genekspression (men 0) indenfor alle normale væv /celler line prøver;

max Drømmeholdet værdi i er den maksimale genekspression værdi inden for alle kræft væv /celler line prøver, og

min Drømmeholdet værdi i er den mindste genekspression værdi (men 0) i al kræftvæv /celle line prøver.

MD

afspejler forskellen af ​​genekspression fordeling mellem kræft tilstand og normal tilstand, og

AD

afspejler forskellen i relative gennemsnitlige niveau mellem kræft tilstand og normal tilstand. Vi bruger MDAD plot, med en parret Wilcoxon-test [38], for at sammenligne forskellen af ​​delt eller cancerassocieret HK genekspression plan mellem normal og cancer tilstand.

MD

0 betyder genekspression distribution i kræft tilstand er bredere end i normal tilstand, og

AD

0 betyder genekspression relative gennemsnitlige niveau i kræft betingelse er højere end at i normal tilstand. At sammenligne deres oprindelige maksimum og minimum ekspressionsniveauer under kræft og normal tilstand, vi også beregne

maxR

minR

som forholdet mellem maksimum og minimum udtryk værdi i normal vs kræft codintion (,) . Hvis et forhold er 0, kun et gen tændes i kræft tilstand; hvis et forhold værdi lokaliserer på [0, 1], ekstreme udtryk værdi i normal tilstand er mindre end i cancer betingelse, hvis et forhold værdi lokaliserer på [1, ∞], ekstreme udtryk værdi i normale væv er større end den, kræft betingelse.

Spearman korrelation af genekspression profil bruges til at definere ekspressionsmønsteret ligheden mellem forskellige væv /celler. Baseret på deres grad af lighed, er en hierarkisk klynge med korrelation oplysninger udføres ved hjælp af R-software. Normalisering af microarray databrug MAS5.0 [39] algoritme med Expression Console ™ software (afsløring p-værdi som 0,05). Funktion berigelse analyse af forskellige HK gener typer udføres med David (Database til anmærkning, Visualisering, og integreret Discovery) [40].

Resultater

Analyse model for RNA-Seq transkriptom data

RNA-Seq har stærke evne til at opdage lav hyppighed udskrifter med hidtil uset præcision og high-gennemløb på en meget lavere pris bestående med andre metoder. Nu er det blevet den mest anvendte transcriptomics sekventering teknologi [11], [41]. En almindelig forespørgsel i RNA-Seq dataanalyse er, hvordan man definere antallet af udtrykte gener i en enkelt prøve. For at eliminere forurening og fejl forårsaget af eksperimenter og instrumenter mv, vi registrerer ekspressionsniveauet mellem exons og intergeniske regioner at koordinere

FPR

og

FNR

(se materialer og metoder afsnit) ved hjælp af metode genereres i en tidligere undersøgelse [10]. Tærskelværdierne af genekspression baggrund for de enkelte prøver er faldende i 0,13-0,41 RPKM. Vi sætter en medianværdi på 0,25 RPKM (fig S1) som baggrund tærsklen af ​​genekspression til yderligere analyse. Så vi bruger en Poisson-model til at håndtere isoform udtryk estimering og forfine genekspression værdien ved at akkumulere alle isoformer udtryk værdier i et gen [11].

Definition af HK gener

Vores prøver er adskilt i to fysiologiske grupper: 12 normale væv og 9 cancercellelinier, er detaljer vist i tabel 1. klyngeanalysen indikerer at genekspressionsmønstre er stærkt relateret til fysiologisk tilstand snarere end væv rumlige afstand (figur 1). Vi forudser, at der er nogle fælles regulering mønstre i kræftceller, såsom turn on /off regulering og lav /høj eller konstant /variabel, der opretholder deres ubegrænsede spredning evne. Her definerer vi HK gener i to separate grupper, normal HK gener og kræft HK generne, for at afspejle genekspression on /off status i forskellige fysiologiske tilstand. Tidligere undersøgelse på hierarkisk gruppering af ni lunge SAGE biblioteker viste også en klar adskillelse af tumor og normale prøver [42].

Spearman korrelation af genekspressionsprofiler anvendes til at definere genekspressionsprofilerne ligheden mellem 21 forskellige væv /celler. En hierarkisk klyngeanalyse med korrelationen oplysninger viser 2 klynger:. 12 normale væv og 9 kræftceller

Vi definerer fem typer af HK gener efter deres genekspression mønster i normal og /eller kræft betingelse: 1) normal-unikke HK gener specifikke HK gen kun vist i normal gruppe, ikke HK gen i kræft gruppe; 2) cancer-associerede HK gener, specifik HK gen kun vist i kræft gruppe, ikke HK gen i normal gruppe; 3) dele HK gener, HK gener udtrykt i både normale og cancer gruppe; 4) normale HK gener, HK gener udtrykt i hele normale gruppe, omfatter normale-unikke HK gener og dele HK gener; 5) kræft HK gener, HK gener udtrykt i hele cancer gruppen, omfatter cancer-associerede HK gener og dele HK gener.

Med hensyn til den normale gruppe, 12 udvalgte normale væv dækker bindevæv, muskelvæv, krop region og 6 human taksonomi, herunder urogenitale system, fordøjelsessystemet, åndedrætssystemet, blod- og immunsystemet, centralnervesystemet, og hjerte-kar-systemet (endokrine system blev ikke dækket, figur S2). Baseret på disse 12 normale væv, vurderer vi, at der er 8831 normale HK gener (protein-kodende HK gener) .Den HK gen fraktion er 47%, hvilket er i overensstemmelse med to tidligere rapporter: 40% [9] og 42% [10 ]. Sidstnævnte undersøgelse blev også udført med RNA-Seq data, men Daniel Ramsköld og hans kolleger definerede HK gener uden at skelne normal eller kræft gruppe. 8041 HK-gener blev identificeret ved 24 humane væv /cellelinjer (10 normale væv og 4 cancer cellelinjer også overvejes i vores undersøgelse), herunder 7695 protein-kodende gener, 277 lncR og 69 ukendte gener ikke er til stede i referencen genomiske sekvens GRCH37, hg19 [10]. HK generne overlapper mellem Daniel Ramsköld

et al.

‘S arbejde og vores normale HK gener er 7004 (Figur S3). Og den unikke HK genet i vores definition (1827) kommer hovedsageligt fra normal-unik HK genet (1253), som kun er vist som HK gener i normal tilstand. Da Daniel Ramsköld og hans medarbejdere brugte 4 cancercellelinier, denne forskel i HK genidentifikation forekommer i vores studie er temmelig rimelig. De fleste af vores definerede 8831 normale HK gener ubikvitært udtrykt i alle 19 ledige normale prøver, 12 af dem er udvalgt til normal HK gen definition, 7 af dem filtreres af criterions vist i Materialer og metoder (fig S4A, tabel S1). Den “falsk detektion rate” er primært forårsaget af umættethed af de filtrerede prøver. Det betyder, at nøjagtigheden af ​​HK gener defineret fra 12 normale væv er høj nok til yderligere analyse

Aktuelle kræft prøver repræsenterer krop region og tre vidt undersøgte humane taksonomiske systemer, herunder:. Urogenitale system, fordøjelsessystemet, og blod- og immunsystemet (figur S2, tabel S1). Vores udvalgte 9 kræftceller dække de fleste af dem, undtagen den urogenitale system prøve, der filtreres af umættethed og udvælgelse platform criterions. Fraktionen af ​​kræft HK gen er 38% i genekspression bredde 9. Vi definerede 7084 cancer HK gener og de fleste af dem er til stede i normale gruppe (figur 2A), som danner den delte HK gruppen. Disse delte 6237 HK gener kunne være væsentlige gener for en celle, der opretholder grundlæggende funktioner i forskellige fysiologiske tilstand. Kræft HK gener er mindre end normale HK gener, fordi kræft kræves mindre tændt gener (Tabel S1). Men cancer krævede en højere fraktion af mRNA pool [10], [26] for at reducere cancercelle transkriptom specialisering [26]. Dette giver en fokus på færdiggørelse af enkle celleproliferation. Ca. 88,65% af kræft HK gener ubikvitært udtrykt i alle 13 cancer prøver, herunder 4 filtrerede prøver (tabel S1, fig s4b). Den “falske opdagelse sats” af kræft HK gener er primært forårsaget af umættethed af de filtrerede prøver. Dette resultat viser, at selv om de nuværende 9 cancer prøver ikke kan repræsentere forskellige kræfttyper, kan identifikationen af ​​kræft HK gener anvendes i gen-ekspressionsmønster undersøgelse af cancercelle.

HK gener er defineret separat fra to fysiologisk grupper: 12 normale væv og 9 cancercellelinjer. (B) Forskellige HK gen typer funktionelle berigelse. “Kræft” betyder kræft HK gener, forkortet som suffix “C” følger funktion sigt illustration; “Kræft-associeret” forstås specifikke HK gener i cancer tilstand, forkortet som suffix “CA” følger funktion illustration sigt; “Delt” betyder overlappede HK gener i normale og cancer vilkår, forkortet som suffix “S” følger funktion illustration sigt; “Normal-unikke” betyder specifikke HK gener i normal tilstand, forkortet som suffix “NU” følger funktion sigt illustration; “Normal” betyder normale HK gener, forkortet som suffiks “N” følger funktion illustration sigt.

An HK genet er typisk et konstitutivt gen, der kræves til opretholdelse af basale cellulære funktion, og det er findes i næsten alle humane celler [7], [43]. For at karakterisere normale og cancer HK genfunktioner, vi sammenligner celle genfunktion berigelse og signalveje. Som Figur 2B viser, er cancerceller HK gener beriget med molekylær funktion og biologiske processer. Cancer HK gener deltager i cellecyklus, DNA-replikation, mismatch reparation, og apoptose pathway, etc., for at besvare tumor forekomst. Normale HK gener tendens til at deltage i grundlæggende veje (tabel 2).

Karakterisering af delte HK gener ekspressionsmønstre

For at karakterisere genekspression niveau og variation, der fører til genekspressionsmønstre definition, vi først anvende forbedret K-betyder algoritme og vedtage forbedrede genekspression koefficienter af varians (

CV

, se Materialer og metoder for detaljer) model. Tidligere undersøgelser defineres normalt 100 RPKM gener som høj udtryk tærskelværdier og en RPKM for lav ekspression baseret på otte log-skala siloer [11]. Den forbedrede K-midler algoritme identificerer tærskelværdier fra et individ genekspression fordelingsmønster. Baseret på beregningen af ​​denne algoritme, lav ekspression tærskelværdier er 0,66-1,22 RPKM, og høje ekspressionsniveauer tærskelværdier er 8,58-19,99 RPKM (tabel 3). Vi sætter en median værdi på 1,06 RPKM for lav tærskel og en median værdi på 12,72 RPKM for høj tærskel i normal tilstand som en standard for yderligere analyse (figur S5). For at skelne en genekspression variation status, anvender vi en forbedret genekspression

CV

model.

CV

værdier i normal gruppe spænder fra 0 til 0,54. Q1 (en fjerdedel) og Q3 (tre fjerdedele)

CV

værdier i normal gruppe er 0,14 og 0,26, hvilket er markeret som konstante og variable udtryk tærskelværdier (figur S6). Således har vi helt får tre statusser for genekspression variation, konstant (0

CV

≤0.14), moderat variabel (0,14

CV

≤0.26), og variabel (

CV

. 0,26)

Det er velkendt, at nogle gener udtrykker konstant blandt væv, mens andre udtrykker variabelt i normal tilstand. Dette fænomen findes også i HK gener [12] – [13], [35]. Baseret på genekspression

CV

model, finder vi, at flere HK gener i kræft tendens til at være moderat variable udtrykte gener (figur 3A). Vi forsøger at undersøge de måder, hvorpå genekspression variation status reguleres til at beskæftige sig med fremkomsten af ​​en tumor. Således vi sammenligner 6237 delt HK gener til at illustrere deres justering. Mere end halvdelen af ​​delte HK geners udtryk variation statusændringer mellem normal og cancer tilstand. Som vist i figur 3B, at næsten to tredjedele af konstante delte HK gener under normal tilstand ændring moderat variabel status i henhold kræft tilstand. En tredjedel af moderat variabel delte HK gener i normale tilstand bliver konstant delte HK gener i cancer tilstand. Omkring halvdelen af ​​variable delte HK gener i normal tilstand ændrer deres udtryk variation status til moderat variabel i kræft tilstand (figur 3B). En celle er egnet til at modulere dens genekspression mønster at være primært moderat variabel ekspression i tumor fysiologiske tilstand.

Der er tre genekspression variation status, Constant, forkortet som suffix “C” i (B), og moderat variabel, forkortet Moderat i (A) og suffikset “M” i (B), og variable, forkortet suffix “V” i (B).

For at måle genekspression regulering og genekspression variation status regulering i kræft tilstand, foreslår vi en MDAD (se materialer og metoder afsnit) plot med en parret Wilcoxon-test [38] i alle delte HK gener (figur 4A) og delte HK gener i tre variation status undertyper (figur 4B, C, D). Alle parret Wilcoxon-test detalje værdier er vist i tabel 4. Delt HK gener udtrykker højere i kræft end i normale væv, baseret på den effektive udtryk bredde (

MD

, p-værdi er 4.34E-33 ) og den mellemliggende værdi (

AD

, p-værdi er 0). De tidligere microarray data viste, at humane cancer gener kan være bredt opreguleret [31]. Parret Wilcoxon-test p-værdier for

MD

i de tre gen-ekspression variation undertyper er 4.24E-67, 0,11, og 0,59 hhv. P-værdier

AD

er alt for lavere med værdierne af 3.15E-160, 2.62E-126, og 3.65E-183 (tabel 4). Som figur 4 vist, mest delte HK gener “

AD

MD

værdier er mindre end 0, hvilket betyder gener udtrykker højere i kræft tilstand end i normal tilstand. Således i kræft tilstand, en celle justerer hovedsageligt konstante delte HK gener til at udtrykke højere for at handle fremkomsten af ​​kræft signal

MD

. 0 betyder genekspression span bredde i kræft tilstand er større end i normal tilstand, og

AD

0 betyder genekspression relative gennemsnitlige niveau i kræft betingelse er højere end i normal tilstand. Ifølge delt normale HK gener udtryk variation statusser, fælles HK gener er opdelt i tre undertyper, konstant, moderat variable, og variabel udtrykt delte HK gener. Parret Wilcoxon-test anvendes her til at måle genekspression regulering og genekspression variation status regulering. (A) Alle delte HK gener. (B) Fælles konstant udtrykt HK gener. (C) Delt moderat variabel udtrykte HK gener. (D) Fælles variable udtrykt HK gener.

Vi kvantificere andelen af ​​gener for hvilke kræftcellen modulerer genekspression niveau til at være højere end i normal fysiologisk status. For at gøre dette, beregner vi gen-tællinger, der har maksimale forhold værdier (

maxR

) og mindste nøgletal værdier (

minR

) ≤1 (se materialer og metoder afsnit). Når

minR

≤1, er der 73,47% af delte HK gener akkumuleret; når

maxR

≤1, der er 67,79% af delte HK gener akkumuleret (figur 5A, tabel 5). Vi anser også celler regulerer genekspression niveauer i kræft tilstand kombinerer med genekspression variation oplysninger. Når

minR

≤1, er der 78,24% af delte HK gener i konstant status, er 65,10% af delte HK gener i moderat variabel status, og 80,16% af delte HK gener i variabel status akkumuleret. Og når

maxR

≤1, de tal er 70,17%, 62,30% og 73,53% i disse tre udtryk variation undertyper (figur 5B, C, D, tabel 5). Dataene viser, at de fleste delte HK gener op reguleres kombinere med genekspression variation status i kræft tilstand.

Up y-aksen angiver

maxR

med rækkevidde [0, 3], og ned y aksen betegner

minR

med rækkevidde [0, 3]. Til forstærkning af figuren, vi indstille forholdet værdi som 3,00 hvis et forhold værdi større end 2,50. Med hensyn til den indvendige indsats grafen, viser den blå kurve akkumulerede

maxR

; og den grønne kurve viser akkumuleret

minR

. Begge svarer til venstre y-akse tilkendegiver akkumuleret gen tæller. Højre y-aksen angiver individuel gen tæller (vist som Gene Count Ratio), hvilket svarer til en rød

maxR

fordelingskurve og en cyan

minR

fordelingskurve.

Be the first to comment

Leave a Reply