PLoS ONE: S-Score: et pointsystem for identifikation og prioritering af forventet Cancer Genes

Abstrakt

En ny metode, som giver mulighed for identifikation og prioritering af forudsagte cancer gener for fremtidig analyse, præsenteres . Denne metode genererer et gen-specifik score kaldet “S-Score” ved at indarbejde data fra forskellige typer af analyser, herunder mutation screening, methylering status, kopi-nummer variation og udtryk profilering. Metoden blev anvendt på data fra The Cancer Genome Atlas og tillod identifikation af kendte og potentielt nye onkogener og tumor undertrykkere forbundet med forskellige kliniske funktioner, herunder korteste overlevelse i æggestokkene kræftpatienter og hormonelle undertyper i brystkræftpatienter. Desuden blev der for første gang blev udført et genom-dækkende søgning efter gener, der opfører sig som onkogener og tumor suppressorer i forskellige tumortyper. Vi forestiller os, at S-score kan bruges som en standard metode til identifikation og prioritering af kræft gener for opfølgende undersøgelser

Henvisning:. De Souza JES, Fonseca AF, Valieris R, Carraro DM, Wang JYJ, Kolodner RD, et al. (2014) S-Score: et pointsystem for identifikation og prioritering af Predicted Cancer gener. PLoS ONE 9 (4): e94147. doi: 10,1371 /journal.pone.0094147

Redaktør: Gil Ast, Tel Aviv University, Israel

Modtaget: November 12, 2013; Accepteret: 13 mar 2014; Udgivet: April 7, 2014

Copyright: © 2014 de Souza et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne undersøgelse blev støttet af CNPq tilskud 483.775 /2012-6 til SJS og National Institutes of Health give GM26017 til RDK. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

tilgængeligheden af ​​forskellige “omik” teknologier og den seneste udvikling af næste generations sekventering har bragt nye perspektiver til området for kræftforskningen [1]. Den Cancer Genome Atlas (TCGA) projektet, for eksempel, har skabt store datamængder ved at anvende de forskellige “omik” teknologier til at studere orgel-site specifikke cancer prøver [2] – [5]. De TCGA data omfatter somatiske mutationer, genekspression, methylering og kopi nummer variation, som sammen med klinisk information fra patienterne repræsenterer en vigtig ressource for udviklingen af ​​nye strategier for diagnostiske og terapeutiske indgreb samt give grundlæggende data for mere detaljerede undersøgelser af specifikke gener og pathways [2] -. [5]

Disse genom-dækkende data er blevet anvendt til at identificere gener, der er ændret ved cancer. Disse ændringer forekommer typisk i tumorsuppressorgener som p53 eller onkogener som KRAS. Ændringer i tumorsuppressorgener normalt føre til tab af funktion af de respektive proteiner, mens ændringer i onkogener føre til forøget eller ændret aktivitet enten på grund af højere ekspression eller aktiverende mutationer. Selv om der er gener, der ofte ændres i kræft, en slående eksempel er p53, en af ​​de vigtigste konklusioner fra de første undersøgelser store er, at tumorigen proces er drevet af ændringer i en række forskellige gener, både enkeltvis og i kombination, afhængigt af den enkelte kontekst af patienten, blandt andre faktorer [2] – [7]

Et vigtigt spørgsmål i analysen af ​​disse “omik” datasæt er, hvordan man måle effekten af ​​alle genetiske ændringer fundet. i en kohorte af prøver. Hvad der kræves for en sådan virkning undersøgelse er en genspecifik score, der er både kvalitative (der angiver, om et gen er en suppressor, et onkogen, enten eller begge) og kvantitative (hvilket angiver frekvensen af ​​ændringer for dette gen i et givet sæt tumorer). Tidligere forsøg på at generere scorer for cancer-gener har brugt en enkelt type data, enten mutation frekvens eller ekspressionsmønster [6], [8]. For nylig Volgestein et al. [1] foreslog en strategi, der tager hensyn til både typen af ​​somatiske mutationer (tilbagevendende missense for onkogener og inaktivere mutationer for tumorsuppressorer) og deres frekvens (de vedtog en 20% regel, dvs de typer af mutationer måtte vises i på mindst 20% af de analyserede prøver). Selv om denne strategi effektivt kan identificere de mest almindelige driver mutationer i tumorer, betyder det ikke udforske hele spektret af genetiske /epigenetiske ændringer, der genererer den karakteristiske genetiske heterogenitet i tumorer. En anden metode har involveret beregningen af ​​antallet af ikke-redundante prøver, hvor et givet gen eller en gruppe af gener ændres. Selv om denne strategi har været meget anvendt, som for eksempel i CBio Cancer Genome Portal [9], betyder det ikke diskriminere mellem onkogene og tumor undertrykke ombygninger og tillader ikke brugeren om at give forskellige vægte for den type genetisk ændring fundet.

Her foreslår vi S-score, der integrerer information om mutation status, ekspressionsmønster, methylering status og kopitallet for at frembringe en unik værdi direkte proportional med frekvensen, ved hvilken et givet gen er ændret i en cancertype. Den kritiske værdi ved denne metode er, at det letter identifikationen af ​​forudsagte cancer gener, rang ordrer dem til at prioritere dem til senere dybtgående analyse og viser hvilke funktioner (f.eks mutation, udtryk, methylering, kopiere nummer forandring og kombinationer heraf) bør undersøges nærmere. Som et bevis på princippet, blev her S-score metode anvendt på data fra Cancer Genome Atlas (TCGA) projekt for GBM, colorectal, æggestok og brysttumorer.

Materiale og metoder

Datakilde

Expression z-scores, methylering og transportcenter CNV (kopi nummer variation) data blev opnået fra cBIO portal ved at bruge CGDS-R-pakke, som giver et grundlæggende sæt af funktioner til at forespørge Cancer Genomisk data Server (CGDS) via R platform for statistisk computing (https://cran.r-project.org/web/packages/cgdsr/index.html). Somatisk mutation data blev opnået fra COSMIC database [10] og fra en lokal samling af alle somatiske mutationer fundet i litteraturen. Tærskler for alle typer af data er beskrevet nedenfor. Kliniske data for alle prøver blev opnået fra TCGA hjemmeside (https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp).

CNV forstærkning og sletning

formodede kopital opfordrer prøver blev bestemt under anvendelse transportcenter [9]. De offentliggjorte transportcenter tærskelværdier, der anvendes i den foreliggende undersøgelse var: homozygote deletion, = -2; sletning, -2 Til = -1; neutral -1 Til 1; gevinst, = 1 til 2; og forstærkning, = 2. Boxplots blev genereret ved hjælp ggplot2, et grafisk værktøj til R statistisk pakke.

Expression analyse

Expression data fra cBio portalen blev anvendt i analysen præsenteres her [9]. Ekspressionsniveauet givet er den relative ekspression af et givet gen i forhold til ekspressionen af ​​dette gen i en reference population (enten tilstødende normale prøver eller tumorer, der er diploid for dette gen). Op og ned-regulering blev udledt af Z-score på dette udtryk niveau, det vil sige antallet af standardafvigelser fra middelværdien for udtryk i henvisningen befolkning. Det samme udtryk data blev anvendt til beregning af S-score i figur 1 og også som et uafhængigt datasæt i figur 2.

Tværgående grå linjer angiver en Z-score tærskelværdi på 3. GBM, glioblastom; OV, kræft i æggestokkene; BRCA, brystkræft; og COADREAD, kolorektal cancer.

Hvert datapunkt svarer til en prøve. (A) Scatter plot, der viser ekspression (Y-akse) og status for methylering (X-akse) for TMEM101 i sættet af ovarietumorer fra TCGA. (B) Scatter plot viser udtryk (Y-aksen) og kopiere nummer status for FBXO25 for ovariecancer fra TCGA. Baseret på transportcenter værdier blev prøver opdelt i forskellige kategorier (x-akse). Se Metoder til transportcenter tærskler. (C) Scatter plot viser udtryk (Y-aksen) og kopiere nummer status for ACTR5 i tyktarmstumorer fra TCGA. Baseret på transportcenter værdier blev prøver opdelt i forskellige kategorier (X-aksen).

Somatiske mutationer

For at beregne S-score, vi kun betragtes nonsense mutationer (variable ns i ligninger vist i teksten) for det respektive gen i denne tumortype. Variablen blev stratificeret til to mulige situationer: hvor kun nonsense mutationer forekommer i tumor prøver fra TCGA blev overvejet, og hvor nonsense mutationer forekommer i samme tumortype (alle prøver til rådighed i COSMIC) blev overvejet. blev anvendt til data præsenteret i figur 3 og 4, mens blev anvendt til analysen i figur 1, figur 5 og tabel 1.

En Heatmap plot viser gener med S-score signifikant forskellig mellem kortsigtede og lang -term overlevelse hos patienter med tumorer i æggestokkene. Blå er tegn på negativ S-score, mens gul er tegn på positiv S-score.

S-score sammenligning for de 50 øverste onkogener og 50 top tumorsuppressorer mellem ER-PR- og ER + PR + brystkræft undertyper. Hver datapunkt er et gen. X og Y-aksen repræsenterer S-scorer for ER + PR + og ER-PR- undertyper, henholdsvis.

Genom-dækkende analyse af gener opfører som tumorsuppressor i én tumortype og onkogen i en anden tumortype. Sixty-syv gener med S-score -2,5 i én tumortype og S-score 2,5 i en anden tumortype blev udvalgt og et Heatmap viser deres S-score for alle tumortyper præsenteres. Blå repræsenterer negative S-scoringer, mens gul repræsenterer positiv S-score

Resultater og Diskussion

S-score er givet ved ligningen # 1:. (1) hvor, (2) og (3)

hvor,

= antal nonsense mutationer for det respektive gen.

= antal prøver, hvori respektive gen er methyleret .

= samlede antal prøver informative for methylering analyse.

= antal prøver, hvor det respektive gen slettes

= samlede antal prøver informative for CNV analyse.

= antal prøver i hvilken den respektive genet amplificeres.

= antal prøver, hvori respektive gen er overudtrykt.

= samlede antal prøver informativ for genekspression analyse.

= antal prøver, hvor det respektive gen er under-udtryk.

= indeks for forstærkning.

= indeks for overekspression.

= indeks for nonsense mutationer.

= indeks for methylering.

= indeks for sletninger.

= indeks for under-udtryk.

hvis 1 og 1, så (4)

hvis 1 og 1, så (5)

I tilfælde og er begge mindre end 1 , derefter . I denne rapport, log er en repræsentation af log

2.

anvendelse af log ligning # 1 gør det muligt for S-score til at variere fra negative (tegn på tumor undertrykke eller reduceret gen aktivitet) til positiv (indikativ for onkogen eller øget gen aktivitet) værdier. S-score som et forhold mellem (ligning # 2) og (ligning # 3) sigter også at give mere værdi til de gener, der udgør en eksklusiv mønster af enten tumor undertrykke eller onkogen aktivitet i en respektiv tumortype. Et andet vigtigt spørgsmål at understrege er, at hver type data, CNV, mutation, udtryk og methylering, behandles selvstændigt og har en proportional vægt givet af den numeriske indeks tilknyttet hver datatype.

S-score metode blev testet ved hjælp af data fra TCGA projekt for fire typer af tumorer: glioblastom (GBM), kolorektal tumor, bryst tumor og æggestok tumor. En kritisk parameter i beregningen af ​​den S-score er den numeriske indeks anvendes for hver type data. For at finde de bedste indeksværdier for parametrene i ligningerne # 2 og # 3 blev to værdier for hver indeks testet. I alle scenarier, blev mere vægt givet til sense-mutationer på grund af det faktum, at denne type ændring fører som regel til et signifikant fald i funktionen af ​​det respektive protein. Endvidere i alle scenarier methylering ikke blev brugt på grund af kvalitetskontrol spørgsmål.

En liste over 138 cancer gener identificeret af Volgestein et al [1] blev anvendt som benchmark for at vurdere, hvilke sæt af indekser ville vælge mere kendt onkogener og tumor undertrykkere. Selv om denne liste er udarbejdet ved hjælp af data fra flere tumortyper og her har vi kun analyseret fire tumortyper, mener vi vores analyse er omfattende nok til sådan test. For hver tumortype analyseret her antallet af gener med S-score -2 eller 2 blev beregnet for hvert scenario (tabel S1). For at teste for en mulig berigelse, blev en Monte Carlo simulation udføres, når tilfældige sæt af 138 gener (ud af alle kendte humane gener med en S-score for den respektive tumor) blev udvalgt og antallet af ekstreme S-score beregnes. Blandt alle testede scenarier, den ene med en højere værdi for sense-mutationer (= 5), og en værdi på 0,5 for alle andre indekser fremmet den væsentligste berigning af kendte cancer-gener for alle tumortyper (tabel S1). Endvidere at undgå enhver skævhed som følge af en vilkårlig tærskelværdi (S-score -2 eller +2), anvendte vi en ny tærskel for hver tumortype defineret som S-score med en Z-score på 2 (gennemsnit af alle S-scores plus eller minus to standardafvigelser) (tabel S2). Det samme sæt af indekser, som med den foregående analyse viste højere berigelse af kendte cancer-gener. Dette sæt af indekser (= 5; = 0,5; = 0,5; = 0,5 og = 0,5). Blev derefter anvendt til alle andre undersøgelser

For at få mere information om den prædiktive kapacitet S-score metode, en forskellige benchmark strategi blev udført for at definere “positiv prædiktiv værdi” og “negativ prædiktiv værdi” for hver tumortype. Tusind tilfældige sæt af 50 gener blev udvalgt fra listen over 138 gener fra Volgestein et al. [1] og blev anvendt til at beregne det gennemsnitlige antal sande positive og falske negative. På en tilsvarende måde blev et tusind tilfældige sæt af 50 gener valgt blandt alle humane gener (minus 138 cancer-gener) blev udvalgt og anvendt til at beregne det gennemsnitlige antal sande negative og falske positive for hver tumortype. Disse værdier er vist i tabel S3 Det er værd at nævne, imidlertid, at listen over cancer gener fra Volgestein et al. [1] er ikke den gyldne standard for denne type analyse, da det indeholder flere gener, der enten onkogener eller undertrykkere i tumortyper forskellige end de analyserede her dem. Disse funktioner sandsynligvis undervurdere den prædiktive kapacitet S-score-metoden.

Disse tidligere analyser viser, at S-score metode er i stand til at identificere

bona fide

onkogener og tumor undertrykkere. Data, der er vist i tabel 1, bekræfter, at udarbejdelsen af ​​kræft gener fra Volgestein et al. [1] er forudindtaget mod ekstreme S-score ( 2 eller -2). Når der anvendes en normaliseret tærskel (S-scores der repræsenterer den gennemsnitlige S-score plus eller minus to standardafvigelser) observeres det samme mønster (tabel S4).

Figur 1 plots fordelingen af ​​S-scores for alle humane gener i hver tumortype. De menneskelige gener med S-score, der var positive eller negative ekstremer (Z score 3) i mindst en tumortype er anført i tabel S5. Som en bekræftelse af denne metode, tidligere kendte tumor undertrykkere og onkogener viser ekstreme S-score værdier for disse typer af tumorer. I GBM for eksempel genet med den højeste S-score er EGFR. Andre gener med høj-positive S-score indbefatter dem, der er kortlagt til det samme locus som EGFR (ligesom SEC61G, LANCL2 og ECOP) og er derfor amplificeres sammen med EGFR. Mens disse gener ikke nødvendigvis kausalt involveret i tumorigen proces, de repræsenterer bona fide genetiske ændringer i tumoren type, der kan give nye terapeutiske og diagnostiske muligheder, som rapporteret til personbiler gener slettet i tumorer [11], og som sådan skal rapporteres . Effektiviteten af ​​vores metode er også illustreret ved den anden ende af S-score distribution. Blandt de gener med de mest negative S-scores er velkendte tumorsuppressorgener ligesom CDKN2A (den mest negative S score for GBM), PTEN, NF1 og RB1. S-score for alle menneskelige gener i de fire tumortyper findes i tabel S6.

Et nytte af S-Score system er, at det giver mulighed for nem identifikation af gener af interesse for yderligere analyse. For eksempel overveje generne FBXO25 (S-Score = -3,18 i ovariecancer), TMEM101 (S-Score = -1,6 i ovariecancer) og ACTR5 (S-Score = 3,69 i tyktarmskræft), der klassificeres som vores analyse som suppressor, formodet undertrykker og onkogen hhv. Evaluering af afbildninger af ekspression vs. kopiantal eller methylering for disse gener, som er relevant (figur 2) identificerer let disse gener som havende en identificerbar del af TCGA tilfælde forbundet med reduceret kopital og reduceret ekspression (kandidat-gen), reduceret ekspression og forøget methylering (kandidat tavshed suppressor gen) og øget kopital og forøget ekspression (kandidat onkogen) hhv. For at illustrere anvendeligheden af ​​sådanne strategi grunde til kendte onkogener og undertrykkere er tilvejebragt som figur S1-S3. Denne type af mere detaljeret klassifikation vil derefter lette opfølgende undersøgelser ved at give en prioritering af de gener, der er baseret på score, til yderligere analyse. Ingen af ​​de tre gener ovenstående tidligere er blevet identificeret som været involveret i udviklingen af ​​de respektive tumortyper.

S-score giver også mulighed for en direkte sammenligning mellem prøver, der er klassificeret forskelligt efter en biologisk og /eller kliniske parameter. For at illustrere denne ansøgning blev prøverne i high-grade serøse ovariecancer data TCGA opdelt i kvartiler efter samlede overlevelse. Vi derefter beregnet S-score for alle menneskelige gener ved hjælp af prøver, der tilhører den første (korteste overlevelse) og sidste (længste overlevelse) kvartil af overlevelse distribution. En sammenligning af S-scores beregnet ud fra de to grupper tilladt os at identificere formodede onkogener (med positive S-score) og formodet tumor suppressor gener (med negative S-score) i forbindelse med enten den korteste eller den længste overlevelse (figur 3). Flere af generne identificeret, er kendte markører for overlevelse. For eksempel har cdc42 inhibering blevet forbundet med længere overlevelse i mus med prostatacancer-xenotransplantater [12]. Et andet eksempel er canx hvis nedregulering er blevet forbundet med længere overlevelse i GBM patienter [13]. Endvidere har genetiske varianter af RGS12 blevet forbundet med overlevelse i sen ikke-småcellet lungekræft [14]. En anden interessant gen er TJP2 hvis overekspression er blevet forbundet med langvarig overlevelse i GBM [15], efter aftale med det mønster, der er vist i figur 3.

Blandt de identificerede gener af denne scoringssystem at være forbundet med overlevelse, det mest interessante, er dem med modsatte klassifikationer (positive og negative scores) i den korteste eller den længste overlevelse kvartiler. Vi fandt, at glucoronidase B (GUSB) havde en positiv score (3,04, indikerer onkogen) for den korteste overlevelse gruppe og en negativ score (-1,40, tegn på tumor suppressor) for den længste overlevelse gruppen. Glucuronidaser er kendt for at være involveret i spredning af tumorceller fra det primære sted [16] og GUSB er for nylig blevet medtaget i en signatur for at forudsige lymfeknude metastaser i livmoderhalskræft [17]. S-score metode bekræfter ideen om, at GUSB har en onkogen funktion i de mere aggressive tumorer (korteste overlevelse). dens negative S-score i de mindre aggressive tumorer indikerer imidlertid, at tabet af GUSB også kunne drive ovariecancer udvikling med de resulterende tumorer er mindre aggressiv. Et interessant fund i vores analyse er sammenslutningen af ​​RAD23B og XPC, både med negative S-scores, med kortsigtet overlevelse (figur 3). Proteiner kodet af disse gener danner et kompleks involveret i DNA-beskadiget reparation. En række andre gener med modsatte S-scorer i den korteste og den længste overlevelse grupper er præsenteret i figur 3. Disse gener kan repræsentere potentielle prognostiske biomarkører samt mål for udviklingen af ​​nye terapier.

For yderligere at udforske potentialet for S-score-system til at identificere gener relateret til forskellige kliniske parametre blev brystcancerpatienter fra TCGA kohorten opdelt efter to hormonale undertyper: ER + PR + og ER-PR- (ER: østrogen receptor; PR: progesteronreceptor ). Data fra patienter i hver undertype blev derefter anvendt til at beregne S-score for alle menneskelige gener. Mens onkogener i de to undertyper er dybest set den samme, er en meget større uoverensstemmelse observeret for tumorsuppressorgener. Dette er vist i scatter plot i figur 4, som indeholder de 50 formodede onkogener og 50 formodede undertrykkere (klassificeret i henhold til ER + PR + undertype). Mens alle onkogener i ER + PR + undertype (S-score omkring 4) også er klassificeret som onkogener i ER-PR- undertype (S-score spænder fra 1,42 til 5,50), de tumor undertrykkere i ER + PR + (S -Score omkring -4) har en anden klassifikation i eR-PR- undertype (S-score spænder fra -4,85 til 2,69). Faktisk blev en stor del af de undertrykkere i ER + PR + subtype klassificeret som onkogener i den anden subtype (figur 4). Disse resultater antyder, at forskellene i biologiske og kliniske træk mellem disse to brystkræft undertyper kan skyldes forskelle i deres tumorsuppressorer gener. Disse gen-signaturer udgør en mulighed for udvikling af mål for nye diagnostiske, prognostiske og terapeutiske metoder.

S-score metode blev også brugt i et genom-dækkende søgen efter gener, der kan opføre sig som suppressor i én tumor skrive og onkogener i en anden tumortype. I de sidste par år har vist nogle gener til at præsentere en sådan mønster. NOTCH1, for eksempel, er en kendt onkogen for T-celle akut lymfoblastisk leukæmi [18] – [19], men også præsenterer tumor undertrykkende aktivitet i hudtumorer [20] og leverkarcinom [21]. Ved hjælp af et sæt strenge kriterier (S-score 2,5 i én tumortype og S-score -2,5 i en anden tumor type), fandt vi 65 gener, der viste onkogene og tumor undertrykkende aktiviteter i forskellige tumor typer (blandt de fire typer analyseret her). Vores analyse identificerede LMO7 som et gen, opfører sig som tumorsuppressor og onkogen. Dette gen er blevet rapporteret at blive nedreguleret i lungecancer [22] og mus, som mangler dette gen har en øget modtagelighed over for spontan lungecancer [23]. På den anden side, at genet synes at være et onkogen i både bryst- [24] og leverkræft [25]. En anden interessant kandidat er USP12, et gen kodende for en deubiquitinase. For nylig, USP12 har vist sig at være en positiv regulator af androgenreceptor handler i en pro-proliferativ måde prostatacancer [26]. USP12 kan også fungere som en tumorsuppressor ved negativt at regulere AKT aktivering og dermed fremme apoptose [27]. Yderligere analyser er nødvendige for fuldt ud at udforske alle gener, der er vist i figur 5. Det er vigtigt at understrege, at NOTCH1 har ikke optrådt i vores liste på grund af det faktum, at vi ikke har brugt leukæmi data i vores studier.

A ulempe ved S-score-metoden, hvilket er en begrænsning i ethvert forsøg på at etablere denne type pointsystem, er manglen på et indeks for aktiverende mutationer forekommer i onkogener. For eksempel er aktiverende mutationer i KRAS kendt for at være en afgørende faktor for mange tumortyper [28]. Selv om S-score for KRAS var positiv for tre ud af fire tumorer analyseret her, vores metode var ikke i stand til fuldt ud at måle effekten af ​​disse typer af aktiverende mutationer i onkogener. En mulighed ville være brugen af ​​missense mutationer, som hævdet af Volgestein et al. [1]. Et problem med missense-mutationer, er imidlertid, hvordan at evaluere deres virkning på proteinniveauet, uanset om de aktivere, inaktivere eller neutral. Selv om der er beregningsværktøjer havde til formål at udlede effekten af ​​en missense mutation på proteinniveauet, mener vi stadig, at deres præstationer generelt er dårlig [29]. Men som vi forbedre vores forståelse af karakteren af ​​missense mutationer, disse typer af genetiske ændringer kan indarbejdes i beregningen af ​​S score.

For at gøre S-score systemet mere nyttig for samfundet, en webportal gives på https://www.bioinformatics-brazil.org/S-score med genom-dækkende scores tilgængelige til download, samt et søgesystem for tilpassede forespørgsler. Brugerne kan desuden ændre værdierne for alle de parametre i ligningerne # 2 og # 3 og generere S-score for alle kendte humane gener. En liste over alle TCGA prøver fra hver tumor type, der anvendes i denne undersøgelse er tilvejebragt som tabel S7.

Støtte Information

Figur S1.

Expression X methylering plot for den kendte tumor suppressor MGMT. Hvert datapunkt repræsenterer en GBM prøve. Dataene viser undertrykkelse af MGMT i flere GBM prøver

doi:. 10,1371 /journal.pone.0094147.s001

(TIF)

Figur S2.

Expression X kopi nummer variation plot for den kendte tumor suppressor CDKN2A. Hvert datapunkt repræsenterer en GBM prøve. Kategorier af kopi nummer variation blev defineret af transportcenter klassificering. Homdel = homozygot sletning; Hetloss = tab af heterozygosis

doi:. 10,1371 /journal.pone.0094147.s002

(TIF)

Figur S3.

Expression X kopi nummer variation plot for den kendte onkogen ERBB2. Hvert datapunkt repræsenterer en brysttumor prøve. Kategorier af kopi nummer variation blev defineret af transportcenter klassificering. Hetloss = tab af heterozygosis; . Amp = forstærkning

doi: 10,1371 /journal.pone.0094147.s003

(TIF)

tabel S1.

Udvælgelse af indekser for parametre i S-score ligninger. Hver række repræsenterer et scenario med værdier for indekser. Tallet i parentes svarer til antallet af gener over tærskelværdien (S-score +2 eller S-score -2) i den virkelige sæt af 138 gener fra Volgestein et al. [1]. Tal i hver celle svarer til antallet af simulerede sæt, hvor antallet af gener med S-score over tærsklen er tilsvarende eller højere det tilsvarende nummer i den virkelige sæt (antal i parentes)

doi:. 10,1371 /tidsskrift. pone.0094147.s004 Hotel (DOCX)

tabel S2.

Udvælgelse af indekser for parametre i S-score ligninger. Hver række repræsenterer et scenario med værdier for indekser. Antal i parentes svarer til antallet af gener over tærsklen (S-score værdier svarende til den gennemsnitlige plus eller minus to standardafvigelser) i den virkelige sæt af 138 gener fra Volgestein et al. [1]. Tal i hver celle svarer til antallet af simulerede sæt, hvor antallet af gener med S-score over tærsklen er tilsvarende eller højere det tilsvarende nummer i den virkelige sæt (antal i parentes)

doi:. 10,1371 /tidsskrift. pone.0094147.s005 Hotel (DOCX)

tabel S3.

Tusind tilfældige sæt af 50 gener blev udvalgt fra listen over 138 gener fra Volgestein et al. [1] og blev anvendt til at beregne det gennemsnitlige antal sande positive og falske negative. Positive Predictive Value (PPV) blev beregnet ved følgende ligning: sand positiv /sand positiv + falsk positiv. På en tilsvarende måde blev et tusind tilfældige sæt af 50 gener valgt blandt alle humane gener (minus 138 cancer-gener) og anvendt til at beregne det gennemsnitlige antal sande negative og falske positive for hver tumortype. Negativ prædiktiv værdi blev beregnet ved følgende ligning: true negativ /sand negativ + falsk negativ

doi:. 10,1371 /journal.pone.0094147.s006

(DOCX)

Tabel S4.

Kendte cancer gener har ekstreme S-scoringer. Antal gener (Fast Set) med S-score større end gennemsnittet plus to standardafvigelser (Z score = 2) eller mindre end den gennemsnitlige minus to standardafvigelser (Z-score = -2) i 138 kræft gen liste fra Volgestein et al. [1]. Tal i “10.000 Simulerede Sets” række svarer til gennemsnitligt antal gener med S-score over eller under tærskelværdien i 10.000 sæt indeholder 138 gener tilfældigt udvalgte. Parentes er tidsintervallet svarende til gennemsnittet +/- 2 × standardafvigelse. P-værdi af forskellen mellem reel og simuleret sæt er vist i den sidste række

doi:. 10,1371 /journal.pone.0094147.s007

(DOCX)

tabel S5.

Sammenhæng mellem Z-score og S-score for BRCA tumor. Hvert regneark lister alle menneskelige gener med S-score, der var positive eller negative ekstremer (Z-score 3)

doi:. 10,1371 /journal.pone.0094147.s008

(XLSX)

tabel S6 .

S-score for alle menneskelige gener. For hver af de fire tumortyper analyseret her, er alle humane gener alfabetisk opført med deres tilsvarende S-scores

doi:. 10,1371 /journal.pone.0094147.s009

(XLSX)

tabel S7.

Identifikation af alle TCGA prøver anvendt i denne undersøgelse. Identifikationsnummer for alle TCGA prøver anvendt i denne undersøgelse

doi:. 10,1371 /journal.pone.0094147.s010

(XLS)

Tak

Forfatterne er gældsætte til Raimundo Furtado Neto for at hjælpe i optimering af S-score algoritme.

Be the first to comment

Leave a Reply