PLoS ONE: Opbygning af en statistisk model til at forudsige kræft Genes

Abstrakte

Mere end 400 kræft gener er blevet identificeret i det humane genom. Listen er endnu ikke afsluttet. Statistiske modeller forudsiger cancer gener kan hjælpe med identifikation af nye cancer gen kandidater. Vi brugte kendt prostatakræft (PCA) gener (identificeret gennem KnowledgeNet) som en uddannelse indstillet til at bygge en binær logistisk regressionsmodel identificere PCA gener. Intern og ekstern validering af modellen blev udført ved hjælp af en validering sæt (også fra KnowledgeNet), permutationer og eksterne data på gener med tilbagevendende prostata tumor mutationer. Vi evaluerede et sæt af 33-gen egenskaber som prædiktorer. Seksten af ​​de oprindelige 33 prædiktorer var betydelig i modellen. Vi fandt, at en typisk PCa genet er et prostata-specifikt transskriptionsfaktor, kinase eller phosphatase med høj inter varians af ekspressionsniveau i tilstødende normale prostatavæv og differentiel ekspression mellem normalt prostatavæv og primær tumor. PCA gener er tilbøjelige til at have en antiapoptotisk virkning og til at spille en rolle i celleproliferation, angiogenese, og celleadhæsion. Deres proteiner vil sandsynligvis blive ubiquitineret eller sumoylated men ikke acetyleret. er blevet foreslået en række hidtil ukendte PCA kandidater. Funktionelle anmærkninger af nye kandidater identificeret antiapoptosis, regulering af celledeling, positiv regulering af kinase aktivitet, positiv regulering af transferase aktivitet, angiogenese, positiv regulering af celledeling, og celleadhæsion som øverste funktioner. Vi giver en liste over top 200 forudsagte PCA-gener, der kan anvendes som kandidater til eksperimentel validering. Modellen kan ændres til at forudsige gener for andre kræft sites

Henvisning:. Gørløv IP, Logothetis CJ, Fang S, Gorlova OY, Amos C (2012) Opbygning af en statistisk model til at forudsige kræft Genes. PLoS ONE 7 (11): e49175. doi: 10,1371 /journal.pone.0049175

Redaktør: Ludmila Prokunina-Olsson, National Cancer Institute, National Institutes of Health, USA

Modtaget: August 3, 2012; Accepteret: 9 oktober 2012; Udgivet 15. november, 2012 |

Copyright: © 2012 Gørløv et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne undersøgelse blev støttet delvist af David H. Koch center for Applied Research af Genitourinary kræftformer, National Institutes of Health Prostata SPORE tilskud CA140388-01 og National Institutes of Health Cancer center Support Grant 5 P30 CA016672. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

En optælling af humane cancer gener udført af Futreal

et al.

[1] og opdateret af Santarious

et al

. [2] for at identificere 400 cancerrelaterede gener. Det er indlysende, at denne liste over kræftrelaterede gener ikke er gennemført: en PubMed søgning af litteraturen foretaget i juni 2011 at bruge udtrykket “nye kræft-gen” i titlen identificeret mere end 100 artikler publiceret i 2011 (data ikke vist).

Udvikling af en prædiktiv model for kræft gener kunne fremskynde deres identifikation. I denne undersøgelse har vi udviklet en statistisk model til forudsigelse af prostatacancer (PSA) gener. Vores undersøgelse var motiveret af følgende: i) er blevet identificeret en række PCa-relaterede gener med stærke eksperimentelle beviser, ii) mange gener i det humane genom er flittigt kommenteret, og iii) genom-dækkende profilering af gen-ekspression data tilgængelige [3], [4]. I denne undersøgelse identificerede vi træk, der er karakteristiske for kendte PCA gener og brugte dem til at forudsige nye PCA-gener.

Materialer og metoder

Kendte PCA Gener

Vi brugte den KnowledgeNet (KN, en litteratur-mining algoritme) tilgang til at identificere PCA gener [5]. De KN algoritme søger efter en sammenhæng mellem genet og både primære og sekundære (

dvs..,

Relaterede) vilkår. Som et resultat, hvert gen modtager en tillid score (CS): jo højere CS, jo stærkere associering af genet med en specificeret fænotype; i vores tilfælde, PSA. Vi identificerede i alt 707 gener med CSS spænder fra 2,663 til 0,001 (tabel S1) og bruges de 100 gener som “kendte PCA-gener.” De andre 607 gener fra listen blev betragtet “formodede PCA gener.” De resterende 14,641 gener med en CS. 0,001 blev betragtet “. non-PCA-gener” Vi udelukkede de 607 formodede PCA gener for at skabe en veldefineret binære resultat for vores analyse

Fordi vores indledende søgeord for at identificere PCA gener var ” prostatakræft, “algoritmen søger de gener associeret med nogen aspekter af prostata carcinogenese, herunder initiering, progression, tilbagefald og overlevelse. Med andre ord, anvendte vi en bred definition af PCA-gener. Selvfølgelig kan en søgning være mere specifik,

f.eks

. “Prostatakræft tilbagefald”, og dette forventes at producere et træningssæt, som vil være forskellig fra den liste, vi brugte.

model og variabler

En binær logistisk regression (BLR) model blev brugt til at skelne mellem “kendte PSA” og “ikke-PSA” gener. Hvert gen blev beskrevet af 33 variable (tabel 1). Variablerne blev udvalgt på grundlag af forskningsresultater offentliggjort af os og andre, at de enkelte variable er forbundet med PCa [6] – [11]. En detaljeret beskrivelse af de variable, kan findes i Information S1. Vi underinddeles variablerne i to kategorier: prostata-væv specifikke og uspecifikke. Vævsspecifikke variabler inkluderet genekspression data i normale og tumor-prostatavæv. Ikke-væv-specifikke variabler var dem, der kan anvendes på enhver form for væv,

f.eks

“vækstfaktor”, “phosphorylerede” variable.

Fordi vores regressionsmodel var naturligt ubalanceret, med alt for mange “ikke-PSA” gener og for få PCA gener, vi ikke kunne bruge en 0,5 tærskel at afgøre, om genet var en PCa eller “ikke-PSA” gen. Tærsklen klassifikation (0,05) blev valgt for at sikre, at mindst 95% af ikke-PCA gener blev forudsagt korrekt, og fordi den afspejler andelen af ​​gener, der blev identificeret som prostatacancer (707) relateret til det samlede antal gener undersøgt i uddannelse fase (14.641). Denne relativt høje korrekt klassificering af “ikke-PSA” gener blev udvalgt til at reducere risikoen for eksperimentel opfølgning af falske positiver, hvilket kan være dyrt.

I alt brugte vi 15,348 gener. Genekspression data var en begrænsende faktor for optagelsen af ​​hvert gen i analysen. Vi brugte den offentligt tilgængelige datasæt GSE6919 [12], [13] og GSE21034 [13] fra Gene Expression Omnibus (GEO) [3], [4] og brugte Amigo

2 [14] for at identificere de gener, der er forbundet med specifik biologisk funktion, cellulære lokalisering, og posttranslationelle modifikationer. Antallet af humane ortologer rapporteret i HomoloGene databasen (https://www.ncbi.nlm.nih.gov/HomoloGene) blev anvendt som den evolutionære konservering indeks [15], [16].

Validering af model

for at validere modellen, vi underklassificeres først tilfældigt de 200 gener med den højeste CS i discovery og validering sæt. Næste vi byggede BLR modellen ved hjælp af kun opdagelsen sæt og brugte det til at forudsige PCA gener i valideringen sæt. For yderligere intern validering, vi byggede BLR modellen ved hjælp af de top 100 gener, eksklusive de formodede PCA generne, og derefter anvendt modellen til at beregne sandsynligheden for at de formodede PCA generne. Vi forventede, at sandsynligheden for at blive klassificeret som en PCa gen ville være højere for de formodede gener, end det ville være for de ikke-PCA gener. Endvidere udførte vi permutation test ved tilfældigt tildele PCa gen status. Vi byggede en BLR model for disse “mock” PSA gener ved at bruge det samme sæt af variabler vi brugte til de “rigtige” PCA gener (

dvs.

., Der er identificeret med KN). Vi udførte denne procedure 100 gange og anslået procentdel af korrekt forudsagt PCA gener.

Til ekstern validering vi kontrolleres for at se, om den model-afledte sandsynlighed for et gens væsen PCa relaterede var højere for gener for hvilke tilbagevendende somatiske mutationer i prostata tumorprøver er rapporteret i Katalog over somatiske mutationer i Cancer (COSMIC) database [17], [18]. Vi brugte også generne identificeret som havende tilbagevendende somatiske mutationer i de nyligt offentliggjorte undersøgelsens resultater af hel-exome sekventering af prostata tumor prøver [19]. Bemærk dog, at vi ikke bruger somatiske mutation data til at bygge vores model.

Er Forudsigelse Model Prostata Specifikt?

For at besvare dette spørgsmål, vi identificeret top 100 bryst og top 100 lungekræft gener (tabel S2) ved hjælp af den samme KN algoritme vi bruges til at identificere PCA gener. Så sammenlignet vi de procentsatser for korrekt forudsagte bryst og lungekræft gener med den procentdel af korrekt forudsagt PCA gener.

Vi byggede BLR modeller på basis af kun specifikke ( “specifik model”), og ikke-specifik ( “uspecifik model “) prædiktorer. Så skønnede vi de procentsatser for korrekt forudsagte ikke-PCA og PCA gener for hver model. Statistisk analyse blev udført ved hjælp af SPSS-version 15.0.

Resultater

Forventet PCA Gener

Blandt de 33 variable, 22 var signifikant i univariable analyse (tabel S3), mens der i den multivariable trinvis frem (likelihood ratio) BLR model, 16 variable var signifikante (tabel 2). Modellen forudsagde korrekt 96% af de ikke-PCA gener og 55% af PCA gener og var mere præcis end den model bygget på de data, der omfattede de formodede PCA gener som ikke-PCA gener, hvor 96% af ikke-PCa gener og 46% af PCA gener blev forudsagt korrekt.

tabel S4 viser top 200 forudsagt PCA gener og angiver, om de var kendt, formodede, eller nye forudsagt gener. Ranking generne efter den model-afledte sandsynligheder omformet den oprindelige CS-baserede liste:

AR

(androgen receptor) blev rangeret syvende, ikke først, da den oprindelige liste, og

KLK3

(prostata-specifikt antigen [PSA]) var fjerde, selv om det var anden på den oprindelige liste. Samlet set sammenhængen mellem CS og modellen-afledte sandsynlighed for at blive PCa relaterede var 0,32, df = 200;

s

= 2 × 10

-6. Tabel S5 viser enkelte variabler, der bidrager til sandsynligheden for, at genet er associeret med PSA.

Formodede PCA Gener har en højere sandsynlighed for at blive klassificeret som PCa Relaterede

Formodede PCA gener forventes at have en højere sandsynlighed for at blive PCa beslægtet end ikke-PCA gener har. Vi anvendte vores model baseret på data, uden de formodede gener til at estimere sandsynligheden for, at en formodet gen PCa beslægtet, sammenligne andelene af generne forudsiges at være PCa beslægtet mellem de kendte, formodede, og ikke-PCA-gener. Andelene af generne forventes at blive PCa relaterede var 0,052 ± 0,002 for de ikke-PCA gener, 0,224 ± 0,017 for de formodede PCA generne, og 0,547 ± 0,049 for de kendte PCA gener. Som nævnt tidligere, vi byggede også en model, der omfattede de formodede PCA gener som ikke-PCA gener. Samlet set forudsigelsen nøjagtighed var lavere med denne model, med proportionerne af generne forudsiges at være PCa associeret være 0,037 ± 0,002 for de ikke-PCA-gener, 0,217 ± 0,016 for de formodede PCA-generne, og 0,455 ± 0,049 for den kendte PCa gener.

er forudsigelse PCa Specific?

for at finde ud af, om vores prædiktiv model er PCa specifikke identificerede vi de 100 bryst og lungekræft gener ved hjælp af KN-tilgang (tabel S2 ). Samlet er andelen af ​​de korrekt forudsagte cancer-gener var højere for prostata (0,55 ± 0,03) end for bryst (0,37 ± 0,02) og lungekræft (0,31 ± 0,02). For modellen bygget på grundlag af uspecifikke prædiktorer kun, nøjagtighed var bedre for PCA gener (0,55 ± 0,02), end det var for brystet (0,24 ± 0,02) og lungekræft (0,21 ± 0,02) gener. Og for model baseret på specifikke prædiktorer, den forudsige effektiviteten også var højere for prostata (0,30 ± 0,02), end det var for brystkræft (0,08 ± 0,01) og lungekræft (0,08 ± 0,01) gener.

Discovery og Validation Sets

til intern validering, vi tildelt tilfældigt top 200 PCa-relaterede gener til opdagelse og validering indstiller så der var 100 gener i hver gruppe. Vi derefter byggede BLR model på grundlag af opdagelsen sæt og brugte det til at forudsige PCA gener fra valideringen sæt. Opdagelsen model forudsagde korrekt 95% af de ikke-PCA gener og 43 ± 5% i PSA gener; Det forudsagde lignende proportioner i valideringen sæt: 96% af de ikke-PCA gener og 38 ± 5% af PCA gener. Vi udførte denne procedure 100 gange.

Permutationer

Vi randomiseret PCa status til 100 gener fra de 15,348 gener i den oprindelige tabel og bygget en forudsigelse model for disse “mock” gener ved hjælp af den samme 33 variabler (tabel 1). Proceduren blev udført 100 gange. Der var i gennemsnit 0-2 signifikante variable i mock gen modellen, og disse variabler varierede fra model til model. I gennemsnit blev 0,7 ± 0,2% mock PCA gener forudsagt korrekt, hvilket er væsentligt (

s

10

-6) lavere end den procentdel af korrekt forudsagde “sande” PCA gener ( 55 ± 5%).

ekstern validering

til ekstern validering, brugte vi resultaterne af den nyligt offentliggjorte rapport om tilbagevendende somatiske mutationer i prostata tumorer [19]. Denne undersøgelse identificeret 20 gener-

BDH1, DKK1, DLK2, FSIP2, GLI1, IKZF4, KDM4B, MGAT4B, NMI, NRCAM, PCDH11X, PDZRN3, PLA2G16, RAB32, SDF4, SF3A1, TBX20, TFG, TP53,

og

ZNF473- Hoteller, som har tilbagevendende somatiske mutationer. Sytten af ​​disse gener (alle undtagen

BDH1, FSIP2

, og

PLAG16

) var på vores oprindelige liste over 15,348 gener. Vi fandt, at modellen-genererede sandsynligheden for at være en PCa gen var mere end ti gange større for de gener med tilbagevendende somatiske mutationer, end det var for alle de andre gener: 0,082 ± 0,041

vs

0,007 ± 0,001;. df = 15.348,

t

= 5,4,

s

10

-6 (figur 1). De andre væsentlige prædiktorer var transkriptionsfaktorer, CS anvendes til at rangordne PCA gener fra litteratur minedrift, celleproliferation, fosfataser, vækstfaktorer, og angiogenese. Vi opnåede tilsvarende resultater for de gener med de rapporterede PCA somatiske mutationer fra COSMIC database [18]. Modellen-afledte sandsynligheden for at være et PCA gen var den mest betydningsfulde prædiktor for gener med tilbagevendende somatiske mutationer i prostatatumorer. Andre væsentlige prædiktorer inkluderet CS, kinaser, antiapoptotisk, celleproliferation, acetyleret, plasmamembranen, og angiogenese.

Lodret linje repræsenterer en tærskel for statistisk signifikans.

Specifik vs. Uspecifikke Prædiktorer

Vi konstrueret en model baseret på kun specifikke (otte variable) og kun uspecifikke (25 variabler) prædiktorer. I uspecifikke model, 11 variable var signifikante (i faldende rækkefølge af statistisk signifikans): kinaser, fosfataser, ekstracellulære rum, transskription faktorer, antiapoptotiske, signal transduktion, vækstfaktorer, celleproliferation, sumoylated, celleadhæsion og angiogenese. Den uspecifikke model forudsagde korrekt 95% af ikke-PCa og 40% af PSA-gener; at baseret på specifikke variabler korrekt forudsagt 95,5% af ikke-PCa og 30,2% af PSA-gener. Der var fire signifikante prædiktorer i denne model (i faldende rækkefølge af statistisk signifikans):. Prostata-specifikt udtryk (berigelse score), varians i tilstødende væv, meta-analyse af genekspression, og tre-niveau metaanalyse

diskussion

Vi har identificeret en kombination af træk, der er karakteristisk for PCA-gener: en typisk PCa genet er et prostata-specifikt transskriptionsfaktor, kinase eller phosphatase med høj inter varians i det tilstødende normale prostatavæv og udtrykkes forskelligt (opreguleret eller nedreguleret) i normalt prostatavæv og primær tumor. PCA gener er tilbøjelige til at have en antiapoptotisk virkning og spille en rolle i celleproliferation, angiogenese, og celleadhæsion. Deres produkter vil sandsynligvis blive ubiquitineret eller sumoylated men ikke acetyleret. De vil sandsynligvis være involveret i signaltransduktion og bliver en bestanddel af ekstracellulære rum. Nogle af de identificerede karakteristika PCA gener (

f.eks

celledeling eller angiogenese) er indlysende, mens andre (

f.eks

., Vævsspecificitet, højere varians af genekspression i tilstødende normal prostata væv eller ubiquitinering) er ikke så synlige. Fordi flere forskellige faktorer er involveret i udpegningen af ​​en gen, der skal prostatacancer relateret, forskellige gener viser virkninger fra forskellige prædiktorer. De indikatorer er angivet i tabel S5.

Vores model giver også mulighed rangordning af de gener, der er i overensstemmelse med den model-genererede beviser, PCa relaterede og derfor forudsigende af nye PCA gener. En kort beskrivelse af top ti roman forudsagt PCA gener følger

UPK3A-

uroplakin 3A.; et medlem af uroplakin familie, en gruppe af transmembrane proteiner, der danner komplekser på den apikale overflade af blæren epitel. Mutationer i

UPK3A

er forbundet med nedsat adysplasia [20].

KITLG-

koder liganden af ​​tyrosin-kinase receptor. Genet antages at spille en rolle i celle migration [21].

NPY-

bredt udtrykt i centralnervesystemet og påvirker mange fysiologiske processer, herunder kortikal ophidselse, stressrespons, fødevarer indtag, døgnrytmen, og kardiovaskulær funktion.

GHR-

et medlem af type i cytokinreceptor familie.

SCGB1A-

medlem af den secretoglobin familie af små secernerede proteiner. Det kodede protein er blevet impliceret i en lang række funktioner, herunder anti-inflammation, inhibering af phospholipase A2, og binding af hydrofobe ligander.

NR3C1-

koder for glucocorticoidreceptoren, som kan fungere både en transkriptionsfaktor og en regulator af andre transkriptionsfaktorer.

JUP-

koder for et protein, som er et strukturelt element i submembranous platter desmosomer. Den danner komplekser med cadheriner.

NPM1-

koder et phosphoprotein, der bevæger sig mellem kernen og cytoplasmaet. Genet produkt menes at være involveret i flere processer, herunder regulering af ARF /p53 pathway.

CD177-

NB1, en glycosylphosphatidylinositolspecifikt phosphatidylinositol-linked

N

-glycosylated celle-overflade glycoprotein, blev først beskrevet i et tilfælde af neonatal alloimmun neutropeni [22].

FAM55D-

kromosom 11 åben læseramme 33. vides kun lidt om dette gen, men den er nedreguleret i prostata tumor.

Vi har udført funktionel annotation af nye PCA gener ved hjælp af alle 15,348 gener som baggrund for at tage højde for eventuel selektionsbias. For den funktionelle annotation, brugte vi Database til Annotation, Visualisering, og integreret Discovery (DAVID) [23]. De øverste biologiske funktioner i forbindelse med de nye PCA generne var antiapoptosis, regulering af celledeling, positiv regulering af kinase aktivitet, positiv regulering af transferase aktivitet, angiogenese, positiv regulering af celledeling, celleadhæsion, MAPKKK kaskade, knogleudvikling, og regulering af cellulær lokalisering. (Mere detaljerede oplysninger kan findes i den Støtte Information.) Der er en betydelig overlapning mellem beskrivelsen af ​​kendte og nye forudsagde PCA geners funktioner: antiapoptosis, regulering af celledeling, positiv regulering af kinase aktivitet, positiv regulering af transferase aktivitet, og MAPKKK kaskade er til stede på begge lister. Det eneste unikke funktion er forbundet med de forudsagte nye PCA gener var knogleudvikling i ti gener:

GHR, AMELX, TRAF6, FGF9, SMAD1, CTGF, IGF2, AMBN, FGF18

og

PTN

.

resultaterne af den interne validering viste, at PCa-beslægtede gener er ikke en tilfældig samling af gener, men snarere deler en kombination af flere træk. De viser også, at vi er usandsynligt at overfit modellen. Ekstern validering viste, at modellen-genererede sandsynligheden for at være en PCa gen er den mest betydningsfulde prædiktor for PCA kandidater identificeret gennem en analyse af tilbagevendende somatiske mutationer. På den anden side, kan tilstedeværelsen af ​​somatiske mutationer i tumorprøver være en af ​​de faktorer, der løfter CS og dermed bidrage til større chance for at blive klassificeret som en kendt PCa gen. Faktisk CS var den tredje mest betydningsfulde prædiktor af generne med tilbagevendende somatiske mutationer. Det var imidlertid lavere end den

t

statistik for modellen-genereret sandsynligheden for at være en PCa gen:. 5.5

vs

3.4. Andelen af ​​generne med COSMIC somatiske mutationer var højere blandt de formodede PCA gener: χ

2 = 22,8, df = 1,

s

0,0001. Andelen var borderline højere for de forudsagte nye PCA gener: χ

2 = 3,8, df = 1,

s

= 0,05. Vi fandt også, at den gennemsnitlige model-afledte sandsynlighed for de offentliggjorte 112 gener med en underskrift af positiv selektion [24] var højere end for en gennemsnitlig gen i det humane genom: Studerendes

t

test = 2,0, df = 30.495,

s

= 0,04. Overlappet er beskeden, men signifikant, især hvis vi tager i betragtning, at den offentliggjorte liste over kræft gener blev genereret for enhver form for kræft, mens der i vores undersøgelse, vi fokuserede på PCa kun.

Vi viste, at både specifikke og ikke-specifikke prædiktorer er vigtige: modeller baseret på kun specifik eller kun uspecifikke prædiktorer er mindre effektive end modellen bygget på kombination af de træk. Den specifikke indikator-baserede model er mere prostata specifikt end det er model baseret på uspecifikke prædiktorer.

Det er klart struktur forudsige modellen er meget afhængig af træningssættet. Vi anvendte en bred definition af PSA med følgende sekundære udtryk: prostatacancerceller, prostatacancer risiko, Gleason, androgen-uafhængige, prostatiske neoplasmer, Gleason score, prostatektomi, metastatisk prostata, human prostatacancer, radikal prostatektomi, androgen-uafhængig prostatacancer, fremskreden prostatacancer, prostata-specifikt antigen, primær prostata, godartet prostata, prostatatumorer, prostata-specifikt, prostata carcinogenese, og godartet prostatahypertrofi. Selv i sin nuværende form model er designet til at forudsige bredt defineret PCA gener, kan den justeres til at være mere specifik; for eksempel til at forudsige PCa-progression gener. Det afgørende element her er at definere en pålidelig træningssæt til PCA gener forbundet med cancer progression.

BLR model er en af ​​mange algoritmer tilgængelige klassificering. For at se, om andre klassifikationssystemer metoder kunne producere lignende resultater, vi analyserede også vores data ved hjælp af lineær diskriminant analyse (LDA) og support vektormaskine (SVM). Vi fandt, at LDA og BLR har temmelig lignende klassificering effektiviteter: 51% og 55% korrekt klassificeret PCA gener med 95% og 96% af de korrekt klassificeret ikke-PCA gener, med stort set de samme sæt af væsentlige prædiktorer i modellen. Validering var også lidt bedre for BLR model, med 18% af formodede PCA gener forudsagt at være PCA gener sammenlignet med 22% for LDA model. Sammenlignet med den BLR, SVM var mere effektiv i opdagelsen sæt, at forudsige 84% af de kendte PCA-generne og 95% af de ikke-PCA-gener; men i valideringen den korrekt forudsagt kun 34% af PSA-gener, mens BLR modellen korrekt forudsagde 46% af PCA gener i opdagelsen og 44% i validering sæt. På grund af, at bedre validering effektivitet, vi fokuserede på BLR model.

Det næste logiske skridt ville være eksperimentel validering af de nye PCA kandidater identificeret af modellen. Vi mener, at en af ​​de bedste måder at gøre det ville være med en høj-throughput screening platform. For eksempel kan man anvende high-throughput RNAi screening af PCA cellelinier. Efter silencing af et kandidat-gen af ​​RNAi, kan man estimere effekten af ​​genet på celleproliferation, migration og apoptose. Gener med en stærk effekt på disse cancer-associerede fænotyper kan analyseres yderligere i humant væv for at bekræfte deres rolle i prostata tumorigenese.

Som konklusion, har vi udviklet et bioinformatik-baserede BLR model til forudsigelse af de gener, der er forbundet med PSA. Modellen giver ranking menneskelige gener efter deres sandsynlighed for at blive PCa tilknyttet. Vi identificerede en række nye PCA kandidater med høje sandsynligheder for at blive PCa relaterede, og de kandidater kan fortjene yderligere eksperimentel validering. Tilgangen vi bruges, kan også anvendes på andre typer af gener og andre former for cancer; Vi arbejder i øjeblikket på en model for forudsigelse af lungekræft gener.

Støtte oplysninger

tabel S1.

Den 707 gener med CS spænder fra 2,663 til 0,001; vi brugte de 100 af disse gener som

doi “kendte PCA-gener.”: 10,1371 /journal.pone.0049175.s001

(XLSX)

tabel S2.

De øverste 100 brystkræft og 100 lungekræft gener identificeret ved hjælp af KnowledgeNet tilgang

doi:. 10,1371 /journal.pone.0049175.s002

(DOCX)

tabel S3.

Univariable analyse identificeret 22 af de oprindelige 33 oprindelige variabler som signifikante prædiktorer for PCA gener

doi:. 10,1371 /journal.pone.0049175.s003

(DOCX)

Tabel S4.

Ranking af de 200 gener ved model-genereret sandsynlighed for at blive PCa relateret. P, formodet PCa genet; K, kendt PCa genet; NP, roman forudsagde PCa gen

doi:. 10,1371 /journal.pone.0049175.s004

(DOCX)

tabel S5.

Individuel bidrager variabler i romanen forudsagt PCA gener. Fremhævede variabler bidrager til en høj sandsynlighed for et gen, der skal PCa forbundet. For binære variabler, positive bidragydere har værdien 1; for kontinuerlige variabler, prædiktorer har en højere værdi end m + σ, hvor m er en middelværdi og σ er en standardafvigelse

doi:. 10,1371 /journal.pone.0049175.s005

(XLS)

Information S1.

beskrivelse af de variabler, der bruges til Byg Forudsigelse Model. Variabler er opført i den rækkefølge, de præsenteres i tabel 1.

doi: 10,1371 /journal.pone.0049175.s006

(DOCX)

Be the first to comment

Leave a Reply