PLoS ONE: Robust Valg af Cancer Survival Underskrifter fra High-Throughput Genomisk data Brug To Fold Subsampling

Abstrakt

Identifikation relevante underskrifter til klinisk patient resultat er en grundlæggende opgave i high-throughput undersøgelser. Underskrifter, der består af funktioner såsom mRNA, miRNA, SNPs eller andre molekylære variabler, er ofte ikke-overlappende, selvom de er blevet identificeret fra lignende forsøg overvejer prøver med samme type sygdom. Manglen på enighed er for det meste på grund af det faktum, at stikprøvestørrelser er langt mindre end antallet af kandidat funktioner, der skal overvejes, og derfor udvælgelse signatur lider stor variation. Vi foreslår et robust signatur udvælgelsesmetode, der øger udvælgelsen stabilitet straffet regression algoritmer til at forudsige overlevelse risiko. Vores metode er baseret på en sammenlægning af flere, eventuelt ustabile, signaturer opnået med den forbehandlede lasso algoritme anvendes på tilfældige (interne) delprøver af en given kohortedata, hvor det aggregerede signatur er indskrumpet ved en simpel tærskling strategi. Den resulterende metode, RS-PL, er konceptuelt enkel og let at anvende, bygger på parametre automatisk tunet af cross validering. Robust signatur udvælgelse hjælp RS-PL opererer inden for en (ekstern) subsampling rammer at estimere udvælgelsessandsynligheder af funktioner i flere forsøg med RS-PL. Disse sandsynligheder anvendes til at identificere pålidelige funktioner, der skal indgå i en signatur. Vores metode blev evalueret på microarray datasæt fra neuroblastom, lunge adenocarcinom og brystcancerpatienter, udvinder robuste og relevante signaturer til at forudsige overlevelse risiko. Underskrifter opnået ved vores metode opnåede høj forudsigelse ydeevne og robusthed, konsekvent over de tre datasæt. Gener med høj udvalg sandsynlighed i vores robuste underskrifter er blevet rapporteret som kræft-relevant. Rækkefølgen af ​​prædiktor koefficienter forbundet med underskrifter blev velbevaret tværs af flere forsøg med RS-PL, hvilket viser evnen til vores metode til identifikation af en overførbar konsensus signatur. Softwaren er tilgængelig som en R-pakke rsig på CRAN (https://cran.r-project.org)

Henvisning:. Lee S, Rahnenführer J, Lang M, De Preter K, Mestdagh P, Koster J et al. (2014) Robust Valg af Cancer Survival Underskrifter fra High-Throughput Genomisk data Brug To Fold Undersampling. PLoS ONE 9 (10): e108818. doi: 10,1371 /journal.pone.0108818

Redaktør: Ioannis P. Androulakis, Rutgers University, USA

Modtaget: December 13, 2013; Accepteret: September 5, 2014; Udgivet: 8 oktober 2014

Copyright: © 2014 Lee et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Forfatterne anerkender støtten fra Deutsche Forschungs-Gemeinschaft (DFG) inden for Collaborative Research center SFB 876 (https://sfb876.tu-dortmund.de) “give oplysninger af Resource-Constrained Analysis”, projekter A3 og C1. L. Varesio blev støttet af tilskud fra den italienske sammenslutning for Cancer Research, den ENCCA netværk, det italienske sundhedsministerium. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Identifikation af relevante træk fra store datasæt har været et fokus for mange forskningsområder i lang tid. Med udbruddet af højt gennemløb genomisk profilering teknologier, er robusthed bliver opfattet som en vigtig faktor i træk udvalg [1], [2]. Generelt, en funktion er robust, hvis den er valgt af en metode uvægerligt af kohorte sammensætning, forudsat at alle prøver kommer fra den samme population fordeling. Hvis en algoritme identificerer mange af disse robuste funktioner, så algoritmen kan betragtes som robust samt. Robusthed er en kritisk faktor, især i kliniske studier, når formålet er enten at identificere de centrale aktører i de underliggende biologiske systemer, eller at udvikle klinisk anvendelige tests.

Desværre kliniske studier er normalt udføres uden et eksplicit hensyntagen robusthed i deres eksperimentelle design. Et typisk eksempel er at udføre funktionen valg på en enkelt partition af tilgængelige kohorte data, så at bestemme succes valget med resten af ​​data (ofte kaldet som en test sæt). Når stikprøvestørrelser er små som i de fleste kliniske undersøgelser, kan en sådan praksis føre til identifikation af forskellige signaturer fra flere undersøgelser, der ser helt fint på deres egen vurdering, men som ikke er vellykket, når de anvendes til data fra andre undersøgelser.

I dette papir foreslår vi en algoritme til at beskæftige sig med de ovennævnte spørgsmål, er baseret på velundersøgte ideer undersampling [3] og sammenlægning [4]. Vores rammer består af to Undersampling trin: (i) en

ydre undersampling

trin, der anslår forudsigelsen ydeevne modeller og valget sandsynligheden for funktioner, og (ii) en

indre subsampling

trin , der opnår en robust model ved at aggregere mange, muligvis ustabile, modeller, hvor hver model er opnået fra en delprøve

i det ydre undersampling, vi hovedsagelig udfører bootstrapping [3] for at estimere to mængder:. udvælgelseskriterierne sandsynligheder af funktioner og forudsigelse udførelsen af ​​modeller består af robuste signaturer. Vurderingen af ​​udvælgelsessandsynligheder af funktioner ved hjælp af delprøver er også blevet brugt i Davis et al. [1], i forbindelse med at vælge den bedste kombination af en funktion udvælgelse og en separat klassifikation algoritme til at maksimere både udvælgelse hyppigheden af ​​funktioner og klassificering nøjagtighed. I vores fremgangsmåde, er funktionen udvælgelse og model fitting udføres samtidigt, og det er en iboende egenskab, at de relevante funktioner er at blive valgt med stor sandsynlighed. Derfor bruger vi anslået udvælgelsessandsynligheder til at konstruere robuste underskrifter, ikke for at finde den bedste kombination.

Brugen af ​​sammenlægning for at producere robuste signaturer som i vores indre undersampling skridt er blevet brugt i forskellige sammenhænge. Abeel et al. [5] betragtes enkle og vægtede gennemsnit af beslutningsprocesser vektorer fra support vektormaskine (SVMs) [6] og den rekursive funktion elimination hjælp SVMs [7], hvor hver beslutning vektor opnået fra en bootstrap prøve. I Broom, Do og Subramanian [8], er blevet foreslået en ændret ramme for skæve strukturer Bayesianske netværk. Disse værker dog ikke løse problemet med at identificere robuste underskrifter fra censureret overlevelse resultat, en typisk form for reaktioner i klinisk forskning. Også metoder såsom SVMs ikke har en sådan garanti for, at vigtige funktioner vil blive udvalgt med stor sandsynlighed over forskellige delprøver.

Vores robuste Udvælgelsen er baseret på teoretiske argumenter for nylig for den udbredte lasso algoritme [9] og en udvidelse kaldet forbehandlede lasso algoritme [10], som er indført i det følgende afsnit.

Cox regression med Lasso Penalty

Lad os betragte en kohorte prøve, som består af

n

patienter, hvor hver af patienterne er profileret med en

s

dimensional trækvektor x

jeg

og en overlevelse anmærkning:

t

jeg

er længden af ​​overlevelsen i tid og

e

jeg

er en indikator for en klinisk hændelse, såsom at

e

jeg

= 1, hvis en begivenhed, der er sket, og

e

jeg

= 0 ellers.

i Cox regression [11], at risikoen for en patient, der har et arrangement på tid

t

er modelleret af en funktion, hvor

h

0 (

t

) er faren baseline funktion, beskriver eksponentiering del effekten af ​​kovariater, og. Et estimat af koefficienten vektor

β

opnås ved den maksimale sandsynlighed estimering, der er, (1) hvor er den delvise log-sandsynlighed defineret af

Her

E

er et indeks sæt optælle alle hændelser og er et indeks sæt patienter med risiko med hensyn til tidspunktet for en begivenhed

i

. Den anden periode i Eq. (1) er et regularizer straffe kompleksiteten af ​​

β

, med og. Vi kalder ofte legalisering med

α

= 1 som lasso eller, og den med

α

= 0 som rygningen eller straf. Lasso vælger funktioner ved at sætte koefficienter i

β

lig nul for irrelevante funktioner, mens højderyggen ikke udfører funktionen udvælgelse af sig selv. For detaljeret sammenligning af de to, henviser vi til Gui og Li [12]. For 0

α

. 1 er regularizer kaldes det elastiske net [13], som har tendens til at vælge alle korrelerede kovariater sammen

klargjort Lasso

klargjort lasso algoritme [10] er en to-trins procedure designet til at løse problemerne med høj skævhed i lasso skøn, når antallet af funktioner

s

er meget stor i forhold til antallet af patienter

n

. De to trin er

Konditioneringskørsel trin:.

Lasso skridt: passe en model til

Det første skridt skaber klargjort resultater fra de givne funktioner og overlevelse data. . Forkonditioneringen udføres af den overvågede vigtigste komponenter metode [14], som først rangerer funktioner ved deres individuelle korrelation til overlevelse resultater, og derefter finde en tærskel ved krydsvalidering, der giver den bedste forudsigelse ydeevne, hvis de funktioner placeret højere end tærsklen benyttes i regression efter at være projiceret op de første par hovedkomponenter. De forbehandlede resultater produceres som resultat af forudsigelse på hver trækvektor i et træningssæt. Her er real-værdsat, mens den oprindelige resultat indeholder en værdi af overlevelsestid og en indikator begivenhed.

Det andet trin bruger lasso til at passe en lineær model til den oprindelige funktion vektorer og den konditioneres resultat. Da klargjort reaktioner er skalarer, kan vi bruge den almindelige mindste kvadraters regression med lasso straf, (2)

Dette problem kan løses effektivt med den mindste vinkel regression (LARS) algoritme [15]. Efter der bliver fundet en løsning, kan en lineær risikoprofil forudsigelse beregnes for hver test eksempel x og sammenlignet med deres overlevelse risiko former af Cox-modellen.

Sammenhæng og Robust Signature Selection

Antag at vi opnår ved at løse ligning. (1) med

n

eksempler, hvor eksemplerne er genereret med en ukendt befolkning parameter under Cox modellen. Et vigtigt begreb i statistikker vedrørende robust funktion udvælgelse er

konsekvens i form af variabel udvælgelse

, (3)

Det vil sige, vælger de samme funktioner til med stigende sandsynlighed som antallet af patienter stiger . Dette indebærer, at hvis

n

er stor nok eller konvergens i Eq. (3) er hurtig nok til en fast

n

, så har delmængder valgt af flere ved hjælp af forskellige prøver af størrelse

n

vil være det samme med stor sandsynlighed, da alle af dem vil være tæt på de funktioner, der vælges af. Derfor for robust udvalg i kliniske undersøgelser, hvor antallet af patienter

n

er relativt lille og ikke let at stige, foretrækker vi at bruge en metode med hurtig konvergens i konsistens.

For nylig har det været vist, at under

irrepresentable betingelser

[16] eller ækvivalent

nabolag stabilitetsforhold

[17], konsistente estimater kan opnås ved lasso, selv om disse betingelser normalt bryde i virkelige situationer. Den forbehandlede lasso algoritme [10] er et alternativ til lasso, der producerer konsistente estimater f.eks hvornår . For almindelige mindste kvadrater med lasso straf, er det vist, at når legalisering parameter er valgt til at være, så hver aktiv element er valgt af med strengt positiv sandsynlighed [18]. Derfor et skæringspunkt for indslag apparater opnået fra bootstrap forsøg vil være ikke tom, og være i overensstemmelse med eksponentielt stigende sandsynlighed som

n

vokser. Men de argumenter baseret på stærke forudsætninger, der temmelig let overtrådt i praksis, og derfor ønskede egenskab kan ikke følge. En anden ændring af lasso er blevet foreslået brug af vilkårlig vægtning af lasso regularizer [19]. Denne algoritme frembringer konsistente estimater i mindre restriktive betingelser end den tidligere tilgang, men kræver at angive en ekstra “svaghed” parameter, der er ikke ligetil at afgøre, i sin randomiserede omgivelser.

Vores robuste udvælgelsesmetode er baseret på følgende tre kritiske bemærkninger. Først forbehandlede lasso har bedre konvergens i konsistens end lasso, når [10]. For det andet kan variation i modeller reduceres efter model gennemsnitsberegning kombineret med undersampling [4] (indre undersampling trin). Og tredje, relevante funktioner er at blive valgt med positiv sandsynlighed med lasso visse betingelser [18], og vil derfor blive vist oftere end irrelevante funktioner i flere forsøg med tilfældige delprøver (ydre undersampling trin).

En robust signatur er defineret som følger: givet en tilfældig delprøve indeks sæt og et skøn opnås med eksempler svarende til

jeg

, robusthed en funktion indekseret af er defineret som sin sandsynlighed for at blive udvalgt blandt alle forsøg med tilfældige delprøver, hvor alle parametre, hvis nogen, antages at blive justeret for hver

jeg

. En

robust signatur

er defineret som et sæt af robuste funktioner, hvis udvælgelse sandsynligheder er over en vis grænse, der er,

De to ovennævnte definitioner er tilpasset fra Meinshausen og Bühlmann [19]. Efter evaluering udvælgelse sandsynlighed for træk i det ydre undersampling, vi bruger den til at identificere en anslået robust signatur, (4)

Metoder

Arbejdsgangen af ​​vores nyudviklede metode er skitseret i figur 1. venstre panel (a) viser RS-PL, vores Robust procedure Selection med forbehandlede Lasso algoritme, der producerer en koefficient vektor for hver tilfældig tog indeks sæt

jeg

. I højre panel (B), estimerer vi udvælgelsen sandsynligheden for hver enkelt funktion valgt af RS-PL algoritme for hver tilfældig togsæt

jeg

, teste effektiviteten af ​​prædiktorer så godt.

Panel A: vores kerne algoritme (forkortet som RS-PL) udfører robust udvalg med en indre undersampling, ved hjælp af den forbehandlede lasso (PL) metode inde. Potentielt ustabile model koefficient vektorer er aggregerede og derefter krympes til frembringelse af en robust model vektor. Panel B: en ydre undersampling anvendes til at evaluere forudsigelsen ydeevne RS-PL og at estimere udvælgelsessandsynligheder af funktioner. Nøgletallene (63,2% :36.8%) er valgt til at ligne de effektive prøveudtagning nøgletal i bootstrapping.

Vores metode RS-PL er designet til at forbedre robustheden af ​​lasso-baserede valg signatur metoder, især den forbehandlede lasso (PL). PL og RS-PL udføre både signatur udvælgelse og estimering af en forudsigelse funktion samtidigt i en tæt koblet måde. Derfor forbedrer robusthed i udvælgelsen signatur tendens til at forbedre forudsigelse ydeevne. Mere specifikt er prædiktorer af RS-PL baseret på et ensemble af lineære modeller af udvalgte funktioner og dermed robustheden i udvælgelsen signatur er direkte forbundet til stabiliteten i ensemble modeller, og deres forudsigelse resultat.

Robust Selection med klargjort lasso (RS-PL)

Vores Foreslåede algoritme RS-PL i figur 1 (a) svarer til en indre subsampling trin i hele rammen, hvor et tog indeks indstille

jeg

er opdelt i en sub-togsæt

J Hotel (63,2%) og en tuning sæt (resten). Disse forhold er valgt til at ligne det effektive antal prøver i bootstrapping [3]. I sammenligning med andre undersampling strategier såsom

k

fold krydsvalidering, er denne særlige måde at undersampling kendt for at levere den bedste skøn, når støj i data er moderat [20].

Forfiltrering.

i RS-PL, vi først fjerne uinformative funktioner fra hvert togsæt (i), hvis standardafvigelsen værdier er under en foruddefineret percentil af de standardafvigelsesværdier af alle funktioner. Denne filtrering er valgfrit, men letter funktionen valg. Især en ønskelig antal kandidat funktioner

kan p

bestemmes ved hjælp Lemma 6.7 [21], hvori det hedder, at antallet af funktioner, der vælges med statistisk sammenhæng med lasso og klargjort lasso er afgrænset af for en prøve af størrelse

n

. Med andre ord,

s

må ikke være større end. For eksempel,

s

kunne være op til et par tusinde, når

n

= 176 og. I vores eksperimenter forventede vi der ville være 5~10 og reduceret antallet af kandidat funktioner som foreslået af lemma hjælp forfiltrering.

forkonditioneres Lasso.

Kernen i RS-PL, vi bruge prækonditioneret lasso algoritme (forkortet PL) diskuteret ovenfor, på grund af sine overlegne karakteristika for de tilfælde med. PL indersiden af ​​RS-PL kan erstattes af andre algoritmer, så længe de producerer koefficient vektorer for lineære modeller, såsom Cox regression med lasso straf.

Aggregering og Krympning af signaturer.

for hver sub-togsæt, vi opnå et estimat koefficient vektor som et resultat af at løse det andet trin af konditioneres lasso i Eq. (2). For T

i = 100 tilfældige sub-togsæt, siger, vi få estimeret koefficient vektorer henholdsvis. Da koefficienten vektorer er fra lineære modeller, kan vi samle dem med simpelt gennemsnit, dvs.

Her den aggregerede koefficient vektor betegnes med bogstavet

jeg

, da det er produceret til hvert togsæt

jeg

i kraft.

antallet af funktioner, der vælges af den aggregerede vektor tendens til at være temmelig store, da det sæt af ikke-nul komponenter er den samme som foreningen af signaturer opnået med, som angivet ovenfor. vi derfor “skrumpe” koefficienterne i at bruge en simpel tærskling strategi: for tærskelværdier hvor og er den mindste og den største størrelse af komponenter i, finder vi en tærskel, således at den indskrumpet underskrift og dens tilsvarende koefficienter producere de bedste forudsigelse resultater over tuning sæt, hvor tuning sæt kommer fra den indre subsampling i figur 1 (A). Vi betegner den aggregerede og indskrumpet robust koefficient vektor, det endelige resultat af RS-PL, som, konstrueret som følger: (5)

Vurdering af Selection Sandsynlighed, Prediction Performance, og robusthed

algoritme i figur 1 (B) svarer til en ydre undersampling trin, hvor hele kohorte data med

n

patienter er opdelt i et tog sæt

jeg

(63,2%) og en test sæt ( resten), tilfældigt for T

ud = 100 gange.

forbehandling.

Der er to separate forbehandlingstrin for hvert togsæt (

jeg

) og hver test sæt. Denne adskillelse er ganske vigtigt for nøjagtig vurdering af forudsigelse ydeevne. For eksempel, når vi anvender sammendrag og normalisering algoritmer, såsom den robuste multi-array analyse (RMA) [22] til microarray data, er vi nødt til at anvende RMA separat på et tog sæt og en test sæt, da der ellers RMA vil bruge oplysninger fra en prøveopstilling til preprocess et togsæt, og vice versa, og derfor en sådan praksis kan give alt for optimistiske forudsigelse nøjagtighed skøn på testsættet.

Alternativt frosne RMA (fRMA) algoritme [23] kan anvendes uafhængigt af individuelle mikroarrays under anvendelse globale reference microarrays for normalisering. På grund af uafhængighed, behov fRMA skal anvendes én gang for alle arrays uanset tog /test splits.

Forudsigelse af Risk.

For forudsigelse, en robust og indskrumpet koefficient skøn i Eq. (5) opnået ved RS-PL anvendes til at sammenligne risikoen for patienter, der har en hændelse på tid

t

, i form af Cox proportional hazard model [11]. I denne model, log hazard ratio sammenligne risikoen for to patienter (med profiler og) becomesfrom definitionen af ​​fare funktionen (risiko). Den hazard ratio giver en statistik til at teste forskelle i overlevelse mønstre. Det er værd at bemærke, at baseline fare

h

0 (

t

) annulleres, og ikke spiller nogen rolle i ovenstående udtryk, hvilket gør sammenligning af risiko så simpelt som sammenligne værdierne af lineære prædiktorer og. Det giver os mulighed for at bruge en rang korrelation mellem lineære prædiktorer og overlevelsestid at vurdere forudsigelse præstation, som vi diskuterer i næste afsnit.

På den anden side, baseline hazard

h

0 (

t

) kan estimeres for at producere overlevelse sandsynligheder for de enkelte patienter. Et skøn over

h

0 (

t

) er foreslået af Cox og Oakes [24], hvor er den klare event gange, og

d

i

er antallet af begivenheder på

t

jeg

. Så overlevelsesfunktionen (sandsynligheden for at overleve i det mindste til tiden

t

) for en patient x kan beregnes ved,

Foranstaltninger til Forudsigelse Performance.

For at måle forudsigelse ydeevne, bruger vi

konkordans indeks

[25], som er den del af alle sammenlignelige par patient, hvis resultater er samstemmende til forudsigelser. Et par patienter anses for at være anvendelige bortset fra de tilfælde, hvor både patienter har begivenheder på samme tid, eller man har kortere censureret overlevelsestid end den anden, som har en begivenhed. At forklare formelt, antage, at en forudsigelse er til rådighed for hver patient, hvis overlevelse tid er givet ved med en begivenhed indikator. Overvej følgende orden indikatorfunktioner [26] for,

Så produktet af de to ordens funktioner foranstaltninger, hvis rækkefølgen af ​​et par forudsigelser er overensstemmende (produkt = 1), disconcordant (-1), eller ikke sammenlignelige (0) til rækkefølgen af ​​de tilsvarende overlevelsestid par. Konkordansen indekset er defineret som den del af samstemmende par blandt alle sammenlignelige par, som har en værdi mellem 0 og 1. Her er en indikator funktionen returnerer 1, hvis argumentet er sandt, og 0 ellers. Bemærk, at tælleren ovenstående tæller antallet af alle samstemmende par, hvor nævneren tæller antallet af alle sammenlignelige par (overensstemmende eller disconcordant). Denne foranstaltning kan beskrives som en generaliseret AUC (arealet under ROC-kurven) værdi, hvor værdier 0,5 indebære positiv korrelation og værdier 0,5 indebære negativ korrelation. For binære værdsat forudsigelser, bliver identisk med AUC konkordansen indekset.

Foranstaltninger til Robusthed.

For at måle robusthed udvælgelse signatur, bruger vi

Jaccard indeks

og

rang-straffet Kuncheva indeks

.

Jaccard indeks

måler robustheden af ​​underskrifter fra muligvis forskellige størrelser, og det er defineret som en gennemsnitlig størrelse på overlapning mellem har delmængder i forhold til størrelsen af ​​deres fagforening [2]. Betegner det sæt af funktioner udvalgt med ved, er det defineret som:. (6) Salg

Den Jaccard indekset går fra 0 til 1, og større værdier indikerer større relativ overlap

Når størrelsen af signaturer kan styres, mere præcise målinger af robusthed er tilgængelige, nemlig Kuncheva indekset [27] og Canberra afstand [28], i stedet for den Jaccard indeks, der kan resultere i et skævt af robusthed. Konkret Kuncheva indekset giver en uvildig vurdering af gennemsnit overlapning mellem underskrifter, og de Canberra afstand måler, hvor godt rækkefølgen af ​​bidrag funktioner bevares mellem underskrifter i gennemsnit. Sammenlignet med Jaccard indekset, disse to foranstaltninger kræver underskrifter at være af samme størrelse til sammenligning. Fraktionen mellem Kuncheva indekset og Canberra afstand, betegnet som

rang-straffet Kuncheva indeks

, beregnes som en oversigt over de to mål for robusthed. Angiver de funktioner valgt fra i en ekstra krympning af, og rang i omfanget af th funktion i ved, er rang-straffet Kuncheva indeks udtrykkes som følger (

s

er det samlede antal af kandidat funktioner), (7)

værdierne for dette indeks spænder fra 0 (nul overlap, dvs. funktion rækker ikke bevaret) til ∞ (perfekt overlap, dvs. perfekt konservering af funktionen rækker).

ekstra svind af Models.

antallet af funktioner i en signatur beskrevet af varierer afhængigt data og metoder, men det er typisk større end 50. Når mindre underskrifter foretrækkes til en tilbundsgående undersøgelse af funktioner, der er beskrevet underskrifter ved kan skrumpet yderligere ved at vælge den øverste

G

funktioner efter omfanget af deres koefficient i.

Dette efterfølgende anvendes til en vurdering af vores metode til at sammenligne robusthed og forudsigelse udførelsen af ​​underskrifter bestående af et lille antal funktioner.

udvælgelsessandsynligheder af funktioner og robust Underskrifter.

udvælgelsen sandsynligheden for en funktion, indekseret af

k

, estimeres ved sit udseende frekvens blandt T

ud ydre undersampling forsøg der er, hvor er en indikator funktion, som svarer til 1, hvis udsagnet

s

er sand, eller 0 ellers. På baggrund af disse sandsynligheder og en baseline udvalg sandsynlighed

π

, vi konstruere en robust signatur ifølge Eq. (4).

Liste over Algoritmer for Sammenligning

Vores Foreslåede algoritme RS-PL, hvor præfikset “RS” står for “robust valg”, er i forhold til de følgende algoritmer. RS-L er den samme som RS-PL, bortset fra, at PL indersiden af ​​RS-PL er erstattet med Cox regression med lasso straf. I det følgende er hele RS-PL i figur 1 (A) erstattes med de beskrevne algoritmer, som ikke gør brug af vores RS ramme: PL er den prækonditionerede lasso algoritme. L er den Cox regression med lasso straf. Dev er en simpel metode, der vælger de 100 øverste funktioner med den største standardafvigelse på tværs microarrays. En højderyg Cox regression udføres derefter, kun ved hjælp af disse funktioner. Denne type af metoder er kendt for at være stabil [29]. Cor er en anden univariat metode, vælge de 100 øverste funktioner med den højeste rang i form af deres individuelle korrelation til overlevelse annotation (målt ved overensstemmelsen indeks). En højderyg Cox regression udføres på de valgte funktioner bagefter. Cli er en Cox regression uden straf ved hjælp af kun kliniske kovariater. Den BatchExperiments pakke [30] for R blev anvendt til parallel beregning af algoritmer.

Resultater

data Forberedelse

Tre datasæt blev analyseret indeholder mRNA udtryk profiler fra i alt 742 kræftpatienter, som er anskaffet ved hjælp af Affymetrix microarray-teknologi. Data blev opnået for tre forskellige enheder, neuroblastom, lunge adenocarcinom og brystcancer, som opsummeret i tabel 1. CEL filer blev hentet fra Gene Expression Omnibus eller R2 platformen (https://r2.amc.nl). For forbehandling, blev den frosne RMA algoritme [23] anvendes på individuelle CEL filer til at skabe resuméer probeset niveau. Kun microarrays med medianen Gnuse [31] værdier ≤1 (for kvalitetskontrol) og med passende klinisk information (samlet overlevelse) blev inkluderet i denne undersøgelse. Kendetegnene for tre datasæt før og efter forbehandling er sammenfattet i tabel 2, 3 og 4 (se figur S1 for de tilsvarende Kaplan-Meier plot). Vejviser

De opnåede fra forbehandling funktioner er angivet med

probesets

, der svarer til (dele af) exons eller gener afhængigt microarray platforme. De samlede antal probesets (funktioner) varierer afhængigt af microarray platforme: HG-U133A Plus 2.0 platform indeholder 54675 probesets (HG-U133A indeholder omkring 10000 mindre probesets), og human Exon ST v1.0 platform indeholder 1432143 probesets ifølge NetAffx probeset annotation v33.1 fra Affymetrix. Hver probeset har en sammenfattet udtryk værdier af tilsvarende

sonder

i de oprindelige CEL data, hvor 9~11 (HG-U133A) eller 1~4 (human Exon ST v1.0) sonder udgør en probeset. For neuroblastom datasæt (Human Exon ST v1.0), vi fokuserede på de grundlæggende niveau probesets som funktioner svarende til exoner der opfyldte tre kriterier: unik hybridisering, unikke lokalisering på en af ​​de menneskelige kromosomer, og tilstedeværelsen af ​​gyldige gen opgaver . Brug af NetAffx probeset kommentering, resulterede dette i 228476 funktioner. Når forfiltrering blev anvendt, blev probesets med standardafvigelse mindre end den 99. percentil af standardafvigelsen for alle funktioner kasseret for hver tilfældig togsæt

jeg

, hvilket resulterer i 2285 funktioner. For adenocarcinom (HG-U133 Plus 2) og brystkræft (HG-U133A) datasæt, vi fokuseret på de klasse-A probesets som funktioner, der svarer til gener med unik hybridisering og unikke lokalisering. Brug af NetAffx kommentering, dette resulterede i 28476 (adenocarcinom) og 20492 (brystkræft) funktioner, henholdsvis. Når forfiltrering blev anvendt, de probesets med standardafvigelse mindre end den 90. percentil af standardafvigelsen for alle funktioner blev kasseret for hver tilfældig togsæt

jeg

, hvilket resulterer i 2848 (adenocarcinom) og 2050 (brystkræft) funktioner .

Kliniske kovariater blev kun anvendt til metoden Cli, herunder følgende attributter: alder på diagnosetidspunktet, MitCN status og INSS scene for neuroblastom; alder, rygning status, køn, scene, og MYC status lungeadenokarcinom; alder, stadie, størrelse tumor, og kvalitet for brystkræft.

Robuste Signaturer

De algoritmer RS-PL, RS-L, PL, L, Dev, Cor og Cli blev testet inden vores evaluering ramme (Figur 1: B), ved hjælp af de samme tilfældige splits af data på tværs af forskellige metoder til rimelig sammenligning (se tabel S1 for overlevelse tid distribution af tog og test sæt). Dette resulterede i en sekvens af koefficientværdier vektorer som et output af hver metode. Disse blev anvendt til at estimere udvælgelse sandsynligheden for hver funktion,. For neuroblastom datasættet blev baseline sandsynlighed sat til den anslåede valg sandsynligheden for MitCN forstærkning status kovariat (). For de øvrige to datasæt, blev en arbitrær værdi () defineret og robuste underskrifter blev opnået.

Kvalitativ Validering af Robust signaturer.

tabel 5, 6 og 7 viser de funktioner, i robuste signaturer produceret af RS-PL, for neuroblastom, lungeadenocarcinom og brystcancer, henholdsvis (se tabel S2, S3, S4 og for de tilsvarende lister over udvalgte funktioner og deres udvælgelse sandsynlighed). I hver tabel er udvælgelse frekvenser af funktioner vist i den anden kolonne. Som for neuroblastom, var til rådighed med exon niveau opløsning data, så udvælgelse frekvens værdier blev i gennemsnit over flere exons, hvis mere end én exon stabilt blev identificeret for et gen.

Be the first to comment

Leave a Reply