PLoS ONE: SurvExpress: En Online Biomarkør Validering Tool og Database for Cancer genekspression data ved hjælp Survival Analysis

Abstrakt

Validering af multi-gen biomarkører for kliniske resultater er et af de vigtigste spørgsmål for kræft prognose. En vigtig kilde til information for virtuelle validering er det høje antal af tilgængelige kræft datasæt. Ikke desto mindre vurderer prognostiske udførelsen af ​​en genekspression signatur sammen datasæt er en vanskelig opgave for Biologer og Læger og også tidskrævende for statistikere og bioinformatikere. Derfor, for at gøre det lettere at sammenligne resultaterne og valideringer af overlevelse biomarkører for kræft resultater, vi udviklede SurvExpress, en kræft-dækkende genekspression database med kliniske resultater og et webbaseret værktøj, der giver overlevelse analyse og vurdering af kræft datasæt risiko. Den vigtigste indgang SurvExpress er kun biomarkør gen listen. Vi genererede en kræft database indsamle mere end 20.000 prøver og 130 datasæt med censureret kliniske oplysninger dækker tumorer over 20 væv. Vi implementeret en web-interface til at udføre biomarkør validering og sammenligninger i denne database, hvor en multivariat overlevelsesanalyse kan udføres i ca. et minut. Vi viser nytten og enkelhed SurvExpress i to biomarkører applikationer til bryst- og lungekræft. Sammenlignet med andre værktøjer, SurvExpress er den største, mest alsidige og hurtigste gratis værktøj til rådighed. SurvExpress web kan tilgås i https://bioinformatica.mty.itesm.mx/SurvExpress (en tutorial er inkluderet). Hjemmesiden blev implementeret i JSP, JavaScript, MySQL, og R.

Henvisning: Aguirre-Gamboa R, Gomez-Rueda H, Martínez-Ledesma E, Martínez-Torteya A, Chacolla-Huaringa R, Rodriguez-Barrientos A, et al. (2013) SurvExpress: En Online Biomarkør Validering Tool og Database for Cancer genekspression data ved hjælp Survival Analysis. PLoS ONE 8 (9): e74250. doi: 10,1371 /journal.pone.0074250

Redaktør: William C. S. Cho, Queen Elizabeth Hospital, Hongkong

Modtaget: April 21, 2013; Accepteret: 31 juli 2013; Udgivet: 16 september, 2013 |

Copyright: © 2013 Aguirre-Gamboa et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Forfatterne er taknemmelige for den finansielle støtte fra Catedra de bioinformatik CAT220 på ITESM (Tecnológico de Monterrey) og CONACYT giver 83929 og 140601. de finansieringskilderne havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet.

konkurrerende interesser:. forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Kræft forårsager millioner af dødsfald verden over. For at forbedre behandlinger, er blevet foreslået flere biomarkører for risici prognose og behandlingsrespons. Nylige offentliggjorte biomarkører i mange cancertyper indeholder talrige gener og er hovedsagelig baseret på genekspression. De er blevet genereret ved hjælp af microarray profilering og sidst ved RNA-Seq teknologier. Ofte er identificeret biomarkører udviklet til en bestemt cancer væv og undertyper. I brystcancer, for eksempel er der foreslået mere end 40 biomarkører indeholdende mellem 3 og 512 gener og hvis prognostisk eller prædiktiv ydelse afhænger af terapi, hormon-receptor status, og antal gener [1], [2]. På den anden side, at vurdere effektiviteten af ​​de foreslåede biomarkører i forskellige populationer eller vurdere konkurrerende biomarkører er vanskelige opgaver, selv om hundredvis af offentlige datasæt er til rådighed. De vigtigste begrænsninger er den tid og de nødvendige ressourcer til at erhverve, forarbejdning, normaliserende, filtrering og statistisk modellering af store genekspression datasæt. Dette er vigtigt, da flere af de involverede i svigt i biomarkører i kliniske forsøg årsager er relateret til dataanalyse [3]. Til analysen af ​​biomarkører er der foreslået værktøjer som ITTACA, KmPlot, RecurrenceOnline, bc-GeneExMiner, gobo, og PrognoScan [1], [4] – [9]. Disse værktøjer har alvorlige begrænsninger (tabel 1), hvilket komplicerer og begrænse vurderingen af ​​multi-gen biomarkører i kræft. Nogle af de vigtigste begrænsninger omfatter overvejer blot ét gen på det tidspunkt eller et bestemt sæt af gener; fokus på bryst- eller ovariecancer datasæt eller en bestemt Affymetrix genekspression platform; kræver upload af Affymetrix genekspression data (.CEL filer); og ved hjælp af en enkelt mængde pr gen selv om nogle microarray platforme giver flere probesets.

For at løse disse problemer og gøre det lettere at sammenligne resultaterne og valideringer af prognostiske og prædiktive biomarkører for kræft resultater, vi udviklede SurvExpress. SurvExpress er en omfattende genekspression database og web-baseret værktøj giver overlevelse analyse og risikovurdering i kræft datasæt ved hjælp af en biomarkør gen liste som input. Værktøjet er tilgængelig i https://bioinformatica.mty.itesm.mx/SurvExpress. Værktøjet indeholder en tutorial, der beskriver analysen muligheder, plots, borde, centrale begreber i relation til overlevelse analyse, og repræsentative metoder til at identificere biomarkører fra genekspression data.

Materialer og metoder

Database Acquisition

datasæt blev opnået primært fra GEO (https://www.ncbi.nlm.nih.gov/geo/) og TCGA (https://tcga-data.nci.nih.gov) efter søger efter søgeord relateret til kræft, overlevelse, og genekspression teknologier. Derudover et par blev opnået fra forfatterens hjemmesider og fra ArrayExpress (https://www.ebi.ac.uk/arrayexpress/). Den datakilde anvendes, er vist i web interface. Vi foretrak kræftformer over to forskellige kohorter og datasæt indeholdende overlevelsesdata over 30 prøver, hvor censurering indikator og tid til død, gentagelse, tilbagefald eller metastaser blev leveret. Kliniske data blev leveret af datasæt forfattere via personlig e-mail, når der ikke er tilgængelige online i tilsvarende repositories. Datasæt blev kommenteret fra udbyder filer som fundet frem til september 2012, og var fraktil-normaliseret og log2 forvandlet når det er nødvendigt. Fra TCGA blev alle datasæt opnået på det gen niveau (niveau 3). RNA-Seq tæller data blev log2 forvandlet. I nogle kræftformer, hvor mange datasæt blev fundet for den samme genekspression platform, vi også give et fusioneret meta-base. I meta-baser, datasæt var fraktil normaliseret; probesets midler blev udlignet bevare standardafvigelsen af ​​hver kohorte; og datasæt blev fusioneret med probeset id. I øjeblikket leverer vi meta-baser til bryst-, lunge- og ovariecancer. For at lette gen søgninger og konverteringer mellem gen identifikatorer, blev humane gen oplysninger, der anvendes, og fås fra NCBI FTP-sted (ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz). For at forenkle brugergrænsefladen blev datasæt grupperet efter relateret organ eller væv ved hjælp af sygdom ontologier [10].

Web interface Implementering

To enkle og lette HTML brugergrænseflader baseret på Java Server Pages, JavaScript , R, Ajax, Apache, og MySQL blev gennemført (figur 1A). I

Input

side, brugere introducere genet liste baseret på NCBI kompatibel gen id’er (officielt symbol, Entrez, Ensembl, HGNC, eller andre) og vælg målet datasæt. Brugere kan også vælge, hvordan man behandler gener har mere end en probe.

Analyse

side udtrækker datasættet rækker relateret til gener i biomarkør og leverer en web-grænseflade. Derefter kan brugerne vurdere biomarkør i en række forskellige måder, herunder tænding og slukning specifikke gener, stratificere prøver ved tilgængelige kliniske oplysninger (f.eks stadium, klasse, alder, biokemiske resultater, og mutation status) med en uddannelse og testprøver, og vejer gener stedet for at bruge Cox sluttende. Resultaterne vises i fælles og fleksible publikationsbegrænsede klar plots og tabeller i

Analyse

side. kan også fås en PDF-version af resultaterne.

Panel A viser et skematisk diagram af SurvExpress workflow mens Panel B viser snapshots af grænsefladerne tagging de krævede input felter. I den første

Input

webside, kan brugeren indsætte listen over gener (mærket med nummer 1, som kan være symboler, Entrez gen id og andre identifikatorer), og vælg datasættet fra omkring 140 ledige datasæt ( mærket med 2 og 3). SurvExpress validerer og søger generne og datasæt for at vise

Analyse

webside, hvor brugeren vælger censureret resultat (tag 4), og visualiserer resultatet (højre bund udvidet i figur 2). Hele processen kan opnås på mindre end et minut til en fornuftig antal gener.

Prognostisk Index Estimation

prognostiske indeks (PI), også kendt som risikoscore, er almindeligt anvendt til at generere risikogrupper. PI er kendt som den lineære del af Cox-modellen [11], PI =

β

1x

1+ β

2x

2 + … + β

px

s

hvor

x

jeg

er udtryk værdi og

β

jeg

kan fås fra Cox fitting. Hver

β

jeg

kan tolkes som en risiko koefficient. SurvExpress implementerer to procedurer til at estimere

β

koefficienter. Den første procedure er den klassiske Cox model, hvor alle gener indgår i en unik model. Beslaget er udført i R (https://cran.r-project.org) ved hjælp af

overlevelse

pakke. I den anden procedure, kan brugeren angive en vægt for hvert gen i stedet for ved hjælp af værdierne fra Cox fitting. En sådan indstilling er nyttig til at foretage sammenligninger med biomarkører beregnet med andre end Cox matematiske modeller.

Risk Estimation

SurvExpress implementerer to metoder til at generere risikogrupper. Den første metode (standard) genererer risikogrupperne opdele det bestilte PI (højere værdier for større risiko) med antallet af risikogrupper forlader lige antal prøver i hver gruppe. For to risikogrupper, svarer dette til opdele PI ved medianen. Den anden metode til at producere risikogrupper anvender en optimering algoritme fra den bestilte PI. Kort fortalt til to grupper, er en log-rank test udført langs alle værdier af arrangeret PI. Derefter algoritmen vælger split punkt, hvor p-værdien er minimum. Denne procedure er generaliseret i mere end to grupper gentagne gange at optimere en risikogruppe på det tidspunkt, indtil der ikke observeret nogen ændringer. Nærmere oplysninger om denne procedure er beskrevet i tutorial leveres i SurvExpress hjemmeside.

Udgange

Udgangene inkluderet svare til fælles målinger og grunde anvendes til at vurdere effektiviteten af ​​overlevelsesdata. Et eksempel på udgangene genereret af SurvExpress er vist i figur 2. Panel A viser Kaplan-Meier plot ved risikogruppe, log-rank test af forskelle mellem risikogrupper, estimat af hazard-forholdet, og konkordansen indekser, hvilket estimat sandsynligheden for, at patienter med en højere risiko vil opleve begivenheden efter personer med en lavere risiko [12]. Panel B viser en visuel sammenslutning af tilgængelige kliniske oplysninger til risikogrupper. Panel C viser en varme kort genekspressionssystemer værdier. Panel D viser box plots af genekspression værdier på tværs gen grupper sammen med p-værdi af den tilsvarende forskel. Panel E viser risikogruppe optimering plot. Panel F viser fragmenter af tabellerne for beta koefficienter, herunder tilsvarende Cox p-værdier, prognostisk indeks per prøve, og Cox fitting oplysninger fra

overlevelse

pakke i R. Andre avancerede plots er også tilgængelige i tutorial forudsat i SurvExpress. Andre ‘avancerede plot’ omfatter SurvivalROC der estimerer tidsafhængige følsomheder og særlige for overlevelse risikogrupper [13], men har brug for et par minutter til at beregne. Yderligere plots, detaljer og fortolkninger af udgangene er beskrevet i tutorial leveres i SurvExpress hjemmeside.

Denne figur viser resultaterne fra en brystkræft meta-basen indgår i SurvExpress. Panel A viser Kaplan-Meier kurve for risikogrupper, konkordans indeks, og p-værdien af ​​log-rank test lige overlevelseskurver. Panel B viser kliniske oplysninger relateret til risikogruppe, prognostisk indeks, og resultatet af data. Felt C viser en varme kort repræsentation af genekspressionen værdier. Panel D viser et boxplot tværs risikogrupper, herunder p-værdien testning for forskel anvendelse af t-test (eller f-test i mere end to grupper). Felt E viser forholdet mellem risikogrupper og prognostisk indeks. Panel F viser fragmenter af tabeller med resuméet af Cox montering og de prognostiske indeks. Nærmere oplysninger herom findes i SurvExpress Tutorial.

Resultater og applikationer

Database

Selvom dataindsamling vil fortsætte, indtil vi har indsamlet omkring prøver 20.000 kræft fordelt i 140 datasæt, der dækker mere end 20 væv (tabel 2). Den væsentligste begrænsning til at omfatte flere datasæt, var, at der ikke foreligger censurere oplysninger i depoter. Ikke desto mindre SurvExpress samling overgår de tilsvarende værktøjer i form af væv dækning, antal prøver, multivariat prædiktor estimation, og funktionalitet (tabel 1). Fra de 20 kræfttyper, de mest repræsenteret ved deres antal datasæt var bryst, hæmatologiske, lunge, hjerne, og æggestokkene, og nåede omkring 70% af databasen samling. Det er overraskende, at de fleste af de eksisterende redskaber er primært koncentreret i brystkræft, selvom et lignende antal datasæt er til rådighed for andre typer kræft. Derfor en af ​​de umiddelbare fordele ved SurvExpress er tilgængeligheden til at udføre kraftfulde analyse for disse meget undersøgte typer af kræft. Desuden vil SurvExpress tillade validering af biomarkører i kræftformer, som ikke er behandlet af andre værktøjer såsom nyre, lever, mave, bugspytkirtel, ben, hoved og hals, og livmoder. I web-interface, opfordrer vi også brugerne til at foreslå eller sende data til at øge kræft og datasæt dækning

webgrænsefladen

De to web-grænseflader omfatter tre afsnit:.

Input , Analyse

Resultater

(figur 1B).

Input

side er let betjenes skrive eller indsætte en liste over gener og præcisering af målet datasæt (tallene 1 til 3 i figur 1B). Det omfatter også et link til tutorial, der beskriver alle muligheder og giver omfattende fortolkninger af udgangene. Den efterfølgende

Analyse

Resultat

side opnås i et par sekunder (ca. 1 sekund pr gen og 200 prøver). I

Analyse

sektion, brugeren angiver resultatet af den valgte datasæt, hvor analysen vil blive udført (nummer 4 i figur 1B).

Resultater

afsnit (Figur 2) opnås nogle sekunder efter at have forelagt en analyse. Dette afsnit indeholder udgange såsom Kaplan-Meier-kurver for risikogrupper, visuel sammenligning af de kliniske oplysninger til risikogrupper, en varme kort over de genekspression værdier, rubrik afbildninger af genekspression pr gen og risikogruppe, et plot af risikoen gruppe optimeringsproces, borde Cox koefficienter, prognostiske indekser og Cox montering information, og et link til at opnå R scripts brugt.

Validering og Programmer

på grund af begrænsninger i andre værktøjer, multi-gen-sammenligninger på tværs værktøjer ikke var muligt. Alligevel kan SurvExpress give lignende resultater til andre værktøjer, når der anvendes et gen alene. Ikke desto mindre, at vurdere funktionalitet og skøn af SurvExpress, vi udførte to analyser evaluerer effektiviteten af ​​kendte og foreslåede prognostiske biomarkører. Vi brugte OncotypeDX biomarkør for tilbagefald i brystkræft og to offentliggjorte biomarkører for lungekræft overlevelse.

OncotypeDX biomarkør for brystkræft.

Som et eksempel til test en biomarkør i flere datasæt, brugte vi de 16 OncotypeDX gener [14]. OncotypeDX anslår en gentagelse score, der primært tilbydes tidlige fase, østrogen positiv, lymfeknude negativ brystkræft. Generne inkluderet er

AURKA

,

BAG1

,

BCL2

,

BIRC5

,

CCNB1

,

CD68

,

CTSL2

,

ERBB2

,

ESR1

,

GRB7

,

GSTM1

,

MKI67

,

MMP11

,

MYBL2

,

PGR

, og

SCUBE2 Hotel (

ACTB

,

GAPDH

,

GUSB

,

RPLP0

, og

TFRC

gener anvendt som reference i RT-PCR-analysen blev ikke brugt her). For at estimere score, OncotypeDX bruger en vægtning algoritme svarende til en vægt ganget med tilsvarende genekspression normaliseret ved en reference [14]. I SurvExpress brugte vi Cox fitting (som en tilnærmelse, da genekspression data ikke normaliseret at referere gener) i fire brystkræft datasæt (tabel 3). Andre indstillinger var den maksimale rækken gennemsnit for gener med flere probesets, og to risikogrupper splittet på medianen af ​​den prognostiske indeks. For at teste biomarkør i flere forhold, blev datasæt valgt at afspejle patienterne egnede til testen (Wang [27] og Ivshina [26]), patienter med partiel information foruden anden begivenhed (TCGA [25]), og patienter uden kliniske oplysninger (Kao [15]). De i figur 3 og opsummeret i tabel 4 resultater antyder, at samlet set kan Oncotype DX adskille væsentligt lav- og højrisikogrupper i de fire testede datasæt. Desuden blev opnået tilfredsstillende indekser af overensstemmelse og områder under ROC-kurven. Disse resultater kan opnås under anvendelse SurvExpress i et par minutter. For at demonstrere de analytiske funktioner i SurvExpress, vi udførte også overlevelse evaluering stratificering prøverne ved hjælp af tumor kvaliteter, som forfattere (AJCC Stage i TCGA datasættet og lønklasse i Ivshina datasæt). Repræsentative resultater for Ivshina datasæt er vist i figur 4. Figuren viser, at forestillingen, givet af konkordans indeks og log-rank test for risikogrupper, falder sammen lønklasse. Resultater for TCGA datasæt er vist i Tutorial til rådighed i SurvExpress hjemmeside.

censurere prøver vises som “+” mærker. Vandret akse repræsenterer tid til begivenheden. Datasæt, resultatet begivenhed, tidsskala, konkordans index (CI), og p-værdien af ​​log-rank test, er vist. Røde og grønne kurver angiver høj og lav-risikogrupper hhv. De røde og grønne numre under vandrette akse repræsenterer antallet af personer, der ikke frembyder tilfælde af tilsvarende risiko gruppen langs tid. Antallet af individer, antallet af censureret, og CI for hver risikogruppe er vist i øverste højre mellemværker.

Legends som i figur 3.

Sammenligning af to lungekræft biomarkører.

for ikke-småcellet lungekræft (NSCLC), er blevet foreslået mindst 16 biomarkører [16]. Her sammenlignes vi to biomarkører foreslået for overlevelse af NSCLC, der forsøger at forudsige den samme begivenhed (overlevelse) og bruge et tilsvarende antal gener; imidlertid generne er forskellige. . Den første NSCLC biomarkør blev foreslået af Boutros

et al

[17], og indeholder følgende gener:

STX1A

,

HIF1A

,

CCT3

,

HLA-DPB1

,

RNF5

, og

MAFK

. Den anden NSCLC biomarkør blev foreslået af Chen

et al.

[18] og indeholder generne

DUSP6

,

MMD

,

STAT1

,

ErbB3

, og

LCK

. Det er derfor af klinisk interesse at sammenligne deres ydeevne. For dette, vi udførte en analyse i SurvExpress ved hjælp af den maksimale rækken gennemsnit for gener med flere probesets, to risikogrupper ved prognostisk indeks median, og Cox montering. Vi brugte en speciel lunge meta-base-build i vores forskningsgruppe, som består af mere end 1.000 prøver fra seks forfattere (Bild [19], Raponi [20], Zhu [21], Hou [22], NCI [23 ], Okayama [24]), svarende Affymetrix genekspression platform, og som indeholder alle biomarkør gener.

resultaterne viser, at begge biomarkører kan separate risikogrupper karakteriseret ved forskelle i deres genekspression (se Kaplan-Meier og box plots henholdsvis i figur 5). Ikke desto mindre p-værdien af ​​den risiko gruppen separation, konkordansen indekset, og betydningen af ​​koefficienterne var lidt bedre i Chen biomarkør. dybere at analysere de biomarkører, testede vi biomarkør pr databasen forfatter hjælp af SurvExpress lagdeling funktionalitet (dette kan også opnås udføre en SurvExpress analyse pr forfatter datasæt). Resultaterne for de seks forfattere er opsummeret i tabel 5. Tre repræsentative eksempler er vist i figur 6. Resultaterne viser, at Boutros biomarkør fejler i fire datasæt (log-rank test af forskellen i risikogrupper er ikke signifikant), mens Chen biomarkør virker bedre i næsten alle datasæt. Sammenfattende tyder disse resultater, at udførelsen af ​​Chen biomarkør er overlegen.

Kaplan-Meier-kurver som i figur 3. Heat kort viser ekspressionen af ​​hvert gen (rækker) langs prøver (kolonner) i risikogrupper. Lav udtryk er repræsenteret i grønne kvaliteter og høj ekspression i røde kvaliteter. Tilsvarende beta koefficienter fra Cox fitting er vist. To stjerner (**) markerer gener, hvis montering p-værdi 0,05, en stjerne (*) for marginale væsentlige gener med p-værdi 0,10, og ingen stjerner for gener, hvis p-værdien er 0,1. Box plots sammenligne forskellen i genekspression mellem risikogrupper ved hjælp af en t-test.

Legends som i figur 3.

Konklusion

Sammenlignet med andre værktøjer, SurvExpress er den største og mest alsidige gratis værktøj til at udføre validering af multi-gen-biomarkører til genekspression i humane cancere. Analysen kræver kun listen af ​​gener og kan udføres i cirka et minut pr datasæt. Almindelige applikationer til at teste effektiviteten af ​​biomarkører omfatter en evaluering af en biomarkør i andre populationer eller kliniske status og sammenligningen af ​​konkurrerende biomarkører. Vi har vist, at disse to anvendelser af SurvExpress sammenligner ydeevnen af ​​en brystkræft biomarkør i flere datasæt, herunder tumor kvaliteter, og bestemmer den bedste biomarkør ud af to alternative lungekræft biomarkører. Vi konkluderer, at SurvExpress er et værdifuldt og omfattende web-værktøj og kræft database med kliniske resultater, der er skræddersyet til hurtigt at vurdere genekspression biomarkører.

Be the first to comment

Leave a Reply