PLoS ONE: Data Mining Approaches for Genomic Biomarkør Development: programmer, der bruger Drug Screening af data fra Cancer Genome Project og kræftcellen Linje Encyclopedia

Abstrakt

Udvikling pålidelige biomarkører for tumorceller narkotika følsomhed og modstand kan guide hypotese -driven grundlæggende videnskab forskning og indflydelse pre-terapi kliniske beslutninger. En populær strategi for udvikling af biomarkører bruger beskrivelser af humane tumorprøver mod en række kræft narkotika reaktioner, der korrelerer med genomisk ændringer; udviklet stort set fra den indsats, Cancer Cell Linje Encyclopedia (CCLE) og Sanger Cancer Genome Project (CGP). Formålet med denne undersøgelse er at give en uafhængig analyse af disse data har til formål at dyrlægen eksisterende og tilføje nye perspektiver til biomarkør opdagelser og anvendelser. Eksisterende og alternativ data mining og statistiske metoder vil blive anvendt til a) evaluere narkotika reaktioner af forbindelser med samme virkningsmekanisme (MOA), b) undersøge foranstaltninger af genekspression (GE), kopi nummer (CN) og mutation status (MUT) biomarkører, kombineret med gen-sæt berigelse analyse (GSEA), for hypoteser biologiske processer vigtige for narkotika reaktion, c) foretage globale sammenligninger af GE, CN og MUT som biomarkører på tværs af alle lægemidler screenet i CGP datasættet, og d) at vurdere den positive prædiktive magt CGP-afledte GE biomarkører som prædiktorer for lægemiddelrespons i CCLE tumorceller. Perspektiverne er afledt af individuelle og globale undersøgelser af GES, mutS og CNS bekræfter eksisterende og afslører unikke og delte roller for disse biomarkører i tumorceller narkotika følsomhed og modstand. Anvendelser af CGP-afledte genomiske biomarkører til at forudsige lægemiddelrespons af CCLE tumorceller finder en stærkt signifikant ROC, med en positiv forudsigelseskraft på 0,78. Resultaterne af denne undersøgelse udvide de tilgængelige data mining og analysemetoder for genomisk biomarkør udvikling og give yderligere støtte til brug af biomarkører til at guide hypotese-drevet grundlæggende videnskab forskning og præ-terapi kliniske beslutninger

Henvisning:. Covell GD ( 2015) data Mining Approaches for Genomic Biomarkør Development: programmer, der bruger narkotika Screening af data fra Cancer Genome Project og Cancer Cell Linje Encyclopedia. PLoS ONE 10 (7): e0127433. doi: 10,1371 /journal.pone.0127433

Redaktør: Anguraj Sadanandam, Institut for Cancer Research (ICR), Storbritannien

Modtaget: 22 oktober, 2014 Accepteret: April 15, 2015; Udgivet: Juli 1, 2015

Dette er en åben adgang artiklen, fri for alle ophavsrettigheder, og kan frit gengives, distribueres, overføres, ændres, bygget på, eller på anden måde bruges af alle til ethvert lovligt formål. Værket gøres tilgængeligt under Creative Commons CC0 public domain dedikation

Data Tilgængelighed: Alle data kommer fra Cancer Genome Project (CGP) (https://cancer.sanger.ac.uk/cosmic) og Kræft cellelinje Encyclopedia (CCLE) (https://www.broadinstitute.org/ccle/home)

finansiering:. Denne forfatter har ingen støtte eller finansiering til at rapportere

Konkurrerende interesser.: forfatteren har erklæret, at der ikke findes konkurrerende interesser.

Introduktion

Storstilet sekventering indsats spidsen for det meste af International Cancer Genome Consortium (https://icgc.org/) og The Cancer Genome Atlas (https://cancergenome.nih.gov/), har bidraget til udviklingen af ​​medicinsk behandling, der selektivt målrettet genomiske forandringer; som for eksempel; BCR-ABL1 translokationer (imatinib) [1,2], EML4-ALK translokationer (EGFR og ALK-hæmmere) [3] og BRAF: V600E mutation (BRAF-hæmmere) [4]. For nylig bestræbelser på systematisk at identificere genomiske ændringer, der kan tjene som biomarkører for terapeutisk stof modtagelighed har ført til samarbejde mellem Wellcome Trust Sanger Institute og Massachusetts General Hospital (data for mere end 700 udødeliggjort tumorceller og 138 cancer medicin) og de overordnede Institute og Novartis samarbejde (profilering 24 kræftmedicin tværs 479 udødeliggjort tumorceller); hver indsats styret, delvis ved den banebrydende NCI60 skærmen stof [5]. Selv kritikere af denne indsats ofte bemærke begrænsninger af immortaliserede humane tumorceller at redegøre passende for tumor-stroma interaktioner, immun overvågning, invasion og metastase, angiogenese og den rolle, stamceller populationer [6], er fortalere teste, om genomiske biomarkører stammer fra disse skærme kan bruges pålideligt at hjælpe hypotese-drevet grundlæggende videnskab indsats, og kliniske indsats for at tildele terapi, overvåge respons og forudsige udfald (f.eks Precision medicin, MATCH Trial, IMPACT, i-SPY). Som pipelinen af ​​nye lægemiddelkandidater opdagelser udvider sig, kan fremskridt i retning af at opnå mere effektive behandlinger blive hjulpet af forskningsindsatsen, at dyrlægen eksisterende, samt udvikle nye metoder til at identificere genomiske biomarkører, der er forbundet med renters effekt.

Baggrund

CGP [7] og CCLE [8] rapporter giver overbevisende sammenhænge mellem narkotika følsomhed (typisk målt ved log af koncentrationen lægemiddel til 50% væksthæmning, henvises til hele teksten som GI50) og specifikke genomiske ændringer inklusive genekspression (GE), genmutation (MUT), kopiere nummer (CN), og omplantning. Deres resultater finder fordele ved multi-genet, versus enkelt gen biomarkører, som indikatorer for tumor celle GI50; stammer, i den ene ende, fra manglende finde pålidelige sammenhænge mellem et enkelt gen forskydning og GI50; og, på den anden ende, fra tilfælde, hvor GI50 synes at være medieret af forskellige, noget usammenhængende, multi-gen, biologiske mekanismer. Desuden deres ekspert anvendelse af state-of-the-art data mining og statistiske metoder repræsenterer en systematisk tilgang, der givet resultater i overensstemmelse med narkotikarelaterede sensibiliserende translokationer og mutS kendt for at være prædiktiv for kliniske resultater. Kollektivt disse bestræbelser udgør et afgørende skridt i at få en forståelse af kræft, er baseret på den genomiske karakterisering af humane tumorprøver mod en række kræft narkotika reaktioner, der korrelerer med genomisk forandring. Da disse og andre systematiske indsats fortsætter, er det vigtigt at erkende, at offentlighedens adgang til CGP og CCLE data giver en rig og enestående mulighed for uafhængige vurderinger af disse data [9], der kan bidrage til den videre udvikling af multi-fremhævede genomiske biomarkører som retningslinjer for grundlæggende og præklinisk forskning og tidlige kliniske forsøg. Motiveret af disse mål, og bygning fra disse tidligere indsats, vil denne analyse fokusere på i) behandlingen af ​​de eksisterende resultater, ii) ved hjælp af alternative data mining og statistiske metoder til biomarkør opdagelse, iii) giver nye fortolkninger af CGP og CCLE databaser og iv) vurdere brugen af ​​biomarkører som forudsigende af tumorceller lægemiddelrespons.

Metoder

data mining og statistiske strategier anvendes på analyse af store databaser er ofte består af standard og brugerdefineret (ad hoc ) komponenter, der kan spille afgørende roller i fortolkningen af ​​data. De data mining og statistiske strategier anvendt her deler mange ligheder med dem, der anvendes i Garnett et al [7] og Barretina et al [8]:.. Inklusive hierarkisk klyngedannelse, Elastic Net (EN) regression og sti analyse af udvalgte gener. Bemærkelsesværdige afgange omfatter; i) ændringer af deres metode til hierarkisk klyngedannelse af GI50-værdier, ii) anvendelse af EN regressioner udelukkende er baseret på GES, iii) efterfulgt af vurderinger af roller CN og MUT i GI50 reaktioner, iv) udvidelser af EN gen sætter at omfatte Gene Set Berigelse Analysis (GSEA) til hypotesen biologiske veje bidrager til GI50 reaktioner, v) at anvende en samlet analyse af GE, KN og MUT data ved hjælp af en falsk opdagelse sats (FDR) -adjusted udvalg af væsentlige sammenslutninger af disse biomarkører med narkotika respons og vi) anvendelser af ROC-analyse for CGP-afledte genomiske biomarkører som indikatorer for GI50 i CCLE data. Korte beskrivelser af disse alternative metoder og vil blive diskuteret nedenfor. Mere detaljerede oplysninger findes i S1 File.

Hierarkisk Gruppering af GI50

Fravær af lignende GI50 værdier for lægemidler, der har den samme virkningsmekanisme (MOA) præsenterer en stor forhindring for forsøg på at associere genomiske signaturer med narkotika reaktion; og udvide disse foreninger til at hypotesen biologiske processer, der har roller i narkotika effektivitet. Som nævnt i CGP rapport [7], lægemidler med overlappende specificitet (i det følgende benævnt en MOA klasse) ikke altid deler korreleret GI50 værdier, heller ikke de altid deler genomiske signaturer. Den hierarkiske klyngeanalyse af Garnett et al. [7] klassificerede stoffer i

klynger

baseret på GI50 lighed, med intra-cluster narkotika korrelationer, hvilket giver 22

community klynger

ved hjælp af foranstaltninger af narkotika følsomhed for ~ 700 tumorceller i CGP data Supplerende tabel 1 [7]). Mens hensigten med indsatsen her ikke søger at udtømmende prøve tilgængelige hierarkiske clustering metoder og ordninger for at identificere

community klynger

, en rimelig god sammenhæng mellem GI50-værdier for narkotika af lignende MOA klasse kunne findes med mindre ændringer i grupperingsmetoder af Garnett et al. [7]. Snarere end hierarkisk clustering baseret på GI50 lighed, blev alle parvise GI50 korrelationer anvendes for hvert lægemiddel og randomiseret resampling [10] blev anvendt til bestemmelse

community klynger

. Denne clustering procedure, fås som CRAN installeret pakke, pvclust [10], i et sprog, R programmering, omhandler betydningen af ​​at sampling fejl bidrag til usikkerhed i klynge resultater ved hjælp af et randomiseret resampling metode til at identificere sager, der har en høj frekvens af forekommende som klynge medlemmer. Yderligere oplysninger om denne klyngeanalyse vises i S1 Fil: A. Hierarkisk Gruppering af GI50, figur A, Fig B og C. overensstemmelse mellem MOA klasse og DA GE

Elastic Net Regression af Gene Expression

Elastic Net (eN) regression er en statistisk procedure, der passer til en generaliseret lineær model af observationer (genomiske data) til GI50-værdier på tværs af en række tumorceller. Som et alternativ til at samle alle de genomiske data (GE, KN og Mut) i DA-analyse [7], at resultaterne her vil fokusere på EN analyse stammer kun fra GES målt i CGP tumorceller; efterfulgt af vurderinger af CN og MUT status for disse DA-afledte gener. DA-analyse er gennemført ved hjælp af glmnet pakke [11] i et sprog, R-programmering. Glmnet tilvejebringer en justerbar parameter, α, der tillader DA regression til at variere fra en lasso (α = 1) til en ryg (α = 0) regression. Sidstnævnte ansøgning genererer typisk en nøjagtig pasform (GI50

forudsagt) af GI50-data (GI50

observeret) ved hjælp af alle de GES for alle tumorceller med et GI50 måling, mens de lasso eksempel modellerne GI50 bruger et reduceret sæt af GES at give en mindre end perfekt pasform mellem GI50

forudsagt og GI50

observeret. Det er klart, en model, der passer GI50 perfekt, mens du bruger alle GES, giver ingen reduktion i antallet af gener for at vurdere deres potentielle rolle som biomarkører for en forbindelses GI50. Valg af en passende balance mellem godhed EN modellens fit til data og antallet af gener valgt i EN regression kan bestemmes ud fra resultater opnået ved forskellige værdier af α. For eksempel er den øvre panel i figur 1 plotter korrelationskoefficienten (GI50

observeret og GI50

forudsagt) versus EN gen tæller for α = 0,7. Evident fra dette resultat er tendensen til at opnå en bedre DA model passer med større antal af EN gener. Omvendt DA resultater, der bruger kun nogle få gener synes at have en nedsat evne til præcist at forudsige GI50. Den nedre panel i fig 1 plotter den gennemsnitlige korrelationskoefficient versus det gennemsnitlige antal af EN-gener (med EN regression konvergerende for 129 af de 138 lægemidler) for α fra 0,2 til 1.0. Som forventet, passer tendensen til bedre DA model med større antal gener (lavere værdier af α) er indlysende. Dette resultat finder en generel gruppering på det nederste venstre hjørne forα i intervallet fra 0,6 til 1.0. Ved hjælp af dette resultat blev et heuristisk udvalg af α = 0,7 valgt som en rimelig balance mellem godhed EN pasform og reducerede antal EN gener. Valg α = 0,7 gav en samlet montering nøjagtighed på ~ 0,5 (r

2) ved anvendelse gennemsnitligt 75 DA gener. Analyser baseret på lidt lavere eller højere valgmuligheder for α syntes ikke at stærkt påvirke resultatet at følge.

Plot af korrelationskoefficienten (GI50

forudsagt mod GI50

observeret) versus antallet af gener i konvergeret DA regressionsmodel for α = 0,7. Disse resultater giver en gennemsnitlig korrelation på 0,69 (± 0,12) mellem GI50

observeret og GI50

forudsiges med en gennemsnitlig antal 75 (± 44) EN gen udtryk for 129 stoffer, hvor EN regression konvergerede. Lavere panel. Plot af den gennemsnitlige korrelation mellem DA model passer versus deres gennemsnitlige antal EN gener. Resultater representα fra 0,2 til 1.0. Fejl- søjler repræsenterer standardafvigelse på middelværdien. Boxed region i nederste højre viser resultaterne for α = 0,5).

Et typisk output fra beregningen glmnet, ved hjælp af eksemplet med PD-0.325.901 (en MEK1 /2 målrette forbindelse), vises i figur C 3. Denne figur viser DA-genet tæller versus model Mean-Squared Error (MSE). Til dette eksempel modellen nåede et minimum MSE hjælp 103 gener svarende til et fald på 99,2% fra 13.325 genekspressioner i sættet af 514 tumorceller med en GI50 respons på PD-0.325.901. DA regression giver en korrelation på 0,84 mellem GI50

observeret og GI50

forudsagt. Figur 2 viser Heatmap (ved hjælp heatmap.2 i programmeringssproget R) for de 103 genekspressioner tværs 514 tumorceller til PD-0.325.901. Den længst til højre kant af dette billede viser en barplot for GI50

observeret for disse 514 tumorceller. Patchwork blokke af rød og blå i Heatmap repræsenterer relativt over og under udtrykte gener, henholdsvis udviser en kvalitativ sammenslutning af disse GE mønstre med barplot af GI50 for hver tumor celle vises i venstre kant. Heatmaps i EN GES vil blive brugt, kvalitativt, for visuelle sammenligninger af igen og under udtrykte gener forbundet med narkotika følsomhed og ufølsomhed.

Figur plotter de 103 gen udtryk (x-aksen) for de 514 tumorceller i EN model (y-aksen). Resultater skildrer kun tumorceller, der har en GI50 måling mod PD-0325901.Heatmap bestilles langs hver akse i henhold til de dendrogrammer vises øverst og venstre kant. Over og under udtrykte gener er angivet med røde og blå farver, hhv. GI50

observeret for disse 514 tumorceller vises som et søjlediagram på den højre kant af billedet. Barer til venstre og højre svarer til følsomme og ufølsomme GI50 reaktioner henholdsvis.

Overensstemmelse mellem MOA klasse og DA GE

DA regression gener kan udsættes for en hierarkisk klyngeanalyse til vurdere overensstemmelse mellem narkotika af lignende MOA klasser og deres DA gen udtryk (bruges til at modellere GI50). Overensstemmelse vil blive målt ved at bestemme, om a) DA gener vises som klynge naboer for lægemidler (dvs. MOA klasser) og b) om disse DA gener er relativt unik for hver MOA klasse. Besvarelse del a), vil fastslå, om MOA konkordans baseret på lighed i GI50

observeret foreligger også, når du bruger udtryk af EN gener bruges til at modellere GI50

observeret. Besvarelse del b) er afgørende for at udvikle gen udtryk som biomarkører for GI50 reaktion på specifikke MOA klasser af lægemidler og udvide disse resultater til at hypotesen biologiske veje, der er involveret i narkotika effektivitet. En mere detaljeret beskrivelse af denne analyse vises i S1 File; C. Overensstemmelse mellem MOA klasse og DA GE 🙂

GSEA analyse af EN afledte GES

Efter Garnett et al. [7], undersøgelse af EN gener for de mest og mindst følsomme tumorceller kan anvendes til at prioritere GI50-DA gen sammenslutninger. Mod herpå blev EN generne for hvert medikament filtreres ved at gennemføre en t-test for at identificere statistisk signifikante (p 0,05) EN GES mellem den øverste og nederste mindst 10

percentil af tumorceller narkotika reaktioner (dette modellen vil blive henvist til herefter som “minimal DA model” for hvert lægemiddel). Fig 3 viser Heatmap for den minimale DA model af PD-0.325.901 eksempel er vist i fig 2. I stedet for display GI50 som et søjlediagram ved kanten (som i figur 2), er GI50 data indlejret i Heatmap (se spalte mærket “GI50 ‘beliggende nær centrum af billedet), hvor de mest følsomme celler, identificeret i mørkeblå, vises i de øvre og nedre dele af heatmap og de mest resistente celler, med deres GI50-værdier er identificeret i rød, vises i den midterste del af heatmap. I dette eksempel, en samlet reduktion på 82% (1-94 /514) i tumor celletal og en reduktion på 11% (103 ned til 94 gener) i PD-0.325.901 s EN gen sæt forblive i sin minimale EN model.

Relativ lidt og under ekspression er angivet med røde og blå henholdsvis. GI50-værdier for PD-0.325.901 er indlejret i Heatmap, placeret som kolonnen nær midten, mærket som GI50. GI50-værdier for følsomme og resistente tumorceller er angivet med blå og røde farver, hhv.

DA regression repræsenterer et middel til at identificere et reduceret sæt gener, hvis udtryk er tilstrækkelig til at give en rimelig model af hver lægemidlets GI50 respons (se fig 1) og kan anvendes til at hypotesen biologiske veje, der kunne spille en rolle i et lægemiddel respons. Mange beregningsværktøjer øjeblikket findes for sti analyse (GSEA, DAVID, Opfindsomhed, etc.). Inkluderet i advarende advarsler for disse metoder er, at resultaterne kan føre til over fortolkninger, når generne er delt mellem mange veje, eller give nogen oplysninger, for de tilfælde, enten mangler statistisk signifikante veje eller hvor et stort antal veje findes der ikke afslører en konsekvent biologisk tema. GSEA [12] tilbyder en heuristisk hedge mod disse advarsler ved at begrænse resultaterne til kun veje med mindst 2 fælles gener og anvendelse af en falsk Discovery Rate (FDR) mod en chance at finde på den typiske tærskel på 0,05. Den tidligere krav undgår tilfælde af et stort antal veje med kun én DA gen, mens sidstnævnte krav begrænser chancen forekomst af veje med mange fælles, og hyppigt forekommende, gener. Ud fra disse overvejelser, GSEA, ved hjælp af minimal DA-afledte GES, blev anvendt til at hypotesen biologiske processer, der kan være relateret til lægemiddel respons. GSEA rapportering vil være begrænset til kun den øverste signifikant (FDR score) veje, er begrænset til højst 10 sager.

Indberetning af GSEA resultater vil understrege tilbagevendende biologiske temaer for væsentlige veje snarere end individuelle veje. Som en illustration, GSEA [12] veje, afledt af Kegg, BIOCARTA og GO gen delmængder, ved hjælp af minimal DA GES for MEK-inhibitor, PD-0.325.901, er anført i tabel C. Disse resultater finder DNA_REPAIR som GSEA pathway med den bedste statistiske signifikans, med RESPONSE_TO_DNA_DAMAGE_STIMULUS og DNA_METABOLIC_PROCESS som de næste væsentligste veje. Længere nede på listen er tre veje relateret til SIGNALERING. De generelle temaer disse GSEA resultater indikerer, at tumorcellen respons på PD-0325901 ville blive hypotese at involvere DNA og signaler. Tegn på en sammenhæng mellem MEK-ERK signalering og DNA_REPAIR er blevet rapporteret af Sato et al. [13] og Marampon et al. [14], hvilket fører til forslaget om at bruge MEK-inhibitorer til at øge tumorceller radiosensitivitet ved nedregulering DNA reparation signaler . For nylig Pei et al. [15] har foreslået en kombinationsterapi til myelomatose ved anvendelse af en CHK1 inhibitor at forhindre celler i standsning i faser af cellecyklussen, som letter reparationen af ​​DNA-beskadigelse og en MEK-inhibitor til at forhindre celler i at aktivere en række proteiner, der regulerer DNA-reparation processer og samtidig fremme ophobning af pro-død proteiner. De GSEA fund her, af pathway temaer relateret til DNA-reparation eller skader og cellesignalering, er i overensstemmelse med hypoteser en rolle PD-0352901 i signaler relateret til DNA vedligeholdelse.

betydelig forsigtighed skal anvendes ved fortolkningen af ​​disse resultater . For eksempel, selv om de andre tre MEK1 /2-inhibitorer, CI-1040, AZD6244 og RDEA199, møde inden for den samme klynge, baseret på GI50 (tabel A) og EN GES (tabel B og fig D), kun AZD6244 deler nogle af dens GSEA veje med PD-0325901, mens CI-1040 og RDEA119 ikke. Kollektivt, disse resultater, og samtidig støtte en generel sammenhæng i disse MEK1 /2-hæmmere er GI50 profiler (tabel A), med en tilstrækkelig unikt sæt af EN gener for dem at blive vist inden for almindelige klynger (tabel B og Fig D), udbytte EN gener tilstrækkeligt forskellige fra hinanden for at generere ikke-overlappende GSEA pathways. En plausibel faktor, der bidrager til disse EN-genet GSEA forskelle kan være cellulær potens, hvor PD-0325901 er i gennemsnit mere end en størrelsesorden mere potent end de øvrige tre MEK1 /2-inhibitorer for CGP tumorceller. Tilsyneladende DA generne for PD-0325901 er tilstrækkeligt enestående til at afsløre sin rolle i DNA vedligeholdelse og signalering ikke fundet for de andre MEK1 /2-hæmmere. Disse resultater understreger sandsynligheden for, at selv om forbindelser kan dele en formodet MOA mål og generere lignende GI50 reaktioner, GSEA af minimale DA gener udgør kun en hypotetisk sammenhæng mellem unikke sæt af EN gener og specifikke biologiske processer relateret til hvert lægemiddel er GI50. Mens eksisterende litteratur støtte vil blive ydet for GSEA valgt veje, vil biologisk bekræftelse klart være påkrævet.

Global analyse af KN og MUT for minimal EN GES

Resultaterne for de enkelte lægemidler kan udvides til omfatter en samlet analyse af de CGP data, der beskriver mutS og CN ændringer, som potentielt spille en rolle i lægemiddelrespons. Analogt til den tidligere analyse, hvor minimal DA gener blev identificeret baseret på at have en statistisk signifikant forskel i GE mellem de mest og mindst følsomme tumorceller, kan betydelige gen mutS og KN ændringer bestemmes på samme måde. Vælge hvert lægemidlets minimale DA tumorceller blev en to-halet t-test anvendes til at beregne alle p-værdier baseret på MUT eller CN forskelle mellem de mest følsomme og resistente tumorceller. Disse resultater blev filtreret ved anvendelse af et Benjamini-Hochberg (B-H) [16] falsk opdagelse på 0,1 til identifikation markant forskellige biomarkører. Den t-statistik for disse sammenligninger giver en bekvem foranstaltning for hierarkisk gruppering af betydelige resultater. Heatmap visualiseringer kan være farvekodede fra blå til rød for at angive styrken af ​​statistisk signifikans, hvor den røde del af spektret afspejler de tilfælde, hvor de resistente tumorceller udviser højere biomarkør responser sammenlignet med de følsomme tumorceller og den blå del af spektrum repræsenterer ved højere biomarkør værdier i de følsomme tumorceller sammenlignet med tumorceller. Antallet af væsentlige mutS er tilstrækkeligt små til at associere delmængder af gener til specifikke GSEA veje. I modsætning hertil er antallet af gener med væsentlige KN ændringer er tilstrækkeligt store til at kræve yderligere hierarkisk gruppering af GSEA veje for at lette fortolkning.

GSEA analyse af væsentlige mutS og CNS

Heatmap visualiseringer af den statistisk signifikante mutS og CNS, der passerer BH-justerede tærskelværdi for statistisk signifikans kan anvendes til en globalt-baserede GSEA. Klyngen dendrogrammer af væsentlig CN og mutS kan skæres til at give små grupper af gener for GSEA. Disse resultater generere en globalt afledt FDR-korrigeret betydning score for biologiske veje, der er forbundet med sub-klynger af minimal EN GES. Gruppering af disse globalt afledte resultater kan anvendes til at knytte GI50 responser med biomarkører med statistisk signifikans mellem resistente og sensitive tumor celle responser.

ROC-analyse af CGP ges som prædiktive for CCLE lægemiddelrespons

‘signatur’ gener er almindeligt anvendt til at vurdere, om en delmængde af gen udtryk er tilstrækkeligt sammenlignelige til at angive en sandsynlighed for en lignende biologisk tilstand eller terapeutisk respons [17,18]. Minimal EN GES kan også foreslået som signatur gener til at forudsige lægemiddelrespons. For at teste denne forudsætning blev de minimale DA GES udviklet til CGP sæt lægemidler, der anvendes til at selektere for ikke-CGP tumorceller med matchende GES som prædiktorer for lægemiddeleffektivitet for testlægemidler. Manglende opnå nogen succes med denne metode kan påvirke fremtidige anvendelser af denne fremgangsmåde. Dog kan moderat succes tilbyde motivation for at udtænke mere optimale skridt for at opnå gunstige resultater med denne tilgang. Den CCLE datasæt (24 testet mod 479 tumorceller narkotika) deler 16 lægemidler med CGP datasæt. Brug af CGP-afledte minimal DA model for hver af de 16 matchende narkotika, vil GES mellem disse to datasæt sammenlignes (ved hjælp af deres gennemsnitlige kvadrerede fejl, MSE) og anvendt til at rangere det komplette sæt af CCLE tumorceller. For at “prøve” biomarkør at have prædiktiv nytte, skal MSE scorer korrekt rang et CCLE tumor celles drug svar inden toppen (følsom) eller bunden (resistente) over alle CCLE tumorceller. Kun top 5

percentil af MSE scorer for de CCLE tumorceller vil blive udvalgt. Det er bemærkelsesværdigt at understrege, at den minimale DA model bruger GES at forudsige GI50. Således følsomhed og modstand er integrerede dele af denne model. Standard vurdering af falske /ægte-positiver /negativer ved hjælp Rocs vil blive brugt til at evaluere resultaterne.

Resultater

Hierarkisk gruppering af GI50

overensstemmelse mellem lægemidler i samme MOA klasse og GI50 finder rimelig god aftale. Ved hjælp af en modificeret hierarkisk klyngedannelse (pvclust) og en modificeret metrisk (alle-til-alle korrelationer af GI50), over halvdelen (16/30 = 0,53) af de lægemidler, der deler en MOA klasse også blive vist inden for samme samfund klynge; med 4 af de 5 SRC agenter fælles for en klynge. Denne analyse blev udvidet til at bestemme overensstemmelsen mellem MOA og co-gruppering af EN-afledte GES (se S1 File -. C. Overensstemmelse mellem MOA klasse og DA GE for flere detaljer). Filtrering af 129 lægemidlets DA regressioner der konvergerede og gav større end 10 DA gener gav færre end ~ 2k af de oprindelige 13.325 GES for de 87 stoffer, der deler mindst 2 DA gener. Hierarkisk klyngedannelse af genekspression for disse filtrerede gener (Fig D) finder, at mere end to tredjedele (59/87 = 0,68) af EN gen udtryk for lægemidler med en delt MOA vises i samme klynge. Disse resultater indikerer, at hierarkisk klyngedannelse, baseret på GES afledt fra DA-regressionsmodeller af GI50, giver en højere konkordans inden MOA lægemiddelklasser sammenlignet med clustering baseret på GI50 lighed alene. Den gennemsnitlige overlap på kun 1,67 mellem DA-gener for hvert lægemiddel antyder, at EN-gener er relativt unikt for hvert lægemiddel. Kollektivt, den relativt høje konkordans, enten ved hjælp af GI50 eller EN-afledte GES som model GI50, og tilstedeværelsen af ​​relativt få delte gener i hvert lægemidlets EN model, understøtter den potentielle anvendelse af gen-baserede foranstaltninger som unikke biomarkører for GI50.

minimal eN regression

Hvert lægemiddel minimale DA model giver et reduceret sæt af gener, der kan spille en rolle i sin GI50. Efter rapporten fra Garnett et al. [7], kan den minimale EN GES, centralnervesystemet og mutS med den største statistisk signifikans mellem følsomme og ufølsom tumor celle respons undersøges for overensstemmelse med litteraturen rapporter, samt hypoteser nye biologiske roller i hver lægemiddel respons. Resultater for udvalgte forbindelser vil blive rapporteret.

Cisplatin.

Det første eksempel, ved hjælp af DNA-cross-linker, cisplatin, bekræfter resultaterne af Garnett et al. [7] Seventy DA gener og 108 tumorceller definere sin minimale DA model. Statistisk analyse af signifikante forskelle i KN og MUT status kun de minimale DA generne for cisplatin følsomme og resistente tumorceller (anført i tabel 1), finder, at følsomhed over for cisplatin er forbundet med mutS i EWS_FLI1, PTEN, ERBB2 og APC (http: //cancer.CGP.ac.uk/CGP/gene/overview?ln=APC og Niedner et al. [19]). Ikke inkluderet i CGP rapport [7] er fremkomsten af ​​KRAS_MUT som en potentiel biomarkør for cisplatin følsomhed. Støtte til denne ekstra perspektiv forekommer nylig i Lin et al. [20], hvor KRAS_MUT viste sig at være en forudsigelse af følsomhed over for cisplatin analog oxaliplatin. KRAS overekspression af mutant vektorer forårsaget excision reparation tværs komplementering gruppe 1 (ERCC1) nedregulering i protein og mRNA-niveauer, og forbedret oxaliplatin følsomhed. Betydningen af ​​XRCC1 i cisplatin følsomhed støttes yderligere af Xu et al. [21], hvor proteinet ekspression af XRCC1 var signifikant forøget i cisplatin-resistente celler og uafhængigt bidraget til cisplatin modstand. Resultaterne i tabel 1 strækker også cisplatin analyse at hypotesen roller i cisplatin følsomhed til KN ændringer i to histon lysin demethylases (KMD6A_CN og KMD5C.JARDIC_CN). Epigenetiske roller histon lysin demethylases er begyndt at dukke op som vigtige i bryst- og ovariecancer [22].

Bortezomib.

Den minimale EN regressionsmodel for bortezomib består af 44 gener og 64 tumorceller (fig E), der er modelleret GI50

observeret med en korrelationskoefficient på 0,69. Statistiske resultater for de øverste væsentligste differentielt udtrykte minimale DA-gener mellem følsomme og ufølsomme tumorceller er anført i tabel 2. Fremkomsten af ​​NQO2 øverst af denne liste kan give udnyttes information om bortezomib terapi. NQO2 er et flavoprotein, fungerer som en quinon oxidoreduktase, kendt for at beskytte celler mod stråling og kemisk induceret oxidativ stress. Den 20S proteasom og NQO2 begge interagere med myeloid differentiering faktor C /EBPalpha [23]. En anden quinon oxidoreduktase, NQO1, blev fundet af CCLE [8] for at være den øverste indikator for følsomhed over for Hsp90 inhibitor 17-AAG. Hsp90 spiller en rolle i samlingen og vedligeholdelsen af ​​proteasomet [24]. Samtidig hæmning af Hsp90 og proteasomet forbedrer antitumoraktivitet af begge lægemidler [25]. Selv om den nøjagtige mekanisme for denne observation endnu ikke er løst, den præsenteres her resultat tyder en dobbelt rolle for quinon oxidoreduktase biomarkører (NQO2, NQO1) i brugen af ​​HSP90 /proteasom målrette midler som enkelt og kombinerede terapier [25].

temsirolimus.

det næste eksempel, for mTOR targeting middel temsirolimus, gav en minimal DA model, som består af 67 gener og 108 tumorceller.

Be the first to comment

Leave a Reply