PLoS ONE: Robust Forudsigelse af Anti-Cancer Drug Følsomhed og følsomhed-specifikke biomarkør

Abstrakte

Den personlige genomforskning æra har tiltrukket en stor mængde af opmærksomhed for anti-cancer terapi af patient-specifik analyse. Patient-specifikke analyse muliggør opdagelsen af ​​individuelle genomiske egenskaber for hver patient, og således kan vi effektivt forudsige individuel genetisk risiko for sygdom og udføre personlig anticancerterapi. Selvom de eksisterende metoder til patient-specifik analyse har med held afdækket afgørende biomarkører, deres præstationer tager en pludselig tur til det værste i overværelse af outliers, da metoderne er baseret på ikke-robuste manerer. I praksis kliniske og genomiske ombygninger datasæt indeholder normalt outliers fra forskellige kilder (fx eksperimentere fejl, kodning fejl, etc.) og de afvigende væsentligt omfang kan påvirke resultatet af patient-specifikke analyser. Vi foreslår en robust metode til patient-specifik analyse i tråd med NetwrokProfiler. I den foreslåede metode, er outliers i høje dimensionelle genekspression niveauer og narkotika respons datasæt samtidigt styret af robust Mahalanobis distance i robust hovedkomponent plads. Således kan vi effektivt at udføre til forudsigelse anticancerlægemiddel følsomhed og identifikation følsomhed-specifikke biomarkører for enkelte patienter. Vi observerer gennem Monte Carlo-simuleringer, at den foreslåede robust metode producerer fremragende præstationer til at forudsige respons variabel i tilstedeværelse af outliers. Vi anvender også den foreslåede metode til Sanger datasæt med henblik på at afdække kræft biomarkører og forudsige anti-cancer stof følsomhed, og vise effektiviteten af ​​vores metode

Henvisning:. Park H, Shimamura T, Miyano S, Imoto S (2014) Robust Forudsigelse af Anti-Cancer Drug Følsomhed og følsomhed-specifikke biomarkør. PLoS ONE 9 (10): e108990. doi: 10,1371 /journal.pone.0108990

Redaktør: María Mar Abad-Grau, Granada Universitet – Q1818002F, Spanien

Modtaget: April 3, 2014 Accepteret: August 27, 2014; Udgivet: 17 oktober 2014

Copyright: © 2014 Park et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed:. Det forfattere bekræfter, at alle data, der ligger til grund resultaterne er fuldt tilgængelige uden restriktioner. Den Sanger Genomics of Drug Følsomhed i Krebsen datasæt fra Cancer Genome Project (https://www.cancerrxgene.org/)

Finansiering:. Forfatterne modtaget nogen specifik finansiering til dette arbejde

konkurrerende interesser:. forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

for nylig har talrige undersøgelser forsøgt at personlig terapi og medicin baseret på avancerede biomedicinske teknologier [2], [9] . Et afgørende spørgsmål for personlig genom forskning er at afsløre de genomiske træk af den enkelte patient, der er relevante for behandling. Det elastiske net-typen legaliseret regression (fx højderyg [11], lasso [29], elastisk net [34], etc.) har været meget anvendt til at afdække biomarkører, og med held udført for at identificere genomiske funktioner og forudsige respons variabel baseret på high-dimensional genekspression datasæt. Metoderne kan dog kun give resultater, baseret på de gennemsnitlige genomiske karakteristika for alle patienter. I det væsentlige, er det endnu ikke muligt at bruge disse metoder til at identificere genomiske funktioner til den enkelte patient, og dermed er det svært at effektiv personlig behandling og medicin.

Wang et al. [30] betragtes de patientspecifikke pathway aktiviteter baseret på en blandet model, hvor de faste effekter modelleret den gennemsnitlige vej af gen udtryk profiler til patientgrupper og tilfældige effekter beskrevet patient variationer fra gruppen betyder. Shimamura et al. [28] foreslået en metode, der kaldes en NetworkProfiler, til identifikation af patient-specifikke regulatoriske netværk gen er baseret på en varierende koefficient model og kernel-baserede elastisk net-typen legaliseret regression. Ved at anvende en Gaussisk kerne funktion kan NetworkProfiler effektivt at udføre patientspecifik analyse baseret på kvarter prøver omkring en patient. Selvom de eksisterende elastisk net-type legaliseringsprogrammer metoder fungere effektivt for patient specifik analyse, deres præstationer tage en pludselig tur til det værste i overværelse af outliers, fordi metoderne er konstrueret af ikke-robuste manerer (fx mindste kvadraters tab funktion). I praksis de kliniske og genomiske ombygninger datasæt indeholder normalt outliers fra forskellige kilder (f.eks eksperiment fejl, kodning fejl, etc.), og dermed de eksisterende metoder kan ikke effektivt afdække patient-specifikke biomarkører og forudsige anti-cancer drug følsomhed.

Selv om spørgsmålet er kritisk vigtigt, relativt lidt opmærksomhed er blevet betalt til robustheden af ​​patient-specifikke analyser. Vi anser en robust metode til at afdække patientspecifikke genomiske funktioner og forudsige anti-cancer drug respons på linje med NetworkProfiler. Det genomiske ændringer datasæt er sædvanligvis konstrueret med et stort antal funktioner for et lille antal prøver (dvs. høj dimensional datasæt), og detektering og kontrol outliers i en høj dimensional datasæt er vanskelige opgaver. Vi henviser til fremgangsmåde til styring outliers ved at bruge robuste Mahalanobis distance baseret på principal komponent analyse (PCA) [25]. Ved at bruge de vigtigste komponenter, kan vi opdage outliers i en høj dimensional genomisk ændring datasæt baseret på solid Mahalanobis afstand ved at overvinde beregning af invers kovarians matrix. På grund hovedbestanddelen rum er defineret ved at maksimere variansen langs hver komponent, og outliers øger variansen af ​​data, kan vi effektivt at udføre outlier detektion [5], 25.

Vi foreslår en robust modellering strategi for patient-specifik analyse, der udleder patientspecifikke biomarkører forbundet med anti-cancer stof respons. Den foreslåede strategi er baseret på kernel-baserede elastisk net-typen legalisering, og dermed kan udføre patient-specifik analyse gennem kvarteret prøver omkring et mål patient. Endvidere kan vores metode udføre effektivt til forudsigelse anticancerlægemiddel følsomhed og identifikation lægemiddelrespons-specifikke biomarkører for hver patient selv i nærvær af afvigende værdier, da metoden er baseret på en robust legaliseret regression ved anvendelse af en vægt gennem Mahalanobis distance i hovedkomponent plads [25].

Vi gennemfører Monte Carlo-simuleringer til at undersøge effektiviteten af ​​den foreslåede metode, og viser den fremragende præstation af vores metode i visningen punkt forudsigelse nøjagtighed. Vi anvender også den foreslåede modellering strategi til den offentligt tilgængelige Sanger Genomisk af Drug Følsomhed i Krebsen datasæt fra Cancer Genome Project (https://www.cancerrxgene.org/). Vores metode afdækker biomarkører for de enkelte patienter og forudser anti-cancer drug respons givet som IC50 værdier baseret på genekspression niveauer. Selvom Monte Carlo simuleringer og ansøgning til Sanger datasæt, kan vi se, at vores metode udfører effektivt til patient-specifikke træk udvælgelse og forudsigelse af interessante responsvariabel, selv ved tilstedeværelse af outliers.

Metoder

Antag at vi har uafhængige observationer, hvor er tilfældige responsvariabler (f.eks anti-cancer stof respons) og

s

dimensionale vektorer af de prediktorvariabler (f.eks genomiske ombygninger). Betragt den lineære regressionsmodel, (1) hvor er et skæringspunkt, er en ukendt

s

dimensional vektor af regressionskoefficienter og er de tilfældige fejl, der antages at være uafhængigt og identisk med middelværdi 0 og varians.

for at afdække en biomarkør, de elastisk net-type legaliseringsprogrammer metoder (f.eks, højderyg, lasso, elastisk net, osv) er blevet udbredt, og anvendt med succes til at identificere vigtige gener baseret på følgende optimeringsproblem, (2), hvor (3), og hvor en legalisering parameter styrer model kompleksitet. Straffen løbetid elastiske net er en konveks kombination af højderyggen og lasso straffe. Når det elastiske net bliver højderyg regression med en straf, hvorimod når det bliver den lasso med en straf. Den elastisk net udfører variabel udvælgelse og vurdering sammen med egenskaberne for både lasso og ridge regression for.

elastisk net-typen sanktioner muligt for os at samtidigt at identificere vigtige biomarkører og forudsige lægemiddelrespons. Desuden kan vi effektivt at udføre regression modellering i den høje dimensionelle genomiske forandringer datasæt og i nærværelse af multikollinaritet ved at pålægge sanktionen på mindste kvadraters tab funktion. Selvom de eksisterende metoder med held identificere vigtige biomarkører og viser bemærkelsesværdige resultater til at forudsige lægemiddelrespons, er de blevet brugt til at identificere gennemsnit biomarkører for alle patienter. Med andre ord kan den nuværende metode ikke identificere patientspecifikke karakteristika i en sygdom.

NetworkProfiler

Shimamura et al. [28] foreslået en ny statistisk metode til at udlede patientspecifikke regulatoriske netværk gen er baseret på en varierende-koefficient strukturel ligning model. Lad være mulige regulatorer, og være målgenet styret af lovgivere på [28]. Den varierende koefficient strukturelle ligning model for er givet som (4) hvor er en regression koefficient på på for modulatoren. De patientspecifikke regressionskoefficienter estimeres via kernel-baserede legalisering metode ved at minimere, (5), hvor, og (6) hvor er en vægt for en rekursiv elastisk net straf for effektiv funktion valg [28], og er en Gaussisk kerne funktion med båndbredde, (7)

Gaussisk kerne funktionen bruges til at passe til modellen, baseret på vores prøver i kvarteret omkring patienten. Ved at bruge Gauss kerne funktion i normaliseret regression, udfører NetworkProfiler effektivt at udlede patient-specifikke gen regulatoriske netværk, og resultaterne giver os mulighed for en effektiv personlig anti-cancer terapi.

Det er imidlertid velkendt, at de genomiske ombygninger datasæt indeholder normalt outliers fra forskellige kilder (f.eks eksperiment fejl, kodning fejl, etc.). Det indebærer, at den nuværende metode ikke ville klare sig godt til at afdække biomarkører og forudsige anti-cancer medicin reaktion, fordi den eksisterende metode i (5) er baseret på en straffet mindste kvadraters tab funktion. Det blev tidligere vist, at de elastiske net-typen legaliseringsprogrammer metoder, der er baseret på mindste kvadraters tabsfunktion klarer sig dårligt i nærvær af afvigende værdier, og er blevet foreslået flere robuste metodologier til at overvinde ulemperne ved en mindste kvadraters tabsfunktion i normaliseret regression modellering [ ,,,0],1], [14], [25].

Vi foreslår en robust metode til patient-specifik analyse i tråd med NetworkProfiler.

robust legalisering for outlier-resistente patient-specifikke analyser

Vi viser først, hvordan outliers kan påvirke estimationen processen ved brug af straffet mindste kvadraters metode. Figur 1 viser iteration for koefficienterne under optimeringen af ​​den legaliseret regression modellering med en lasso straf [25] under de oprindelige og forurenede diabetes datasæt [3] i (A) og (B), henholdsvis. Det forurenede datasæt indeholder 10% outliers i og blandt de 10 forudsigelsesvariable. Koefficienterne konvergerede efter 26 iterationer i den oprindelige datasæt, som vist i figur 1 (A). I nærvær af outliers imidlertid optimeringsproceduren med lasso estimator forstyrres og iteration nummer kræves for konvergens er steget betydeligt som vist i figur 1 (B). Dette indebærer, at outliers væsentligt forstyrrer normaliseret regression modellering, og dermed kan føre til dårlige resultater afdække biomarkører og forudsige lægemiddelrespons hvor patient-specifik analyse.

Vi foreslår en robust metode til effektivt at afdække patient- specifikke kræft biomarkører og forudsige anti-cancer drug følsomhed i overensstemmelse med NetworkProfiler. Den genomiske funktioner datasæt er konstrueret med et stort antal af funktioner og et relativt lille antal prøver (dvs. høj dimensional datasæt), og påvise og kontrollere outliers i en høj dimensional datasæt er generelt vanskelige opgaver. For at løse problemet, mener vi vægten til styring outliers baseret på robust Mahalanobis afstand beregnet i robust hovedkomponent plads, som tidligere påvist af Park og Konishi [25], (8) hvor er den 95% fraktil af distributionen [14] , og er en robust Mahalanobis afstand baseret på robust skønnet middelværdi og kovarians matrix ved Minimum Volume Ellipsoid (MVE) beregnet i den robuste hovedkomponenter plads som følger (9) hvor er en matrix af robuste hovedkomponenter baseret på robuste belastninger ved hjælp af fremskrivningen-udøvelse teknik [12]. Ved at bruge den robuste hovedkomponent plads, kan vi effektivt at påvise outliers baseret på den robuste Mahalanobis distance, således overvinde beregning af den inverse kovariansmatricen i en høj dimensional datasæt. Endvidere er hovedkomponenter rum defineret ved at maksimere variansen langs hver komponent, og da outliers øger variansen af ​​datasæt, er vi i stand til mere trofast detektere outliers [5]. Det indebærer, at vægten er baseret på den robuste Mahalanobis afstand beregnet i robust hovedkomponent rum er et nyttigt værktøj til at styre outliers i høje dimensionelle genomiske data.

Vi henviser til vægten i (8) for outlier-resistent patient -specifikke analyser, og foreslå en robust metode til at afdække biomarkører og forudsige narkotika følsomhed for den enkelte patient som følger (10) (11), hvor er en vægt på den adaptive elastisk net straf [35].

foreslåede modellering strategi effektivt udføres ved hjælp af koordinat afstamning algoritme baseret på det vægtede opdatering [6]. Vores metode kan effektivt udføre patient-specifikke analyse baseret på Gauss kernel funktionen, og en effektiv ydeevne konsekvent kan leveres selv ved tilstedeværelse af outliers ved at styre outliers gennem vægten.

Resultater

Vi undersøge effektiviteten af ​​den foreslåede modellering strategi som en robust metode til patient-specifikke analyser gennem Monte Carlo simuleringer og anvendelse til kræft genomics data. For at evaluere den foreslåede metode, vi sammenligner forudsigelsen nøjagtighed og variable resultater af vores metode valg, den NetworkProfiler og elastisk net. I vores undersøgelse er NetworkProfiler anvendes til at afdække individuelle biomarkører i stedet for gen-net. For de numeriske studier, bruger vi den adaptive elastisk net straf [35] i den foreslåede metode, NetworkProfiler og elastisk net. Vi vælger de tuning parametre og båndbredde i Gaussian kerne funktion er baseret på k-fold krydsvalidering [18], (12), hvor er validering prøver til, og data bliver brugt til at estimere for hver. I numeriske studier, bruger vi 3-fold krydsvalidering, som er blevet anvendt i høje dimensionelle dataanalyse som genomisk dataanalyse [13], [20], [22], [26], [32]. Det robuste Mahalanobis afstand beregnes på grundlag af de robuste vigtigste komponenter, der bidrog 95% af den samlede variation.

Monte Carlo simuleringer

Vi simulerede 100 datasæt bestående af observationer fra modellen (13), hvor antages at være fordelt som og er genereret ud fra en ensartet fordeling for. Sammenhængen mellem og er med i dimensional flerdimensionale normalfordeling med middelværdi nul. Vi betragter en 1000 dimensional vektor af koefficienter med tilfældigt udvalgte 100 ikke-nul og 900 nul-koefficienter.

To typer af koefficientværdier funktioner i ovenstående varierende koefficient model betragtes, som vist i figur 2. Vi betragter af prøver som outliers i prøver. Hvis prøven er en outliers, og af den opfølgning. Her sætter vi, og 20, og og simuleringer 1 og 2, hhv.

Vi anser en uddannelse datasæt med 75 prøver og en test datasæt med 25 prøver i hver 100 simuleringer. De hyperparametrene er udvalgt af tre gange krydsvalidering i uddannelsen datasættet, og forudsigelsesfejl er beregnet i test datasæt baseret på de valgte parametre. Vi derefter sammenligne forudsigelsen nøjagtighed givet som gennemsnittet af medianen squared fejl, og den variable udvælgelse nøjagtighed givet som sand positiv (dvs. gennemsnitlig procentdel af ikke-nul koefficienter, der blev vurderet som ikke-nul) og sand negativ (dvs. gennemsnitlige procentdel af sande nul-koefficienter, der blev korrekt sat til nul) for hver af de 100 genererede datasæt.

et stort antal prediktorvariabler fører til tidskrævende analyse, og således øger den samlede beregningsmæssige omkostninger ved en fremgangsmåde . Desuden er det blevet afsløret, at et stort antal prediktorvariabler med støjende gener kan forstyrre modellering procedure, og således fører til dårlige forudsigelsesresultater [19]. Tabel 1 viser forudsigelsen rigtigheden af ​​NetworkProfiler baseret på alle funktioner og baseret på en på forhånd udvalgt lille række funktioner, der har den højeste varians. Det kan ses gennem tabel 1, at behandlingen af ​​alle funktioner ikke producerer høj forudsigelse ydeevne i forhold til udførelsen af ​​en regressionsmodel bygget på en på forhånd udvalgt mindre antal funktioner. Det indebærer, at der ikke er behov for at overveje alle funktioner til patient-specifik analyse, fordi det fører til ineffektiv modellering uden at forbedre model ydeevne.

Derfor sammenligner vi den foreslåede robust metode til NetworkProfiler og elastisk net baseret på modellen med prediktorvariabler, der har den højeste varians i alle prøver. Tabel 2 og 3 viser simuleringen resultater (dvs. sand positiv (TP), sand negativ (TN) og forudsigelse fejl (PE)) i simulationer 1 og 2, henholdsvis, hvor fede værdier angiver de bedste resultater blandt de tre metoder ( dvs, elastisk net: ELA, NetworkProfiler: NP, robust metode: R). Den varierende koefficient model producerer diskriminerende resultater variable udvælgelseskriterier i hver prøve, og derfor vi sammenligner kun funktion udvælgelsesresultaterne af NetworkProfiler og foreslåede robust en, fordi det elastiske net ikke kan udføre prøve-specifik funktion udvælgelse.

tabel 2 og 3 viser, at den foreslåede robust metode til patient-specifik analyse overgår til at forudsige respons variabel i alle simulation situationer og koefficienten funktionstyper. Vi observerer også, at den foreslåede robust metode og NetworkProfiler gør ingen forskel medfører variabel valg. Ud fra resultaterne kan vi se, at kontrollere outliers i modelleringen procedure producerer outlier-resistente estimationsresultater, og resultaterne fører til fremragende forudsigelse af interessante responsvariabel

Fast verden eksempel:. Sanger datasæt

Vi anvender den foreslåede modellering strategi til den offentligt tilgængelige Sanger Genomics of Drug Følsomhed i Krebsen datasæt fra Cancer Genome Project (https://www.cancerrxgene.org/). Hovedformålet med projektet er at identificere de molekylære funktioner i forskellige kræftformer og til at forudsige følsomhed af anti-cancer medicin. Datasættet består af genekspression niveauer, antal kopier og mutation status for 654 cellelinjer. IC50-værdierne (dvs. halvmaksimal inhiberende lægemiddel koncentrationer) af 138 lægemidler gives som den naturlige logaritme af lægemiddel følsomhed værdi. IC50-værdierne fra Sanger datasættet indeholder ikke et par af manglende værdier, og dermed udfører vi biomarkører opdagelse og anti-cancer stof reaktion forudsigelse baseret på 200 tilfældigt udvalgte prøver, hvoraf 150 cellelinjer blev anvendt som en træningsdata og 50 cellelinjer blev brugt som en test data for hver af de 138 stoffer.

for at vurdere den foreslåede robust metode, vi først beslutte, om datasættet konstrueret med IC50-værdier for hvert lægemiddel og ekspressionsniveauer af 13,321 gener er forurenet eller ej. For hver af de 138 datasæt (dvs. genekspression niveauer og IC50-værdier), der svarer 138 stoffer, finder vi en første principale komponent i datasættet, og derefter beslutte baseret på følgende kriterium, (14), hvor er den robuste Mahalanobis beregnet ud fra den første hovedkomponent. Kriteriet har en værdi på nul i en ikke-forurenet datasæt, mens en stor værdi angiver, at datasættet indeholder outliers. Figur 3 viser de sorterede værdier for de 138 datasæt.

Vi anser den datasæt med placeret i øverste højre side af figur 3 som forurenede datasæt, som har relativt store værdier, der er stærkt afveg fra gennemsnittet af værdier. Den foreslåede robust metode anvendes derefter på de forurenede datasæt at evaluere resultaterne af de metoder, når identificere biomarkører og forudsige anti-cancer stof følsomhed. Vi sammenligner forudsigelsen nøjagtighed baseret på 10 datasæt svarende til de 10 lægemidler, der er vist som røde prikker i figur 3: narkotika FTI.277, DMOG, NSC.87877, AKT.inhibitor.VIII, MIDOSTAURIN, BMS.754807, thapsigargin, bleomycin, doxorubicin , Epothilone.B.

Som tidligere nævnt, et stort antal funktioner, der ikke blot fører til ineffektiv modellering, men kan også producere dårlige resultater sammenlignet med modellering baseret på en forud valgt lille antal funktioner. Vi først sammenligne forudsigelsen nøjagtighed (dvs. median squared error 50 testprøver) af anticancerlægemiddel respons baseret på ekspressionsniveauer af 133 (1% af de samlede 13,321 gener) gener og de 500 gener, der har den højeste variansen på basis af NetworkProfiler i tabel 4. tabel 4 viser, at modellering baseret på ekspressionsniveauerne af 133 gener producerer udestående forudsigelse nøjagtighed sammenlignet med modellering baseret på 500 gener. Fra det resultat, kan vi også konkludere, at der ikke er behov for at overveje et stort antal gener med støj, og at et stort antal af funktioner kun fører til ineffektiv modellering og dårlige forudsigelse resultater. Således har vi evaluere den foreslåede robust metode i forhold til NetworkProfiler og elastiske net baseret på ekspressionsniveauerne af 133 gener. Tabel 5 viser medianen kvadreret fejl på 50 prøveemner som en forudsigelse fejl af anti-cancer stof respons. Den foreslåede robust metode udkonkurrerer de eksisterende metoder til at forudsige anti-cancer stof respons i de forurenede datasæt.

Figur 4 viser de udækkede kræft biomarkører, der er valgt i mere end 80% af modeller for de hver 150 væv (dvs. valgt i mere end 120 prøver baseret på varierende koefficient model) ved vores metode for hvert lægemiddel respons. For at vise en pålidelig vores metode, viser vi også de 10 hyppigst opdaget gener, når forudsige følsomhed på 10 stoffer, og deres referencer i tabel 6. Der er forskelle mellem biomarkører opdaget på grundlag af vores metode, og dem opdaget ved hjælp af den elastiske netto [8], da vores metode identificerer kræft biomarkører for hver patient snarere end de gennemsnitlige biomarkører for alle prøver. Imidlertid blev narkotika følsomhed specifikke biomarkører opdaget af vores metode støttes kraftigt som sande kræft biomarkører i litteratur (kolonne af “Reference” i tabel 6). Resultatet indebærer, at den foreslåede metode til patient-specifik analyse giver et pålideligt resultat for at afdække kræft biomarkører.

Kort sagt, vores metode er et nyttigt værktøj til at forudsige anti-cancer stof følsomhed og afdække patientspecifikke kræft biomarkører.

diskussion

Vi har foreslået en ny outlier-resistent metode til at afdække patientspecifikke biomarkører og forudsige anti-cancer stof respons. Ved at bruge den robuste Mahalanobis afstand beregnet i robust hovedkomponent plads, den foreslåede metode effektivt registrerer og styrer outliers i høje dimensionelle genomiske ombygninger datasæt. Således kan den foreslåede robust metode effektivt at udføre at afdække kræft biomarkører og forudsige lægemiddelfølsomhed, selv i nærvær af afvigende værdier. Fra Monte Carlo-simuleringer, har vi konstateret, at vores metode viser fremragende forudsigelse nøjagtighed sammenlignet med den eksisterende NetworkProfiler og elastisk net. Vi har også anvendt den foreslåede metode til Sanger datasæt fra Cancer Genome Project. Ved at bruge vores metode, vi har afdækket kræft biomarkører og forudsagde anti-cancer stof respons. Det kan ses fra resultaterne, at den foreslåede fremgangsmåde er et nyttigt værktøj til at forudsige anticancerlægemiddel respons. Desuden biomarkører afsløret af vores metode tidligere er blevet identificeret som kræft biomarkører. Resultaterne betyder, at vores metode giver ikke kun pålidelig funktion udvælgelse, men også præcis forudsigelse resultater.

Der er i øjeblikket meget diskussion om patient-specifik analyse og personlig medicin baseret på høje dimensionelle genomiske datasæt. Vi forventer, at vores metode vil være nyttigt for markerne, da genomiske data normalt indeholder outliers.

Selvom patienten specifikke metode baseret på en varierende koefficient model er et effektivt værktøj, den styrer virkningerne af observationer i orden at give prøve-specifikke resultater. Med andre ord, det reducerer virkningen af ​​observationer langt fra et mål patient, og således fører til en høj frame dimensionelle data. Bygning modeller baseret på en lang række funktioner med et lille antal prøver kan føre til overfitting i træk udvalg, og kan producere ineffektive forudsigelse resultater. For at forbedre modellering ydeevne, kan fremtidige arbejde involvere udvide patient-specifikke analyse baseret på bootstrap teknik.

Sanger datasæt fra Cancer Genome Project giver omfattende information om de molekylære funktioner i en cancer (fx mutation, ekspressionsniveauer og kopiantal variation) og reaktion af forskellige anti-cancer-lægemidler. Således kan analyse af datasættet give informative resultater om systembiologi af kræft og værdifulde oplysninger til personlig behandling og anti-cancer terapi. IC50-værdierne for 138 lægemidler givet som narkotika følsomhed, indeholder imidlertid mange manglende værdier (fra 44 til 364 manglende værdier i alt 654 cellelinjer). For effektivt at bruge Sanger datasættet at afsløre mekanismen for kræft, snarere end at ignorere de ufuldstændige felter, er en ordentlig behandling af de manglende værdier påkrævet.

Derudover har vi også identificeret gennem numeriske undersøgelser, at en stor antal støjende funktioner kan forstyrre modellering ydeevne, og dermed strategier for præ-vælge en kandidat sæt vil være forpligtet til at forbedre modellering ydeevne.

Tak

Denne forskning anvendte it-ressourcer i K computer forudsat af Riken Advanced Institute for Computational Science gennem HPCI System Forskningsprojekt (projekt ID: hp140230) og Super Computer System, human Genome center, Institut for Medicinsk Videnskab, University of Tokyo. Forfatterne vil gerne takke medredaktør og anonyme anmeldere for de konstruktive og værdifulde kommentarer, forbedret kvaliteten af ​​papiret.

Be the first to comment

Leave a Reply