PLoS ONE: Temporal Bestilling af Cancer Microarray data gennem en Forstærkning Learning Based Approach

Abstrakt

Temporal modellering og analyse og mere specifikt, tidsmæssige bestilling er meget vigtige problemer inden for områderne bioinformatik og bioinformatik, som tidsmæssig analyse af begivenhederne, der kendetegner en bestemt biologisk proces kunne give betydelige indsigt i dens udvikling og progression. Især i tilfælde af cancer, forståelsen af ​​dynamikken og udviklingen af ​​denne sygdom kan føre til bedre metoder til forudsigelse og behandling. I dette papir tackle vi, fra et beregningsmæssige perspektiv,

tidsmæssige bestilling

problem, som henviser til at konstruere en sorteret samling af multi-dimensionelle biologiske data, samling, der afspejler en præcis tidsmæssig udvikling af biologiske systemer. Vi introducerer en ny tilgang, der bygger på forstærkning læring, mere præcist, om

Q-learning

, for den biologiske tidsmæssige bestilling problem. Den eksperimentelle evaluering udføres under anvendelse af flere DNA microarray datasæt, hvoraf to indeholder kræft genekspression data. De opnåede løsninger er korreleret enten til den givne korrekt bestilling (i de tilfælde, hvor dette er fastsat validering), eller til den samlede overlevelsestid af patienterne (i tilfælde af kræft datasæt), hvilket bekræfter en god præstation af foreslåede model og indikerer potentialet i vores forslag

Henvisning:. Czibula G, Bocicor IM, Czibula IG (2013) Temporal Bestilling af Cancer Microarray data gennem en Forstærkning Learning Based Approach. PLoS ONE 8 (4): e60883. doi: 10,1371 /journal.pone.0060883

Redaktør: Frank Emmert-Streib, Dronningens University Belfast, Storbritannien

Modtaget: December 25, 2012; Accepteret: 4 Marts 2013; Udgivet: 2 April, 2013

Copyright: © 2013 Czibula et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev delvist støttet af det operationelle sektorprogram for udvikling af menneskelige ressourcer 2007-2013, som medfinansieres af den Europæiske Socialfond, under projektet nummer POSDRU /107 /1,5 /S /76.841 med titlen “Modern Ph.d.: Internationalisering og Tværfaglighed” . De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

de skrider fra de sidste årtier inden for biologi har resulteret i en eksponentiel stigning i mængden af ​​biologisk information. Afhængigt af typen af ​​og formålet med biologiske forsøg kan de indsamlede data variere fra nukleotid- eller proteinsekvenser, strukturer eller funktioner, til molekylære interaktioner og metaboliske veje. Analyse af disse data afslører vigtige indblik i forskellige biologiske processer og i sidste ende fører til en bedre forståelse af levende organismer.

Biologiske processer er for det meste dynamiske og derfor for nøjagtigt karakterisere dem, forskerne har brug for dynamisk information. Men de fleste eksisterende data er statisk, fordi det ofte er mere vanskelige og udfordrende at følge en bestemt proces i hele dens udvikling. For eksempel i tilfælde af en sygdom, i visse situationer er det kun muligt at udtrække data fra et aktuelt pulje af patienter, stedet for at følge de samme patienter over hele forløbet af sygdommen. Derfor er behovet udtrække dynamisk information fra statisk data vises, og en mulig måde at opnå dette mål ville være at udlede tidsmæssige orderings til disse data.

I dette papir, vi tackle, fra en beregningsmæssige perspektiv, den biologiske

tidsmæssig bestilling (TO) problem

, som henviser til at konstruere en sorteret samling af multi-dimensionelle biologiske data, samling, der afspejler en præcis tidsmæssig udvikling af en bestemt biologisk proces. Celledeling og vækst, udvikling, cellelinie, stofskifte, eller, mere navnlig visse klasser af sygdomme (som kræft) er blot nogle eksempler på sådanne dynamiske biologiske processer. De input data flerdimensionelle kan være resultatet af forskellige biologiske eksperimenter: proteinekspression, mikromatrice, SNP arrays, kromosomal kopi nummer ændringer, komparativ genom hybridisering. I dette arbejde, vi begrænser at overveje datasæt bestående af prøver, der stammer fra microarray genekspression eksperimenter.

tidsmæssige bestilling problem

behandles i dette dokument vil blive defineret i det følgende, og betydningen af problemet vil blive understreget. Vi har også til stede flere relaterede tilgange til løsning af TO problem, der allerede findes i litteraturen.

problemformulering og relevans

Temporal modellering og analyse og mere specifikt, tidsmæssige bestilling er en vigtig forskning retning inden flere felter. Fra en maskine læringsperspektiv, i mange situationer, bestiller et givet datasæt af forekomster i tiden giver mere væsentlige oplysninger end at tildele dem til bestemte klasser. Derfor er den generelle problem med tidsmæssig bestilling er sammenlignelige, da betydning, at klassificeringen problem [1].

Inden for de bioinformatik og bioinformatik rammer, kan den tidsmæssige bestilling problem udtrykkes i forskellige former. En definition af dette problem henviser til konstatering og beskrive sekvensen af ​​begivenheder, der kendetegner en biologisk proces. Hvis pågældende proces er cancer, for eksempel, er målet at finde en tidsmæssig rækkefølge for de genetiske og pathway forandringer, som opstår under tilblivelsen og udviklingen af ​​denne sygdom. Det er kendt, at de fleste tumorer udvikle sig på grund af funktionsfejl i de komplekse signalsystemer netværk, som er resultatet af mutationer, der vises i visse centrale gener (onkogener eller tumorsuppressorgener) [2]. Derfor studerer den rækkefølge, som disse mutationer ske kunne føre til en bedre forståelse af udviklingen af ​​cancer. Flere værker findes i litteraturen, at nærme sig den tidsmæssige bestilling problem, som det blev beskrevet ovenfor, og disse vil blive præsenteret i det følgende underafsnit.

Den tidsmæssige bestilling Problemet kan også formuleres som problemet med at konstruere en sorteret samling af multi-dimensional biologiske data, samling, der afspejler en nøjagtig tidsmæssig udvikling i en bestemt biologisk proces. Det endelige mål er at finde bestemte mønstre i input data, der varierer over tid og bruger dem effektivt for at kunne tilbyde en ordentlig karakterisering af pågældende proces. I hvad der vedrører denne retning studie, er der primært to værker, der har henvendt dette problem, og disse vil også blive drøftet i det følgende underafsnit. Vi nævne, at vi tackle den tidsmæssige bestilling problem, formuleret på denne anden måde.

En af de mest betydningsfulde anvendelser af dette problem er inden for kræftforskning. De fleste af de menneskelige eksperimenter kræft levere data uden tidsmæssig information, fordi der ofte er det for svært, eller endog umuligt, at følge de samme patienter over den fulde udvikling af sygdommen. I stedet er eksperimentelle prøver indsamlet fra aktuelle puljer af patienter, hvis sygdom er på forskellige stadier af udvikling og følgelig hver prøve afspejler en forskellig grad af cancer progression. Opførelsen af ​​en korrekt tidsmæssig serie af disse prøver kunne, på den ene side, give meningsfulde oplysninger om den komplekse proces for kræft evolution. På den anden side kunne den tidsmæssige rækkefølge anvendes til forudsigelse af overlevelsestid på nydiagnosticerede patienter: antage, at for patienterne i de indledende inddata fastsat overlevelsestid ville gives, når nye patienter, med ukendte overlevelsestider tilsættes til datasættet, den genvundne tidsmæssige rækkefølge for hele sæt prøver (herunder de nyligt tilføjede dem) kunne tilbyde information om de overordnede forventede levetid for de nye patienter.

Litteratur anmeldelse

den generelle tIL problem er kendt for at være NP-komplet [1], hvilket betyder, at eksakte løsninger er meget vanskeligt at opnå, og derfor er blevet anvendt forskellige heuristiske metoder til at løse det. Det generelle problem er for det meste blevet kontaktet af forskere fra kunstig intelligens samfund (machine learning, data mining) [1], [3]. Inden data mining, der er mange undersøgelser, der udvinder tidsmæssige informationer fra forskellige typer af tekster (generelle, medicinske, avisartikler) [4] – [7]. Andre anvendelser omfatter sortering billeder af byer, for at observere deres udvikling over tid [8] eller bygge arkæologiske kronologier fra forskellige artefakter [9].

Fra synspunkt bioinformatik og computational biologi, forskellige former for tIL problem er blevet undersøgt, og et betydeligt antal undersøgelser fokuserer på forskellige former for kræft. På grund af det faktum, at denne sygdom er en udviklingsproces, som drives af mutationer og ændringer af celle adfærd [10], en vigtig linje af arbejde beskæftiger sig med at udvikle modeller og udlede tidsmæssige ordrer til at beskrive ændringer i kræftceller DNA samt bestemme den rækkefølge, som gen-mutation begivenheder og pathway variationer ske i løbet af evolutionen af ​​kræft.

der er blevet foreslået flere probabilistiske modeller for at hente den tidsmæssige og afslappet rækkefølge, som mutationer sker på niveauet af gener og veje under cancer progression [10] – [12]. I arbejdet med Hjelm

et al.

[11], er målet at studere kromosomal evolution i cancerceller ved at indføre og bruge grafiske generative sandsynlighedsteoretiske modeller. Gerstung

et al.

[10] foreslå en probabilistisk model baseret på Bayesianske netværk, mere specifikt på en klasse af grafiske modeller kaldet Hidden forbindende Bayesian Networks (H-CBNs), der tidligere blev foreslået at studere ophobning af mutationer og deres indbyrdes afhængighed i kræft progression [12]. Forsøgene blev foretaget på datasæt indeholdende tværsnitsdata mutation data tilhører forskellige former for kræft (kolorektal, pancreas og primær glioblastom) og konklusionerne er, at disse H-CBNs giver en intuitiv model for tumorigenese [10].

En anden tilgang til dette problem er baseret på builduing træ modeller af mulige gen mutationsbegivenheder [13] – [17]. Desper

et al.

[13], [14] foreslå et træ model for onkogenese og ved at bruge sammenlignende genom hybridisering data, de viser, at under visse forudsætninger, deres algoritme udleder den korrekte træ begivenheder (hvor en begivenhed ses som et tab eller en gevinst på en bestemt kromosom arm). Deres tilgang er baseret på ideen om en maksimal vægt forgrening i en graf. Denne foreslåede metode blev yderligere udviklet af Beerenwinkel

et al.

, Hvis model omfatter flere oncogenetic træer, svarende til flere tidsmæssige sekvenser af hændelser, der kan føre til kræft [15], [16]. Pathare

et al

[17] analysere oral cancer progression med begge modeller:.. Distance træer indført ved Desper

et al

[14], og blandingen af ​​oncogenetic træer indført ved Beerenwinkel

et al.

[15], [16].

der er også blevet foreslået Matematiske metoder til at løse problemet med at identificere den tidsmæssige rækkefølge af mutationer, der fører til kræft progression [18], [19]. Attolini

et al.

[18] indfører en evolutionær matematisk tilgang kaldet visningssti den evolutionære skridt i Cancer (RESIC), for at identificere den tidsmæssige rækkefølge af genmutationer i udviklingen af ​​kræft, og de teste det på flere kolorektal cancer , glioblastom og leukæmi datasæt. Denne metode blev yderligere udviklet i [19] for at indarbejde, foruden genetiske ændringer, modifikationer af de molekylære signalveje, som kræft skrider frem.

En anden vigtig forskning retning fokuserer på en anden formulering af TO problemet. Inden for denne type arbejde, problemet er at konstruere en ordnet samling af multi-dimensional biologiske data, som afspejler en nøjagtig tidsmæssig udvikling i en biologisk proces. Vi tackle TO problemet fra synspunktet af denne anden definition. Til vores viden, er der primært to værker, der nærmer sig biologiocal TO problem som formuleret ovenfor, både af dem ved hjælp af genekspression data fra microarray eksperimenter. Disse vil præsenteres kortfattet i det følgende.

Den første teknik, som bruger kræft genekspression data, introduceres af Gupta og Bar-Joseph [20]. Forfatterne formelt bevise, at under visse biologiske antagelser om den indstillede datainput, den unikke løsning af traveling salesman problem (TSP) repræsenterer den korrekte tidsmæssige bestilling, med en høj sandsynlighed. Den TSP er defineret ved hjælp af de prøver, der udgør input datasæt, som er karakteriseret ved flerdimensionale genekspression data, som knudepunkter og afstandene mellem dem er beregnet ved hjælp af Manhattan () metrisk. Metoden anvendes på et datasæt af 50 gliom patienter, og resultaterne viser en god korrelation med overlevelse varigheden af ​​patienterne. Endvidere en sorterer, der bruger den opnåede bestilling er defineret, som viser sig at udkonkurrere andre klassificører udviklet til den betragtede opgave og centrale gener, der er forbundet til cancer er identificeret.

Den anden undersøgelse, der nærmer denne form for det biologiske TO problem er indført ved Magwene

et al.

[21] og den foreslåede metode er baseret på mindst udspændende træer og PQ-træer. Den mindste udspændende træ algoritme anvendes på en vægtet, ikke-orienteret graf, hvor hver node er repræsenteret ved en forekomst af datasættet, repræsenteret ved flerdimensionale microarray data. Effekten af ​​denne metode er bevist ved at teste algoritmer på kunstige datasæt, samt på tid-serien genekspression datasæt stammer fra DNA microarray eksperimenter.

Det vigtigste bidrag med dette oplæg er at den indfører en ny fremgangsmåde til TO problem, formuleret som problemet med at konstruere en sorteret samling af flerdimensionelle biologiske prøver, baseret på forstærkning indlæring. Forstærkning læring [22] er en tilgang til maskine intelligens, hvor en agent [23] kan lære at opføre sig på en bestemt måde ved at modtage straffe eller belønninger på sine valgte handlinger. Så vidt vi ved, har TO problemet ikke blevet behandlet i litteraturen ved hjælp forstærkning læring, indtil videre. Adskillige forsøg udført på forskellige DNA microarray datasæt viser, at den foreslåede forhøjelse learning tilgang held identificerer nøjagtige tidsmæssige orderings af de givne biologiske prøver.

Metoder

I dette afsnit vil vi introducere vores forstærkning læring baseret forslag til identifikation af en tidsmæssig ordning af en række biologiske prøver. Selvom i denne undersøgelse vi begrænser til genekspression data fra microarray eksperimenter, anvendeligheden af ​​vores metode er mere generel, og det kan bruges med forskellige typer af flerdimensionale biologiske data.

Vi starter med at præsentere grundlæggende elementer i

forstærkning læring

, så vi detalje vores tilgang.

forstærkning læring. Baggrund

Målet med opbygning af systemer, der kan tilpasse sig deres omgivelser og lære af deres erfaringer har tiltrukket forskere fra mange områder, herunder datalogi, matematik, kognitiv videnskab [22].

Forstærkning Læring

(RL) [24] er en tilgang til maskine intelligens, der kombinerer to discipliner med held løse problemer, at hverken disciplin kan løse individuelt:

Dynamisk programmering

Overvåget læring

. I machine learning litteratur, er RL for at være den mest pålidelige type indlæring, da det er den mest ligner humant indlæring.

Forstærkning learning behandler problemet om, hvordan en selvstændig middel, der opfatter og handler i dens miljø kan lære at vælge optimale tiltag for at nå sine mål [25]. Feltet af

intelligente agenter

[26] er et vigtigt forsknings- og udviklingsområde i den kunstige intelligens felt, bliver agenter overvejes nye vigtigt middel i konceptualisering og implementering af komplekse software-systemer. En agent er en beregningsmæssige enhed som et software system eller en robot, der ligger i en bestemt environnment, der er i stand til at opfatte og reagere på sine omgivelser og er i stand til at handle autonoumously for at opfylde sine design mål. Agenter handler i vegne af brugere, er

fleksibel

[27], hvilket betyder, at de er

reaktiv

(i stand til at reagere på forandringer, der sker i deres miljø),

proaktiv Hotel (i stand til at udvise mål rettet adfærd) og har også en

social evne

(er i stand til at interagere med andre midler).

Forstærkning læring er nyttig i en masse praktiske problemer, såsom at lære at styre autonoumous robotter [28], at lære at optimere operatons i fabrikker eller lære at spille brætspil. I alle disse problemer, et kunstigt middel skal lære (ved forstærkning) til at vælge optimale tiltag med henblik på at nå sine mål.

I en forstærkning lære scenario, vælger læringssystem tiltag for at udføre i miljøet og modtager

belønninger

(eller

forstærkninger

) i form af numeriske værdier, der repræsenterer en evaluering af de udvalgte foranstaltninger [29]. I RL, er computeren blot givet et mål at opnå. Computeren lærer så hvordan at nå dette mål ved trial-and-error interaktioner med sine omgivelser. Forstærkning læring er læring hvad de skal gøre – hvordan til at kortlægge situationer til foranstaltninger – for at maksimere en numerisk belønning. Den lærende er ikke fortalt, hvilke handlinger til at tage, som i de fleste former for machine learning, men i stedet skal opdage, hvilke handlinger giver den højeste belønning ved at prøve dem. I en forstærkning læring problem, modtager agenten belønningen som en feedback fra miljøet belønningen er modtaget i slutningen, i en terminal tilstand, eller i nogen anden stat, hvor agenten har korrekte oplysninger om, hvad han gjorde det godt eller forkert. Agenten vil lære at vælge handlinger, der maksimerer den modtagne belønning.

agentens mål, i en RL opgave er at maksimere summen af ​​de forstærkninger modtaget, når du starter fra nogle oprindelige tilstand og går videre til en terminal tilstand.

En forstærkning læring problem har tre grundlæggende dele [22].

miljøet

er repræsenteret ved “stater”. Ved samspil med miljøet, vil et RL-system lære en funktion, der kortlægger stater til foranstaltninger.

Styrkelsen funktionen

. Målet med armeringen læringssystem er defineret ved hjælp af begrebet en forstærkning funktion, som er den funktion af forstærkninger agenten forsøger at maksimere. Denne funktion kortlægger state-action-par til forstærkninger. Efter en handling er udført i en bestemt tilstand, vil agenten modtager en evaluering af handlingen i en form af en skalar belønning. Agenten vil lære at udføre disse handlinger, der vil maksimere det samlede beløb for belønning modtaget på en sti fra den oprindelige tilstand til en endelig tilstand [30].

Værdien (nytte) funktionen

er en kortlægning fra stater til statslige værdier. Værdien af ​​en stat angiver det ønskelige i staten og er defineret som summen af ​​belønninger modtaget på en sti fra denne stat til en endelig tilstand. Agenten vil lære at vælge de handlinger, der fører til stater med en maksimal nytte [30]

En generel RL opgave er præget af fire komponenter:.

en

state space

der specificerer alle mulige konfigurationer af systemet

en

action plads Hoteller, som lister alle tilgængelige handlinger for læring agent til at udføre;

en

overgang funktion

der specificerer de muligvis stokastiske resultater af at tage hver handling i enhver stat,.

en

belønning funktion Hoteller, som definerer den mulige belønning for at tage hver enkelt af de aktioner,

på hvert tidsskridt,, læring systemet modtager en vis repræsentation af miljøets tilstand, tager det en handling og et skridt senere modtager en skalar belønning og befinder sig i en ny tilstand. De to grundlæggende begreber bag forstærkning læring er trial and error, søg og forsinket belønning [31]. Agenten opgave er at lære en kontrolpolitik,, der maksimerer den forventede sum af de modtagne belønninger, med fremtidige belønninger rabat eksponentielt ved deres forsinkelse, hvor er defineret som (er den diskonteringsfaktor for den fremtidige belønninger).

Et vigtigt aspekt i forstærkning læring er

udforskning

. Agenten skal være i stand til at udforske sine omgivelser, ved at prøve nye tiltag (måske ikke den optimale dem), som kan føre til bedre fremtidige indsatsområder markeringer [32]

Der er to grundlæggende RL designs at overveje:.

agenten lærer en

nyttefunktion

(

U

) staterne (eller stater historier) og bruger den til at vælge handlinger, der maksimerer den forventede nytte af deres resultater.

agenten lærer en

action-værdi funktionen

(

Q

) giver den forventede nytte af at tage en given handling i en given tilstand. Dette kaldes

Q-learning

.

En agent, der lærer nyttefunktioner [33] skal have en model af miljøet med henblik på at træffe beslutninger, som det har at kende stater, som søgsmålet vil føre. I en

Q-learning

scenarie, hvor agenten lærer en action-værdi-funktion, er der ingen grund til at have en model af miljøet.

Vores tilgang. Metodologi

Lad os betragte, i det følgende, der er input datasæt, der består af () flerdimensionelle prøver: hver prøve er identificeret ved et sæt af funktioner. For den betragtede type data er hver funktion repræsenteret af ét gen og har som en værdi et reelt tal, måle ekspressionsniveauet af det pågældende gen. . Derfor kan hver prøve kodes af en dimensional vektor, hvor er ekspressionsniveauet af genet for prøven

Vores tilgang består af to trin:

1. Data, forbehandling.

2.

RL

opgave design.

I det følgende vil vi beskrive disse trin.

Data forbehandling.

mikromatrice tillader måling af tusindvis af genekspression niveauer for hver prøve, således dimensionalitet inputdata kan være ekstremt høje. Ud over det faktum, at dette kan føre til ineffektivitet i datamatisk tid og rum, i de fleste tilfælde, kan mange gener være irrelevante for bestilling opgave og kan endda øge mængden af ​​støj i dataene, hvilket fører til et fald i udførelsen af ​​den tidsmæssige bestilling system. Derfor er målet med forbehandling skridt er afskaffelsen af ​​de gener, der tilbyder ingen væsentlige oplysninger, eller, ækvivalent, udvælgelse af de gener, der er vigtigst for en nøjagtig tidsmæssig bestilling.

Som det sidste målet består i at analysere og timeligt bestilling datasæt bestående af prøver udvundet af kræftpatienter, i det følgende beskriver vi en pre-behandlingsmetode rettet mod disse særlige typer af datasæt. Sådanne datasæt normalt tilbyder en række oplysninger for hver prøve, udover de faktiske genekspression vektorer. En af disse ekstra stykker af information, der kan forekomme i cancer datasæt er samlet overlevelse, hvilket betyder overlevelsestiden for patienterne, efter det tidspunkt, hvor prøverne blev taget. Startende fra den intuition, som, i det generelle tilfælde, to patienter med tilsvarende overlevelsestid ville også være relativt tæt inden for den tidsmæssige rækkefølge, besluttede vi at bruge denne oplysning til identifikation af en delmængde af gener, der er relevante for bestilling opgave.

Under den forbehandling trin en statistisk analyse udført på datasættet for at finde en delmængde af funktioner (gener), der er relevante for den pågældende opgave. Den statistiske analyse af de funktioner, der udføres for at reducere dimensionaliteten af ​​input-data, ved at fjerne funktioner, der ikke korrelerede med den valgte ekstra biologiske oplysninger for den givne datasæt. Mere præcis vi sigter mod at identificere gener, der ikke signifikant påvirker den tidsmæssige bestilling identifikation.

For at bestemme de afhængigheder mellem de funktioner og den givne yderligere biologisk information, er Pearson korrelationskoefficient anvendt [34]. Den Pearson korrelation er et statistisk mål for den lineære sammenhæng mellem to stokastiske variable, der angiver, hvor højt korreleret variablerne er. En Pearson korrelation på mellem to variable og indikerer, at der ikke er noget lineært forhold mellem variablerne. En Pearson korrelation af eller er resultatet, når de to variabler der sammenlignes, er lineært monotont relateret. En Pearson korrelation [35] af indebærer, at en lineær ligning beskriver sammenhængen mellem og med alle datapunkter liggende på en linje for hvilket øger som stiger. En korrelation på indebærer, at alle datapunkter ligge på en linje for der falder som stiger.

Som nævnt før, målet med dette trin er at fjerne fra funktionen sætte disse funktioner (gener), som er meget lidt korrelerede med den valgte supplerende biologisk information (som er, i tilfælde af cancer datasæt, overlevelsestiden). Derfor beregner vi Pearson korrelationskoefficienten mellem hvert gen og overlevelsestiden og vi holder kun de gener, som har den absolutte værdi af korrelationen er større end en vis tærskel (vælges således, at der sikres en radikal reduktion af dimensionalitet).

den foreslåede

RL

opgave for TO problemet.

som anført ovenfor TO problemet består i at bestemme en nøjagtig tidsmæssig bestilling af input prøver, der ville afspejle den tidsmæssige udvikling og udvikling af en vis dynamisk biologisk proces (som cancer). Fra et beregningsmæssige synspunkt kan TO problem ses som problemet med at frembringe en permutation af der maksimerer den samlede lighed Sim af sekvensen af ​​prøver der behandles i rækkefølge: (). Den samlede lighed Sim vi anser i dette papir opsummerer lighederne frem for alle tilstødende prøver og det skal maksimeres.

den samlede lighed Sim for sekvensen af ​​prøver er defineret som i ligning (1) 🙁 1) hvor betegner ligheden mellem dimensionale vektorer og og er defineret som. . Her ved vi betegne euklidiske afstand og er en stor konstant

Vi definerer RL opgaven er forbundet til TO problem som følger:

Staten plads (agentens miljø) vil bestå af stater , dvs..

oprindelige tilstand

af midlet i miljøet er. En tilstand nås med agenten på et givet tidspunkt, efter at den har besøgt stater og har udvalgt handlinger er en

terminal

(endelig eller mål) tilstand, hvis antallet af tilstande besøgt af agenten i den aktuelle sekvens er (dvs. ), og alle de udvalgte foranstaltninger er forskellige, dvs..

Handlingen rum består af handlinger til rådighed til problemløsning agent og svarer til de mulige værdier anvendes til at repræsentere en løsning (permutation af), dvs., hvor.

overgangen funktionen mellem staterne er defineret som i formel (2). (2) hvor. Det betyder, at der på et givet tidspunkt, fra en tilstand agenten kan bevæge sig i efterfølgerstater, ved at udføre en af ​​de mulige handlinger. Vi siger, at en stat, der er tilgængelig fra staten, dvs er det

nabo

(

efterfølger

) tilstand.

De overgange mellem stater er equiprobable overgangen sandsynligheden mellem en stat

s

og hver nabo tilstand er lig med, som hver stat fra har mulige efterfølgerstater (se formel (2)).

belønningen funktion vil være defineret nedenfor (formel (3)).

Lad os betragte en sti i det ovenfor definerede miljø fra den indledende til en endelig tilstand, hvor og staten er en

nabo

af staten (). I betragtning af RL opgaven ovenfor definerede, kan miljøet visualiseres som et træ. I dette træ-lignende miljø, en sti består af forskellige knuder (stater), hvor hver tilstødende par af knuder er forbundet af en bue (handling).

sekvens af handlinger opnået efter overgangene mellem de successive tilstande fra stien, vil blive betegnet med, hvor. Rækkefølgen vil blive omtalt som

action konfiguration

forbundet til stien.

action konfiguration

forbundet til en sti giver en sekvens af prøver.

En sti kaldes

gyldigt

hvis alle handlinger inden for sit

action konfiguration

er forskellige og hver prøve fra sekvensen er mere lig den prøve, der umiddelbart følger den i ordnet rækkefølge end til nogen anden prøve, dvs. og.

action konfiguration

forbundet med en

gyldig

sti kan ses som en mulig ordre på input prøver, dvs. en permutation, der giver den tidsmæssige rækkefølge af de betragtede prøver, som bør være til en vis grad, korreleret med overlevelsestiden i tilfældet når prøverne er repræsenteret ved data ekstraheret fra cancerpatienter. Derfor kan vi forbinder til en

gyldig

sti, en værdi betegnet ved at repræsentere den samlede lighed (se ligning (1)) af sekvensen.

TO problem formuleret som en RL problemet vil bestå af uddannelse midlet til at finde en vej fra det oprindelige til en sluttilstand har den maksimale tilknyttede samlede lighed. Efter armeringen læreproces, vil agenten lære at udføre disse overgange som maksimerer summen af ​​belønninger modtaget på en sti fra den indledende til en endelig tilstand.

Vi tilstræber at opnå en

gyldigt

bane, der har den maksimale samlede lighed af sekvensen af ​​en prøve svarende til den tilknyttede handling konfiguration, dermed vi definerer armeringen funktion som følger (formel (3)) 🙁 3) hvor ved vi betegne belønningen modtages af agenten i tilstand, efter sin historie i miljøet er.

agenten modtager en negativ belønning på stier, der ikke er gyldige, vil det derfor lære at udforske kun gyldige stier. I betragtning af belønning defineret i formel (3), det kognitive mål er at maksimere den samlede mængde af belønninger modtaget på en sti fra den indledende til en sluttilstand, kan det vises, at midlet er uddannet til at finde en gyldig sti, der maksimerer den overordnede lighed af den tilhørende bestilling.

læringsprocessen.

Under uddannelsen trin i læringsprocessen, vil agenten bestemme dens

optimal politik

i miljøet, dvs. kortlægning fra stater til handlinger, der maksimerer summen af ​​de modtagne belønninger.

for at træne

fOR agent

, foreslår vi en Learning tilgang, hvor agenten lærer en aktionsværdi

Be the first to comment

Leave a Reply