PLoS ONE: formode Tree Kausale modeller af Cancer Progression med Sandsynlighed Raising

Abstrakte

Eksisterende teknikker til at rekonstruere træ modeller af progression for akkumulerende processer, såsom kræft, søger at estimere årsagssammenhæng ved at kombinere korrelation og en frequentist begreb tidsmæssig prioritet. I dette papir, definerer vi en roman teoretisk ramme kaldet CAPRESE (Cancer Progression Ekstraktion med Single Edges) at rekonstruere sådanne modeller baseret på begrebet probabilistisk årsagssammenhæng defineret af Suppes. Vi anser en generel rekonstruktion indstilling kompliceret af tilstedeværelsen af ​​støj i data på grund af biologisk variation, såvel som eksperimentelle eller målefejl. For at forbedre tolerancen for støj vi definere og bruge en krympning-lignende estimator. Vi bevise rigtigheden af ​​vores algoritme ved at vise asymptotisk konvergens til den korrekte træet under milde begrænsninger støjniveau. Desuden på syntetiske data, viser vi, at vores tilgang udkonkurrerer state-of-the-art, at det er effektivt selv med et relativt lille antal prøver, og at dens ydeevne hurtigt konvergerer til sin asymptote som antallet af prøver øges. For rigtige kræft datasæt opnået med forskellige teknologier, vi fremhæver biologisk signifikante forskelle i forløb udledes med hensyn til andre konkurrerende teknikker og vi viser også hvordan man validere gættede biologiske forbindelser med progression modeller

Henvisning:. Loohuis LO, Caravagna G, Graudenzi A, Ramazzotti D, Mauri G, Antoniotti M, et al. (2014) formode Tree Kausale modeller af Cancer Progression med Sandsynlighed Raising. PLoS ONE 9 (10): e108358. doi: 10,1371 /journal.pone.0108358

Redaktør: Lars Kaderali, Technische Universität Dresden, Medicinske Fakultet, Tyskland

Modtaget 11. april 2014 Accepteret: August 27, 2014; Udgivet: 9 oktober 2014

Copyright: © 2014 Olde Loohuis et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed:. Det forfattere bekræfter, at alle data, der ligger til grund resultaterne er fuldt tilgængelige uden restriktioner. Alle data er inkluderet i papiret

Finansiering:. Dette arbejde blev støttet af National Science Foundation giver CCF-0836649 og CCF-0926166 og af Regione Lombardia (Italien) under forskningsprojekterne RetroNet gennem ASTIL [12 -4-5148000-40]; UA 053 og NEDD Project [ID14546A Rif SAL-7] Fondo Accordi Istituzionali 2009. finansieringskilderne havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser.: forfatterne har erklæret, at der ikke findes konkurrerende interesser.

Introduktion

Kræft er en sygdom i evolution. Dens initiering og progression er forårsaget af dynamiske somatiske ændringer i genomet manifesteret som punktmutationer, strukturelle ændringer, DNA-methylering og histon modifikation ændringer [1].

Disse genomiske ændringer frembringes af tilfældige processer, og da individuel tumor celler konkurrerer om plads og ressourcer, er de stærkeste varianter naturligt valgt til. For eksempel, hvis gennem nogle mutationer en celle erhverver evnen til at ignorere anti-vækstsignaler fra kroppen, kan denne celle trives og kløft, og afkom, kan i sidste ende dominere en del (e) af tumoren. Denne

klonal ekspansion

kan ses som en

diskret tilstand

af kræft progression, præget af købet af et sæt af genetiske hændelser. Kræft progression kan derefter opfattes som en sekvens af disse diskrete trin, hvor tumoren erhverver visse distinkte egenskaber ved hver stat. Forskellige progression sekvenser er muligt, men nogle er mere almindelige end andre, og ikke hver ordre er levedygtig [2].

I de sidste to årtier, mange specifikke gener og genetiske mekanismer, der er involveret i forskellige typer af kræft er blevet identificeret (se f.eks [3], [4] for en oversigt over fælles cancer gener og [5], [6] for specifikke genetiske analyser af ovariecancer og lunge adenocarcinom, henholdsvis), og

terapier

målrette aktiviteten af ​​disse gener er nu ved at blive udviklet i et hurtigt tempo [2]. Men desværre,

kausal og tidsmæssige relationer

blandt de genetiske begivenheder drivende kræft progression stort set undvigende.

Den væsentligste årsag til denne situation er, at oplysninger afsløret i data er normalt opnås kun ved én (eller nogle få) tidspunkter, i stedet for i løbet af sygdommen. Udtræk denne dynamiske oplysninger fra de tilgængelige

tværsnit

data er udfordrende, og der er behov en kombination af matematiske, statistiske og beregningsmæssige teknikker. I de seneste år, at flere metoder udtrække progression modeller fra tværsnitsdata er blevet udviklet, startende fra det banebrydende arbejde på single-path-modeller af Fearon og Vogelstein [7]. Især blev forskellige modeller af oncogenetic træer udviklet i årenes løb. Kernen i nogle af disse metoder, f.eks [8], [9], er brugen af ​​

korrelation

at identificere relationer mellem genetiske begivenheder. Disse teknikker rekonstruere

træ

modeller for progression som selvstændige acycliske stier med grene og ingen Confluences. Tydelige modeller af oncogenetic træer er i stedet baseret på

maksimal sandsynlighed estimering

, for eksempel [10], [11], [12]. Mere generelle

Markov kæde

modeller, for eksempel [13], beskriver mere fleksible probabilistiske netværk, på trods af den beregningsmæssigt dyre parameter estimering. Andre nyere modeller er forbindende Bayesian Networks, CBNs [14], [15], at ekstrakt

rettet acykliske grafer

, endnu at pålægge særlige krav til fælles forekomst af hændelser. Endelig i en lidt anden sammenhæng, blev tidsmæssige modeller rekonstrueret fra tidsforløbet genekspression data [16], [17].

I dette papir præsenterer vi en ny teoretisk ramme kaldet CAPRESE (Cancer Progression Ekstraktion med Single kanter) at rekonstruere kumulative progressive fænomener, såsom cancer progression. Vi antager det oprindelige problem indstillingen af ​​[8], og foreslå en ny teknik til at udlede

probabilistiske progression træer

fra tværsnitsdata. I modsætning til maximum likelihood estimering-baserede teknikker, vores mål er udvinding af

minimal

progression model forklarer den rækkefølge, som mutationer forekommer og ophobes. Fremgangsmåden er teknologi agnostiker, dvs., kan det anvendes på datasæt afledt af alle typer (EPI) genetiske data såsom dyb exome sekventering, bisulfit sekventering SNP arrays, osv, (se resultater), og tager som input en . sæt af præ-udvalgte genetiske begivenheder, som tilstedeværelsen eller fraværet af hvert arrangement er konstateret for hver prøve

CAPRESE er baseret på to hovedingredienser: frem for at bruge

korrelation

at udlede progression strukturer, vi baserer vores teknik på en forestilling om

probabilistiske årsagssammenhæng

, og, for at øge robustheden mod støj, vi vedtager en

svind-lignende estimator

at måle årsagssammenhæng mellem ethvert par af begivenheder. Mere specifikt i forhold til vores første ingrediens, vi vedtager begrebet (prima facie) årsagssammenhæng ved Suppes foreslået i [18]. Dens grundlæggende intuition er enkel: begivenhed forårsager begivenhed, hvis der opstår

før

og forekomsten af ​​

hæver sandsynligheden

for at observere. Dette er en meget grundlæggende opfattelse af probabilistisk årsagssammenhæng det i sig selv ikke omhandler mange af de problemer, der er forbundet med det (såsom asymmetri, almindelige årsager, og screening off [19]), og omfatter

falske

samt

ægte

forårsager. Men da det viser sig, denne grundlæggende forestilling kombineret med et filter for uafhængige progressioner startende fra den samme rod, er et fremragende værktøj til at guide progression ekstraktion fra tværsnit data -. En, der udkonkurrerer de almindeligt brugte korrelation-baserede metoder

Probabilistisk årsagssammenhæng blev brugt i biomedicinske anvendelser før (f.eks, for at finde driver gener fra CNV data i [20], og at uddrage årsager fra biologisk tidsseriedata i [21]), men til vores bedste overbevisning aldrig at udlede

progression modeller

i

fravær

direkte tidsmæssig information.

udvinding problem kompliceres af tilstedeværelsen af ​​både falsk positive og falsk negative observationer (se [22] for en diskussion om dette spørgsmål baseret på genopbygningen af ​​[8]), som det leveres af den iboende variation i biologiske processer (f.eks

genetisk heterogenitet

) og

eksperimentelle fejl

. Dette udgør et problem, fordi mens sandsynligheden hæve er en meget præcis værktøj, det i sig selv er ikke robust nok mod støj. Betinget af mængden af ​​støj, vil vi stole både på probabilistisk årsagssammenhæng og på en mere robust (men mindre præcis) korrelation-baserede metrik på en optimal måde. For at gøre dette, vi introducere vores anden ingrediens, en

svind-lignende estimator

at måle årsagssammenhæng mellem ethvert par af begivenheder. Intuitionen bag denne estimator, som er nært beslægtet med en krympning estimator fra [23], er at finde den optimale balance mellem sandsynlighed hæve på den ene side og korrelation på den anden, afhængigt af mængden af ​​støj.

Vi bevise rigtigheden af ​​vores algoritme ved at vise, at med stigende stikprøvestørrelser, det rekonstruerede træet asymptotisk konvergerer til den rigtige (Sætning 3). Under milde begrænsninger støj satser, dette resultat holder til genopbygning problem i tilstedeværelse af en ensartet støj samt.

Vi studerer også udførelsen af ​​CAPRESE i mere realistiske indstillinger med begrænsede stikprøvestørrelser. Ved hjælp af syntetiske data, viser vi, at under disse betingelser, vores algoritme udkonkurrerer state-of-the-art genopbygning træ algoritme af [8] (se resultater). Især vores krympning-lignende estimator giver i gennemsnit en øget robusthed over for støj, som sikrer det at udkonkurrere oncotrees [8]. Ydeevnen er defineret i form af

strukturel lighed

mellem det rekonstruerede træet og selve træet, snarere end på deres induceret fordeling som det sker for eksempel i [11]. Denne metrik er særlig egnet til målet om at rekonstruere en progression model, hvor data-sandsynlighed fit er sekundært til “at kalde” den muligvis minimalt sæt af årsagssammenhænge.

Også, vi viser, at CAPRESE fungerer godt allerede med en relativt lavt antal prøver, og at dens ydeevne hurtigt konvergerer til sin asymptote som antallet af prøver øges. Dette resultat antyder anvendeligheden af ​​algoritmen med relativt små datasæt uden at kompromittere dens effektivitet.

Vi bemærke, at yderligere analyser syntetisk data tyder på, at CAPRESE udkonkurrerer en velkendt Bayesian probabilistisk grafisk model samt (dvs.

Konjunktiv Bayesian Networks

[14], [15]), der oprindeligt var tænkt til genopbygning af mere komplekse topologier, f.eks DAG’er, men blev vist sig effektiv i rekonstruktion træ topologier samt [24] (se resultater).

Endelig anvender vi vores teknik til ændringer vurderes med både Sammenlignende Genomisk Hybridisering og Næste generation sequencing teknikker (se resultater). I førstnævnte tilfælde, viser vi, at algoritmen af ​​[8], og CAPRESE fremhæve biologisk vigtige forskelle i æggestokkene, mave og kræft oral, men vore slutninger er statistisk større. I sidstnævnte, vi validere en nylig opdaget forhold blandt to centrale gener involveret i leukæmi.

Metoder

Problem indstilling

Opsætning af genopbygningen problemet er som følger . Antages det, at vi har et sæt af mutationer (

begivenheder

, i probabilistisk terminologi) og prøver, vi repræsenterer et tværsnit datasæt som en binær matrix, hvor en post, hvis mutationen blev observeret i prøven, og andet. Det problem, vi løser i dette papir er at udvinde et sæt kanter der giver en progression

træ

fra denne matrix, som, vi bemærke, giver kun implicit oplysninger om progression timing. Roden af ​​modelleres ved hjælp af en (særlig) begivenhed sådanne, at

heterogene progression stier

eller

skove

kan rekonstrueres. Mere præcist, vi sigter mod at rekonstruere en

rodfæstet træ

der tilfredsstiller: hver node har højst et indgående kant, roden har ingen indgående kanter er der ingen

cykler

Hver progression træ indordner en fordeling af observere en delmængde af de mutationer i en cancer prøve, der kan formaliseres som følger:

Definition 1. (Tree-induceret distribution)

Lad

være et træ og

en mærkning funktion angiver den uafhængige sandsynlighed for hver kant,

genererer en fordeling, hvor sandsynligheden for at observere en prøve med det sæt af ændringer

er

(1)

hvor alle hændelser i

antages at være tilgængelig fra roden

, og

er det sæt af kanter forbinder roden til begivenhederne i

.

Vi vil gerne understrege to ejendomme i forbindelse med træ-induceret distribution. Først indordner den fordeling, som, givet nogen orienteret kant, en observeret prøve indeholder ændring med sandsynlighed, der er sandsynligheden for at observere efter. Af denne grund, hvis årsager, vil sandsynligheden for at observere være større end sandsynligheden for at observere følgelig den tidsmæssige prioritet princip, som siger, at alle årsager må gå forud med tiden deres virkninger [25].

andet, input datasættet er et sæt af prøver genereret ideelt set fra en ukendt fordeling induceret af en ukendt træ eller skov, som vi sigter mod rekonstruere. Men i nogle tilfælde kan det være, at der ikke træ eksisterer hvis induceret fordeling genererer

nøjagtigt

disse inputdata. Når dette sker, det sæt af observerede prøver lidt afviger fra noget træ-induceret distribution. For at modellere disse situationer en forestilling om

støj

kan indføres, som afhænger af den sammenhæng, hvori data er samlet. Tilføjelse støj til modellen komplicerer genopbygning problemet (se resultater).

oncotree

tilgang.

I [8] Desper

et al.

udviklet en metode til at udvinde progression træer, opkaldt

“oncotrees”

, fra statisk CNV data. I [22] Szabo

et al.

Udvidet fastsættelsen af ​​Desper genopbygningen problem at tage højde for både

falske positiver

og

negativer

i input-data. I disse oncotrees, noder repræsenterer CNV events og kanter svarer til mulige progressioner fra den ene begivenhed til den næste.

genopbygning Problemet er nøjagtigt som beskrevet ovenfor, og hvert træ er rodfæstet i den særlige begivenhed. Valget af hvilken kant der skal medtages i et træ er baseret på estimatoren (2), som tildeler til hver kant en vægt tegner sig for både den relative og fælles frekvenser af de begivenheder – og dermed måle

korrelation

. Estimatoren evalueres efter herunder til hver prøve af datasættet. I denne definition længst til højre sigt er den (symmetrisk)

likelihood ratio

for og forekommer sammen, mens den venstre er den asymmetriske

tidsmæssige prioritet

målt ved antal forekomster. Denne implicitte form for timing antager, at hvis der opstår

oftere

end, så er det sandsynligvis sker

tidligere

, således tilfredsstillende

En oncotree er rodfæstet træ, hvis totalvægt ( dvs. summen af ​​alle vægtene af kanter) maksimeres, og kan rekonstrueres i trin ved hjælp Edmond algoritme [26]. Ved byggeri, den resulterende graf er en ordentlig træ rødder i: hver hændelse forekommer kun én gang,

Confluences

er fraværende, dvs. alle omstændigheder skyldes højst én anden begivenhed. Denne fremgangsmåde er blevet anvendt til at udlede progressioner for forskellige cancer datasæt f.eks [27], [28], [29]), og selv om flere metoder, der strækker eksisterer denne ramme (f.eks [9], [11], [15] ), til vores bedste viden, er det i øjeblikket den eneste metode, der har til formål at løse nøjagtig det samme problem som den undersøgt i dette papir og dermed give et benchmark til at sammenligne med.

en probabilistisk tilgang til årsagssammenhæng

Vi kort gennemgå tilgangen til probabilistisk årsagssammenhæng, som vores metode er baseret. For en omfattende diskussion om dette emne henvises til [19].

I sit banebrydende arbejde [18], Suppes foreslog følgende begreb.

Definition 2. (Probabilistisk årsagssammenhæng, [18] ).

For to begivenheder

og

, der forekommer henholdsvis tider

og

under de milde forudsætninger,

, begivenheden

er en prima facie årsag til denne hændelse

, hvis det sker før effekten og årsagen hæver sandsynligheden for effekten, dvs.

(3)

som omtalt i [19] ovenstående betingelser ikke er i almindelighed tilstrækkelig til at hævde, at begivenheden er en årsag til hændelse. Faktisk en umiddelbar årsag er enten

ægte

eller

uægte

. I sidstnævnte tilfælde er den omstændighed, at betingelserne hold i observationerne skyldes enten tilfældigt eller til tilstedeværelsen af ​​en bestemt tredjedel

confounding faktor

, relateret både til og til [18]. Ægte årsager i stedet tilfredsstille Definition 2 og er ikke afskærmet af nogen confounding faktor. Men de behøver ikke være direkte årsager. Se figur 1.

Eksempel prima facie topologi, hvor alle kanter repræsenterer prima facie årsager, ifølge Definition 3: er en sandsynlighed raiser af og det forekommer hyppigere. I forlod, vi bortfiltrere falske årsager og kun vælge de rigtige blandt de ægte, hvilket giver en enkelt årsag umiddelbare topologi.

Bemærk, at vi anser tværsnit data, hvor ingen oplysninger om, og er rådighed, så i vores genopbygning indstilling vi er begrænset til at overveje udelukkende

sandsynlighed hæve

(PR) ejendom, dvs., hvilket gør det sværere at skelne mellem ægte og falske årsager. Nu gennemgå vi nogle af sine egenskaber.

Proposition 1. (Dependency).

Når

PR

besidder mellem to begivenheder

og

, så begivenhederne er

statistisk afhængige

i en positiv forstand, dvs.,

(4)

Dette og det næste proposition er velkendte faktiske PR; deres udledning samt beviser for alle de resultater, vi præsenterer, er i File S1. Bemærk, at den modsatte implikation holder så godt: når de begivenheder og stadig er afhængige, men i en negativ forstand, dvs.,, har PR ikke holde, dvs.

Vi vil gerne bruge asymmetri af PR. at afgøre, om et par arrangementer og tilfredsstille en årsagssammenhæng forhold så at før i progression træet, men desværre PR opfylder følgende egenskab.

Proposition 2. (gensidig PR). .

Det er, hvis hæver sandsynligheden for at observere, derefter hæver sandsynligheden for at observere også.

Men for at fastslå årsager og virkninger blandt de genetiske hændelser, vi kan bruge vores

grad af tillid

i vores estimat af sandsynlighed hæve at afgøre retningen af ​​årsagssammenhæng forholdet mellem par af begivenhederne. Med andre ord, hvis hæver sandsynligheden for

mere

end den anden vej rundt, så er en mere sandsynlig årsag end af. Bemærk at dette er lyde så længe hver begivenhed har

højst

én årsag; ellers,

hyppige sene begivenheder

med mere end én årsag, som er temmelig almindelige i biologisk progressive fænomener, skal behandles forskelligt. Som nævnt er PR ikke er symmetrisk, og

retning

sandsynlighed hæve afhænger af de relative frekvenser af begivenhederne. Vi gør dette asymmetri præcis i den følgende proposition.

Proposition 3. (Sandsynlighed hævning og tidsmæssige prioritet).

For to begivenheder

og

sådan, at sandsynligheden hæve

besidder, har vi

(5)

Det vil sige, idet PR besidder mellem to begivenheder, øger sandsynligheden for

flere

end hæver sandsynligheden for, hvis og kun hvis der observeres hyppigere end. Bemærk at vi bruger forholdet til at vurdere PR ulighed. Beviset for dette forslag er teknisk og kan findes i File S1. Fra dette resultat følger det, at hvis vi måler timingen af ​​en begivenhed ved hastigheden af ​​dens forekomst (dvs. indebærer, at der sker før), denne forestilling om PR indordner den samme forestilling om tidsmæssig prioritering fremkaldt af et træ. Vi bemærke også, at det er også den tidsmæssige prioritet fremgår udtrykkeligt af koefficienterne af Desper metode. På baggrund af disse resultater, definerer vi følgende begrebet årsagssammenhæng.

Definition 3.

Vi tilstand, at

er en prima facie årsag til

hvis

er en sandsynlighed raiser af

, og det forekommer hyppigere:

Vi sigt

umiddelbart topologi

en rettet acykliske graf (over nogle begivenheder), hvor hver kant er en prima facie årsag. Når højst en enkelt indgående kant er tildelt hver hændelse (dvs. en begivenhed har højst en

unikke årsag

, i den virkelige verden), vi kalder denne struktur

single-årsag umiddelbare topologi

. Intuitivt, denne sidste klasse af topologier svarer til træerne eller mere generelt skove, når de har afbrudt komponenter, at vi sigter mod at rekonstruere.

Før vi går videre til at indføre vores algoritme lad os diskutere vores definition af

årsagssammenhæng

, dens rolle i definitionen af ​​genopbygningen problemet og nogle af dens begrænsninger. Som allerede nævnt kan det være, at for nogle umiddelbare årsag til en begivenhed, der er en tredje begivenhed forud for begge, således at årsager og i sidste ende forårsager. Alternativt kan forårsage både og uafhængigt, og årsagssammenhæng forhold observeret fra til blot

uægte

. I forbindelse med træ-rekonstruktion problem, nemlig når det antages, at hver begivenhed har højst en unik årsag, er formålet at filtrere de falske kanter fra et generelt umiddelbart topologi, så at udtrække en enkelt-årsag umiddelbare struktur (se figur 1).

Definition 3 opsummerer Suppes grundlæggende begreb af de fremlagte umiddelbare årsag, mens det ignorerer dybere diskussioner af årsagssammenhæng, der sigter på at skelne mellem de faktiske ægte og falske årsager, f.eks screening-off, baggrund kontekst, d-separation [30], [31], [19]. Til vores formål Men den ovenstående definition er tilstrækkelig, når alle væsentlige begivenheder betragtes, dvs. at alle de ægte årsager observeret som i en lukket verden antagelse, og vi sigter mod udvinding af

orden

af progression blandt dem (eller fastslå, at der er nogen tilsyneladende forhold), snarere end udtrække årsagssammenhænge

per se

. Bemærk, at disse forudsætninger er stærke og kan blive svækket i fremtiden (se Diskussioner), men deles af os og [8].

Endelig har vi husker nogle algebraiske krav, der er nødvendige for vores rammer at være vel- defineret. Først og fremmest skal den PR være beregnelige: hver mutation bør observeres med sandsynlighed strengt. Desuden har vi brug for hvert par af mutationer at være

adskiller

i form af PR, der er, for hvert par af mutationer og, eller på lignende måde til den ovennævnte betingelse. Enhver ikke-skelnes par hændelser kan flettes som en enkelt sammensat begivenhed. Fra nu af vil vi antage disse betingelser, der skal kontrolleres.

Ydelse måle og syntetiske datasæt

Vi gjort brug af

syntetiske data

at evaluere resultaterne af CAPRESE som en funktion af datasæt størrelse og de falske positive og negative priser. Mange forskellige syntetiske datasæt blev oprettet til dette formål, som forklaret nedenfor. Algoritmen præstation blev målt i

Tree Edit Distance

(TED, [32]), dvs den minimale omkostninger sekvens af node redigere operationer (ommærkning, sletning og indsættelse), der omdanner de rekonstruerede træer i dem der genererer dataene. Valget af denne foranstaltning af evalueringen er motiveret af det faktum, at vi er interesseret i

struktur

bag progressive fænomenet kræft evolution og, i særdeleshed, er vi interesserede i en måling af de ægte årsager, vi savner og de falske årsager, vi undlader at erkende (og fjerne). Også, da topologier med lignende fordelinger kan være strukturelt anderledes vælger vi at måle ydelse med strukturelle afstand i stedet for en afstand i form af distributioner. Inden for realm af ‘strukturelle målinger »Imidlertid har vi også vurderet ydeevne med

Hamming Afstand

[33], en anden almindeligt anvendt strukturel metriske, og vi opnåede analoge resultater (ikke vist her).

Syntetisk datagenerering og eksperimenterende indstilling.

Syntetiske datasæt blev genereret af stikprøver fra forskellige tilfældige træer begrænsede til at have dybde, da brede grene er sværere at rekonstruere end lige stier, og ved stikprøver event sandsynligheder i (se File S1).

med mindre eksplicit angivet, i alle forsøgene, vi brugte forskellige tilfældige træer (eller skove derfor på prøve for at udføre) begivenheder hver. Dette synes en temmelig rimelig række arrangementer og er i overensstemmelse med den sædvanlige størrelse rekonstruerede træer, f.eks [34], [35], [36], [37].

skalerbarhed

af de teknikker blev testet mod antallet af prøver ved spænder fra til, med et trin, og ved at gentage uafhængige datasæt for hver parameter indstilling (se billedteksten af ​​tallene for detaljer).

Vi inkluderede en form for

støj

i at generere de datasæt, for at redegøre for den realistiske tilstedeværelse af

biologiske støj

(som den leveres af tilskuer mutationer, genetiske heterogenitet etc.) og

eksperimentelle fejl

. En støj parameter angiver sandsynligheden for, at alle omstændigheder forudsætter en tilfældig værdi (med ensartet sandsynlighed), efter prøveudtagning fra træet-induceret distribution. Algoritmisk denne proces genererer, i gennemsnit, tilfældige poster i hver prøve (for eksempel med vi har i gennemsnit en fejl per prøve). Vi ønsker at vurdere, om disse larmende prøver kan vildlede genopbygningsprocessen, selv for lave værdier af. Bemærk at antage en ensartet fordelt støj kan forekomme forsimplet da nogle begivenheder kan være mere robust, eller let at måle, end andre. Men at indføre i de data, både

falske positiver

(ved sats) og

negativer

(ved kurs) gør slutning problemet væsentligt hårdere, og blev første gang undersøgt i [22].

i afsnittet Resultater, henviser vi til datasæt genereret med sats som støjende syntetisk datasæt. I de numeriske eksperimenter, normalt diskretiseres ved, (dvs. støj).

Resultater

Udpakning progression træer med sandsynlighed optagelse og en krympning-lignende estimator

genopbygning caprese metode er beskrevet i algoritme 1. algoritmen ligner Desper s og Szabo algoritme, den væsentligste forskel er en alternativ vægtfunktion baseret på en krympning-lignende estimator

algoritme 1. CAPRESE: a. trælignende rekonstruktion med a. svind-lignende estimator

1: overveje et sæt af genetiske begivenheder plus en særlig begivenhed, sat til hver prøve af datasættet;

2: definere en matrix, hvor hver post indeholder svind -lignende estimator i henhold til den observerede sandsynlighed for de begivenheder og;

3: [PR årsagssammenhæng] definerer et træ, hvor for hvis og kun hvis:

4: [Uafhængig progressioner filter] definerer, erstatte kant med kant, hvis, for alle, det holder

Definition 4. (Svind-lignende estimator).

Vi definerer

svind-lignende estimator

af tilliden til årsagssammenhæng forhold fra

til

som Hotel (6)

hvor

og Hotel (7)

Denne estimator ligner i ånd til en krympning estimator (se [23]) og kombinerer en normaliseret version af PR,

groft skøn

, med en

korrektionsfaktor

(i vores tilfælde en korrelation-måling af tidsmæssige afstand mellem begivenheder), at definere en orden i tillid hver årsagssammenhæng forhold. Vores er den analoge af

svind koefficient

og kan have en Bayesian fortolkning baseret på styrken i vores tro på, at og er kausalt relevante for hinanden, og de beviser, der hæver sandsynligheden for. I mangel af en lukket form løsning for den optimale værdi, kan man stole på krydsvalidering af simulerede data. Effekten af ​​svind (og vores krympning-lignende estimator) ligger i muligheden for at bestemme en optimal værdi for at balancere effekten af ​​korrektionsfaktoren på modellen estimat rå at sikre optimale præstationer på dårligt forbundet forekomster af slutning problemet. En afgørende forskel er imidlertid, mellem vores estimator og klassisk svind, er, at vores estimator til formål at forbedre ydeevnen af ​​

overordnede

genopbygningsprocessen, ikke er begrænset til udførelsen af ​​selve estimatoren som det er tilfældet i svind. Det vil sige, det metriske inducerer en bestilling til begivenhederne afspejler vores tillid til deres årsagssammenhæng. Da vi gør ingen antagelse om den underliggende fordeling, lærer vi det empirisk ved cross-validering. I de næste afsnit viser vi, at svindet-lignende estimator er en effektiv måde at få en sådan bestilling, især når data er støjende. I CAPRESE bruger vi en parvis matrix version af estimatoren.

Den rå estimator og korrektionsfaktoren.

Ved at betragte kun den rå estimator, vi ville omfatte en kant i træet konsekvent med hensyn af Definition 3 (metoder), og hvis er den bedste sandsynlighed raiser til. Når de begivenheder og ikke kan skelnes med hensyn til tidsmæssig prioritering, således ikke tilstrækkelige til at afgøre deres årsagssammenhæng, hvis nogen. Denne iboende tvetydighed er usandsynligt i praksis, selv om, i princippet er det muligt. Bemærk at denne formulering af en monoton normaliseret udgave af PR-forholdet.

Proposition 4. (monoton normalisering).

For to begivenheder

og

vi har

(8)

Denne rå model estimator opfylder: når det har en tendens til parret af begivenheder vises disjointly (dvs. de viser et anti årsagssammenhæng mønster), når det har en tendens til ingen årsagssammenhæng eller anti årsagssammenhæng kan udledes, og de to hændelser er statistisk uafhængige og, når det har en tendens til, at årsagssammenhæng mellem de to begivenheder er ægte. Derfor giver en kvantificering af graden af ​​tillid til en PR årsagssammenhæng forhold. Faktisk for enhver given mulig årsagssammenhæng kant udtrykket giver et skøn over

fejlprocent

af, derfor tælleren i rå model giver et skøn over, hvor ofte er faktisk forårsaget af. Estimatoren er så normaliseret til ligge mellem og.

Men giver ikke et generelt kriterium for at disambiguate blandt ægte årsager til en given hændelse. Vi viser en konkret sag i som ikke er en tilstrækkelig estimator. Lad os for eksempel en kausal lineær sti:. I dette tilfælde, når de evaluerer ansøgerlandene forældre og vi har:, så og er ægte årsager til, selvom vi gerne vil vælge, i stedet for. Derfor kan vi kun udlede, at og, dvs, en delvis bestilling, som ikke hjælper at udrede relationen mellem og i forhold til.

I dette tilfælde koefficienten kan anvendes til at bestemme, hvilken af ​​de to ægte årsager forekommer tættere med tiden til (i eksemplet ovenfor).

Be the first to comment

Leave a Reply