PLoS ONE: SomatiCA: Identificering, karakterisere og kvantificere Somatisk Copy Number Afvigelser fra Cancer Genome Sequencing Data

Abstrakt

Hele genom sekventering af matchede tumor-normal prøvepar bliver rutine i kræftforskning. Imidlertid er analyse af somatiske kopi-nummer ændres fra sekventering data stadig udfordrende på grund af utilstrækkelig sekventering dækning, ukendt tumor prøve renhed og subclonal heterogenitet. Her beskriver vi en beregningsmæssige rammer, opkaldt SomatiCA, som udtrykkeligt står for tumor renhed og subclonality i analysen af ​​somatiske kopi-nummer profiler. Tager læst dybder (RD) og mindre allel frekvenser (LAF) som input, SomatiCA vil output 1) blanding for hver tumor prøve, 2) somatiske allel kopi-tal for hver genomisk segment, 3) fraktion af tumorceller med subclonal ændring i hver somatisk kopi nummer aberration (SCNA), og 4) en liste over væsentlige genomiske aberration begivenheder, herunder gevinst, tab og LOH. SomatiCA er tilgængelig som en BioConductor R pakke på https://www.bioconductor.org/packages/2.13/bioc/html/SomatiCA.html

Henvisning:. Chen M, Gunel M, Zhao H (2013) SomatiCA: Identificering, karakterisere og kvantificere Somatisk Copy Number Afvigelser fra Cancer Genome Sequencing data. PLoS ONE 8 (11): e78143. doi: 10,1371 /journal.pone.0078143

Redaktør: Jörg D. Hoheisel, Deutsches Krebsforschungszentrum, Tyskland

Modtaget: 31 Juli 2013; Accepteret: September 7, 2013; Udgivet: November 12, 2013 |

Copyright: © 2013 Chen et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne forskning blev støttet af NIH tilskud R01 GM59507. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet. Ingen yderligere ekstern finansiering blev modtaget til denne undersøgelse

Konkurrerende interesser:. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Under carcinogenese, der ofte ændringer af. doseringen og /eller strukturen af ​​tumorsuppressorgener eller onkogener i kræftceller gennem somatiske kromosomale ændringer. Identifikation genomiske regioner med tilbagevendende kopi nummer ombygninger (og -tab) i tumor genomer er en effektiv måde at finde kræft driver gener [1]. Ideelt set bør en sådan karakterisering omfatte både den præcise identifikation af kromosomale breakpoints for hver ændring og den absolutte vurdering af kopiantal i hvert kromosom segment. Tidligere undersøgelser anvendte oligonucleotid mikroarrays at udlede genom-dækkende kopi-nummer ændringer. Nylige fremskridt i massivt parallelle sekventering tilvejebringe en kraftfuld alternativ til mikromatrice til påvisning kopital forandringer [2]. Fordelene ved sekventering tilgange omfatter dens omfattende og uvildig undersøgelse af alle genomiske variationer [3], og evne til at detektere både kopi nummer afvigelser (CNA’er) og enlige nukleotid variationer (SNVs) samtidig i hver prøve, der giver kritisk information for vores forståelse af cancer genom evolution

Mange algoritmer er blevet udviklet til påvisning af kopital variationer (CNVs) fra hele genomet eller exome sekventering data, såsom fremgangsmåder, der anvender rå read-dybde [2] -. [5], læse- pair alignment [6], [7], split-læse kortlægning [8], [9] og montage-baserede (AS) metoder [10], [11]. Imidlertid er disse metoder ikke velegnede til at udlede absolut somatisk kopital fordi de er udviklet til at analysere data fra normal stedet for tumorprøver. Sammenlignet med normale prøver, tumorprøver har nogle unikke funktioner, herunder: (i) en ukendt brøkdel af normale celler (iblanding rate), der er næsten altid blandet med kræftceller; og (ii) heterogenitet kræftcelle befolkning på grund af igangværende subclonal evolution. Selv om nogle metoder er blevet udviklet til Somatic CNA (SCNA) identifikation i hele cancer genom sekventering, de fleste af dem ikke eksplicit model tumor renhed [12], [13]. For dem, der tegner sig for tumor renhed, ExomeCNV [14] anslår blandingsraten baseret på den største Tab af heterozygositet (LOH) region i et genom, som sandsynligvis producerer en forudindtaget skøn. En mere almindeligt anvendt indstilling i ExomeCNV er en standardindstilling 0,3 på blandingsraten. Kontrol-FREEC [15] kræver en forudgående specifikation af det normale forurening niveau eller en på forhånd fastsat ploidi at estimere den normale forurening gennem medianen skift af antal kopier i ændrede regioner mod normal baseline. Begge metoder har lav tolerance over for forurening. Algoritmer udviklet på arrayCGH data, såsom ASCAT [16] og ABSOLUT [17], er specialiseret til at estimere tumor renhed, men giver ikke en samlet ramme for subclonality identifikation eller segment kald.

Her præsenterer vi SomatiCA, en roman ramme, er i stand til at identificere, karakterisere og kvantificere SCNAs af kræft genomsekvensering (figur 1). Ved direkte tegner sig for tumor renhed og subclonality blev SomatiCA specielt udviklet til at analysere tumorprøver med forurening og /eller heterogenitet. Først SomatiCA segmenter genomet og identificerer kandidat CNA’er udnytte både læse dybder (RD) og mindre allel frekvenser (LAF) fra kortlagt læser. For det andet, SomatiCA anslår blandingsraten fra de relative kopi-nummer forhold af en tumor-normal par med en Bayesiansk finite blanding model, som har høj tolerance på forurening fra normale celler. Endelig SomatiCA kvantificerer somatisk kopi-nummer og subclonality for hver genomisk segment til at guide sin karakteristik. Resultater fra SomatiCA kan yderligere integreret med SNVs fra samme sekventering eksperiment for at få en bedre forståelse af tumor evolution.

Først SomatiCA segmenter genomet og identificerer kandidat CNA’er udnytte både læse dybder (RD) og mindre allelfrekvenserne (LAF) fra kortlagt læser. For det andet, SomatiCA anslår blandingsraten fra de relative kopi-nummer forhold af en tumor-normal par med en Bayesiansk finite blanding model, som har høj tolerance på forurening fra normale celler. Endelig SomatiCA kvantificerer somatisk kopi-nummer og subclonality for hver genomisk segment til at guide sin karakteristik.

Resultater

Segmentering strategi i SomatiCA

Selvom næste generation sekventering ( NGS) teknologi genererer data med højere opløsning end SNP arrays og vifte komparativ genomisk hybridisering (aCGH), signalet kompliceres af mappability, GC-indhold, tilpasning bias og andre spørgsmål [15]. Dette gør analysen af ​​NGS data ikke bare en direkte tilpasning af eksisterende metoder på aCGH men en udvidelse kræver ekstra pleje af mange faktorer, der påvirker dataanalyse og fortolkning. For eksempel, efter kvalitetskontrol og de-noising, mange eksisterende NGS CNV ringer værktøjer direkte anvende metoder udviklet til aCGH oplysninger [14]. Men når vi anvendte CBS [18], en almindeligt anvendt metode til aCGH data, vi fandt det var meget følsom over for udsving i NGS signaler og rapporteret ændre punkter sandsynligvis vil være falsk positiv (se simulation resultater).

I kontrast, SomatiCA implementerer en udjævning-baserede de-noising skridt til at mindske virkningerne af outliers fra input LAF (figur S1). I betragtning af de første ændring punkter detekteret af CBS, vi implementeret en variabel udvælgelse at fjerne ændre punkter, der sandsynligvis vil være falsk positive. Dette opnås i SomatiCA ved hjælp CBS detekteret ændre point som de prædiktorer for input LAF og derefter udførelse af variabel udvælgelse via Bayesian Information Criterion (BIC) baseret på en LARS [19] opløsning sti. For de udvalgte ændre punkter, SomatiCA vurderer endvidere, om de fange ændringerne i somatiske kopi-numre. At kvantificere disse ændringer, definerer vi somatisk forhold som RD forholdet af tumoren til den parrede normale i et segment (med identisk dækning i tumoren og normale prøve antaget). SomatiCA udleder en Maximum Likelihood Estimate (MLE) af det somatiske forhold for hvert segment ved hjælp RD oplysninger fra alle parrede SNPs i dette segment. To tilstødende segmenter flettes hvis forskellen i de somatiske forhold er mindre end T, som er en tuning parameter i implementeringen med en standardværdi på 0,05, svarende til 5% ændring i somatisk kopital uden normal kontaminering. De mles af den somatiske forhold for de raffinerede segmenter genberegnes. Denne raffinement procedure anvendes gentagne gange, indtil ingen tilstødende segmenter har somatisk forholdsdifferens mindre end T. I SomatiCA, informationen fra begge kimcellelinje heterozygote og homozygote SNP’er er udnyttet. LAF om heterozygote lokaliteterne anvendes i den indledende segmentering. RD på heterozygote og homozygote sites anvendes til at beregne de somatiske nøgletal.

Simulation Strategi

Vi udfører simuleringer til at vurdere den statistiske magt SomatiCA og for sammenligninger med andre metoder. I mangel af validerede biologiske datasæt, kan sådanne Simuleringsundersøgelserne give indsigt på fordele og ulemper ved forskellige metoder. Men på grund af kompleksiteten af ​​genomet og sekventering proces, fx den ikke-ensartet fordeling af RD tværs genomet i NGS, det er ikke-trivielt at simulere kræft sekventering data, indfange kompleksiteten i faste NGS data. Inspireret af Ivakhno et al [12], vi udnyttet en normal prøve (betegne som GLI-N1, upublicerede data) til at simulere kræft sekventering data som følger (scripts i Tekst S1):

Dubler RD og mindre allel tæller fra GLI-N1 prøve.

for hver 10 kb genomisk vindue, estimere median og standardafvigelse af RD af alle websteder og mindre allel tæller alle heterozygote sites.

Ved forudbestemt positioner, placere SCNA arrangementer lige fra 10 kb til et helt kromosom, med varierende størrelser af ændringer, herunder dobbelt sletninger, LOH, 1 og 2 kopi nummer gevinster (samt forskellige subclonalities herunder 20% og 40%). Hver aberration indeholder mindst 5 heterozygote sites.

Simuler SCNA begivenheder ved at ændre medianerne i svarede vinduer.

Simuler RD og mindre allel tæller i SCNA begivenheder vinduer gennem normalfordelinger med midler svarende til ændrede medianer resulterede fra trin 4) og standardafvigelsen svarende til skøn fra trin 2).

Admix pseudo kræft tæller og normale tæller med en gradient af blandingsraten, 0,2, 0,4 og 0,6.

Ud over selve RD rapporteret i GLI-N1 (-60 ×), simulere læste dybder 40 × og 20 × ved tilfældigt at fjerne en del af læser.

i alt vi simulerede 90 kræft genomer (3 iblanding satser * 3 dækning * 10), og hver af dem indeholdt 40 SCNAs.

SomatiCA effektivt reducerer falsk positiv rate i segmentering

Vi anvendte SomatiCA til disse simulerede data til evaluere resultaterne for SCNA detektering under forskellige scenarier. Vi sammenlignede dens præstationer med CBS og cumSeg [20], en lignende segmentering metode ved hjælp af model valg til at identificere forandringer punkter med en anden indledende over-detektion trin. For retfærdige sammenligninger, vi anvendt samme udjævning og raffinement procedure som implementeret i SomatiCA for både CBS og cumSeg. I betragtning af at CBS og cumSeg ikke justere for blandingsraten, brugte vi en lempelig kriterium for at afgøre, om en SCNA opkald var en positiv opdagelse. Hvis somatiske forhold var mindre end 0,8 eller større end 1,2, blev det tilsvarende segment rapporteret som en genomisk region med somatisk gevinst eller tab. For en ægte positiv SCNA opkald, vi krævede de fundne breakpoints inden for 100 kb af ægte dem.

Samlet set CBS og SomatiCA udkonkurrerede cumSeg i følsomhed ved at opdage SCNAs større end 1 Mb (Figur 2). Men CBS havde 30% falsk positive opkald mens SomatiCA opnåede højere præcision. Desuden CBS tendens til over-detect breakpoints på samme ændring. I gennemsnit rapporterede CBS 1.82 segmenter for en ~ 1 Mb begivenhed og 3,15 segmenter for en ~ 10 Mb begivenheder. I modsætning hertil SomatiCA og cumSeg rapporterede 1,01 og 1,07 segmenter for SCNAs større end 1 Mb. Denne forbedring skyldes udvælgelsen model skridt for forandring punkter, som fjerner de viser små udsving, som mere sandsynligt resultat fra samme aberration.

Oversigt over præcision og følsomhed over 90 simulerede kræft genomer med forskellige iblanding satser og dækning . CBS og SomatiCA udkonkurrerede cumSeg i følsomhed ved at opdage SCNAs større end 1% falsk positive opkald mens SomatiCA opnåede højere præcision. For SCNAs mindre end 1 Mb, CBS stadig opretholdt en høj følsomhed på 98%, men over 60% af CBS opkald var falske positiver. Både SomatiCA og cumSeg anvendte model valg til effektivt at reducere falske positive med nogle kompromis på følsomhed.

For SCNAs mindre end 1 Mb, CBS stadig opretholdt en høj følsomhed på 98%, men over 60% af CBS opkald var falske positiver. Både SomatiCA og cumSeg anvendte model valg til effektivt at reducere falske positive med nogle kompromis på følsomhed. SomatiCA opdaget 83% simulerede SCNAs mens cumSeg kun erobret 10%. Vi bemærker, at straffeforanstaltninger gennem model udvælgelse er kun en af ​​mange årsager til den lavere følsomhed i mindre identifikation SCNAs. Fordi SomatiCA segmenter genomet kun baseret på LAF fra heterozygote steder, kan det overse afvigelser med færre heterozygote sites. På kromosomer 3 til 15 i GLI-N1 prøve, som vi brugte som skabelon for simulation, afstandene mellem tilstødende heterozygote steder varierede fra 5 bp (1% fraktil) til 17.036 bp (99% fraktil) med en median på 453 bp . Antallet af heterozygote sites inden for de uopdagede SCNAs varierede 6-76 med en median på 22. Stærk afhængighed af antallet af heterozygote sites er en stor ulempe ved alle metoder, der anvender LAF (eller BAF) i kromosom segmentering. Den uensartet dækning og fejl signal i sekventering data gør det udfordrende at lave inferens med kun et par markører. I praksis foreslår vi at bruge RD baserede metoder som komplementære metoder til at dække en bredere vifte af SCNA begivenheder (som uddybet mere i diskussionen).

Når forureningen fra normale celler steget over 50% (blandingsraten = 0,6), lidt alle tre metoder i kraft og præcision på påvisning kopi tab eller gevinst. For eksempel når blandingsraten er 0,6, den forventede somatisk ratio for én kopi tab og en kopi gevinst er 0,8 og 1,2. Således cutoff værdier, der anvendes i de foregående sammenligninger kan være for strenge at identificere SCNA begivenheder. Dette antyder vigtigheden af ​​at justere parametre for blandingsraten i SCNA kald.

Eksplicit modellering af blandingsraten

Som vi nævnte, en ukendt brøkdel af normale celler og heterogenitet kræftcellen befolkning to faktorer, der kræver særlig opmærksomhed i analyserne af tumor prøver. Vi begynder med at forklare, hvordan blandingsraten ville påvirke SCNAs ringer ved hjælp af en hypotetisk eksempel. For en tumorprøve med 0, 1, 3 og 4 kopier på forskellige kromosomale segmenter er blandet med 40% af en parret normal prøve med 2 kopier, de forventede somatiske forhold er 0,4, 0,7, 1,3, og 1,6 hhv. Uden nogen justering for blandingsraten ville udledes kopi-numre være 1, 2 (eller 1), 2 (eller 3), og 3. I dette tilfælde ville dobbelt sletninger blive fejlagtigt kaldes som LOHs, mens sande LOHs ville være næsten målbart resulterer i unøjagtig følgeslutning på kopiantal. Et centralt observation er, at der er en samlet forskydning af de forventede somatiske forhold fra dem uden kontaminering, og denne generelle Forskydningen kan anvendes til at udlede blandingsraten. Der er dog to komplikationer til at udnytte denne observation: første, de typer af SCNAs er ukendte (fx er der 4 typer i vores hypotetiske eksempel); sekunder, kan tilstedeværelsen af ​​subclonal SCNAs yderligere komplicere somatiske forhold profil og dermed påvirke kopi nummer. For at løse disse problemer på en sammenhængende måde, har vi udviklet en probabilistisk model under en fuld Bayesian ramme som beskrevet nedenfor.

Den grundlæggende idé bag blandingsraten estimering i SomatiCA er, at de somatiske forhold mellem klonede segmenter er centreret omkring en vis diskret niveau mens de subclonal segmenter har ingen begrænsninger. Derfor baseret på dens somatiske forhold, kan hver genomisk segment enten tildelt et heltal kopi-nummer eller klassificeret som et subclonal begivenhed. Andelen af ​​sammenblandede normale celler kan estimeres ud fra skift af somatiske forhold af klonale SCNAs fra deres forventninger i de rene og homogene tumorprøver. For at opnå dette, vi først anslået den mest sandsynlige antal komponenter fra input somatisk forholdet fordeling, derefter monteret en Bayesian finite blanding model til at tildele kopital til hvert segment baseret på de tilsvarende posterior sandsynlighed, og endelig vi anslået blandingsraten af ​​en optimale løsning bidraget med forklaring af kopien antal skift af alle klonale segmenter fra heltal niveauer.

Vores model ligner ABSOLUT [17], en Gaussisk blanding model til at identificere tumor renhed og ploidi på arrayCGH eller lav-pass sekventering data, med de store forskelle på antagelser er: 1) ABSOLUTE forudsætter en ensartet fordeling på subclonal begivenheder; i SomatiCA, er subclonal begivenheder identificeret baseret på posteriore sandsynligheder, dvs. afgang fra heltal kopiantal; 2) ABSOLUTE begrænser den genomiske masse tildelt hver kopi-tilstand, mens SomatiCA ikke. Desuden er disse to metoder tager forskellige mængder som input. ABSOLUTE tager kopien-forhold som input, en mængde måler den lokale DNA dosering condition på aneuploidi af tumor, mens SomatiCA bruger somatiske ratio, som er et absolut mål mellem normale og tumor prøver uden condition på det globale mål for tumor ploidi (identisk dækning for to biblioteker antages). Brugen af ​​den somatiske forhold frigør SomatiCA fra estimeringen af ​​ploidi. I stedet for at søge alle mulige kombinationer af ploidi og blandingsraten, SomatiCA kun søger efter en opløsning af blandingsraten med den somatiske forholdet 1 svarende til heltal kopi antal 2.

Vi evaluerede effektiviteten af ​​vores metode ved hjælp 90 simulerede cancer genomer. SomatiCA genereret præcis estimering af blandingsraten selv når dækningen var så lav som 20 ×. Til sammenligning vi skønnede også blandingsraten ved ABSOLUT og en variant af ASCAT. ASCAT bruger BAF og logR forholdet (condition på aneuploidi af tumor) at estimere tumor ploidi og renhed, som ikke umiddelbart til vores data. I vores sammenligninger, vi brugte en variant af ASCAT algoritme, der fastholdt sine hovedtræk: vi beregnet den samlede afstand til en allel heltal kopi nummer løsning for hvert segment og summeret over alle segmenter; så vi søgte efter en opløsning af blandingsraten der minimeret den samlede distance. For ABSOLUTTE, blandt top fem mulige kombinationer af blandingsraten og ploidi (ved sandsynlighed), valgte vi den ene med kopien på 1 svarer til det tal kopi antal 2 som den endelige løsning. Resultaterne er sammenfattet i figur 3 viser, at SomatiCA har en sammenlignelig ydelse med ABSOLUT og overgår ASCAT.

Både SomatiCA og ABSOLUT udkonkurrerer ASCAT-variant. SomatiCA opnår sammenlignelige præstation som ABSOLUT med få begrænsninger og mindre beregningsmæssige byrde.

Vi mener to grunde bidraget til bedre ydelse af SomatiCA forhold til ASCAT-variant. Først ASCAT anslår heltal kopital for hvert segment ved hjælp af heltal tættest på den observerede somatiske allele kopi. Når blandingen er høj, dette tilnærmelse er problematisk. For eksempel når blandingsraten er 0,6, den somatiske kopi af dobbelt deletion er 1,2. Det heltal kopiantal for denne dobbelte deletionshændelse er tildelt som 1 i stedet for 0. I modsætning hertil SomatiCA præ-beregner antallet af mulige diskrete niveauer fra histogrammet af de somatiske forhold og tildeler heltal kopital baseret på rækkefølgen af ​​sin diskrete niveau ved hjælp af niveau på 2 kopi som reference. Derfor er det stadig i stand til at estimere den absolutte kopital godt med stor nøjagtighed, når blandingen er høj. For det andet, ASCAT optimerer over alle SNPs, mens SomatiCA tager hensyn til indflydelsen af ​​intra-tumor subclonal heterogenitet og kun optimerer løbet klonede begivenheder. Denne fremgangsmåde kompenserer for undervurdering fra optimeringen med alle segmenter.

Desuden SomatiCA opnår sammenlignelige præstation som ABSOLUT med få begrænsninger og mindre beregningsmæssige byrde. SomatiCA ikke begrænser den genomiske masse tildelt hver kopi-tilstand, eller den relative andel af subkloner. Potentielle subkloner, identificeret ved lave posteriore sandsynligheder, er udelukket fra blandingsraten skøn. Med antagelsen om kopi-forhold på 1 svarer til det tal kopi antal 2, kun SomatiCA optimerer over en parameter – blandingsraten, hvilket reducerer byrden af ​​samtidige estimering af blandingsraten og ploidi. Den gennemsnitlige CPU køretid for blandingsraten estimering i SomatiCA er 27,5 sekunder (5000 MCMC trin), mens der for ABSOLUT (ploidi varierede fra 0,95 til 4) er 450 sekunder. I SomatiCA kunne ploidi estimeres som gennemsnittet kopi-nummer over genomet efter justering for blandingsraten.

Vi kiggede længere ind i simulerede genomer med høje normale forureninger hvor blandingsraten var 0,6. Vi udledte kopitallet for SCNAs opdages af disse simulerede genomer med justering ved hjælp af anslået blandingsraten fra SomatiCA, og sammenlignet resultaterne med kopi nummer udledes uden justering, og dem med justering ved hjælp af en blanding på 0,2 og dem, der bruger 0,4. Som vist i figur S2, estimeringen fra SomatiCA bidraget til at øge nøjagtigheden af ​​udledte kopi nummer inferens for SCNAs forhold til indstilling blanding hastighed præ-specificerede (og forkerte) niveauer.

Subclonality karakterisering

tilstedeværelsen af ​​den genetiske mangfoldighed inden tumor prøver, der er, subclonality, tilbyder vigtige spor til tumor evolution. Præcis følgeslutning af kopi nummer status gennem justering af blandingsraten giver muligheder for SomatiCA at identificere subclonal ændringer på baggrund af de fremherskende dem. SomatiCA karakteriserer subclonality for hvert segment ved at udføre hypotesetest. Den beregner først det antal kopier for hvert segment i kontrollen normale prøve. Derefter tester hvorvidt kopital ændring i den tilsvarende tumorprøven kan resultere i en ændring af nøjagtig en kopi af en allel. I vores simulering undersøgelse, placeret vi 4~5 SCNAs (større end 10 MB, subclonal procentdel af 0,2 eller 0,4) på ​​kromosom 12 til 15 i hvert simuleret cancer genom. I alt for hver kombination af blandingsraten og dækning, er der 46 sande positive subclonal arrangementer på tværs ti simulerede kræft genomer. De subclonal opkald fra andre kromosomer er falske positiver, som følge af enten en undervurdering af klonede begivenheder eller en misklassifikation af kopi nummer neutral begivenhed. Når blandingsraten er 0,2 eller 0,4, SomatiCA genvundet 87% af sande subclonal begivenheder (40 ud af 46) og rapporteres 8 falske positiver i gennemsnit. Når blandingsraten er 0,6, SomatiCA var stadig i stand til at genvinde 84% af sande subclonal begivenheder, men rapporterede 20 falske positiver. 95% af falske positiver subclonal begivenheder fejlklassificeres fra kopi nummer neutrale begivenheder. Dette resultat indikerer, at SomatiCA opnår høj præcision på påvisning af klonede begivenheder. Men når blandingsraten bliver højere, ville mere falsk positive opkald komme ud misklassifikation af kopi nummer neutrale begivenheder.

Anvendelse på TCGA benchmark 4 data

Vi brugte TCGA mutationen kalder benchmark 4 datasæt til evaluere resultaterne af SomatiCA og andre på reelle data. Denne hele genomet sekventering benchmark datasæt er ideel til en sådan evaluering, fordi det består af kunstigt blandede prøver med andelen af ​​tumor prøver i en gradient fra 20% til 95%. Vi fokuserede vores analyse på 7 blandede HCC1143 prøver sekventeret ved 30 × (tabel 1). For hver blandet prøve, vi uropført segmentering implementeret i SomatiCA og beregnet de somatiske nøgletal hjælp HCC1143 30 × normal prøve som en matchede par. Vi tilpasser medianen af ​​tumor-bibliotek, så medianerne i to var de samme. Derefter vi input somatiske nøgletal til SomatiCA, ASCAT-variant og absolut. For hver prøve ABSOLUTTE udgang 19 mulige kombinationer af blandingsraten og ploidi (til det tilladte interval for ploidi sæt 0,95 til 4), som dækkede en bred vifte. Tag prøve HCC1143.n60t40 som eksempel (60% normale celler blandet med 40% tumorceller), er den estimerede blandingsraten varierede fra 0,32 til 0,84. For at matche den underliggende antagelse i SomatiCA, vi manuelt valgte ABSOLUTE løsninger med kopien forhold på 1 svarer til det hele tal kopitallet af 2 (eller). Vi Bemærk dog, at udvalgte ABSOLUTTE løsninger under sådanne kriterier er mere præcise end løsninger med top SCNA-fit log-sandsynlighed score. Vi sammenfatter de beskrevne skøn i tabel 1. Samlet set SomatiCA har en sammenlignelig ydelse til ABSOLUT. Begge udkonkurrerer ASCAT-variant. I tre udtages med 25% forurening fra normale celler (selvom forskellige spike-in SNVs indført), SomatiCA produceret mere præcise og stabile skøn. Dette resultat tyder på, at korrespondance fra 1 til heltal kopi antal 2 kan være en rimelig antagelse at gøre i kræft sekventering data med en parret normal prøve sekventeret på en sammenlignelig dybde.

Efter justering for skønnet blanding sats, vi bruges SomatiCA at kalde SCNAs for disse prøver. Figur 4 viser den somatiske kopital og subclonality karakteriseret for 7 prøver vi analyserede. Resultatet er konsistent på tværs prøver med forskellige blandingsforhold af normale celler, hvilket viser robustheden af ​​SomatiCA til forskellig grad af forurening. Men på grund af den potentielle model overfitting og uundgåelig identificerbarhed problem, SomatiCA rapporterer ikke nogen blandingsraten over 80%. For TCGA benchmark 4 prøve HCC1143.n80t20 og HCC1143.n95t5 (blandet med 80% og 95% normale celler), SomatiCA kun rapporteret segmentering resultater uden justering for iblanding sats.

Den kaldende Resultatet er konsistent på tværs prøver med forskellig blandingsforhold af normale celler, hvilket viser robustheden af ​​SomatiCA til forskellig grad af forurening.

anvendelse af SomatiCA til en GBM prøve

Vi anvendte SomatiCA til hele genom sekventering af data om Complete Genomics platform hos en patient med diagnosticeret primær glioblastom (GBM) (upublicerede data). I figur S3 og S4, viser vi segmenteringen fra SomatiCA og dens sammenligning med CBS og cumSeg hjælp kromosomer 7 og 10 hhv. Den anslåede blanding sats for denne prøve var 37,1%. Efter justering for blandingsraten, vi identificeret 121 SCNAs med størrelser fra 3428 bp til et helt kromosom. Disse SCNAs omfattede én kopi gevinst på hele kromosom 7, en kopi gevinst for hele kromosom 9, og begge LOHs og kopi-neutrale LOHs på kromosom 10. Vi yderligere sammenligning disse SCNAs med 20 kendte GBM chauffører opført i [21], og fandt, at disse SCNAs viste overlap med 15 ud af 20 kendte GBM chauffører. Blandt disse, forstærkningen på CDK6, EGFR og MET, og sletningen på NF1 er klonal mens andre begivenheder er subclonal.

Diskussion

I denne artikel, vi har beskrevet en ny beregningsmæssige rammer, SomatiCA, at identificere SCNAs fra kræft sekventeringsdata. Den blev udviklet til at løse forurening og heterogenitet i tumor prøver, to store udfordringer i kræft genom analyse. Omfattende simuleringer har vist bedre resultater af vores metoder i løbet af de eksisterende

SomatiCA er blevet implementeret som fire funktionelle moduler i R:. Indledende segmentering, estimering af somatiske forhold med segmentering raffinement, justering for iblanding sats og subclonality karakterisering . Hvert modul i SomatiCA kan kaldes selvstændigt. Det er ligetil at implementere tilpassede procedure inkorporerer en eller alle moduler fra SomatiCA. Selv om data motivere udviklingen af ​​SomatiCA blev genereret fra Complete Genomisk platform, input til SomatiCA er RD og LAF for alle de parrede SNP sites, hvilket gør det generelt anvendelig til at analysere de data fra andre platforme. SomatiCA er også skalerbar fordi segmentering på forskellige kromosomer kan parallel (se tekst S2 til en manual for SomtiCA pakke).

På trods af mange fordele, vi konstatere, at der er flere advarsler for brug SomatiCA.

først og fremmest SomatiCA kræver kortlægning til en reference-genom og genotype ringer som præ-behandlingstrin. Det er blevet påvist, at mappability, GC-indhold bias og kvalitetskontrol mål for læser alle påvirker læse dybder dermed CNV kalder [22]. Selvom virkningerne af disse spørgsmål kan reduceres i SCNA ringer med parrede normal-tumor prøver til en vis grad, er der stadig behov for særlige forholdsregler vedrørende valget af aligners, kortlægning kvalitet filtre og genotype opkald. Sekventering dybde kan også påvirke ydeevnen af ​​SomatiCA. SomatiCA blev udviklet på sekventering data med en anstændig dækning på 30 × eller højere. For lave prøver dækning (f.eks 0,01-0,5 ×), anbefaler vi specialiserede metoder såsom BIC-seq [23] og CNAnorm.

For det andet segmentering i SomatiCA afhængig ændringen punkter opdaget [24] ved CBS. I en nylig undersøgelse, Cai et al [25] rapporterede, at CBS havde mangel i afsløring af sparsomme og korte segmenter med interval længder mindre end 40 datapunkter. Det er også blevet vist i vores Simuleringsundersøgelserne at segmenter med kun nogle få markører tendens til at blive overset af CBS og således af SomatiCA. Lav følsomhed på korte segmenter er yderligere forværret af brugen af ​​den fortyndede signal fra heterozygote sites. Derfor SomatiCA, som øjeblikket gennemføres, kan ikke være egnet til sparsom og kort segment opdagelse i kræft sekventering data. Dette er et fælles problem for de metoder, der bruger BAF (LAF). Ifølge en undersøgelse af 3131 kræft prøver blev medianen længde af fokal SCNAs rapporteret at være 1,8 Mb (området 0,5 kb-85 Mb). For at identificere en bred vifte af SCNAs fra flere hundrede basepar til endnu et kromosom, anbefaler vi at overveje supplerende tilgange i praksis. Segmenteringen metode i SomatiCA falder ind under kategorien af ​​globale strategier, der kræver break points gennem afprøvning på baggrund af en hel kromosom. Lokale tiltag, der henviser til de metoder, der har til formål at identificere SCNAs ved at sammenligne RD i tumoren genom med den matchede normale genom ved hver genomisk position (eller vinduet), såsom BIC-seq [23], CNVseg [12]

Be the first to comment

Leave a Reply