PLoS ONE: En Strømlinet Metode til Afsløring Strukturel Varianter i Cancer genomer af Short Læs Parret-End Sequencing

Abstrakt

Definition af arkitekturen i en bestemt cancer genom, herunder dets strukturelle varianter, er afgørende for forståelsen af ​​tumor biologi , mekanismer af onkogenese, og for at designe effektive personlige behandlinger. Short læse parret ende sekventering er i øjeblikket den mest følsomme metode til påvisning af somatiske mutationer, der opstår under tumor udvikling. Men kortlægning strukturelle varianter ved hjælp af denne metode fører til et stort antal falske positive opkald, hovedsagelig på grund af den repetitive karakter af genomet og vanskeligheden ved at tildele korrekte kortlægning positioner til kort læser. Denne undersøgelse beskriver en metode til effektivt at identificere store tumor-specifikke deletioner, inversioner, gentagelser og omplantning fra lave dækning data ved hjælp SVDetect eller breakdancer software og et sæt af nye filtrering procedurer designet til at reducere falske positive opkald. Anvendelse vores metode til en spontan T-celle lymfom opstår i en kerne rag2 /p53-mangel mus, vi identificeret 40 validerede tumor-specifikke strukturelle omlejringer understøttes af så få som to uafhængige læse par

Henvisning:. Mijušković M, Brown SM, Tang Z, Lindsay CR, Efstathiadis E, Deriano L, et al. (2012) En Strømlinet metode til påvisning Strukturelle varianter i Cancer genomer af Short Læs Parret-End Sequencing. PLoS ONE 7 (10): e48314. doi: 10,1371 /journal.pone.0048314

Redaktør: Patrick Tan, Duke-National University of Singapore Graduate Medical School, Singapore

Modtaget: 16. juli 2012; Accepteret: September 24, 2012; Udgivet: 29 oktober, 2012 |

Copyright: © 2012 Mijušković et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af tilskuddet PN1EY018244 fra National Institutes of Health køreplan initiativet i nanomedicin (nanomedicin Development center award) og National Institutes of Health give R01CA104588 til DBR. SMB og ZT er delvist støttet af National Institutes of Health /National Center for Research Resources tilskud U54 RR024386-01A1 (Clinical Translation Science Award) til New York University Medical Center. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion Salg

Somatiske strukturelle varianter (SVS), herunder store, insertioner inversioner, gentagelser og omplantning er vigtige kendetegnende for kræft genomer, der er ansvarlige for oprettelse af fusionsgener, kopiere nummer og lovgivningsmæssige ændringer, der fører til aktivering eller overekspression af onkogener og inaktivering af tumorsuppressorgener [1], [2], [3], [4], [5], [6]. Definition af arkitekturen i en bestemt cancer genom er derfor vigtigt ikke kun som et første skridt mod at forstå biologi tumoren og mekanismer onkogenese, men også klinisk retning designe effektive personlige behandlinger [7], [8].

Nylige fremskridt i high throughput sekventering teknologi [9], [10] har gjort det muligt at studere hele genomer på hidtil uset høj opløsning og relativt lave omkostninger. Men den nuværende korte læste parret ende sekventering teknologier bære mange udfordringer, især tydeligt, når de forsøger at studere SV’er i cancer. Først, den iboende kompleksitet i tumorvæv [11], [12], [13] er en udfordring i sig selv, da tumorer er sjældent monoklonale og er ofte blandet med normalt væv, så sekventeringen dækning skal være dybere end for SV detektion i kimcellelinjen. For det andet, kort- læser genereret af parret ende sekventering (typisk 50-100 bp fra hver ende af 300-400 bp DNA-fragment) for at bevise være vanskeligt at kortlægge korrekt tilbage på henvisningen genomet grund af den høje procentdel af repetitive genomiske sekvenser [14], [15], [16], [17]. Alt dette fører til et stort antal falske positive opkald, generering uacceptable niveauer af støj. Retrotransposon aktivitet, almindelig i mennesker og mus genomer [18], [19], derudover komplicerer dataanalyse, der fører til visse former for falske positive opkald. Endelig DNA bibliotek forberedelse artefakter skyldes PCR-amplifikation kombineret med sekventeringsfejl tilføje et andet niveau af kompleksitet

Dette arbejde beskriver en hel genom sekventering tilgang til at identificere 4 typer SV’er:. Større deletioner, inversioner, gentagelser og omplantning . Vi brugte SVDetect [20] og Breakdancer [21] for at ringe til SV’er i en muselymfom genom fra et sæt af parret ende læser opnået på Illumina s HiSeq platform. For at reducere det høje antal af falsk positive opkald, vi udviklet en filtrerende procedure, der tillader detektering af tumorspecifikke begivenheder på relativt lav dækning (17x). Først fandt vi det vigtigt at sammenligne tumorens datasæt til en kimlinje prøve opnået fra det samme dyr, for at fjerne et stort antal kimcellelinje SV’er (hovedsagelig som følge af retrotransposon-aktivitet) påvist i forsøgsdyret sammenlignet med referencen genomet. For det andet, vi udviklet metoder til at fjerne læste par markeret som uharmonisk grund justeringsfejl, samt ufuldkomne PCR dubletter som følge af DNA-fejl bibliotek forberedelse og sekventering. For det tredje, vi anvendes flere filtre på resultaterne produceret af SV opkaldsfunktioner programmer, såsom overlapper med kommenterede simple gentagelser og lav mappability regioner, for at identificere høj tillid SV kandidater. Vi viser PCR og Sanger-sekventering validering af 40 tumorspecifikke SV’er i en enkelt tumor genom understøttet af så få som 2 uafhængige læste par.

Sammenfattende fremgangsmåden præsenteres her forenkler analyse viste højere prøvegennemløb. Det giver også høj følsomhed, så påvisning af sjældne variant kloner i komplekse blandinger, der kan have vigtige prognostiske eller terapeutiske konsekvenser.

Resultater og Diskussion

Etablering indledende analyse Parametre

Vi brugte parret ende (PE) sekventering simuleringer som et redskab til at etablere de første analyseparametre, at kvantificere effekten af ​​sekventering dybde på påvisning af kendte SV’er, og studere alignment relaterede falske positiver. Vi simulerede en omlejret genom baseret på C57BL /6J mus reference (MM9), indføring 10 interchromosomal translokationer og 10 store deletioner i områder af varierende mappability (tabel 1). Læs længde, betyder insert størrelse og standardafvigelse af insertet størrelse blev valgt for at være repræsentative for vores eksperimentelle data (50, 315, 44, henholdsvis). Ved hjælp af tre uafhængige simulerede datasæt med 10, 20, 40, 80 og 160 millioner læste par, vurderede vi antallet af fundne reelle og falske positiver, samt afsløring sandsynligheden som en funktion af den lokale mappability.

PE sekventering viste sig at være en effektiv metode til SV detektion ved dækningsniveauerne svarende til 80 eller flere millioner læste par. 90% af begivenheder i vores simuleret omlejrede genom blev påvist med 160 millioner læste parvis om minimum øjeblikket opnås fra en enkelt bane ved hjælp af Illumina HiSeq platform (fig. 1A). Som forventet, spores en vis omlægning stærkt afhang af breakpoint mikromiljø, med mere dækning er nødvendig for at opdage hændelser i regionerne lavere mappability (fig. 1B). Ved vurdering af falske positiver, fandt vi, at 97% af de samlede SV opkald blev tilskrevet læser med mere end en lige gyldige kortlægning position. Disse læser stammer fra forskellige gentagne genomiske regioner (såsom centromere satellit-sekvenser, retroelements, RNA-gener osv) og måtte fjernes fra analysen. Efter at have undersøgt BWA kortlægning kvalitet snesevis af læser bidrager til reelle og falske positiver, valgte vi en cutoff på 23 for vores analyse (for yderligere diskussion, se “Falske positiver skyldes BWA justeringsfejl

). Det skal bemærkes, at cutoff vælges ud fra det ønskede forhold mellem reelle og falske positive, med lavere cutoff stigende sensitivitet på bekostning af specificitet. Efter anvendelse af BWA kortlægning kvalitet cutoff til vores simulerede datasæt, vi observeret flere falske positiver relateret til læse kortlægning fejl. Men vi bemærket størrelsesrelaterede falske positiver, der optrådte med den stigende dækning. Disse falske positiver var små deletioner stammer fra højere ende og overlapninger med oprindelse fra den nedre ende af det normale DNA-bibliotek fragment størrelsesfordeling. For at korrigere for insert størrelse relaterede falske positiver, brugte vi en størrelse cutoff på 8 standardafvigelser og anvendt det til vores analyse. bør bestemmes denne parameter for hvert bibliotek individuelt, afhængigt af den ønskede følsomhed: forøgelse standardafvigelsen cutoff vil føre til forøgelse af minimal påviselig deletion og overlapning størrelse. Afhængigt af analyse behov, kan det være en fordel at bruge lavere standard afvigelse cutoffs sammen med en vurdering af antallet af støtter læste par, som SV’er med et højere antal understøttende læse par kan indikere en virkelig begivenhed. Imidlertid bør denne fremgangsmåde anvendes med forsigtighed, når man analyserer tumorprøver hvor tab eller gevinst på kopi nummer kan føre til forkerte konklusioner.

A) Påvisning af SV’er som funktion af dækning, B) Antal støtte ordlyd en funktion af mappability.

Simuleringer af PE-sekventering viste sig at være et nyttigt redskab i udviklingen af ​​data filtrering strategi. Efter optimering startparametrene beskrevet ovenfor og fjerne alle falske positive opkald fra simulerede datasæt, SV opfordrer i den eksperimentelle datasæt kunne tilskrives prøven og den eksperimentelle procedure selv, snarere end analyse artefakter. Simuleringer var også nyttig som et middel til at forudsige nødvendige dækning til at påvise bestemte typer hændelser. Vigtigere, når det vedrører simuleringer af forsøgsdata analyse må det tages i betragtning, at forventede hyppighed af omlejringer, og dermed den nødvendige dækning, vil normalt være 50% som følge af diploide karakter af genomet. I tilfælde af heteroclonal eller urene prøver (det normale tilfælde, når der beskæftiger sig med tumor prøver), forventes denne frekvens til at være endnu lavere.

Datafiltrering

Som vores eksperimentelle datasæt, valgte vi en karakteriseret thymus lymfom opnået fra en rag2

c /cp53

– /- mus. Thymus lymfomer opstår spontant i denne musemodel huser en lang række strukturelle omlejringer såsom translokationer, store deletioner og amplificeringer [22]. Illumina er parret ende sekventering blev valgt frem for styrmanden pair strategi, som vi opgav i den tidlige løbet af dette arbejde på grund af vanskeligheder i DNA-bibliotek forberedelse. Vi sekventeret to genomiske biblioteker, som er opnået fra den faste tumorvæv og den anden fra leveren af ​​samme dyr (kimlinie kontrol). Vi fandt kontrol biblioteket for at være afgørende på grund af et stort antal kimcellelinje SV’er stammer fra resterne af en 129-stamme baggrund (musen blev oprindeligt skabt som en 129SvEv /C57BL6 hybrid). Tumoren og kontrol biblioteket blev sekventeret til 17x og 9x fysiske dækning (tabel 2, fig. 2).

A) Tumor datasæt, B) Styring datasæt. Tumor datasæt viser forskellen relative fordeling af dækning på grund af genomisk instabilitet. Kromosom nummer ændringer er tydelige for CHR1, CHR2, chr15 (~ 3 eksemplarer), CHR4 og chr14 (-4 kopier), CHR8 (~2.5 kopier).

Vi brugte SVDetect (Fig . 3A) og breakdancer (fig. 3B) for at ringe indledende SV’er, da disse er de to mest udbredte store strukturelle variant afsløring programmer, som gælder til 50 PE data bp læse. Generelt er analyse under anvendelse af breakdancer oprindeligt produceret mere intrakromosomal og mindre interchromosomal SV opkald sammenlignet med SVDetect, måske på grund af forskelle i clustering strategi. samme analyseparametre og filtrering Proceduren for blev anvendt til begge programmer, hvilket giver lignende resultater i slutningen.

Graph viser det samlede antal SV opkald ved SVDetect (A) eller breakdancer (B), som anvendes på hinanden følgende filtrering trin . INGEN FILT- Ingen filtrering (undtagen fjernelse af perfekte PCR dubletter og læser med nul BWA kortlægning kvalitet), M QUALITY Fjernelse læser med 23 BWA kortlægning kvalitet, jeg DUPL- Fjernelse læser i kategorien “ufuldkomne dubletter”, CONTROL Sammenligning tumor datasæt til kontrol, LOW MAP- post-SV afsløring filtrering af opkald overlappende lave mappability regioner, SIMP repræ- post-SV afsløring filtrering af opkald overlappende simple gentagelser, kun- Brugerdefineret filtrering af resterende opkald baseret på omlejring type (se tekst for detaljer).

i modsætning til simuleringer, analyse af eksperimentelle data førte til et stort antal falske positive opkald efter anvendelse oprindeligt etablerede analyseparametre beskrevet ovenfor. Vi definerer disse falske positiver som begivenheder, der understøttes af læser mapping at Gentagne genomiske regioner, såvel som dem, der spænder regioner med retroelement aktivitet. Antallet af falske positiver var især stor blandt interchromosomal SV’er, forklares ved den højere sandsynlighed for en gentagen læsning bliver skævt til et kromosom forskellig fra dens makker. For at finde og validere ægte tumorspecifikke varianter, var det nødvendigt at analysere kilden til disse opkald og reducere dem til et overskueligt antal. Vi identificerede 3 hovedtyper af falsk positive opkald, afhængigt af deres kilde: 1) falske positive relateret til variation mellem musestammer, 2) falske positiver følge af justeringsfejl, og 3) falske positive relateret til PCR dubletter stammer fra prøvefremstillingen kombineret med sekventeringsfejl. Vi udviklede forskellige før og efter afsløring filtrering procedurer for at arbejde omkring disse udfordringer.

Falske positiver Relateret til Structural Variation mellem Laboratory Mouse Stammer

Strukturel variation blandt almindeligt anvendte laboratorium musestammer, ligner strukturel variation mellem individuelle mennesker, er allerede blevet dokumenteret i detaljer [23], [24], [25]. De fleste knock-i mus, herunder den, der anvendes i denne undersøgelse, kan klassificeres som hybrid stammer, selv om dyrene tilbagekrydses et antal gange til henvisningen genomet stamme (C57BL /6J). Observeret SV’er kan det meste tilskrives germlinie retroelement aktivitet, og manifesterer sig som indsættelser af SINE, LINE og LTR elementer samt reverse-transskriberede intronless gener (retrogenes). Når en eksperimentel datasæt sammenlignes med C57BL /6J henvisning genom, er flere typer af strukturelle varianter kaldes. Mest almindeligt, retroelement indsættelser til stede i henvisningen, men mangler i prøven stammen, vil blive indkaldt som sletninger, mens de til stede i prøven stammen, men mangler i referencen, vil blive indkaldt som balancerede translokationer. Indsættelser af retrogenes kan blive anerkendt som en række sletninger omfattende introns, ledsaget af en translokation opkald fra kromosomet oprindelseslandet til modtageren kromosom (fig. 4).

A) retrotransposon indsættelse til en anden kromosom, der fører til en falsk translokation opkald, B) retrotransposon indføring til det samme kromosom som den oprindelige, der fører til en falsk deletion opkald, C) revers transkriberet intronless genet (retrogene) indføring til et andet kromosom fører til falsk translokation og sletning af opkald.

for at bortfiltrere kimlinie SV’er er beskrevet ovenfor, fandt vi det nødvendigt at opnå en kontrol datasæt ved sekventering normalt væv stammer fra det samme dyr. I denne undersøgelse blev en kontrol datasæt fremstillet under anvendelse levervæv og sammenlignet med tumoren datasæt. Ved hjælp af denne strategi, kunne vi fjerne de fleste kimlinie SV’er. Men visse SV’er ikke påvises som kimcellelinje, på grund af manglende overlapning mellem støtte læste par. Derfor fandt vi det nødvendigt at undersøge hver SV manuelt for potentielt savnet overlap med kontrollen. Selv efter påføring sammenligningen procedure, en række arrangementer vi identificeret kandidater af høj kvalitet blev valideret som kimcellelinje (30% af intrakromosomal og 50% af interchromosomal SV’er). Dette resultat kan henføres til lavere dækning i vores kontrol datasæt, hvilket fører til lavere følsomhed germlinie SV afsløring. Aneuploidi af tumorvæv (yderligere kopier af nogle kromosomer eller tab af andre) skaber lokale forskelle i dækningen mellem tumor og kontrol datasæt, som tilføjer til komplekse analyse (fig. 2).

Falske positiver Opstået fra BWA alignment fejl

for at fjerne falske positive relation til alignment fejl, vi testede effekten af ​​BWA kortlægning kvalitetsresultat-baseret filtrering af antallet af resulterende SV opkald. Selvom BWA forfattere udpeger læser med 0-10 kortlægning kvalitet som “unreliably kortlagt” [26], fandt vi det bedste cutoff område for kortlægning kvalitet score i vores eksperiment til at være 0-22 (fig. 5). For delvist korrekt for uønsket fjernelse af fast SV kandidater i mindre unikke genomiske regioner, opkald med et stort antal støtter læste par blev undersøgt manuelt. Dog kunne ingen af ​​de undersøgte fjernede SV’er udpeges som høj kvalitet kandidater, da de alle involverede genomiske regioner med lav mappability. Efter at anvende dette læste kortlægning kvalitet filter før nogen anden filtrering anvendes, antallet af kaldet SV’er blev reduceret til 85% for intrakromosomal og 36-39% for interchromosomal hændelser (fig. 3).

uharmonisk læser med kortlægning kvaliteter over 22 anvendes til denne analyse (boks).

for yderligere at reducere antallet af SV opkald som følge af forskydning af læser oprindelse fra gentagne regioner, vi testede strategien med at fjerne SV’er med overlapning med RepeatMasker [27], og den simple gentagelser styr på UCSC Genome Browser. Vi fandt, at RepeatMasker strategi reducerer antallet af falsk positive opkald betydeligt, men filtrerer 12% af allerede validerede omlejringer, herunder nogle med potentiel biologisk betydning (f.eks. PTEN deletion). Vigtigt er det, lyder kommer fra RepeatMasker kommenteret regioner er ikke nødvendigvis svært at kortlægge entydigt, da dette spor indeholder mange gamle gentagne elementer, der har betydeligt afveg gennem evolution. RepeatMasker filtrering strategi blev endelig kun brugt til at identificere høje tillid kandidater blandt interchromosomal begivenheder med et lavt antal støtte læste par. I modsætning til RepeatMasker blev overlap med enkle gentagelser track sig at være en succes i frafiltrere justering fejl relateret falske positiver kun.

Som en anden strategi for at håndtere gentagne element-relaterede falske positiver, vi testede effektiviteten af filtrering SV’er mod de lave mappability regioner, beregnet baseret på mappability data fra UCSC Genome Browser (se materialer og metoder). Denne strategi viste sig at meget vellykket, fjerne et betydeligt antal falske positive opkald, især effektiv i tilfælde af interchromosomal SV’er (fig. 3).

Falske positiver Relateret til fejl i Duplicate Calling

I løbet af vores analyse, vi observerede falske positiver kaldes fra små klynger af 2 eller 3 læste parvis med både læser kortlægning i positionerne 0-2 bp væk fra hinanden (fig. 6). Som allerede diskuteret af andre i området [28], de fleste af disse “ufuldkomne dubletter” sandsynligvis stammede fra et DNA-fragment og afveg enten under PCR-amplifikation, måske på grund af template-strengen glider, eller sekventering fejl i starten eller slutningen af læses under sekventering procedure. Disse bona fide dubletter kan ikke fjernes ved hjælp af eksisterende værktøjer som Picard s MarkDuplicates da de ikke har identiske kortlægning positioner. Andel af ufuldkomne dubletter synes at være korreleret med den procentdel af perfekte PCR dubletter: specifikke datasæt med høj perfekt to eksemplarer procentdel vil vise større procentdel af ufuldkomne dubletter (M. Mijušković, resulterer ikke i denne undersøgelse)

Tre. læse par, sandsynligvis stammer fra et DNA-fragment, der viser 1-2 bp offset i genomiske koordinater.

Vi definerede ufuldkomne dubletter som par med samme kortlægning position både læser med den mulige forskydning op til 2 bp. Påvisning af disse dubletter blev gjort under gruppering af diskordante læste par ved SVDetect eller breakdancer, ved hjælp af forskellige strategier (se Materialer og fremgangsmåder). Efter anvendelse dette filter, blev antallet af intrakromosomal og interchromosomal SV’er reduceret med 0,3 til 1,7% og fra 3,9 til 19,5%, henholdsvis (figur 3). Vigtigt er det, kan disse tal undervurderer den samlede ufuldkomne to eksemplarer procent siden i dette tilfælde de blev opdaget efter fjernelse lav kortlægning kvalitet læser.

Validering Strukturel Varianter

Vi skabte den endelige liste over 61 høje tillid SV’er (se materialer og metoder) efter manuel gennemgang af 381 intrakromosomal og 130 interchromosomal SV’er detekteret af SVDetect og 328 intrakromosomal og 64 interchromosomal SV’er detekteret af breakdancer opnået efter anvendelse vores filtrering procedure. De fleste af disse opkald, kaldes af begge programmer, viste sig at være enten et resultat af tilpasning fejl i forbindelse med gentagelser (59%), eller tidligere uidentificerede germlinie SVS såsom retroelement eller retrogene indrykninger (23%). Breakdancer opdages kun en delmængde af høj tillid SV’er fundet af SVDetect (47 ud af 61), endnu før nogen filtrering blev anvendt, måske på grund af forskelle i clustering algoritme.

Vi brugte PCR til at teste 57 intrakromosomal og 4 interchromosomal høj tillid SV’er fundet af den breakdancer og /eller SVDetect (tabel S1). Fra dette sæt, vi valideret 23 store (1-539 kb) sletninger, 10 inversioner, 5 gentagelser og 2 translokationer som tumor-specifikke, og specificiteten af ​​PCR-produkterne blev bekræftet ved Sanger sekventering (tabel 3). Således 40 af de 61 høje tillid SV’er identificeret ved vores metode blev valideret som tumor specifikke SV’er. De øvrige 19 intrakromosomal og 2 interchromosomal hændelser blev PCR valideret som germlinie SV’er. 16 ud af 21 af disse SV’er havde mindst én støtte læst par i den oprindelige kontrol datasæt og undlod at blive opdaget på grund af vores 2 understøtter læst cutoff. Disse falske positiver kan undgås enten ved sekventering kontrol datasæt til højere dækning, når det er muligt, eller undersøge kontrollen datasæt ved hjælp af en læse- pair cutoff.

Blandt validerede tumor-specifikke SV’er, fandt vi flere tumor-suppressor gen deletioner, såvel som nogle forventede kanonisk antigen-receptor gen omlejringer (tabel 3). Især to tumor-specifikke translokationer, to inversioner og en validerede tumor-specifikke dobbeltarbejde viser tegn på en kompleks omlægning [29].

Konklusioner

Først vores arbejde viser, at simulere parret ende sekventering kan være en effektiv måde at udvikle analysen strategi, forudser dækning nødvendige for at afsløre DNA breakpoints i forskellige genomiske miljøer og til at adskille kilder til falsk positive opkald til prøve relaterede og dem, der opstår på grund af analyse artefakter.

Anden vi har fundet, at en kontrol datasæt opnået fra det samme dyr er afgørende at mindske et stort antal kimcellelinje SV’er der findes mellem almindeligt anvendte laboratorium musestammer, selv i tilfælde, når dyrene tilbagekrydses et antal gange til referencen genomet stamme.

for det tredje har vi defineret to typer af duplikeret læser fører til falsk SV forudsigelse, både som følge af PCR over-forstærkning under forberedelse prøve: perfekte dubletter, med matchende genomiske koordinater, og dem med 1-2 bp koordinat offset der er ikke påvist under anvendelse af eksisterende værktøjer. Vi præsenterer en metode til at fjerne SV’er følge dem læser ved hjælp af enten SVDetect eller breakdancer.

For det fjerde finder vi, at du fjerner læser med lav BWA kortlægning kvalitet, samt SV opkald, der overlapper med genomiske regioner med lav mappability, er en meget effektiv måde at filtrere vores store antal falske positiver, der opstår som følge af opretning af fejl.

Endelig hjælp af denne metode, vi valideret et ret stort antal sande tumor-specifikke SV’er fra en forholdsvis lille datasæt. Startende med et stort antal af kandidat begivenheder, var vi i stand til hurtigt at kassere størstedelen af ​​falsk positive og fokusere på en medgørlige antal kandidater til manuel analyse (~ 5% af det oprindelige antal opkald fra dette datasæt). Vi valideret vores filtrering metode med to udbredte SV afsløring programmer, SVDetect og breakdancer, der viser, at det er universelt anvendelig, snarere end at være begrænset til et enkelt program og dets eventuelle mangler. Det endelige antal kandidat arrangementer, samt antallet af falske negativer, er en funktion af dækning og strengheden af ​​filtreringsparametre. Afhængigt af behovene i eksperimentet, kan disse parametre indstilles til et ønsket niveau for at opnå et acceptabelt antal falske positiver vs falsk negative.

Vores metode bør gælde for det fremtidige arbejde i modelorganismer som samt i humane tumorer. I den kliniske sammenhæng, ville højere dækning være nødvendig for at reducere antallet af uopdagede kimcellelinje SV’er, samt at forbedre påvisningen af ​​lavfrekvente somatiske SV’er.

Materialer og metoder

Simulering PE sekventering data

Simuleret PE sekventering datasæt blev skabt på grundlag af en muteret mus henvisning genom (MM9) indeholdende 10 translokationer og 10 store sletninger indført ved hjælp Relief værktøjer (https://emboss.sourceforge.net). Illumina format fastq filer blev skrevet med vores PE.pl program (https://sourceforge.net/projects/svdetection), der udvælger tilfældige positioner i den brugerdefinerede forudsat genom, normaliserede til forskellige kromosom længder. Brugerdefinerede parametre omfatter antallet af læste par, læse længde, betyder insert størrelse og standardafvigelse.

Indhentning Eksperimentelle data

tymom og lever (kontrol) væv blev høstet fra en rag2

c /cp53

– /- mus [22], en 129SvEv /C57BL6 hybridstammen, og genomisk DNA blev oprenset under anvendelse Blood Cell Culture-DNA-Maxi Kit (Qiagen, # 13362). Parret-end biblioteker blev genereret fra en ug startende genomisk materiale fra begge væv ved hjælp TruSeq DNA v2 Sample Prep Kit (Illumina, # FC-121-2001) i henhold til producentens anbefalinger. Optimal PCR-amplifikation af adaptor-ligerede DNA blev bestemt under anvendelse af et FlashGel DNA System (Lonza, # 57026). Biblioteker blev analyseret for størrelsesfordeling under anvendelse Agilent 2100 Bioanalyzer (Agilent Technologies, # 5067-4626) og DNA-koncentrationen blev bestemt ved anvendelse qubit’en dsDNA HS Assay Kit (Life Technologies, # Q32851). Prøver blev sekventeret på Illumina HiSeq 2000 ved hjælp TruSeq PE Cluster Kit v3 (Illumina, # PE-401-3001) og TruSeq SBS Kit v3 (Illumina, # FC-401-3002), i henhold til producentens anbefalinger. To baner blev anvendt til at sekventere tumoren og én vognbane til kontrol DNA-bibliotek (SRA tiltrædelse nummer: SRA055958).

PE Læs Justering og kvalitet Filtrering

Fastq filer blev genereret ved hjælp casava 1,8 ( Illumina) og læser blev justeret ved hjælp af BWA [26]. Output filer blev manipuleret af Samtools efter behov [30]. Perfekt PCR dubletter blev fjernet ved hjælp af Picard s MarkDuplicates værktøj (https://sourceforge.net/apps/mediawiki/picard). BWA-udpegede overensstemmende læse par og læse par med lav BWA mapping kvalitet scoringer blev fjernet ved hjælp af vores egen software (https://sourceforge.net/projects/svdetection), efter behov.

Opkald Strukturel Varianter og fjernelse Imperfect dubletter

SVDetect [20] eller breakdancer [21] blev brugt til at kalde intrakromosomal og interchromosomal rearrangementer fra uharmonisk, kvalitet pre-filtreret læse par. Mean insert størrelse og standardafvigelse anvendt i denne analyse blev opnået ved Picard s InsertSizeMetrics værktøj (https://sourceforge.net/apps/mediawiki/picard). SVDetect og Breakdancer blev konfigureret til at detektere omlejringer med 2 eller flere understøttende læste par anvendelse af 8 gange standardafvigelsen som tærskel for både deletioner og duplikationer. SVDetect indbyggede “sammenligne” -funktionen blev anvendt til sammenligning af tumor og kontrol datasæt. Når man sammenligner de opkald, var muligheden for at sammenligne kun den samme SV typen slukket. For SV detektion med breakdancer blev tumor til normal sammenligning gøres ved hjælp BEDTools [31].

For at fjerne PCR dubletter med 1-2 bp offset i koordinater ( “ufuldkomne dubletter”), vi manipuleret output fil oprettet af den SVDetect “sammenkædning” funktion ved hjælp af vores egen software (https://sourceforge.net/projects/svdetection). Denne fil angiver klynger af læste par støtter det samme omlejring og indeholder koordinaterne for individuelle støtte læser. Par, hvor både læser er placeret 0, 1 eller 2 basepar væk fra hinanden, i den samme orientering, blev fjernet som ufuldkomne dubletter. I breakdancer-baserede SV analyse, ændrede vi den mindste SV forankring region indstilling til 3, for at undgå SV’er bliver kaldt fra klynger af ufuldkommen PCR dubletter. Vi undersøgte også læser støtte SV opkald i Breakdancer-producerede seng filer og brugt vores egen software til at fjerne eventuelle SV’er skyldes ufuldkomne dubletter (https://sourceforge.net/projects/svdetection).

Definition High Confidence SV Kandidater

Strukturelle varianter kaldes af SVDetect blev yderligere filtreret baseret på overlapningen med lave mappability regioner, enkle gentagelser og RepeatMasker data udtrukket fra UCSC tabel Browser [32]. Overlap mellem disse regioner og SVDetect links blev vurderet ved hjælp af Galaxy værktøjer [33], [34], [35]. Lav mappability områder blev samlet som tilstødende intervaller på 50 bp med Duke Encode unikke scores mindre end 0,5 (50 bp sekvens forekommer mere end 2 gange i genomet). SV’er med links overlappende disse regioner blev fjernet, med cutoff på 85% og 50% overlapning intrakromosomal og interchromosomal begivenheder, hhv. For overlap med enkle gentagne regioner, cutoff var 50% eller mere. RepeatMasker overlap blev anvendt som filter kun for interchromosomal begivenheder i forbindelse med 2 eller 3 læste parvis med cutoff sat til 80%. For intrakromosomal begivenheder, blev yderligere brugerdefinerede filtrering anvendes til at fjerne SV’er kaldes fra læste par som følge af DNA-fragmenter afviger fra det forventede bibliotek insert størrelsesorden, der ikke blev fjernet af vores standardafvigelse cutoff. At tage højde for dette, blev deletion størrelse cutoff sat til 600 bp og overlapning til 300 bp.

Tumorspecifikke SV’er kaldes af SVDetect og Breakdancer blev endelig undersøgt manuelt at generere en liste med høje tillid kandidater. SV’er stammer fra justeringsfejl (relateret til gentagne genomiske regioner), mislykkedes tumor-kontrol sammenligning filtrering, samt germlinie SV’er (retroelement og retrogene indrykninger) blev fjernet fra listen eller udpegede tillid kandidater så lave.

Validering

Be the first to comment

Leave a Reply