PLoS ONE: Exome sekventering afslører omfattende genomiske Ændringer tværs Otte kræftceller

Abstrakte

Det er velkendt, at genomiske ændringer spiller en væsentlig rolle i onkogenese, sygdomsprogression, og reaktion af tumorer til terapeutisk intervention. De fremskridt i næste generations sekventering teknologier (NGS) giver hidtil usete muligheder for at scanne genomer for ændringer såsom mutationer, deletioner og ændringer af kromosomal kopi nummer. Men omkostningerne ved fuld genomsekvensering stadig forhindrer den rutinemæssige anvendelse af NGS på mange områder. Opfange og sekventering af de kodende exoner af gener (den “exome”) kan være en omkostningseffektiv fremgangsmåde til identifikation af ændringer, som resulterer i ændring af proteinsekvenserne. Vi anvendte en exome-sekventering teknologi (Roche NimbleGen fange parret med 454 sekventering) for at identificere sekvens variation og mutationer i otte almindeligt anvendte kræft cellelinjer fra en række forskellige væv oprindelser (A2780, A549, Colo205, GTL16, NCI-H661, MDA- MB468, PC3, og RD). Vi viste, at denne teknologi har nøje kendskab til variation sekvens, der giver ~ 95% konkordans med Affymetrix SNP Array 6.0 udført på de samme cellelinier. Derudover har vi registreret 19 af de 21 mutationer rapporteret i Sanger COSMIC database for disse cellelinjer. Vi identificerede et gennemsnit på 2.779 potentielle roman sekvens variationer /mutationer per cellelinje, hvoraf 1904 var ikke-synonyme. Mange ikke-synonyme ændringer blev identificeret i kinaser og kendt cancerrelaterede gener. Desuden bekræftede vi, at læse-dybde exome sekvensdata kan anvendes til at estimere højt niveau genamplifikationer og identificere homologe deletioner. Sammenfattende viser vi, at exome sekventering kan være en pålidelig og omkostningseffektiv måde til at identificere ændringer i kræft genomer, og vi har skabt et omfattende katalog af genomiske ændringer i kodning regioner af otte kræft cellelinjer. Disse resultater kunne give et vigtigt indblik i kræft veje og resistensmekanismer til anti-cancer behandlinger

Henvisning:. Chang H, Jackson GD, Kayne PS, Ross-Macdonald PB, Ryseck RP, Siemers NO (2011) Exome Sekventering afslører Omfattende genomiske Ændringer tværs Otte kræftceller. PLoS ONE 6 (6): e21097. doi: 10,1371 /journal.pone.0021097

Redaktør: Christian Schönbach, Kyushu Institute of Technology, Japan

Modtaget: April 27, 2011; Accepteret: 19 maj 2011; Udgivet: 20 Jun 2011

Copyright: © 2011 Chang et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af Bristol-Myers Squibb Co. finansieringskilderne havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:. forfatterne er aktuelle medarbejder i Bristol Myers Squibb Co. Denne undersøgelse er ikke relateret til produkter under udvikling hos BMS eller markedsførte produkter ved BMS. Dette ændrer ikke forfatternes tilslutning til alle de PLoS ONE politikker på datadeling og materialer.

Introduktion

Alle kræftceller har somatiske mutationer i deres genomer, såsom single nukleotid-mutationer, indsættelser , sletninger og copy-nummer gevinst eller tab. Genomisk læsioner i kræftceller forstyrre normale funktioner og veje såsom spredning og apoptose, og er afgørende for tumor tilblivelse, vækst og metastase. Derudover har hver tumor bærer en unik kombination af mutationer i sit genom, hvilket fører til heterogenitet i cancer prognose og reaktioner på terapeutisk intervention. Vores begrænsede forståelse af de mere almindelige mutationer er allerede ramt behandlingsregimer. For eksempel har behandling med inhibitorer med små molekyler af den epidermale vækstfaktorreceptor (EGFR) blevet vist at primært gavne lungekræftpatienter, der bærer visse somatiske mutationer i deres EGFR-genet [1], [2]. Ligeledes visse antistofterapier rettet mod EGFR viser kun effekt i den delmængde af patienter med tyktarmskræft med en vildtype-KRAS-genet [3], [4]. Deep systematisk karakterisering af somatiske mutationer i kræft genomer tegner til at blive et stærkt værktøj til både forståelse kræft veje og udvikle målrettede lægemidler.

I løbet af de sidste to årtier, fokuserede undersøgelser af kandidatgener har ført til identifikation af mutationer forekommer med høj frekvens på afgørende cancer pathwaygener sådan TP53, KRAS, og PTEN [5]. I de senere år har de kodende regioner af bryst-, lunge-, colon- og hjernetumor genomer analyseret som kapillære-baseret sekventering teknologier. Disse bestræbelser har ført til identifikation af sygdomsfremkaldende mutationer i tidligere uanede gener såsom IDH1, fremhæver magt og betydning for objektiv, genomisk skala mutation opdagelse [6], [7], [8]. Men store kapillar-baserede sekventering teknologier er tidskrævende og dyrt, og derfor ikke muligt for en bredere anvendelse.

Næste generations sekventering (NGS) teknologier har øget gennemløb og faldt udgifterne til DNA-sekventering af flere størrelsesordener. En række undersøgelser har anvendt NGS teknologier til at sekventere kræft genomer, som opsummeret i seneste anmeldelser [9], [10]. Men sekventering hele genomet er stadig omkostningseffektiv uoverkommelige for mange potentielt værdifulde applikationer.

Et alternativ til hele genomet metoder er exome sekventering, som indfanger og sekvenser kun kodning exons i genomet. Exome sekventeringsmetoder kan levere sekventering information for meget af den funktionelt relevante genom ved øget dækning og reducerede omkostninger. Nylige undersøgelser har anvendt med succes exome sekventering til at identificere kausale mutationer af mendelske sygdomme [11], [12]. Store cancer genom initiativer som The Cancer Genome Atlas-projektet omfatter også exome sekventering som en del af deres strategi for at karakterisere kræft genomer [13].

Proteinkinaser er de mest allestedsnærværende familie af signalmolekyler i humane celler og spille afgørende roller i reguleringen fleste cellulære funktioner [14]. Da proteinkinasefamilie er en af ​​de hyppigst muterede gen familier i cancere [5], er det blevet udsat for flere fokuserede genomiske sekventering studier. Bardelli et al. udført det første systematiske skærmbillede af mutationer i receptortyrosinkinase-underfamilien af ​​proteinkinaser, i kolorektale cancer prøver [15]. Siden da har studier i primære væv og cellelinier identificeret mange mutationer i proteinkinaser tværs af flere tumortyper [16], [17], [18]. Interessen for mutationer af kinaser er fortsat med de seneste genom-dækkende mutation opdagelse undersøgelser [13], [19], [20].

cellelinje modeller af human cancer har spillet en afgørende rolle i vores forståelse af kræft smitteveje, identifikation og validering af kræft målgener, og vores evne til at screene potentielle anticancer lægemidler. Disse cellelinier bære genomiske mutationer nedarvet fra deres kilde tumorceller, selv om der kan erhverves yderligere mutationer i løbet af cellelinien udvikling og passage. Generelt sammenligninger mellem cellelinjer afslører stor forskel på genomiske mutationer og afspejler kræft veje svarende til dem, der findes i primære tumorer. For eksempel, sammenligning af et panel af brystcancercellelinier med en samling af primære bryst prøver viste, at genekspression og kopital profiler i cellelinier afspejler dem fundet de primære tumorer [21]. Tilsvarende genomiske mutationer rapporteret i COSMIC database for cellelinier har en lignende spektrum som i primære tumorer [22]. Som yderligere store tumor genom sekventering resultater bliver tilgængelige, er der et stigende behov for tilsvarende celle modeller til at bestemme, hvordan roman varianter påvirker protein funktion. Omfattende karakterisering af genomiske ændringer i kræftceller vil fremme vores forståelse af kræft biologi, og kunne også give et grundlag for at vælge relevante cellelinje modeller til at studere et særligt aspekt af kræftsygdommen biologi, eller at screene for antagonister af visse cancer veje.

for at vurdere NGS teknologier og karakterisere genomiske mutationer i cancer-cellelinjer, har vi analyseret data fra Roche NimbleGen exome opfange array og Roche 454 NGS teknologier, der anvendes til otte almindeligt anvendte cellelinjer, der repræsenterer flere store kræftformer. Vi viser, at exome sekventering kan være en pålidelig og omkostningseffektiv måde til at identificere genomiske ændringer i kræft genom, og genererede et omfattende katalog af genomiske ændringer i kodning regioner af otte cancer cellelinjer.

Resultater

Exome opsamling og sekventering resultater

Exome opsamling og 454 sekventering teknologier blev anvendt på DNA-prøver fra otte kræft cellelinier (A2780, A549, Colo205, GTL16, NCI-H661, MDA-MB468, PC3, og RD, . som beskrevet i Methods resultaterne af indledende databehandling er opsummeret i tabel 1. for hver cellelinie, omkring 1,9 millioner sekventering læser (688 millioner baser; 98,5% af den samlede sekventering læser) med fordel kan kortlægges til det humane genom NCBI36 /hg18 henvisning samling (https://www.ncbi.nlm.nih.gov). den gennemsnitlige read længde på tværs af alle cellelinier er 364 baser, i overensstemmelse med den lange read længde rapporteret for 454 sekventering teknologi. i gennemsnit 89,5% af den circa 180.000 exoner på NimbleGen 2,1 M human exome array (målregioner) blev dækket med mindst en sekventering læst, og den gennemsnitlige sekventering read dybde for alle cellelinjer er 7,3 i målregioner. exome opsamling og sekventering resultater De er inden for det normale spektrum af ydeevne som angivet af fabrikanten, og kan sammenlignes med offentliggjorte resultater ved hjælp af den samme teknologi [23].

Vi har detekteret i gennemsnit 14.340 sekvens varianter (forskelle fra det humane henvisning genom) pr cellelinie. Størstedelen af ​​disse forskelle er kendte polymorfier i normal human population (dvs. registreret i NCBI dbSNP database, bygge 130). I gennemsnit 2.779 varianter pr cellelinje ikke fundet i dbSNP-databasen og repræsenterer derfor hidtil ukendte sekvensvariationer og /eller somatiske mutationer. I gennemsnit 1904 af de 2.779 nye varianter er ikke-synonyme, dvs. de ændrer codon specificitet. Disse varianter er mere tilbøjelige til at ændre protein funktioner og påvirke cellulære fænotyper.

Overensstemmelse med genotypebestemmelse resultater

Som et andet middel til at vurdere nøjagtigheden af ​​exome sekventering, vi sammenlignede data med genotypebestemmelse resultater på tværs af otte cellelinjer (tabel 2). Den Affymetrix Genome Wide Menneskelig SNP Array 6.0 er designet til at detektere genotype information til omkring en million kendte SNP positioner. Det kan derfor give uafhængig verifikation af variationer observeret i exome sekvens data for. For hver cellelinie, vi identificeret SNP Array 6,0 positioner med succesfulde genotype opkald, der blev også dækket af mindst to unikke exome sekventering læser. Overlappet gav mellem 26,407 og 29,650 SNP positioner (afhængig cellelinje) for yderligere analyse. Samlet set var der i gennemsnit 91% overensstemmelse mellem genotype opkald fra SNP-array 6.0 /Fuglefrø og dem, som exome sekventering. I RD-cellelinien for eksempel 26.154 (91,5%) ud af 28,594 SNP positioner har samme genotype opkald (dvs. AA, AB, eller BB) ved SNP-array 6,0 og ved exome sekventering (tabel 2).

det forventes, at nøjagtigheden af ​​genotype detektion ved sekventering vil blive påvirket både ved sekventering læst dybde og ved heterozygositet på et givet genomisk placering. Vi beregnede overensstemmelse mellem genotype opkald på forskel sekventering læse dybde, og særskilt for homozygote eller heterozygote SNP’er. Som vist i figur 1, konkordans er høj for homozygote SNP’er (gennemsnitligt 97%) uanset sekventering læse dybde. Konkordans til heterozygote alleler er lavere, men stiger med sekvens læst dybde, startende med 31% konkordans på en læst dybde på 3 og nå 90% ved en læse dybde på 10 eller højere. I teorien sekventering DNA-fragmenter fra en region, der indeholder en heterozygot SNP er en proces med stikprøver. Ved lavere sekventering dybde, er der en større chance for mangler en af ​​de to alleler. Vi beregnede teoretiske sats detektere begge alleler ved sekventering ved forskellige læste dybder, forudsat ingen fejl i sekventering (figur 1, punkteret linie). Ved lave læste dybder, vores eksperimentelle observationer er tæt på den teoretiske kurs, hvilket indikerer, at lav konkordans ved lave læste dybder skyldes sandsynligvis den stikprøvekontrol proces snarere end dårlig kvalitet af sekvensdata.

Grafen viser et plot af gennemsnittet overensstemmelse mellem genotype opkald opnået fra Affymetrix SNP Array 6.0 og fra exome sekventering, som en funktion af sekventering læse dybder. Square markører angiver konkordans på homozygote positioner, diamant markører angiver konkordans på heterozygote positioner. Den stiplede linje viser den teoretiske hastighed detektere heterozygote positioner ved sekventering (som beskrevet i Methods). Triangle markører viser gennemsnitlige antal heterozygote SNP steder per celle-line som funktion af sekventering læse dybder (Y-aksen til højre).

Sammenligning af exome sekventering til COSMIC database af kræft mutationer

de protein-kodende exons og umiddelbare flankerende intronsekvenser af 61 almindelige cancer gener har tidligere været systematisk fastlagt i omkring 800 cellelinier ved Welcome Trust Sanger Institute, hjælp kapillær-baserede sekventering [22]. Af de otte cellelinjer i denne undersøgelse, har alle undtagen én (GTL16) blevet screenet i dette projekt. Vi sammenlignede somatisk mutation information fra Sanger COSMIC database med vores exome sekventering resultater for de syv cellelinier. Som vist i tabel 3, exome sekventering re-opdagede de fleste af de 21 mutationer rapporteret i COSMIC database, herunder punktmutationer og små indsætning /deletioner. De to manglende tilfældene skyldes manglende sekvens dækning i locus af interesse: den dokumenterede STK11 mutation i A549 er ikke målelig som følge af manglende STK11 gen dækning i NimbleGen 2.1 M human exome arrays, og TP53 genet er omfattet af NimbleGen matrix men mangler tilstrækkelig læser i PC3 linje at kontrollere i denne undersøgelse (der er tilstrækkelige læser til TP53 genet i andre linjer, som i tabel 3).

Store homozygote sletninger, såsom kendte deletioner af CDKN2A genet i A549 og Smad4 i Colo205 celler, kan ikke observeres direkte med exome sekventering. Men en sletning af gen-regioner kan udledes, hvor den læste dybde er nul i flere på hinanden følgende exons (se næste afsnit for detaljeret diskussion). Alle fem genomiske sletninger rapporteret i COSMIC database kan identificeres fra exome sekventering resultater (tabel 3). For eksempel i A549-cellelinien vi observeret 14 sammenhængende regioner rundt CDKN2A gen med en læse dybde på nul. I Colo205 cellelinje, en dokumenteret 904-basen deletion i Smad4 genet manifesterer som 4 på hinanden følgende målregioner med en læse dybde på nul.

Afsløring gen forstærkning og sletning

sletninger eller amplifikationer af kromosomale segmenter er almindelige ændringer i cancer genomer. I princippet sekventering læse dybde i en region bør være proportional med dens kopi nummer. den relativt beskedne læse dybden af ​​den aktuelle undersøgelse kunne dog uberettiget vægt til tilfældige variationer i Read dybde. Variation i read dybde kan også opstå som følge af tekniske aspekter af exome sekventering processen. For eksempel kunne exome opfange arrayet varierer i effektivitet for forskellige exon regioner som følge af forskelligartede sekvens præparat. For at vurdere muligheden for at anslå kopiantals oplysninger fra vores exome sekventering data, vi sammenlignet gennemsnitlige sekvens læse dybder med kopi-nummer data anslået fra SNP6 platform. Som vist på Figur 2, der er en positiv sammenhæng mellem sekvens læse dybde og kopier-nummer, med Pearson korrelationskoefficient på 0,41. Variationen i read dybde gør det udfordrende at præcist afsløre lavt niveau kopi-nummer ændringer. På den anden side finder vi, at nøjagtig detektion af højtstående genamplifikationer og homozygote deletioner er mulig.

Gennemsnitlig sekventering læs dybder i capture-regioner blev plottet mod kopital data anslåede 6,0 data fra Affymetrix SNP som beskrevet i den metoder sektion. Den blå linje viser den lineære regressionslinje. Den Pearson korrelation coefficiency (r = 0,41) af sekventering læse dybde og kopiere nummer data er trykt på figuren.

Homozygot sletning af Smad4 gen regionen er blevet rapporteret i MDA-MB468-cellelinje ( Sanger COSMIC database) og er dermed illustrativ til sammenligning sletning detektionsmetoder. Sekventeringen læse dybder af exon regioner i Smad4-gen og omgivende område blev bestemt for MDA-MB468 og plottet i forhold til deres kromosomale placering (figur 3A). Seksten på hinanden følgende exon regioner på kromosom 18 har en læse dybde på nul i data for MDA-MB468. De genomiske placeringer af de 16 exon regioner er fra 46,75 MB til 46.86 MB, der spænder over Smad4 genet. Til sammenligning udførte vi kopital analyse af Affymetrix SNP-array 6,0 data som beskrevet i metodeafsnittet. For MDA-MB468, denne analyse viste en homozygot deletion af genomisk region 46.76-46.86 Mb på kromosom 18 (figur 3B), i god overensstemmelse med resultaterne fra læse dybdegående analyse.

A. Plots af aflæste dybde data på hinanden følgende exons omkring Smad4 gen region på kromosom 18. Den blå linje viser sekventering læse dybde data for MDA-MB468, og den lyserøde linje viser medianen sekventering læse dybde af alle otte cellelinjer. B. kopital data fra Affymetrix SNP6 chip data omkring Smad4 genregion på kromosomalt 18. Den sorte linje viser de segmenterede kopital data (log2 forhold til normale prøver) genereret af aroma.affymetrx pakke i R som beskrevet i metoder sektion.

En read dybde på nul kunne medføre tekniske spørgsmål, såsom sonde design i NimbleGen 2.1 M array. Faktisk vi identificeret 2.513 exon regioner, der har en læse dybde på nul for alle 8 cellelinier (Tabel S1). Men da medianen læse dybde på alle 8 cellelinier er større end nul for alle de 16 exon-regioner (figur 3A), er det usandsynligt, at den observerede dybde på nul i MDA-MB468-cellelinien skyldes en systematisk fejl af exome fange. Tilfældig variation i læse dybden er en anden grund til manglende sekventering dækning. I MDA-MB468-cellelinie, der er 17,161 exon regioner med en læse dybde på nul (fra 194.706 total regioner, med undtagelse af 2.513 nævnte regioner). Det er højst usandsynligt, at 16 på hinanden følgende exon regioner rundt Smad4 gen ville have en læse dybde på nul på grund af tilfældig variation (p = 1.3e-17, beregnet ud fra binomialfordelingen).

Vi var også i stand til at re -Identificere tidligere dokumenterede gen forstærkning begivenheder ved hjælp af de læste dybde data. For eksempel har amplifikation af EGFR1 i MDA-MB468-cellelinien blevet dokumenteret ved fluorescens in situ hybridisering og ved kvantitativ PCR [24]. Vi observerede, at de 53 exon regionerne omkring EGFR-genet på kromosom 7 har meget høje læste dybder i MDA-MB468 data (figur 4A; exonerne mellem 55.58-55.73 Mb har en gennemsnitlig læst dybde på 107). Vores kopiantal analyse af Affymetrix SNP-array angivet 6,0-data også, at EGFR genregion er stærkt forstærket i MDA-MB468 linje (figur 4B, genomiske region 55,48-55,81 Mb).

A. Plots af aflæste dybde data på hinanden følgende exons omkring EGFR-genet region på kromosom 7. Den blå linje viser sekventering læse dybde data for MDA-MB468, og den lyserøde linje viser medianen sekventering læse dybde alle otte cellelinjer. B. kopital data fra Affymetrix SNP6 chip data omkring EGFR genregion på kromosomalt 7. Den sorte linje viser de segmenterede kopital data (log2 forhold til normale prøver) genereret af aroma.affymetrx pakke i R som beskrevet i metoder sektion.

Nye ikke-synonyme varianter i proteinkinaser

Da mutationer i proteinkinaser har vigtige roller i kræft biologi, vi valgte at undersøge de sekvensdata for proteinkinaser og fokus på ikke-synonyme variationer, som producerer aminosyresubstitutioner, der kan have funktionelle konsekvenser. Som bemærket ovenfor, exome sekventering afslørede circa 2.000 hidtil ukendte ikke-synonyme varianter i hver af de otte cellelinjer. Efter anvendelse af et stringent filter (som beskrevet i Methods), mellem 199 til 479 gener har hidtil ukendte ikke-synonyme varianter, afhængigt af den cellelinje (tabel S2). Den NimbleGen 2.1 M capture-array anvendt i denne undersøgelse omfattede exoner for 440 af de 518 proteinkinaser i det humane genom (tabel S3) [25]. I hver cellelinje, blev påvist i gennemsnit 122 ikke-synonyme variationer i kinase gener. Efter fjernelse sandsynlige germlinie varianter (fundet i dbSNP) og anvendelse af et stringent filter beskrevet ovenfor, hver cellelinje har et gennemsnit på otte kinaser med ikke-synonyme variationer (tabel 4). Disse sekvensvariationer i proteinkinaser er angivet i tabel 5. De fleste af disse sekvensvariationer er ikke rapporteret i COSMIC database eller rapporteret i litteraturen, men flere har uafhængig bekræftelse. For eksempel har vi identificeret EGFR variant A1048V i GTL16 gastrisk cellelinie. Den samme variant i EGFR er rapporteret i MKN45 gastrisk cellelinje [26], som er den parentale cellelinje af GTL16 [27]. Et andet eksempel er R796S variant af insulinreceptoren genet (INSR) i RD-cellelinien (tabel 5). Vi havde tidligere identificeret denne variant i RD cellelinje ved hjælp kapillær sekventering teknologi (data ikke vist).

Diskussion

Analyse af data fra otte forskellige cancer cellelinjer shows at Roche NimbleGen og 454 exome sekventering teknologier kan udmærket anvendes til at identificere variationer i gen-kodende regioner. Fra sekventeringsdata med gennemsnitlig 7,3-fold dækning, varianter fra NCBI36 henvisning genomet blev identificeret i ca. 8% (14.340 regioner) af alle målregioner på exome capture array. Mens størstedelen af ​​disse varianter kunne bekræftes i dbSNP database, i gennemsnit 0,16% (2779) af de samlede regioner mål bære en roman variant.

En sammenligning af SNP genotype opkald fra exome sekventering med data, der genereres på Affymetrix genom-Wide Menneskelig SNP Array 6.0 viste, at der er høj overensstemmelse mellem de to teknologiplatforme. Konkordansen er 97% for homozygote sites, og varierer fra 30% til 90% ved heterozygote positioner, med nøjagtighed afhængig af sekventering læse dybde. Vores analyse af forholdet mellem læse- dybde og kraft detektion foreslået, at mindst ti gange læse dybde er påkrævet for pålideligt at detektere begge alleler i heterozygote sites. Disse resultater giver vejledning i planlægningen fremtidige genom sekventering projekter.

For de syv undersøgte cellelinjer, der også findes i COSMIC database, viser vi, at 19 ud af 21 kendte mutationer kan genbruges opdaget af exome sekventering. To tidligere beskrevne mutationer manglede på grund af manglende sekvens dækning. I et tilfælde var dette på grund af ufuldstændig dækning af den menneskelige exome i NimbleGen 2.1 M capture array, hvilket indikerer et behov for forbedringer i array design.

Ved succesfuld re-identifikation af EGFR forstærkning og Smad4 homozygot sletning i MDA-MB468-cellelinje, vi vise, at kopi nummer ændringer kan udledes af sekventering læse dybde data. Men på grund af den stokastiske natur af sekventering læse dybde og sandsynligvis ujævnheder i exome opfange proces, generelt er det ikke muligt, at estimere en pålidelig copy-nummer oplysninger fra vores data. Anvendelse af teknologi til flere prøver vil hjælpe med at forbedre vores evne til at vurdere og korrigere for systematiske afvigelser i platformen, og øge dybden af ​​sekventering læser vil reducere variansen skyldes tilfældige udsving i læse nummer.

For at bringe sammenhæng til det genomiske variation identificeret i denne undersøgelse valgte vi at fokusere på proteinkinaser som et illustrativt klasse. I dette arbejde har vi identificeret med stor sikkerhed mindst fire nye variant proteinkinaser i hver cellelinie. De fleste af de hidtil ukendte sekvensvariationer i proteinkinaser identificeret i denne undersøgelse ikke tidligere er blevet rapporteret, og sandsynligvis afspejler den høje diversitet af genomisk ændring i cancer. Vores resultater udvide kendskabet sekvensvariationer i proteinkinaser og andre potentielle cancerrelaterede gener. Disse nye varianter kunne være enten kimlinie SNPs endnu ikke rapporteret i dbSNP database eller somatiske mutationer i disse kræftceller. Adskillige store menneskelige genom sekventering projekter igangværende vil udvide identifikation af kimcellelinje SNPs og bidrage til at kategorisere arten af ​​nye varianter, der findes i tumorer.

Som konklusion, viste vi, at exome sekventering kan være en pålidelig og omkostningseffektiv -Effektiv tilgang til at identificere genome ændringer i kræft cellelinjer, og foreslå måder til yderligere at forbedre exome-sekventering teknologier til applikationer i kræft genomforskning. En omfattende katalog af genomiske ændringer i de kodende regioner af otte cancer cellelinjer blev genereret, som ikke blot bør bidrage til vores viden om disse modeller i særdeleshed, men også til vores forståelse af kræft genomforskning og kræft biologi i almindelighed.

Materialer og metoder

DNA-forberedelse

A2780, A549, Colo205, GTL16, NCI-H661, MDA-MB468, PC3, og RD cellelinjer blev oprindeligt opnået fra ATCC. Cellelinier blev dyrket i RPMI 1640 (Gibco) med 10% varmeinaktiveret føtalt bovint serum (FBS; Cellgro) med undtagelse af RD (yderligere 25 mM HEPES) og A549 (Hams F12 (Gibco), med 10% FBS). Genomisk DNA (10 ug) blev udarbejdet af QIAamp DNA Mini Kit (Qiagen) ved hjælp af producenter protokoller, og leveres til Roche 454 Sequencing Center.

Exome Capture og Next-Generation Sequencing

Exome capture og næste generation sekventering blev udført af Roche NimbleGen og Roche 454 Life Science ifølge producentens protokoller. Genomisk DNA blev fanget på NimbleGen Sequence Capture Menneskelig Exome 2.1 M Array, som har 197,218 samlede regioner (capture regioner) dækker omkring 175.278 exons og miRNA regioner (målregioner, kan store målområde bestå af flere capture regioner). For hver cellelinie, blev fanget DNA sekventeret med to kørsler af 454 GS FLX Titanium Sequencing teknologi.

Array-baserede Genotypning og Copy-nummer Analyse

To portioner af 250 ng genomisk DNA pr prøve blev spaltet med restriktionsenzymer NSPI og Styl hhv. De resulterede produkter blev ligeret til de tilsvarende adaptere og PCR amplificeret. De mærkede PCR-produkter blev hybridiseret til Affymetrix Genome-Wide Humant SNP Array 6.0 i overensstemmelse med producentens anbefalinger. Den Fuglefrø algoritme [28] implementeret i Affymetrix Elværktøj (APT) softwarepakke (version 1.10.0) blev anvendt til genotype bestemmelse. For copy-nummer analyse blev Cel filer behandles ved hjælp af aroma.affymetrix pakke [29] for R-projektet. Segmentering af normaliseret rå kopi nummer data blev udført med CBS-algoritmen [30] implementeret i aroma.affymetrix pakken

Bioinformatik analyse

The Human genom NCBI36 /hg18 henvisning samling (http:. //www.ncbi.nlm.nih.gov/genome/guide/human/release_notes.html#b36) blev anvendt som ramme for alle analyser. Sequence databehandling, kortlægning til det humane genom, og de første opkald af variation fra referencesekvensen blev udført af Roche 454 Life Science hjælp GS reference Mapper software (Roche Inc.). For at kvalificere sig som en variant af referencen genom sekvens, skal der være mindst to uafhængige læser, at en) vise forskellen, 2) har mindst 5 baser på begge sider af forskellen, og 3) har nogle andre isolerede sekvens forskelle i læse. Varianter identificeret som “høj tillid” var underlagt en strengere filter, der kræver mindst tre uafhængige læser med varianten omfatter mindst 40% af alle uafhængig læser dækker allel genomisk position. For at identificere ikke-synonyme varianter, blev effekten af ​​hver variant på oversatte protein sekvens vurderes ved at kortlægge dens genomiske koordinater tilbage til gener i RefSeq samling [31] frigive 37, og identifikation af ændringer i codon specificitet.

Vi beregnede den teoretiske hastighed på detektion ved heterozygote stillinger som en funktion af forskellige læse- dybde som følger: N sekventering læser dækker en heterozygot position kunne betragtes som stikprøvekontrol af de to alleler gentagne N gange, derfor bør følge binomialfordelingen. Antages det, at allel A er rapporteret i det menneskelige henvisning genom og allel B er varianten allel, kræver vi mindst to sekventering læser med B-allelen for at erklære påvisning af allelen B. Sandsynligheden for at detektere både A- og B-alleler i en heterozygot position kan beregnes som: PAB = 1-P1-P2. P1 er sandsynligheden for at finde 0 eller 1 læses med A-allelen i N-sekventering læser ifølge binomialfordelingen, hvilket ville føre til en genotype call of AA. P2 er sandsynligheden for at finde N læser med B-allelen i N sekventering læser efter binomialfordelingen, hvilket vil føre til en genotype kald af BB.

Støtte oplysninger

tabel S1.

Catpure regioner, der har nul læst dybde i alle 8 cellelinjer

doi:. 10,1371 /journal.pone.0021097.s001

(XLS)

tabel S2.

Alle nye ikke-synonyme varianter i otte cellelinjer

doi:. 10,1371 /journal.pone.0021097.s002

(XLS)

tabel S3.

440 proteinkinasegenerne omfattet af NimbleGen 2,1 M capture vifte

doi:. 10,1371 /journal.pone.0021097.s003

(XLS)

Tak

Vi tak Charles Tilford og Jansen Lim for deres hjælp i at yde genomiske koordinater for gener i det humane genom. Vi takker også Roche NimbleGen og Roche 454 Life Science til at udføre exome opsamling, 454 GS FLX Titanium Sequencing kører, og indledende databehandling.

Be the first to comment

Leave a Reply