PLoS ONE: En sammenligning af Single Molecule og Forstærkning Based Sekventering af Cancer Transcriptomes

Abstrakt

Den anden bølge af næste generations sekventering teknologier, der er nævnt som single-molekyle sekventering (SMS), bærer løftet om profilering prøver direkte uden at anvende polymerasekædereaktion trin, der anvendes ved amplifikation-baserede sekventering ( AS) metoder. For at undersøge berettigelsen af ​​begge teknologier, vi undersøger mRNA sekventering resultater fra single-molekyle og forstærkning-baserede sekventering i et sæt af menneskelige kræftceller og væv. Vi observerer en karakteristisk dækning bias mod høje overflod udskrifter i forstærkning-baserede sekventering. En større del af AS læser cover højt udtrykte gener, såsom dem forbundet med translationelle processer og husholdningsgener, hvilket resulterer i relativt lavere dækning af gener ved lav og mid-niveau overflod. I modsætning hertil dækningen af ​​høje overflod udskrifter plateauer off ved hjælp af SMS. Derfor SMS er i stand til at sekventere på lavere overflod udskrifter mere grundigt, herunder nogle, der er opdaget af AS metoder; men disse omfatter mange flere kortlægning artefakter. En bedre forståelse af de tekniske og analytiske faktorer indfører platform specifikke skævheder i high throughput transkriptom sekventering applikationer vil være kritisk i cross platform meta-analytiske undersøgelser

Henvisning:. Sam LT, Lipson D, Raz T, Cao X, Thompson J, Milos PM, et al. (2011) En sammenligning af Single Molecule og Forstærkning Based Sekventering af Cancer Transcriptomes. PLoS ONE 6 (3): e17305. doi: 10,1371 /journal.pone.0017305

Redaktør: Thomas Preiss, Victor Chang Cardiac Research Institute (VCCRI), Australien

Modtaget: 18 oktober, 2010; Accepteret: 28 januar 2011; Udgivet: 1. marts 2011

Copyright: © 2011 Sam et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. AMC er støttet af Doris Duke Charitable Foundation Klinisk Scientist Award, en Burroughs Welcome Foundation Award i Clinical Translationel Research, og prostatakræft Foundation. AMC er en American Cancer Society Research Professor. CAM øjeblikket stammer støtte fra American Association of Cancer Research Amgen Fellowship i Klinisk /Translationel Research, De Kanariske Foundation og American Cancer Society Early Detection Postdoc Fellowship, og en prostatakræft Foundation Young Investigator Award. LTS understøttes af University of Michigan Bioinformatik Training Program. DL, TR, JT, og PMM er medarbejdere i Helicos BioSciences Corporation. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:. DL, TR, JT, og PMM er medarbejdere i Helicos BioSciences Corporation. Dette ændrer ikke forfatternes tilslutning til alle PLoS ONE politikker på datadeling og materialer.

Introduktion

Sequencing prøver på single-molekyle opløsning ses som det næste skridt i udviklingen af ​​næste generation Sequencing (NGS). Disse teknologier har allerede produceret hidtil usete mængder data på nukleotid-niveau opløsning, og transformerer vores evne til at observere biologiske systemer. NGS teknologi har haft en særlig indvirkning i studiet af transcriptomes gennem mRNA sekvensering, eller RNA-Seq. Tilbyder et bredt dynamisk område og virkelig global opfattelse er denne NGS ansøgning hurtigt fortrængte eksisterende tilgange til overvågning af komplekse transcriptomes hvor både udskrift længder og koncentrationer er meget heterogene. Den mangesidede karakter af RNA-Seq har aktiveret dybtgående analyse af udskrift overflod [1], [2], [3], alternativ splejsning [4], [5], [6], [7], roman udskrift afsløring [8], biomarkør opdagelse [9], [10], [11], påvisning af patogener og karakterisering [12], [13], [14], og gen-fusion opdagelse [15], [16], [17] .

Den første bølge af af næste generation sekventering platforme såsom dem fra Applied Biosystems, Illumina, Ion Torrent og Roche /454, udnytte PCR forstærkning skridt i prøveforberedelse og sekventering og er således kategoriseret som forstærkning baseret sekventering (AS) metoder. Et andet sæt platforme, der beskrives som ‘enkelt molekyle sekventering (SMS) [18] af Helicos og Pacific Biosciences, fjerne forstærkning trin involveret i forberedelsen og sekventering prøve proces og dermed hævder at give et mere præcist billede af transkriptomet.

AS teknikker typisk involvere to amplifikationstrin; den første forstærkning sker under oprettelsen af ​​den dobbeltstrengede cDNA bibliotek fra den fragmenterede mRNA. CDNA’erne ligeres til et par adaptormolekyler, og PCR amplificeret. En anden amplifikation udføres med adaptorligerede enkelt cDNA-strenge hybridiseret til primere bundet til et glas eller siliciumsubstrat at producere lokale klynger af identiske molekyler under anvendelse isotermisk amplifikation eller emulsion PCR. Tilsammen disse to trin har potentiale til selektivt indføre overrepræsenterede segmenter og gener i AS data. Det er blevet observeret, at denne skævhed eksisterer [19], [20], [21], [22], men dets virkning på transkript dækning og kvantificering ikke er blevet grundigt undersøgt i komplekse prøver med transkripter ved variabel koncentration. Den Helicos SMS-protokollen indebærer skabelse af enkeltstrengede cDNA skabeloner direkte fra mRNA og hybridisering af disse polyadenyleret skabeloner til komplementære oligomerer bundet til en glasplade for sekventering (figur S1).

Resultater

Vurdering af SMS-RNA-Seq gennem udskrift profilering

for at en systematisk vurdering af forskellene mellem de to sekventering teknologier, vi analyserede RNA-Seq resultater fra forstærkning-baserede sekventering (AS) og single-molekyle sekventering (SMS) på tværs et sæt af tolv cancercellelinier og vævsprøver. Især vores tilgang forsøgt at opdage tilbagevendende bias, der kan indføres af amplifikationstrinnene implicit i AS. Vores indledende datasæt anvendes til at evaluere kvantificering ydeevne består af prøver fra prostatakræft-cellelinier DU145, RWPE, VCap, og LNCaP, og én prostatakræft tumorvæv med en matchet tilstødende normale prøve. Ud af vores sæt, blev tre prøver af hver af VCAP og LNCaP struktureret som et tidsforløb studie med 0 timer, 24 timer, og 48 timer tidspunkter.

I vores analyse af de to teknologier, vi valgte at bruge den foretrukne justering værktøj for hver teknologi i en “bedste vs. bedste” tilgang. AS læser blev på linje med Bowtie aligner [23], mens SMS læser blev afstemt med IndexDP [24] (Figur S2). Reads tilpasse kendte biologiske kontaminanter, såsom mitokondrie-DNA, ribosomalt RNA, og teknologi-specifikke forurenende stoffer såsom adapter sekvenser og lange oligomerer, blev filtreret ud af datasættet før analyse.

For at vurdere variationen mellem SMS og AS teknologier, vi vedtog en enkel procedure læse optælling ligner andre RNA-Seq kvantificering metoder [1], [2]. Læser fra enkelte baner af AS og SMS teknologier kører parallelt, blev justeret til 56.722 University of California Santa Cruz (UCSC) udskrifter (version hg18). Vi derefter opregnede læser pr-transkript og normaliseret baseret på antallet af høj kvalitet, ikke-forurenende læser per prøve at opnå værdier i læser per million (RPM). For at undgå usikkerhed forbundet med multi-mappings til gen-isoformer, blev kun enkelt-bedste kortlægningsmetoder til kvantificering af gener til sammenligning. Enkelte bedste kortlægninger blev afledt fra AS læser ved at indstille Bowtie at rapportere kun enkelt justering den højeste kvalitet pr læse. Enkelte bedste alignments blev afledt af SMS læser ved at acceptere alignments med den højeste kvalitet scoringer. Værdier fra alle gentranskript isoformer, som defineret af UCSC blev summeret for at give værdier i form af alignments per million læser for hver af de 29,416 gener. Dækning værdier i læser pr kilobase pr million (RPKM) blev beregnet som summen RPKM værdier af isoformer af hvert gen. Gennem en head to head sammenligning mellem AS og SMS læser af identiske prøver at køre parallelt på de to platforme, observerede vi en systematisk overrepræsentation af høje udtrykker udskrifter i AS i forhold til SMS. Denne skævhed resulterede i reduceret dækning af mellem- og lavere niveau udtryk gener fører til generelt lavere udskrift afsløring følsomhed i AS. Oparbejdning en delmængde af AS prøver ved hjælp IndexDP og gentage analysen udelukket tekniske forskelle i læse opgave som årsag til denne repræsentation bias. Som sekventering teknologier og kemier fortsætte med at fremme, forventer vi, AS platforme vil overvinde begrænsningen af ​​lav udtrykte transcript detektering af forbedret gennemløb.

Globale egenskaber AS og SMS resultater

Transkriptomet sekventering blev gennemført parallelt på AS og SMS platforme til 12 prøver, herunder 10 prostata cancer cellelinjer og 2 prostatakræft væv. Samlet set genererede vi 2,8-19.700.000 rå AS og SMS læser i hver af de 12 prøver. Ca. 30-60% af disse læser bestået indledende filtrering trin og tilpasset vores transkriptom reference. SMS læser blev produceret i to separate maskine kørsler, mens AS læser blev produceret på 6 uafhængige maskine kører. Denne procedure resulterede i 2,1-15.000.000 og 2,8-8.000.000 læser for SMS og AS henholdsvis som tilpasset vores transkriptom reference. I 10 ud af de 12 prøver, der anvendes i evalueringen, SMS produceret mere kan bringes på linje læser i absolutte tal, med en median på 1.39x på tværs af alle 12 prøver. SMS resultater indeholdt mere læser tilpasse kendte forureninger, der spænder fra 12% til 51% af den samlede læser, med en median på 22%. Fraktionen af ​​læser tilpasse til forurenende stoffer i AS varierede fra 2,6% til 14% med en median på 4,2%. SMS læse længde var variabel og en filtrering skridt begrænset brugbar læser til en længde på mellem 24 bp og 57 bp i første løb, og 25 bp og 64 bp i vores anden løb, hvilket giver en læse tæller-vægtet gennemsnitlig længde på ca. 33 bp i hver af de tolv prøver (tabel S1). En median på 97% af alle SMS læser havde længder mellem 25 bp og 47 bp på tværs af alle 12 prøver (Figur S3). AS læser blev dannet ved en længde på mindst 36 bp i hver prøve, selv om det første og sidste adskillige baser blev ignoreret for at producere høj kvalitet læser mindst 34 bp i længde. Alle som læser blev anset for at have en maksimal 36 bp længde. Reproducerbarhed mellem tekniske gentagelser af DU145 cellelinie var høj for både AS og SMS metoder, med en Pearson korrelation af

r

= 0,98 for begge teknologier (Figur S4). Læser fra både AS og SMS også blev justeret muliggør 25 maksimale mapninger til at vurdere fordelingen mellem uniquely- og multiply- kortlagt læser på genniveau, selvom kun enkelte-bedste kortlægninger blev anvendt til kvantificering og sammenligning. Begge teknologier opnået meget lignende unikke kortlægning satser på 72% og 75% i AS og SMS hhv. Fra denne rå tilpasset data, vi undersøgte den relative fordeling af læser tværs gener observeret i vores prøver ved at sammenligne deres normaliserede læste tæller. Som forventet, observerede vi bred enighed i form af genekspression værdier mellem de teknologier (Figur S5). Men observerede vi et tilbagevendende mønster af overrepræsentation af høj tæthed udskrifter fra AS metoden i forhold til SMS.

Dækning skævhed i forstærkning-sekventering

Sammenligning af transkriptom læser af samme prøver kvantificeres parallelt fra AS og SMS platforme afslører en tydelig skævhed i AS resulterer i retning af en svag overrepræsentation af højt udtrykte gener i sammenligning med SMS, som vist i figur 1A. Denne forskel blev kvalitativt vurderet ved at dividere gener i kvartiler af lige antal, bestilt af observerede værdier i AS, med den første kvartil repræsenterer de højeste udtrykker gener, den anden kvartil repræsenterer midt-niveau udtryk gener, og den tredje og fjerde kvartil definerer gener med de laveste niveauer af udskrifter (Figur 1B). Meget udtrykte udskrifter tendens til at have mere read dækning i AS, mens SMS tendens til at dække lavere udtrykte udskrifter mere effektivt (tabel S3). Denne ekstra dækning af høj koncentration udskrifter konsekvent syntes at være på bekostning af lavere udtrykt udskrifter, som havde en tendens til at være mere grundigt sekventeret ved hjælp af SMS (tabel S4).

(A) Single-bedste kortlægning meto- baseret fraktil-fraktil plot viser tegn på overrepræsentation af stærkt udtrykte udskrifter i forstærkning-baseret sekventering i forhold til enkelt-molekyle metoder. (B) Fordeling af læser tværs gener ved udskrift koncentration shows faldt SMS dækning af de mest udtrykt gener, med dem, læser vil mellem- og lavniveau ekspressorer. (C) Forskelle i fordelingen af ​​læser fører til øget følsomhed af lave udtrykker udskrifter. (D) Ni af kandidatgener set over støjniveauet 0,3 RPKM demonstreret nogen forstærkning ved RT-PCR, selv om kun

HIST1H4C

viste høj overflod.

For at sikre, at disse afvigelser var ikke resultatet af at bruge en anden aligner for hver teknologi, AS læser blev re-justeret ved hjælp af IndexDP aligner bruges til sms læser for en delmængde af prøverne, der består af den VCAP-24 t, VCAP-48 h, LNCaP -24 h, LNCaP-48 h, og DU145_1 prøver (Figur S6). Meget høj korrelation af gen-niveau værdier sammenligner BowTie og IndexDP alignments for det sæt af AS læser udelukket forskelle mellem tilpasning værktøjer som kilden til de observerede afvigelser. For eksempel, korrelation af gen-niveau værdier i h prøve LNCaP-24 var høj mellem alignment metoder på

r

= 0,97. Tilsvarende høj korrelation niveauer over

r

= 0.95 blev observeret i de resterende prøver. Lignende mønstre af høj ekspressor overrepræsentation i AS blev observeret ved hjælp IndexDP alignments af AS læser i stedet for standard justeringer ved hjælp Bowtie som vist i figur S7. Med metodologiske forskelle væsentlige udelukkes, vi forsøgte at iagttage virkningerne af denne høje koncentration dækning skævhed ved at undersøge påvisning af udskrifter på et lavt niveau.

Øget SMS følsomhed resultater fra høj dækning af lav tæthed udskrifter

for at vurdere virkningerne af øget dækning i midten til lav- niveau udskrifter i SMS, vi beregnede antallet af gener observeret over en tærskelværdi støj i kun én af de to teknologier. Brug af 0,3 RPKM støjniveau cutoff baseret på Ramskold, et al. [25], antallet af gener detekteret i kun en enkelt teknologi varierede mellem en høj på 4.851 og et lavpunkt på 2.048 og en høj på 1.276 og en lav af 145 i SMS og AS (fig 1C), henholdsvis på tværs af sæt prøver. En log-fold forskel mellem antallet af gener opdaget i kun én af SMS vs AS teknologi blev observeret som vi varierede cutoff værdi mellem 0,1 RPKM og 3,0 RPKM (figur S8) i 0,1 intervaller RPKM. Disse grænser blev valgt for at undersøge følsomheden af ​​de to metoder i en række værdier, der starter fra en nær-nul støjniveau til en størrelsesorden større end tidligere rapporteret. Stratificering af de observerede i en enkelt teknologi i længdeklasser af 0-300 bp, 300-3000 bp, og 3000 + bp gener viste, at dette ikke var på grund af forskelle i teknologi-specifikke prøveforberedelse, som AS-protokollen specificerer en ~300 bp størrelse udvælgelse skridt, at SMS procedure ikke kræver. Denne klasse viser relativt lave repræsentation på tværs af støjgrænser i både AS og SMS. Derefter tog vi denne vurdering et skridt videre og undersøgt resultaterne fra både SMS og AS teknikker forsøger at finde gener påviselige kun i én teknologi.

Unikt fundne gener i SMS

For at underbygge potentialet repræsentation skævheder i de to platforme og den foreslåede yderligere følsomhed SMS, vi næste forespørges for gener, der blev opdaget over en tærskelværdi støj via SMS, men lå under denne grænse i AS. Vi valgte at analysere DU145 prøve som det var den mest grundigt sekventeret prøve med to gentagelser køre ved hjælp af hver teknologi. Ved hjælp af en 0,3 RPKM tærskel, vi valgte at teste ekspressionen af ​​23 gener i vore DU145 prøver under anvendelse af RT-PCR, hvoraf de ti demonstrerede detekterbar amplifikation. Desuden har vi sekventeret den DU145 cellelinje langt mere grundigt for at sikre, at vores opdagelser ikke var på grund af tekniske forhold i en enkelt maskine køre. Som vist i figur S9, dette sæt gener havde bedre sekventering dækning i SMS sammenlignet med AS tværs af samlede 94.427.789 læser genereret i vores andet sæt kørsler. Denne liste blev genereret ved at undersøge fordelingen af ​​læser og dækningskort af top 50 gener, hvis RPKM dækning viste den største forskel mellem AS og SMS teknikker og havde officielle HUGO navne [26]. Kandidater blev valgt for tilstedeværelse af lange ( 36 bp) kortlægning læser og godt fordelt læste alignments over længden af ​​transkripterne. Af de validerede gener detekteres kun af SMS, kun blev

HISTH1H4C

fundet at være til stede i DU145 prøve med høj tillid, som vist i figur 1D. Ni andre kandidatgener

AK5

,

ACVRL1

,

AMHR2

,

CERKL

,

MAFA

,

MAGI2

,

PIP5K1B

,

FAM49A

, og

TPRXL

viste svag forstærkning. I dette sæt af gener, blev amplifikation kun set ud cyklus 30, hvilket gør det vanskeligt at bekræfte deres tilstedeværelse. Vi næste forsøgt at undersøge de overrepræsenterede gener, der kan bidrage til at reducere følsomheden ved hjælp forstærkning-baserede sekventering teknikker.

Konsekvent overrepræsentation af high-udtryk gener i forstærkning-baseret sekventering

i alt blev 393 gener fundet at være konsekvent i sættet af top 500 overrepræsenteret gener ifølge normaliseret read kortlægning tæller i mindst 40% af vores prøver (tabel S2). Af disse 393 gener, blev fundet ti gener at være overrepræsenteret ved normaliseret read kortlægning tæller på tværs af alle 12 af de proever, der betragtes i undersøgelsen. De dækningskort af

RPLP0

RPL31

, overrepræsenteret i alle 12 prøver, og

SPINT2

, overrepræsenteret i 11 prøver, demonstrere denne dækning skævhed i disse tre høje udtrykkende transkripter (figur 2A, B, C). Vi derefter undersøgt sammensætningen og fordelingen af ​​læser i nogle af disse meget overrepræsenteret udskrifter.

dækningskort fra forstærkning-baserede og enkelt molekyle sekventering demonstrerer signifikant større dækning af (A)

RPLP0

, (B)

RPL31

, og (C)

SPINT2

. Fjernelse af læser med samme start-positioner, strengt undertrykke forstærkning af specifikke mRNA fragmenter, reducerer “spikiness” set i disse tilfælde betydeligt. (D) Duplicate læser, defineret som læser på over én pr starten locus og læse længde, er relativt jævnt fordelt langs længden af ​​alle observerede udskrifter på tværs af alle prøver i vores evaluering sæt.

Virkningen af duplikeret læser i forstærkning-baseret sekventering

genet

RPLP0

havde meget større samlede kortlægning dækning i AS tværs af alle tolv prøver (figur S10). At aggressivt afbøde virkningen af ​​forstærkning i dækningen af ​​dette gen, læser to eksemplarer blev fjernet (tillader kun en read pr unik starte placering) for begge teknologier som udført i tidligere undersøgelser [21], [22]. Dette resulterede i suppression af mange af de observerede toppe i AS. I modsætning hertil SMS dækning af genet viste sig at være relativt konsistent over længden af ​​

RPLP0

transkript før og efter denne procedure. Denne væsentlige forskel i adfærd mellem før og efter to eksemplarer læse fjernelse for AS sammenlignet med SMS tyder på, at forstærkning er en væsentlig medvirkende faktor i den observerede skævhed. Lignende adfærd er observeret i

RPL31

SPINT2

gener som godt.

Vi overvejede både tilpasning locus og læse længde i vores definition af læste dobbeltarbejde, tillader en læse på hvert locus med en unik læse længde. Ser på tværs transkriptomet ved hjælp af denne definition af læste dobbeltarbejde, observerede vi en nogenlunde normal fordeling langs længden af ​​alle udskrifter tilfangetagne. En 3-fold forskel i median antal to eksemplarer læser mellem AS og sms på tværs af alle udskrifter observeret i alle prøver blev opretholdt over størstedelen af ​​udskrift længde (figur 2D). Dette mønster af læste dobbeltarbejde svarer til den observeret i litteraturen mellem standard forstærkning-afhængige og forstærkning-fri sekventering metoder [27]. Fjernelse af to eksemplarer læser, tillader kun én læsning pr locus, gav inkonsistente resultater på tværs af prøven sæt (figur S11). I nogle tilfælde er proceduren reducerede overrepræsentation i de højest udtrykkende gener, men forspændingen syntes at forblive i andre prøver. Proceduren også drastisk reduceret antallet af brugbare læser ved en median på 47% i hele 12 prøvesæt (figur S12). Mens dette naive metode af kopieret fjernelse læse havde nogle positive effekt i at reducere forskellene mellem AS og SMS i form af udskrift kvantificering, de drastiske virkninger det har på antallet af brugbare læser i AS foreslår en anden tilgang kan være ønskelig. Med denne forståelse af virkningen af ​​duplikeret læser, vi analyserede sæt gentagne over-repræsenterede gener at se om de sekventeret biologisk interessante kategorier af gener.

Gene ontologi analyse af sættet af 393 gentagne over-udtrykte gener

Across prøverne, gener associeret med cellens replikative maskiner omfattede den største del af overrepræsenterede transkripter ved total normaliseret antal kortlægning læser i de fleste prøver. Gene ontologi analyse af sættet af 393 konsekvent overrepræsenterede gener viser, at de er bestanddele af cellens translationelle maskineri (figur 3), en klasse generelt fundet i høje niveauer i alle tolv prøver anvendt i denne evaluering. Dette tyder igen at forstærkningen procedure implicit i AS bibliotek forberedelse overdriver en bestemt bias i retning af disse allerede rigelige udskrifter. Det samlede antal læser falde i hver af de observerede at være overrepræsenteret i AS klasser blev en middelværdi på 2.23x højere i forhold til SMS, selvom generne overlapper mellem klasserne. Med mindre fokus på høj koncentration translationel maskiner og husholdning gener, så forsøgte vi at anvende SMS finde genfusioner i transkriptomet.

GO analyse af de 393 mest over-repræsenterede gener fundet ved hjælp af vores gentagelse analyse i Molekylær Function (MF) og biologisk proces (BP) undertræer viser, at translationelle processer og komponenter i ribosomet er overrepræsenteret tværs prøver forstærkning-baserede sekventering.

Re-opdagelse af kendte gen fusioner bruger single-molekyle sekventering

Vi evaluerede anvendeligheden af ​​enkelt læser SMS i gen-fusion opdagelse ved at forsøge at genopdage kendte genfusioner i VCAP cellelinje, der er kendt for at havnen

TMPRSS2-ERG

, i en

de novo

proces. Som vist i figur S13, vi først tilpasset alle mulige læser mod transkriptom og genomet under anvendelse IndexDP. Den ikke-mapping læser, som havnen kimærer, blev efterfølgende justeret mod transkriptomet returnere dem læser, der havde en delvis tilpasning på mindst 18 nukleotider. Den del af læse det mislykkes at tilpasse defineres som udhæng. Alle læser med samme partielle alignments, hvilket antyder en fælles breakpoint, blev grupperet. Alle klynger blev derefter sammenlignet for at bestemme om overhæng fra én brudpunktsområde havde lighed med overhæng en uafhængig breakpoint derved rekonstruere fusionssamlingen. Endelig læser alle resterende ikke-mapping blev justeret mod de nye fusion vejkryds.

Til dette formål blev en prøve af VCAP cellelinje sekventeret mere udførligt i 2 kanaler, genererer 31.198.128 læser tilpasset til transkriptomet eller genom . Den VCap prøve blev fremstillet med én kanal hver med og uden fragmentering. Den toneangivende fusion mellem prostata-specifikt gen

TMPRSS2

og ETS onkogen familiemedlem,

ERG

[28], viste sig at være omfattet af 53 læser fra at generere 65 millioner læser i VCap cellelinje (figur 4).

Skematisk af intra-kromosom omlejring på kromosom 21 sammensmeltning

TMPRSS2

(gul) til

ERG

(lilla).

diskussion

Dette er den første undersøgelse, der vurderer effektiviteten af ​​RNA-Seq anvendes enkelt-molekyle sekventering i forhold til eksisterende amplifikationsmetoder-baserede teknikker. Mens karakteristika SMS læser vil variere afhængigt af platform, forventer vi, at fordelingen af ​​læser tværs varierende transcript koncentrationer for at forblive relativt konsistent. SMS teknik var i stand til at generere mere brugbart læser i ti af de tolv prøver behandles i RNA-Seq kvantificering og dækning evaluering, der producerer en gennemsnitlig 78% mere læser i disse 10 prøver. Vigtigere, læser disse tendens til at være mindre koncentreret på allerhøjeste overflod transkripter som vist i figur 1B, hvor fraktion af den samlede læser mapping til de højeste overflod transkripter i SMS er 4% lavere end i AS. Fordi AS teknik amasses en stor del af læser sekventering høj overflod udskrifter, detektion af lavere overflod gener reduceres. De store forskelle mellem de højeste og næsthøjeste kvartil af udtrykte udskrifter tyder på, at denne effekt er ikke-lineær som udskrift overflod stigninger i prøven. Den brede vifte af udskrift udtryk i biologiske prøver gør denne skæv læst fordeling af dækningen en vigtig faktor, når profilering mRNA på nukleotidniveau, afgår fra modeller, der kan påtage sig en lineær sammenhæng mellem udskrift overflod og sekventering dækning.

antal duplikeret læser observeret i prøverne på tværs af alle udskrifter blev, ikke overraskende, 3 gange højere i forhold til SMS. Fjernelsen af ​​to eksemplarer læser er en veldefineret procedure i forsøg med DNA-sekventering, men er mindre klar, når sekventering transkriptomet hvor varierende udskrift koncentrationer naturligvis føre til læser af identiske mRNA segmenter. Denne advarsel skyldes højt udtrykte udskrifter bidrager falsk positiv to eksemplarer læser skyldes stikprøvekontrol af read starte steder langs udskrift. Dog ville meget udtrykte udskrifter i SMS sandsynligvis generere et stort antal af disse falske positiver så godt. Som et resultat, denne kilde til falsk positiv duplikeres læser er usandsynligt at være den væsentligste faktor bag de store observerede forskelle i antallet af dubletter mellem AS og SMS. Fjernelse af duplikeres læser ved at frafiltrere alle læser ud over en enkelt læser for en enkelt locus synes at være en ufuldstændig løsning, der introducerer en række forstyrrende faktorer, når du bruger enkelt læser. Først, processen med at fjerne dubletter er inkonsekvent, påvirker den forspændte repræsentation af læser i kun en delmængde af de tilfælde, vi observerer. For det andet, den to eksemplarer fjernelsen reducerede også den anvendelige udbytte sekvens fra hver eksperimentel løb med næsten halvdelen, selv om dette er en overvurdering på grund af den naive karakter af metoden. Endelig disse dublerede fjernelse metoder pålægge en peak dækning grænse for hver transkript, der svarer til den læste længde. Den naive proces, vi ansøgte om afskaffelse af dubletter er helt sikkert over-aggressive og dette problem kan delvis afhjælpes ved hjælp mere sofistikeret bioinformatiske og statistiske metoder. Men disse processer stille yderligere forstyrrende faktorer i de data, SMS undgår udelukkende på grund af den direkte karakter af sekventering metode. Alternativt læser anvendelse af parrede ende også producerer yderligere kortlægning og sekvensinformation, der forbedrer processen med dublerede identifikation og fjernelse. De forskelle, der følger af de særlige kendetegn ved disse to metoder kan føre til forskelle i dækningen af ​​gener langs spektrum af udtryk.

Små forskelle i fordelingen af ​​læser på det højeste kvartil af udtrykte gener har en stor effekt af dækningen af ​​de resterende udtrykte gener. For eksempel er den laveste kvartil af alle generne set i begge teknologier i h prøven VCap-24 komponerer 0,4% af den samlede sum af normaliserede læser ses i den højeste udtrykte kvartil af AS. En reduktion i antallet af læser anvendes til at sekventere højest udtrykkende gener i den fjerde kvartil 1% kan anvendes til at tredoble dækningen af ​​de laveste ekspression af gener, når læser anvendes i sættet. Resultatet af at flytte den læste distribution til lavere udtrykker gener ses mellem VCAP-0 h og VCap AS prøver. Begge prøver gav et relativt tilsvarende antal læser, med 3.636.454 og 3.352.960 læser i VCAP-0 h og VCap hhv. Imidlertid VCap-0 h prøve har mere end dobbelt den del af den samlede læser falde i de laveste 2 kvartiler med 2,2% og 0,9%, i det respektive VCap-0 timer og VCap prøver. Det kommer ikke som nogen overraskelse, at i h prøve VCAP-0, er vi i stand til at observere 16,813 gener over grænsen på 0,3 RPKM støj mens der i VCAP, vi kun observere 13,866 gener over denne tærskel. Tilsvarende reducerede høj overflod dækning forspænding tværs variable koncentrationer tillader SMS tilgang 2- til 6-fold mere dækning i den nederste halvdel af alle udtrykte gener. Den variable read længde af SMS læser bidrager til kvantificering støj, sammenlignet med AS, på grund af antallet af korte læser hvilket kort tvetydigt. Disse mis-tilknytninger kan bidrage til større antal gener observeret ved den allerlaveste ekspressionsniveauer. Undersøgelse af læser kortlægning til gener kun findes i SMS viser tilstedeværelse af mere end 30% af lange SMS læser ( 36 bp i længde) i en median på 17% af generne (tilnærme den læste længde fordeling på tværs af alle prøver) og efterlader en 1,7-fold fordel til fordel for SMS følsomheden, hvis gener påvist med kun korte 24- til 35-mer læser alle anses detektioner som følge af støj. Mens en stor del af denne støj er direkte kan henføres til uklarheder i nøjagtig kortlægning kort læser, tilstedeværelsen af ​​lange ( 36 bp) aligned læser er ikke en garanti for udskrift tilstedeværelse. I en lang række af de tilfælde, hvor detekterede gener har længe læser justeret til dem, falske positiver kan henføres til disse lange læser kortlægning til repetitive elementer eller lav kompleksitet regioner inden for udskrifter.

Vores PCR valideringsresultater tyder på, at brug af

Be the first to comment

Leave a Reply