PLoS ONE: Menneskelig Cancer Lang Ikke-Coding RNA Transcriptomes

Abstrakt

Når menes at være en del af den “mørke stof” af genomet, lange ikke-kodende RNA (lncRNAs) dukker op som en integreret funktionelle komponent af den mammale transkriptom. LncRNAs er en ny klasse af mRNA-lignende transkripter som trods nogen kendt proteinkodende potentiale, udviser en lang række strukturelle og funktionelle roller i cellebiologi. Imidlertid har omfanget af bidraget fra lncRNA udtryk for normale humane væv og kræft ikke undersøgt i en omfattende måde. I denne undersøgelse vi samlet 272 human seriel analyse af genekspression (SAGE) biblioteker til at afgrænse lncRNA transskription mønstre over et bredt spektrum af normale humane væv og cancere. Ved hjælp af en roman lncRNA opdagelse rørledning vi parset over 24 millioner SAGE tags og rapportere lncRNA udtryk profiler på tværs et panel af 26 forskellige normale humane væv og 19 menneskelige kræftformer. Vores resultater viser omfattende, vævsspecifik lncRNA ekspression i normale væv og stærkt afvigende lncRNA ekspression i humane cancere. Her præsenterer vi en første generation atlas for lncRNA profilering i kræft

Henvisning:. Gibb EA, Vucic EA, Enfield KSS, Stewart GL, Lonergan KM, Kennett JY, et al. (2011) Menneskelige Cancer lange ikke-kodende RNA Transcriptomes. PLoS ONE 6 (10): e25915. doi: 10,1371 /journal.pone.0025915

Redaktør: Eric J. Bernhard, National Cancer Institute, USA

Modtaget: August 1, 2011; Accepteret: September 13, 2011; Udgivet: Oktober 3, 2011

Copyright: © 2011 Gibb et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af tilskud fra den canadiske Institutes for Health Research (CIHR) [MOP 86.731, MOP 77.903 til WLL, MOP 13690 til CJB]; National Institutes of Health [NIH 2R01 CA103830 – 6A1]; Department of Defense [CDMRP W81XWH-10-1-0634]; CIHR og Michael Smith Foundation for Health Research (MSFHR) Postdoc stipendier [til E.A.G.]; og CIHR Frederick Banting og Charles Best Canada Graduate Scholarship [til E.A.V.]. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

genom ustabilitet og mutation er kendetegnende for kræft [1]. Genetiske og epigenetiske ændringer resulterer i afvigende ekspression af protein-kodende gener og mange klasser af ikke-kodende RNA’er (ncRNAer), herunder microRNA (miRNA). MiRNA har vist sig at være store aktører i menneskelig carcinogenese, trods omfattende kun en lille brøkdel af ncRNAer [2].

Når menes at være den “mørke stof” af genomet, ncRNAer er dukket op som en integreret del af pattedyrs transkriptom [3], [4], [5]. Disse gådefulde molekyler er defineret ved mangel på protein-kodende sekvens, men alligevel kan spille både strukturelle og funktionelle roller i cellen [6], [7]. NcRNAer kan blevet grupperet i to store klasser, den lille ncRNAer, som omfatter miRNA og andre ikke-kodende udskrifter af mindre end 200 nukleotider (nt), og de mere nyligt beskrevne lncRNAs, der spænder fra 200 nt til 100 kilobaser (kb ) [8].

LncRNAs kan være intergeniske, intron, antisense eller overlappende med protein-kodende gener eller andre ncRNAer [9], [10], [11], [12]. Den kendte repertoire af lncRNA funktioner hastigt ekspanderende – med demonstrerede roller som formidlere af mRNA henfald [13], strukturelle stilladser for nukleare underkonstruktioner [14], [15], som vært gener for miRNA [16], [17], og som regulatorer af kromatin remodeling [18], [19], [20], [21] – selvom de funktionelle identitet mange lncRNAs er endnu ikke afsløret [6], [7], [22]. For nylig har de menneskelige kræftformer er beskrevet til at have ændret udtryk for satellit gentagelser [23], transskriberede ultra bevarede dele (T-UCRs) [24], og antisense udskrifter [25]. Beyond udtryk ændringer, akkumulere beviser indikerer afvigende ekspression af lncRNAs kan spille en vigtig funktionel rolle i cancer biologi [26], [27], [28]. Den godt studerede HOX antisense intergeniske RNA (

hotair

), for eksempel, er stærkt udtrykt i brystkræft og brystkræft metastaser og spiller en rolle i retargeting kromatin remodeling komplekser [29]. Ligeledes høj ekspression af den nukleare speckle forbundet lncRNA metastase-associeret lungeadenokarcinom udskrift 1 (

MALAT1

) modulerer alternativ splejsning og er blevet forbundet med metastase og dårligt resultat hos patienter med lungecancer [30], [31] . Selv om disse eksempler er spændende, omfanget af bidraget fra forskellen lncRNA udtryk for menneskelig kræft er i øjeblikket ukendt.

Med et konservativt skøn på 23.000 lncRNAs i det menneskelige genom, disse udskrifter rival ~20,000 protein-kodende gener [5], [11], [32], [33]. I de seneste to årtier har microarray profilering genereret et væld af oplysninger om protein-kodende genekspression mønstre i menneskelige kræftformer. Men som lncRNA specifikke prober er underrepræsenteret på kommercielle mikroarrays anvendes i kræft transkriptom profilering disse data gælder ikke for ncRNAer. Global sekventering af RNA-populationer er en ny tilgang, der anvendes til at profilere RNA ekspressionsniveauerne, der vil fange omfanget af lncRNA udtryk. For nylig blev genom-dækkende ncRNA udtryk profiler bestemt i 11 prøver, der repræsenterer forskellige typer af humane væv [34].

En sekvens-baseret fremgangsmåde til optælle den overflod af polyadenylerede transkripter er SAGE [35]. Da mange lncRNAs selv er polyadenyleret, lncRNA transkriptniveauer kan udledes ved direkte tælling af tilsvarende sekvens tags hjælp SAGE teknologi. Faktisk blev to antisense lncRNAs opdaget ved hjælp af en SAGE-metode [25]. Siden opfindelsen af ​​SAGE teknologi i midten af ​​1990’erne, har mange SAGE biblioteker der repræsenterer en mangfoldighed af mennesker og mus, normale og maligne væv og cellelinjer bliver offentligt tilgængelige [36]. Af de 755 menneskelige SAGE biblioteker i Omnibus (GEO) database Gene Expression, ~276 omfatter SAGE biblioteker afledt af humane kræftformer eller dysplasier [37].

I denne undersøgelse vi samlet 272 menneskelige SAGE biblioteker at afgrænse lncRNA transskription mønstre over et bredt spektrum af humane væv og cancere. Ved hjælp af en brugerdefineret lncRNA opdagelse pipeline, vi parset over 24 millioner SAGE sekvens tags til udlede (1) de specifikke lncRNA udtryk mønstre i 26 humane væv og opdagede allestedsnærværende udtrykt samt vævsspecifikke lncRNAs, og (2) de afvigende ekspressionsmønstre af lncRNAs i 19 humane kræftformer.

Resultater

Montage menneskelige SAGE biblioteker af normale og cancer væv

i alt 1.824 SAGE biblioteker (i kort SAGE, lang SAGE og SAGE-seq format) af menneskelige og ikke-menneskelige oprindelse er offentligt tilgængelige via GEO. At udforske lncRNA udtryk i bredeste vifte af menneskelige vævstyper og kræftformer, vi hentede 360 ​​GEO accessioneret humane kort SAGE biblioteker består af biblioteker kurateret af Cancer Genome Anatomy Project (324 biblioteker) og lungevæv og kræft datasæt (36 biblioteker) ( tabel S1). Individuelle biblioteker blev filtreret for sekvens dybde, bevarer kun de biblioteker med 50.000 rå tags, for at give 272 SAGE biblioteker til analyse ved hjælp af vores lncRNA opdagelse pipeline (tabel S2). De 272 SAGE biblioteker består af i alt 24,436,076 rå sekvensmærker med en gennemsnitlig rå tag optælling af 90.212 pr bibliotek. Kollektivt bibliotekerne kalibreres 26 normale humane vævstyper, herunder 19 humane typer kræft og 9 vævstyper afledt cellelinje biblioteker (figur 1, tabel S3).

(CL) angiver en SAGE bibliotek, der blev genereret fra en blanding af humane cellelinjer.

lange ikke-kodning RNA opdagelse pipeline

for at generere lncRNA udtryk profiler, udviklede vi en lncRNA opdagelse rørledning til at kortlægge tag-til-lncRNA matcher (figur 2). En SAGE tag udtryk matrix blev bygget fra alle unikke tags (n = 716,330) identificeret i datasættet af 272 biblioteker. UniGene kortlagt og unmapped SAGE tags (n = 269.785 og n = 446.545, henholdsvis) blev adskilt i forskellige ekspressionssystemer matrixer, der efterfølgende blev filtreret til at tilbageholde kun de tags med mindst 2 raw mærkeantallene i 3 eller flere SAGE biblioteker. Brug SAGE Genie at tildele gen identifikatorer til Unigene id’er, 263 af de 61,054 filtrerede tags med tilsvarende Unigene ID’er kortlagt kendte lncRNAs, og 15,773 tags enten manglede gen navne eller havde tvetydige anmærkninger (for eksempel transskriberede loci, cDNA’er, hypotetiske gener). Baseret på fraværet af bekræftede association med kendte gener, blev disse 15.773 tag-til-Unigene ID kampe betragtes som kandidat lncRNA tags

Tal angiver programmer eller filtrering trin som følger:. (1) filtrering til kun dem beholde biblioteker med et minimum på 50.000 rå tag tæller, (2) at identificere unikke SAGE tags og konstruere SAGE tag udtryk matrix, (3) kortlægning SAGE tags til UniGene id’er ved hjælp SAGE Genie kortlægning filer, (4) filtrering lister at der kun tags med ≥ 2 rå tæller i en ≥3 af 272 biblioteker, (5) bestemmer gen identitet ved hjælp af SAGE Genie, (6) adskiller Unigene tags kortlægning til lncRNAs og tvetydige udskrifter, (7) samle flertydige tags og unmapped tags, (8) kortlægning sekvens tags til referenceliste over 9,891 lncRNAs hjælp SeqMap, et tag-til-gen-mapping program, (resterende tags kan kort til-kommenteret lncRNAs eller antisense udskrifter ikke medtaget i vores referenceliste) (9) filtrering tag matcher for streng forstand, (10) pooling fremad kortlægning tags og tags bestemt fra Unigene og (11) bekræfter tag-til-lncRNA kampe og opsummering tag tæller for lncRNAs med flere tag-kampe. En komplet liste over lncRNAs findes som tabel S5 og tag-til-lncRNA kampe leveres som tabel S6.

De 15,773 UniGene tags med tvetydige gen identifikatorer blev kombineret med de 17,816 unmapped, filtreret tags for i alt 33,589 SAGE tags med potentiale til at generere tag-til-lncRNA kampe. Brug SeqMap, vi kortlagt 7040 af de 33,589 tags til lncRNA sekvenser fra henvisningen lncRNA liste (tabel S4). Andelen af ​​tag-til-lncRNA matcher overens med det faktum, at vores referenceliste over 9,891 lncRNAs udgør kun en del af de anslåede 23.000 lncRNAs i genomet [33]. De øvrige tags, der ikke kort til lncRNAs fra vores referenceliste kan repræsentere antisense udskrifter til protein-kodende gener eller andre ncRNAer, som blev filtreret.

Af de 7040 lncRNA tag matcher, 3831 kortlagt i den forreste orientering, mens 3.209 kortlagt i den modsatte retning. I SAGE, er tags matchende afskrift i den forreste orientering sandsynligvis stammer fra den afskrift, mens tags matching i den modsatte retning er ikke. Dette gælder, uanset om genet normalt transskriberes fra plus eller minus DNA-streng. I denne undersøgelse var vi interesserede i udtrykket profiler af en kurateret sæt lncRNAs, snarere end hidtil ukendt gen opdagelse. Som reverse tag kampe ikke bestyrker udtryk for lncRNAs heri beskrevne, blev disse tags udelukket fra yderligere analyse.

De 3.831 tags nyligt kortlagt til lncRNAs blev kombineret med de 263 tags identificeret fra Unigene kortlægning for i alt 4.094 tags entydigt kortlægning til lncRNAs. Hvor flere tags knyttet til et særskilt lncRNA blev tags kollapsede som summen af ​​tag tæller at indfange alle udskrift varianter og isoformer. Slutresultatet var en lncRNA udtryk matrix bestående af 2.649 forskellige lncRNAs (tabel S5 og S6). De lncRNAs med det højeste udtryk var påviselige i de fleste ( 90%) af de 272 biblioteker (tabel 1). Disse omfattede karakteriserede eksempler som nuklear paraspeckle samling udskrift 1 (

NEAT1

) og vækst anholdelse-specifik 5 (

GAS5

).

Lang ikke-kodende RNA udtryk profiler i normale humane væv

af de 272 SAGE biblioteker, 72 repræsenterede normale humane væv. Ekspression af lncRNAs blev detekteret i alle vævstyper, selv om antallet af unikke lncRNAs detekterede varieret betydeligt (figur 3A). I gennemsnit var der 145 forskellige lncRNAs med en gennemsnitlig tags per million (TPM) på 20 påvises i hvert væv. Væv, såsom lymfekirtel og galdeblære viste det højeste antal af distinkte lncRNAs, mens de laveste antal distinkte lncRNAs blev fundet i muskel og lever.

(A) Antal forskellige lncRNAs udtrykt i normale humane væv, hvide blodlegemer og embryonale stamceller med et minimum gennemsnit TPM af 20. værdierne i parentes angiver antallet af SAGE biblioteker til hver væv. (B) Eksempler på lncRNAs udelukkende påvist i en enkelt normalt humant væv eller i embryonale stamceller (ESC) med et minimum ekspressionsniveau af 10 TPM. For væv med to eller flere biblioteker, blev TPM beregnes. LncRNAs uden navne er mærket med en Ensembl ID.

Vi fokuserede næste på disse biblioteker for at afgøre, om vævsspecifikke lncRNA udtryk profiler kunne genereres (tabel S7). Figur 4A viser de 20 mest højt udtrykt lncRNAs detekteret i panel af normale væv. Tydelige lncRNAs detekteret ved høje ekspressionsniveauer i normale væv omfattede dem karakteriseret i litteraturen, såsom

NEAT1

,

GAS5

og X-inaktiv-specifik udskrift (

XIST

). Men mindst halvdelen af ​​de højt udtrykte lncRNAs er hidtil ukendte og i øjeblikket ukarakteriserede. For at bekræfte de lncRNA udtryk profiler, vi forespørges udtrykket mønstre af de højest udtrykt lncRNAs hjælp RNASeq data fra Illumina menneskelige BodyMap 2.0 projekt. Disse data blev for nylig tilføjet til Ensembl release 62 og præsenteres som en valgfri spor. Af vores mest højt udtrykte lncRNAs, blev størstedelen udtrykkes bredt i vævsprøverne fra Illumina datasæt, i overensstemmelse med vores resultater (tabel S8, fig S1 og S2). Samtidig blev lncRNA ekspression sig også at være meget varierende, idet hvert humant væv, der har en unik lncRNA ekspressionsmønster (figur 4B). Interessant nok blev en række lncRNAs udtrykt i et væv-eksklusiv måde (figur 3B).

(A) LncRNAs med den højeste samlede udtryk (B) LncRNAs med den højeste varians ved en variationskoefficient (CV) prøve. Heatmaps angiver den relative intensitet (normaliseret TPM) af hver lncRNA tværs sytten humane væv, hvide blodlegemer og humane embryonale stamceller. Hvis mere end én SAGE bibliotek var til rådighed, blev TPM beregnes. For Heatmap blev den maksimale tærskel på 300 TPM. LncRNAs uden navne er mærket med en Ensembl ID.

Lange ikke-kodning RNA udtryk profiler i humane kræftformer

Aberrant protein-kodende genekspression er godt beskrevet i kræft. Men afvigende ekspression af ncRNAer, herunder miRNA og lncRNAs, har først for nylig blevet sat i forbindelse med denne sygdom [2], [26], [27], [38]. For at afgrænse lncRNA udtryk profiler forbundet med menneskelige kræftformer, vi skabt en human cancer udtryk matrix baseret på 167 kræft SAGE biblioteker indgår i vores datasæt (tabel S9). For lungekræft datasæt, metaplasi, dysplasi og inflammatoriske væv blev udelukket fra analysen, da disse repræsenterer forstadier stadier [39], [40]. Figur 5A viser de 20 mest højt udtrykte lncRNAs tværs af de profilerede kræftformer. Ligesom de normale væv, blev lncRNA udtryk i human cancer også at være meget varierende (figur 5B).

(A) LncRNAs med den højeste samlede udtryk (B) LncRNAs med den højeste varians ved en variationskoefficient (CV) test. Heatmaps angiver den relative intensitet (normaliseret TPM) af hver lncRNA tværs sytten menneskelige kræftformer og humane embryonale stamceller. Hvis mere end én SAGE bibliotek var til rådighed, blev TPM beregnes. For Heatmap blev den maksimale tærskel på 300 TPM. LncRNAs uden navne er mærket med en Ensembl ID.

Menneskelige kræftformer viser signifikant ændret lncRNA ekspressionsmønstre

For at bestemme omfanget af forskellen lncRNA udtryk i human cancer, vi skabte tre udtryk matricer for hvert bryst, hjerne og lungekræft, som omfattede mindst fem normale og fem cancer SAGE biblioteker (tabel S10). Bryst, hjerne og lunge lncRNA udtryk matricer blev uafhængigt sorteret for betydelige og differentielt udtrykte lncRNAs (p-værdi 0,05, ≥2 gange udtryk ændring baseret på en ikke-parametrisk permutation test [41]). I hver type kræft, fandt vi mindst 200 lncRNAs at have væsentlig differentieret udtryk baseret på disse kriterier (figur 6A). Interessant nok var der overlapning mellem lncRNAs der blev differentielt udtrykt i hvert væv (figur 6B), herunder 8 lncRNAs der blev differentielt udtrykt i alle tre cancere (tabel 2). De ti mest op- og ned-regulerede lncRNAs for hver kræft findes i tabel S11.

(A) Antal lncRNAs viser væsentlige udtryk ændringer. Antallet af lncRNAs bestemt til at have signifikante (BH p-værdi 0,05) differentiel ekspression af 2 gange eller mere rapporteret. Solide søjler indikerer opreguleres gener, mens barer med hatch mærker indikerer nedreguleres gener (B) Venn-diagram af differentielt udtrykte lncRNAs i humane karcinomer.

Kromosomal fordeling af lange ikke-kodende RNA

Vi konstruerede en fordeling plot at bestemme det kromosomale fordeling af de 9,891 lncRNA gener i vores lncRNA referencelisten (tabel S3). De lncRNAs er fordelt over hele genomet og er til stede på hver kromosom (figur 7). Protein-kodning gener og miRNA synes at dele en lignende kromosom distribution (Spearman korrelation p 0,05, figur S3A). Men kromosomet fordeling af lncRNAs ikke korrelerer med enten protein-kodende gener eller miRNA (Spearman korrelation p 0,05, figur S3B, S3C)

Protein-kodning gen (n = 20.655), mikroRNA (n. = 1746) og lang ikke-kodende RNA (n = 9,891) koordinater blev hentet fra Ensembl v62 hjælp BioMart.

diskussion

i de seneste år, begrebet funktionelle genom har blevet omskrevet til at omfatte en lang række nyopdagede klasser af ncRNA udskrifter [42], [43], [44], [45]. Selv om den funktionelle betydning af lange ikke-kodende RNA har længe været anerkendt [46], [47], den overflod og omfanget af lncRNA udtryk ændringer i kræft er lige begyndt at komme frem i lyset. Derfor kortlægge transkriptionelle landskab af lncRNAs tværs humane vævstyper og kræft er et vigtigt skridt i at forstå lncRNA funktionelle betydning i kræft.

Her præsenterer vi det første multi-væv, cross-cancer lncRNA udtryk profilering studere. Storstilede udtryk profilering datasæt, såsom salvie, udgør en værdifuld ressource for at undersøge udtryk mønster af polyadenylerede lncRNAs. Mens denne tilgang udelukker profilering af ikke-polyadenylerede lncRNAs, det alligevel letter den samtidige profilering af tusindvis af polyadenylerede lncRNAs i en lang række humane væv og cancere. Brug 272 SAGE biblioteker, der repræsenterer 26 ikke-maligne humane væv, 19 humane cancertyper og 9 cancer cellelinjer, har vi produceret en første generation atlas på tværs af kræft lncRNA udtryk profiler som en ressource for dette hurtigt voksende område af kræftforskning. Aktuelle skøn over antallet af lncRNAs kodet i det humane genom varierer meget, lige fra ~7,000 til 23.000 eller mere [7]. Disse skøn rival overflod af de anslåede 20.000 protein-kodende gener. Vores analyse viste, at lncRNAs er fordelt på alle 22 autosomer og kønskromosomer, men fordelingen mønster korrelerede ikke med enten protein-kodende gener eller miRNA (figur 7, figur S3).

Undersøgelse af 72 SAGE biblioteker af normale humane væv afslørede lncRNA ekspression i hjerne, bryst, spiserør, galdeblære, hjerte, lever, lunge, lymfeknude, muskel, peritoneum, placenta, prostata, retina, rygmarv, mave, skjoldbruskkirtel, vaskulært væv, embryonale stamceller og hvid blodlegemer. Vi finder omfattende og yderst differentierede mønstre af lncRNA udtryk i normale humane væv (figur 3 og 4), der bekræfter en tidligere rapport af vævsspecifikke ncRNA mønstre [34]. For eksempel blev lncRNA NCRNA00116 højt udtrykt i kontraktile væv, nemlig hjerte (TPM = 349) og muskel (TPM = 399). LncRNAs ENSG00000230658 og ENSG00000235621 viste meget høj ekspression (TPM = 888) i placenta og spiserøret (TPM = 820) henholdsvis men lav eller målbart udtryk i andre væv, der kan tyde et væv-specifik rolle for disse udskrifter. Hjernen-associerede og formodede tumor suppressor lncRNA maternelt udtrykt 3 (

MEG3

) [48], viste det højeste udtryk i hjernen i vores datasæt (TPM = 677), men viste udtryk lavt niveau i andre vævstyper ( Figur 4). Kollektivt antyder disse data nogle lncRNAs kan fungere på en vævsspecifik måde.

Kun ~ 1% af lncRNAs blev ubikvitært i alle undersøgte væv. Disse konstant udtrykte lncRNAs minder om udtrykket mønstre af “husholdning” protein-kodende gener [49]. De elleve lncRNAs i tabel 1 blev udtrykt i mindst 90% af 272 SAGE biblioteker i vores datasæt, implicerer, at disse transkripter kan deltage i offentlige biologiske processer. Men det absolutte ekspressionsniveau varierede for hvert væv, undertiden af ​​hundredvis af TPM (figur 4). Dette tyder på visse lncRNAs kan være nødvendig på forskellige cellulære niveauer i forskellige væv eller under forskellige forhold, ligesom mange konstitutivt udtrykte protein-kodende gener [50], [51], [52]. Begrebet lncRNAs fungerer som konstitutivt udtrykte regulatorer er tidligere blevet foreslået. For eksempel lncRNA

XIST

er kritisk for kvindelig udvikling på grund af dets funktionelle rolle i X-kromosom inaktivering [47], [53]. Samstemmende, en række af de mest og ofte udtrykt lncRNAs i vores datasæt har tidligere foreninger med vigtige biologiske processer, herunder

NEAT1

, en strukturel stillads for paraspeckle dannelse [14], [54],

MALAT1

som regulerer alternative splejsning [31] og små nucleolar RNA vært gen 6 (

SNHG6

), der er vært for en snoRNA, der fungerer i RNA modifikation [55]. Disse resultater tyder på, at lncRNAs kan være kritisk for normale væv vedligeholdelse og funktion.

I denne cross-kræft typen analyse fandt vi, at lncRNAs afvigende udtrykt i en bestemt cancer også kan ændres i andre kræftformer. For eksempel, mens

MEG3

udtrykkes kraftigt i normale hjernevæv, var dette lncRNA kraftigt reduceret i vores cancer hjerne datasæt, og påfaldende så i galdeblære, retinale og prostatacancer, overens med den foreslåede tumorsuppressor rolle for

MEG3

[48], [56], [57]. I et andet eksempel, miR155 host gen (

miR155HG

), en lncRNA bearbejdet til miRNA

miR-155

, var stærkt overudtrykt i B-celle lymfom i overensstemmelse med tidligere rapporter [16], men også blev også opreguleret i esophageal og galdeblære kræft.

lange ikke-kodende RNA er også impliceret i reguleringen af ​​embryogenese [58], [59], [60]. Føtal lncRNAs genaktiveret i kræftformer kan repræsentere kritiske regulatorer af pluripotens eller cellulær vækst. For eksempel lncRNA urotelial cancerassocieret 1 (

UCA1

) har vist roller i både fosterudviklingen, er impliceret i blærekræft, støtter dette koncept [61]. I vores datasæt, fandt vi flere lncRNAs med lav ekspression i normale væv, men med høj ekspression i både embryonale stamceller og kræft (tabel S12). Mens disse reaktiveret føtale lncRNAs repræsenteret meste karakteriserede eksempler,

H19

, et godt studerede lncRNA med foreninger i både pattedyr udvikling og kræft [53], blev også påvist i vores datasæt. Interessant

NEAT1

, som konstitutivt og højt udtrykt i normale væv [34], [62], med undtagelse af embryonale stamceller, blev nedreguleret i lunge, lever, esophageal og retinale cancere (retinoblastom).

Da genomiske amplifikationer og sletninger er centrale mekanismer gen deregulering i kræft, vi undersøgte ændringer i lncRNA udtryk i genomiske regioner ofte ændret i bryst, hjerne og lungekræft. Sammenligning af de signifikant (p 0,05) dereguleret lncRNAs fælles mellem hjerne-, bryst- og lungekræft væv afslørede otte lncRNAs blev differentielt reguleret (≥2 gange) sammenlignet med normalt væv. Interessant, tre af disse lncRNAs – ENSG00000226380, ENSG00000230937 og ENSG00000253288 – blev placeret på 7q32.3, 1q32.2, og 8q24.23 henholdsvis i regioner helt blottet for protein-kodende gener. Ligesom protein-kodende gener og miRNA, er det muligt, at forskellen lncRNA udtryk er drevet af lignende mekanismer forstyrrelser, herunder kopi nummer gevinst /tab eller afvigende methylering mønstre. Faktisk har højt amplifikation af lncRNA indeholdende loci såsom cytoband 19p12 blevet rapporteret i brystcancer [63], mens højt niveau amplifikation af 12p13.2 (som indeholder en række lncRNA loci) er blevet rapporteret i brystcancer, glioblastom, astrocytom og pladecelle lungecancer [64], [65], [66], [67]. Ligeledes har afvigende ekspression af en række lncRNAs været bundet til ændrede mønstre for methylering [68], [69]. Men mekanismen (r) kørsel afvigende lncRNA udtryk forbliver det meste ukendt.

Mens lncRNAs er blevet dokumenteret i næsten tre årtier, er størrelsen og mangfoldighed af lncRNA udtryk har først for nylig blevet værdsat. Det anslås, at lncRNAs i det menneskelige genom nummer i titusindvis, effektivt fordobling af antallet af potentielle gen mål i kræft genekspression netværk. Stor skala, cross-væv og kræft undersøgelser er afgørende for at forstå reguleringen af ​​lncRNA udtryk og hvordan disse nye udskrifter integreres med vores nuværende forståelse af pattedyr transkriptom. Desuden vil en dybere forståelse af lncRNA udtryk ikke blot udvide antallet af potentielle mål cancer gener, men også lette udviklingen af ​​nye anti-cancer behandlinger, såsom genregulering medieret af antisense RNA [70] eller målrettet lncRNA-protein interaktioner [28 ].

Materialer og metoder

SAGE biblioteker

Denne undersøgelse bruger offentligt tilgængelige SAGE biblioteker til dataanalyse. I alt 360 SAGE biblioteker, herunder 324 fra Cancer Genome Anatomy Project (CGAP) SAGE bibliotek samling (GSE15309), 19 lunge bronkieepitel biblioteker (GSE3707), 13 lungekræft biblioteker (GSE7898) og 4 aldrig ryger bronkieepitel biblioteker (GSE5473 ), blev hentet fra GEO (tabel S1). Biblioteker konstrueret fra ikke-humane prøver samt lange salvie og SAGE-seq biblioteker blev ikke anvendt i denne undersøgelse. For at lette direkte sammenligning SAGE biblioteker blev filtreret til at beholde kun de biblioteker med 50.000 rå tag tæller resulterer i 272 biblioteker egnet til analyse (tabel S2)

Lang ikke-kodende RNA referenceliste

lncRNA opdagelse pipeline er baseret på en referenceliste over menneskelige lncRNAs kurateret af online genomiske database Ensembl release 62, bygget på Genome reference Consortium frigive GRCh37 [71]. Den lncRNA Referencelisten blev indsamlet fra 1.239 Ensembl (v62) id’er udpeget som ‘lincRNAs’ (lange intergeniske ikke-kodende RNA, en underklasse af lncRNAs) og 8.652 Ensembl ID’er (v62) er udpeget som “forarbejdede udskrifter” for i alt 9,891 lncRNAs (tabel S4). Alle lncRNAs bruges til at forespørge vismanden biblioteker blev Ensembl kurateret udskrifter uden en forudsagt åben læseramme. Sekvenserne for alle lncRNA udskrifter blev hentet fra Ensembl (v62) ved hjælp af Biomart data management system.

SAGE tag-til-gen-kortlægning

Brugerdefineret Perl scripts blev brugt til at skabe et udtryk matrix af de unikke SAGE tags på tværs af de 272 biblioteker (Perl-scripts: getuniquetags.pl og makeTable_April20.pl). SAGE tags blev kortlagt til UniGene id’er ved hjælp brugerdefinerede Perl scripts og en kort SAGE kortlægning fil (kortlægning fil: Hs_short) downloadet fra SAGE Genie (https://cgap.nci.nih.gov/SAGE), for at skabe en matrix af Unigene ID kortlagt tags og en matrix af unmapped tags (Perl script: extractUnmappedTags_Unigene). De to udtryk matricer af unmapped tags og Unigene kortlagt tags blev uafhængigt filtreret at der kun tags med rå tag tællinger af 2 eller flere, som udkommer i mindst 3 SAGE biblioteker.

For Unigene kortlagt tags, gen identifikatorer var tildelt UniGene id’er ved hjælp SAGE Genie. Fra denne datasæt, tags matching kendt eller kandidat lncRNAs blev udtrukket manuelt. Ansøgerlandene lncRNAs er Unigene ID’er uden gen navn eller matchende en eller flere af følgende deskriptorer: “ikke-kodende”, “ikke-protein”, “cDNA”, “transskriberet locus ‘,’ klon IMAGE”, “chr (#) orf (#) ‘,’ hypotetiske ‘,’ familie med sekvens lighed ‘,’ FLJ (#) “, eller” KIAA (#) “. Ansøgerlandene lncRNA tags blev fusioneret med unmapped tags og bruges som en enkelt datasæt, hvorfra man kan identificere sekvens matcher til lncRNA referencelisten.

tag-til-gen-kortlægning program SeqMap blev anvendt til at identificere perfekt (0 uoverensstemmelser) tag matcher til referatet sekvenser fra henvisningen lncRNA listen. Tags kortlægning til lncRNAs blev filtreret til at fastholde dem, der svarer til den frem ( ‘sense “) streng, mens omvendt tag kampe ikke bekræfte udtryk for kandidatlandene lncRNAs og blev ikke analyseret yderligere. De fremadrettede streng tags, mappet til lncRNAs blev derefter kombineret med UniGene tags, mappet til lncRNAs at skabe et udtryk matrix af SAGE tags kortlægning til lncRNAs. Denne matrix blev optegnes ny karakteristik til lncRNA referencelisten at bekræfte præcis tag-til-lncRNA kampe.

Data forbehandling

I de tilfælde, hvor flere tags mappet til samme lncRNA, mærkerne blev komprimeret som summen af ​​tag tæller at indfange alle lncRNA udskrift varianter og isoformer (Perl script: sumRows.pl). SAGE tags kortlægning til flere lncRNA blev kasseret. Rå tag tæller for hver SAGE bibliotek blev normaliseret til TPM til at fremme passende sammenligning mellem bibliotekerne. Ekstra udtryk matricer medfølger kun SAGE biblioteker af interesse for en given analyse, og samtidig fjerne eventuelle kolonner med uønskede SAGE biblioteker. Disse undermatricer blev filtreret for at fjerne lncRNAs med uopdaget ekspression. Når et væv eller cancer var repræsenteret ved mere end én SAGE bibliotek, blev det normaliserede TPM gennemsnit.

Be the first to comment

Leave a Reply