PLoS ONE: Gene Set Based Integreret dataanalyse afslører fænotypiske Forskelle i en Brain Cancer Model

Abstrakt

En central udfordring i data analyse af biologiske high-throughput eksperimenter er at håndtere den ofte lave antal prøver i forsøgene sammenlignet med antallet af biomolekyler, der samtidigt måles. Kombinere eksperimentelle data ved anvendelse af uafhængige teknologier til at belyse de samme biologiske tendenser, samt supplere hinanden i et større perspektiv er en naturlig måde at overvinde denne udfordring. I dette arbejde undersøgte vi, om at integrere proteomics og transcriptomics data fra en kræft hjerne dyremodel hjælp gen sæt baseret analyse metode, kunne øge den biologiske fortolkning af data i forhold til mere traditionelle analyse af de to datasæt individuelt. Den hjerne kræft anvendte model er baseret på seriel passage af transplanteret menneskelige hjerne tumor materiale (glioblastom – GBM) gennem flere generationer i rotter. Disse serielle transplantationer med tiden føre til genotypiske og fænotypiske ændringer i tumorer og repræsenterer et medicinsk relevant model med en sjælden adgang til prøver, og hvor efterfølgende analyser af de enkelte datasæt har afsløret relativt få signifikante resultater på egen hånd. Vi fandt, at den integrerede analyse både klarede sig bedre i form af betydning mål for sine resultater i forhold til de enkelte analyser, samt give uafhængig kontrol af de enkelte resultater. Således kan en bedre sammenhæng for den samlede biologiske fortolkning af data kan opnås

Henvisning:. Petersen K, Rajcevic U, Abdul Rahim SA, Jonassen I, Kalland K-H, Jimenez CR, et al. (2013) Gene Set Baseret Integreret dataanalyse afslører fænotypiske Forskelle i en Brain Cancer Model. PLoS ONE 8 (7): e68288. doi: 10,1371 /journal.pone.0068288

Redaktør: Ying Xu, University of Georgia, USA

Modtaget: Februar 28, 2013; Accepteret: 28. maj 2013; Udgivet: 9 jul 2013

Copyright: © 2013 Petersen et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af den norske Cancer Society, Norges Forskningsråd, Innovest AS, Helse-Vest, Haukeland Universitetshospital, Bergen Translationel Research Program, Center Recherche de offentlige Santé Luxembourg, Europa-Kommissionen 6. rammeprogram Contract 504.743 og Functional Genomics (Fuge) program i Norge finansiere nationale Bioinformatik platformen. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

den hurtige fremskridt i den teknologiske udvikling for vurdering af oplysninger fra flere vinkler om gener, proteiner og metabolitter, har resulteret i en voksende forventning om et stort potentiale for nye opdagelser i forståelsen af ​​cellulære molekylære aktiviteter. Individuelle overvågningsteknologi er blevet markedsført til at afsløre en holistisk billede ved at erobre oplysninger om de fleste enheder i en type, som for eksempel alle transskriberede gener kodet i genomet eller et stort antal proteiner, der findes i en forberedt prøve. Det er klart, en naturlig forlængelse er kombinationen af ​​flere typer data til at afsløre mere information om biologiske processer på molekylært niveau. For at høste fra denne forventede potentiale opdagelser, flere grundlæggende udfordringer skal står over for. Høje throughput datasæt har af natur et stort misforhold mellem antallet af prøvetagninger og antal variabler målt, hvilket fører til udfordringer vedrørende fortolkning og tillid estimater af analyseresultater. Og fortolkning af flere datasæt vurdering prøver fra forskellige vinkler i kombination kræver en ny teoretisk model, der kan vurdere biologiske spørgsmål og betydningen af ​​forudsagte svar. En vellykket integreret model bør vurdere relevante biologiske spørgsmål med højere tillid forudsagte svar i forhold til metoder for de enkelte datasæt typer, på trods af den øgede kompleksitet af modellen. I dette arbejde præsenterer vi en kombineret analyse tilgang til fortolkning high throughput microarray og proteomics datasæt på to forskellige tumor fænotyper opnået ved serielle transplantationer af humane GBMS i CNS hos rotter [1], [2].

GBM betegner en heterogen gruppe af maligne hjernetumorer [3] og er en af ​​de mest dødelige former for kræft hos mennesker. Den gennemsnitlige overlevelse af påvirkede patienter har kun forbedret fra et gennemsnit på 12 måneder til 14,5 måneder efter diagnose i de sidste 5 år som følge af forbedringer i standard for pleje [4]. For at løse det komplekse spørgsmål om den molekylære baggrund af menneskelige GBMS blev et menneske GBM model udviklet i immunsvækkede rotter [1], [2], [5], som delvis afkobler to store fænotypiske karakteristika og vartegn for denne tumor,

dvs.

invasion og angiogenese. Disse to egenskaber gør GBM vanskelige at behandle med tilgængelige behandlinger. Modellen er baseret på seriel xenotransplantation af humane GBM sfæroider ind i hjernen på immundefekte rotter, hvor de indleder væksten af ​​primære GBMS. Fænotypen af ​​første generation tumor viser en stærkt invasiv karakter i rottehjernen henviser ved seriel passage i dyrene, tumoren udvikler sig til en hurtigere voksende angiogen tumor, med rigelige vaskulatur, og mindre invasion. Den model og hjernevæv fænotyper er illustreret i figur 1.

En skematisk fremstilling af tumoren modellen og fænotyper opnået efter transplantation i nøgne rotter. Den første transplantation til nøgne rotter ofte resulteret i en invasiv fænotype, mens seriel transplantation af tumorerne resulterede i angiogen fænotype efter adskillige generationer.

Som allerede nævnt, dataanalyse og biologisk tolkning af high-throughput teknologi genereret datasæt over omfanget af genomer og proteomer er generelt en udfordring på grund af den store ubalance mellem antallet af prøver og antallet af molekyler, der testes. At identificere en statistisk signifikant ændring i ekspressionsniveau for et enkelt gen på niveauet for ændring, der er interessant for biologisk fortolkning, er mange uafhængige gentagelser påkrævet i eksperimentet. Den indviklede karakter af GBM xenotransplantation seriel passage rottemodel, og den naturligt begrænsede tilgængelighed af tumor væsentlige donorer, har resulteret i et begrænset sæt af matchede prøvepar med den invasive og angiogen fænotype, der skal screenes ved mikroarrays og proteomics. Desuden er en høj grad af individuel varians mellem prøver forventet og er blevet observeret, når man behandler den transcriptomics datasættet i tidligere arbejde [1], [6]. Den molekylære baggrund af fænotype kontakten blev behandlet på niveauerne af differentiel ekspression af RNA [1] og proteiner [7] – [9], hvor omfattende validering, herunder et stort antal GBM patienter og funktionelle analyser førte til nye ansøgerlande biomarkører for en bestemt fænotype [7] – [9]. Udfordringen er imidlertid stadig at udpege bestemte molekylære veje reflekteres af berigelse af bestemte gen-apparater, hvilket vil føre til en bedre biologisk forståelse af den underliggende patologi.

To generelle strategier til at imødegå afveje dimensioner udfordringer i high-throughput data analyse er (i) at analysere sæt

a priori Salg defineret biologisk beslægtede molekyler på det tidspunkt i stedet for individuelle molekyler og (ii) at integrere resultater fra flere uafhængige analyser muligvis fra forskellige high-throughput eksperimenter, både for at finde der understøtter de samme biologiske tendenser og supplere hinanden for et rigere fortolkning. Den fælles analyse af Gene ontologi vilkår overrepræsenteret i en liste over differentielt udtrykte gener i forhold til den fulde datasæt er et tidligt eksempel på strategi (i), mens Gene Set Enrichment Analysis – GSEA [10] og det store antal af varianter af berigelse baserede metoder [11], [12] repræsenterer senere udvikling. Flere metoder til meta-analyse af uafhængige eksperimenter på de samme prøver findes, fra simple Rank produkt baseret kombinere individuelle liste resultater [13] til mere komplekse multi-variate analyse baseret metoder til at identificere lignende tendenser på tværs af datasæt som Co-Inertia Analyse (CIA) [14], [15]. Multi-variate analysemetoder kræver et minimum antal prøver i et datasæt, og CIA kræver nøjagtig samme prøver at være til stede på tværs af datasæt, hvilket ofte gør dem uegnede i praksis, som i vores GBM tilfælde. Subramanian et al viste fleksibilitet GSEA som et redskab til co-analyse adskillige uafhængige micorarray eksperimenter på biologisk beslægtede prøver. Her udvider vi denne tankegang til at krydse barrieren mellem forskellige høje gennemløb teknologier.

I dette arbejde har vi anvendt Gene Set analyse tilgang til co-fortolke de to datasæt i forbindelse med hinanden. Annotation af de identificerede gener og proteiner fortolkes med hensyn til de invasive og angiogene fænotyper, og sammenlignet med de regulære Gene ontologi Analyseresultaterne for de enkelte datasæt. Denne tilgang fremhæver, hvordan de støtte og styrke hinanden i vores kombinerede fortolkning, samt supplerer hinanden i en bedre detaljeret billede af de fænotypiske forskelle i hjernen kræft modellens invasive og angiogene faser. Resultaterne viser en stærk statistisk støtte mellem proteomics og microarray resultater, hvilket også afspejler sig i den biologiske fortolkning af data gennem en høj overensstemmelse med de i enkelte analyseresultater. For yderligere at demonstrere gyldigheden af ​​den foreslåede fremgangsmåde er resultaterne i kontrast til Rank Produkt meta-analyse af de samme to datasæt. Vi anvendte også den metode til en tidligere offentliggjort uafhængig par microarray og proteomics datasæt, held genopdage de vigtigste resultater fra den oprindelige udgivelse.

Materialer og metoder

Experiment Design

fem par tilsvarende invasive og angiogene prøver fra xenograftmodeller, stammer fra fem individuelle patienter, blev anvendt i alt i mikroarrayet og proteomics eksperimenter. Fire prøve par blev forberedt til microarray analyse og blev hybridiseret til otte Applied Biosystems Human Genome Survey Microarrays v.2.0 (Array tiltrædelse Express A-MEXP-503) i en hybridisering løb, som beskrevet i [6]. To prøvepar blev fremstillet til proteomics analyse og forarbejdet i tre iTRAQ eksperimenter som beskrevet i [9]. En prøve par overlappede mellem de to teknologier

Forbehandling og Normalisering

De microarray data blev importeret til dataanalyse suite J-Express 2012 [16] (http:. //jexpress.bioinfo. nej), for forbehandlingsfasen og normalisering. De rå signalintensiteter blev ekstraheret, kontroller frafiltreret, og dataene fraktil normaliseret [17]. Yderligere data er blevet log2 transformeret og hver prøve par blev kombineret til en enkelt log-forholdet kolonne. De proteomics data blev forbehandlet fra rå data til kvantificerede peptider som beskrevet i [9], herunder annotation på oprindelsen af ​​peptid fra enten værtsceller, tumorceller eller ukendt oprindelse, baseret på sekvenshomologi med rotte- og humane databaser. I dette arbejde bruger vi fuld proteomics datasæt af 3359 protein-profiler.

Differential Expression Statistik

Rank Produkt (RP) statistikker [13] blev anvendt både for transcriptomics og proteomics datasæt til rang gener og proteiner ifølge differentiel ekspression mellem de invasive og angiogene prøver. RP blev også anvendt på de reducerede datasæt kun indeholder de unikt kortlægning transkripter og proteiner, der anvendes til integreret analyse af dataene fra de to teknologier. RP blev implementeret i J-Express 2012 analyse suite.

Gene ontologi overrepræsentation Analyse

J-Express bruger en Fischers eksakte test for at vurdere den statistiske overrepræsentation af gener annoteret med en given Gene Ontology (GO) sigt (www.geneontology.org, [18]) i en mindre liste af interesse sammenlignet med en reference datasæt. I dette arbejde sammenlignet vi de bedste lister over RP differentiel ekspression analyse på et givet signifikansniveau (q-værdi) mod den fulde datasæt RP analyse blev udført på. Børsnoterede p-værdier for GO vilkår i resultatet tabellen er nominelle,

dvs..

Ikke justeret for multipel testning, og bør evalueres med dette i tankerne. Gene ontologi OBO fil, der bruges var dateret 2010 dec 3rd, filtreret Homo sapiens Gene ontologi kortlægning fil, der bruges var dateret 2011 29 nov. Kun gå termer stede i OBO fil er inkluderet i analysen.

Gene Set Enrichment Analyse

Som et alternativ til GO overrepræsentation analyse, Gene Set Enrichment Analysis (GSEA) [10] blev også anvendt til at evaluere og rang GO vilkår udfyldelse af de to datasæt. I modsætning til den overrepræsentation analyse, behøver GSEA og relaterede tilgange ikke med et fast begrænset liste af interesse at vurdere. I stedet vurderer fordelingen af ​​gener annoteret med en given GO sigt hele sættet referencedata. I GSEA fordelingen bruges til at definere en naturlig delmængde af den kommenterede gener kaldes Leading Edge (LE), der bidrager til score af genet sæt (GO sigt i dette tilfælde), og at der kan følges op til en tættere biologisk fortolkning . Analyserne blev udført med GSEA implementering i J-Express 2012. Da Rank Product metrik er uløseligt uforenelig med vægtning af misligholdelsen scoring arrangement med GSEA, valgte vi en log-fold scoring metriske til evaluering gen-sæt på vores parrede prøver. Dette er den mest sammenlignelige metrik til den, der anvendes ved Rank Product metode, når sortering logratios af parrede prøver før kombinere dem i en Rank produkt. Andre parametre blev anvendt med standardindstillinger: permutation metode: gener, min antal medlemmer: 10, max antal medlemmer: 500.

Trend Beskrivelser Baseret på Gene ontologi

Hver datasæt blev analyseret uafhængigt af Rank Produkt, GO overrepræsentation analyse og GSEA. Den samme procedure blev først udført med fokus på opregulering i invasive prøver i løbet angiogene prøver, derefter med fokus på opregulering i angiogene prøver end invasive prøver. GO Vilkår og gen anmærkninger af de øverste lister blev manuelt screenet for vilkår funktionelt relevante for angiogenese og invasion, og den øverste liste tendenser sammenfattes fra dette.

Kortlægning af Udskrift og Protein Identifikatorer mellem datasæt

det humane Entrez Gene ID for de målrettede gener på ABI microarray blev anvendt som den fælles identifikator mellem transcriptomics og proteomics datasæt. Brug af online-id converter service på BioMart Central Portal (https://central.biomart.org), blev identificeret protein SwissProt ID’er fra proteomics datasæt først kortlagt til deres tilsvarende menneske eller rotte Entrez Gene id’er. Rotte Entrez Gene id’er for de proteiner, der er identificeret som vært oprindelse, blev yderligere kortlagt til den menneskelige Entrez Gene-id’er for deres homologe gener ved hjælp BioMart s gen hentning service, med Ensembl transcript ID’er som forbinder id.

Efter at have afsluttet kortlægningen, det var så muligt at analysere de transkripter, der svarer til de bedste differentielt udtrykte proteiner som et gen sat i transcriptomics data, som illustreret i figur 2B. De blå vandrette bjælker repræsenterer protein svarende udskrifter og hvordan de fordeler i microarray data. Den samme analyse udføres omvendt for udskrift tilsvarende proteiner i proteomics data

A:. De datasæt blev analyseret for differentieret udtryk uafhængigt hjælp Rank Produkt, Gene ontologi overrepræsentation (GO ORA) og GSEA. Metoderne vurdere forskellige fraktioner af datasættene som biologisk relevant når sorteret for differentieret udtryk, som illustreret for transcriptomics datasæt (TR). RP og GO ORA i vores tilfælde kun identificeret top ~ 1% af den samlede sorterede gen liste som relevant, både for transcriptomics og proteomics analyse. GSEA derimod identificeret Leading Edge (LE) delmængder spænder -20% af det samlede gen listen. B: GSEA tilgang til integration delvist overlappende proteomics og transcriptomics datasæt. De øverste differentielt udtrykte enheder fra ét datasæt er kortlagt i tilsvarende enheder fra den anden datasæt og evalueres som et gen sat i GSEA. PR: Proteomics datasæt, TR:. Transcriptomics datasæt

Offentlig tilgængelighed af data

De microarray data er blevet kommenteret i henhold til MIAME [19] og er deponeret i ArrayExpress (http: //www.ebi.ac.uk/arrayexpress), tiltrædelsen ingen E-mtab-1185. Den normaliserede data matrix til kvantitativ proteomics data er tilgængelige i File S2.

Rank Produkt Meta-analyse

De matchende delmængder af proteiner og udskrifter fra microarray og proteomics datasæt blev først identificeret. Derefter blev de rangeret individuelt efter differential udtrykket mellem invasive og angiogene prøver ved hjælp af Rank Product (RP) statistik [13]. De resulterende rækker blev derefter brugt som input til RP i en anden metaanalyse skridt til at identificere protein-udskrift par højt rangeret i både individuelle analyser.

Uafhængig Microarray og Proteomics Dataset Validation Analyse

CIA tilgang [15] drøftede deres metode præstation på den offentliggjorte mixorarray og proteomics data til rådighed for livscyklus

Plasmodium falciparum,

en malaria parazyte [20]. Vi brugte de samme offentliggjorte datasæt, til rådighed som tabel S1 og S2 i File S1 fra offentliggørelsen, og log2 forvandlet de lineære udtryk værdier for begge datasæt, før du fortsætter med GSEA analyse. De datasæt indeholder 4 på hinanden følgende ukønnede lifestages: merozoit, ring, trofozoit og schizout. Vi gjorde en uslebne definition af udtrykte transkripter i en livsstadier som transkripterne har en mindste udtryk værdi på 1000, hvilket gav gensæt i størrelsesområdet 97-203, og for proteiner, et minimum udtryk værdi på 50, hvilket gav gensæt i størrelsesinterval på 10-77 (gensæt er anført i File S3). Udskriften baseret gen sæt blev analyseret for berigelse i alle 4 livsstadier i proteomics data ved hjælp GSEA i J-Express (enkelt klasse, vægtet logfold scoring), og proteinet baseret gen sætter på samme måde i microarray data.

Resultater

analyseresultater på individuelle datasæt

tabel 1 resuméer resultaterne af den enkelte analyse, belyse de tendenser, der kan findes i hjernekræft model proteomics og transcriptomics datasæt individuelt ved hjælp af traditionel analysemetoder i kombination med Gene ontologi (www.geneontology.org, [18]). Figur 2A viser andelene af de samlede gen lister, de forskellige metoder rapporterer resultaterne fra.

Selv om der er flere GO vilkår /tendenser fundet overlapning mellem de enkelte proteomics og transcriptomics resultater, de synes at fremhæve nogle generelle vilkår for de angiogene tumorer. For den invasive fænotype der er mere sammenhæng i GO vilkår overlapning mellem proteomics og microarray resultater og de fremhævede konsensus tendenser i tabel 1, end for den angiogene type.

Gene Set Baseret Integrated Data Analysis Approach

Vi foreslår en ny integreret analyse tilgang til co-analyse af datasæt med kun en delvis sæt af tilsvarende enheder. Ved at kortlægge de udskrifter til de tilsvarende proteiner (se M M) kan vi vurdere, hvordan de bedste differentielt udtrykte transkripter distribuere som et sæt af proteiner i de proteomics data, og hvordan de bedste differentielt udtrykte proteiner distribuere som et sæt af transkripter i microarray data. Se figur 2B. Vi først identificere toppen opreguleret proteiner ved hjælp RP på det sæt af kortlagte proteiner på et givet signifikansniveau, både opreguleret i invasive (I) og angiogene (A), og screene de tilsvarende sæt af udskrifter ved hjælp GSEA i den fulde microarray data sæt. Ligeledes identificerer vi toppen opreguleret udskrifter hjælp RP på det sæt af kortlagte udskrifter på et givet signifikansniveau, både i invasive og angiogene prøver, og screene de tilsvarende sæt af proteiner ved hjælp GSEA i den fulde proteomics datasæt.

Microarray RP resultater support proteomics data i invasive prøver.

Som det ses i figur 3A, venstre panel, er der en signifikant berigelse i proteomics data for proteinerne svarende til de differentielt udtrykte transkripter opreguleret i microarray data. Den berigelse i invasive prøver er i overensstemmelse med opregulering af udskrifter i invasive prøver i microarray data. Højre panel viser til sammenligning, at der ikke er en sådan signifikant tendens for proteiner, der svarer til udskrifter up-reguleret i de angiogene prøver

A:. Venstre – udskrift tilsvarende proteiner beriget med invasive prøver, højre – udskrift tilsvarende proteiner beriget med angiogene prøver. B: venstre – protein svarende udskrifter beriget med invasive prøver, højre – protein svarende proteiner beriget med angiogene prøver

Forkanten bestående af 47 udskrift /protein-kombinationer fra dette gen sæt vises i tabel 2. og repræsenterer udgangspunktet for biologisk tolkning af denne integrerede co-analyse.

Proteomics RP resultater support microarray data i angiogene prøver.

3B, højre panel, viser betydelige tilsætning efter mikroarraydata af transkripterne svarer til det differentielt udtrykte proteiner i proteomics data. Berigelsen i angiogene prøver er i overensstemmelse med opregulering af proteiner i angiogene prøver i proteomics data. Den venstre panel viser til sammenligning, at der ikke er nogen signifikant tendens for afskrifter svarende til proteiner up-reguleret i de invasive prøver.

Forkanten bestående af 43 udskrifter bakkes op af protein data, er anført i tabel 3, og almindelig inspektion af listen afslører mange gener tidligere fundet relateret til angiogenese.

Sammenligning til Standard Method og uafhængig data Validering

En simpel metaanalyse af hjernen kræft model microarray og proteomics datasæt afslørede ingen væsentlige tilsvarende udskrift og protein par bliver differentielt udtrykt mellem invasive og angiogene prøver. (Invasiv vs angiogene top 20 par,

q

= 83,9%, angiogene vs invasive top 20 par,

q

= 78,1%, se File S4).

GSEA resultater fra en vurdering toppen udtrykte proteiner i de forskellige stadier i livscyklussen af ​​

Plasmodium falciparum

mod transcriptomics datasæt for de samme stadier i livscyklussen indsamles og præsenteres i File S3. Ligeledes er resultaterne for de øverste udtrykt udskrifter analyseret mod proteomics datasæt af de forskellige stadier. Disse er i modsætning til resultaterne i tabel 2 i det oprindelige arbejde [20].

Diskussion

Gene-sæt metoder ofte undvige mere end simpel gen-for-gen-differential ekspressionsanalyse, og har modtaget nogle fokus i de senere år. Et andet alternativ til at styrke den statistiske styrke inden et eksperiment; siger en microarray eksperiment, ved at tilføje flere prøver (gentagelser) for den statistiske test til at beregne fra, er at kombinere resultater fra flere uafhængige eksperimenter, der tilsammen viser en tendens som væsentlig. Nogle gange omtales som en meta-analyse, afhængigt af abstraktionsniveau fra de oprindelige data, og nogle gange som en integreret tilgang. Fælles for begge er nødvendigheden at kortlægge enheder fra forskellige datasæt til hinanden og anvendelse af en egnet statistisk test til at evaluere den kombinerede model. Som påvist for kræft i hjernen model datasæt, en regelmæssig Rank Produkt meta-analyse ikke i dette tilfælde for at identificere betydelig støtte mellem datasættene, og alternative måder at forholde datasættene i en integreret tilgang kaldes for.

Som ses i tabel 1, den anden traditionel analyse tilgange har svært ved at finde virkelig statistisk signifikante resultater på egen hånd. Tendenserne opdaget er meningsfulde i form af den generelle forskel mellem den invasive og angiogen fænotype, men hverken meget specifikke eller associeret med overbevisende tillid niveauer.

Baseret på resultaterne af manuelle analyser (genoptaget i tabel 1) vi kan konkludere, at den invasive form af de eksperimentelle tumorer er forbundet med Gene ontologi vilkår angiver sæt af gener involveret i centralnervesystemet udvikling, det er processer og regulering, som vurderet af GO overrepræsentation analyse i transcriptomics data og af GSEA tilgang i både proteomics og transcriptomics data. Dette er i overensstemmelse med den fænotypiske udseende og opførsel af invasive tumorer, som ligner en mere umoden stilk-lignende celle, i stand til at infiltrere omkringliggende strukturer, ligesom neurale stamceller gøre i udviklingslandene hjernen. Den angiogene fænotype dog er forbundet med gener relateret til angiogenese som vurderet ved RP-analyse, GO overrepræsentation proteomanalyse samt GSEA i transcriptomics der også omfattede repræsentationen af ​​vilkår knyttet til cellecyklus, vækst og spredning.

i modsætning til analyserne af de enkelte datasæt, den integrerede analyse viser to vigtige statistisk signifikante tendenser: 1) opreguleres transkripter i den invasive fænotype evalueres sammen findes som et sæt af proteiner betydeligt opreguleret sammen i invasiv fænotype, 2) opregulerede proteiner i den angiogene fænotype evalueres sammen findes som et sæt af transkripter markant opreguleret sammen i den angiogene fænotype. Som figur 3 viser, er forkanterne af disse sæt spænder omkring 20% ​​af den fulde baggrund listen. Derfor vores co-analyse tilgang identificerer væsentlige gen sæt i de samme baggrund gen lister alle de enkelte analyser i tabel 1 var at evaluere.

En stærk sammenhæng mellem de integrerede analyseresultaterne i tabel 2 og de svagere enkelte analyseresultater fra tabel 1 bekræftes af almindelig inspektion af protein navne i tabel 2 og dominans neuronal udvikling og aktivitet relaterede beskrivelser. Derudover har vi listet de mest relevante Gene ontologi vilkår de 47 proteiner i tabel 2 er annoteret med, og disse er klart matcher omfanget af de vilkår identificeret ved de enkelte analyser (især tabel S9 i File S1). I tilfælde af den invasive fænotype af denne eksperimentelle GBM model tumorcellen (human) infiltration af værten (rotte) hjernevæv er så stort, at det er næsten umuligt at isolere eller kirurgisk fjerne det rene tumor ved kirurgiske midler, som også et af de store spørgsmål i den fattige succes kirurgisk behandling alene for humane GBMS. Derfor prøver tumorvævet af denne fænotype er “forurenet” i vid udstrækning af vært (rotte) hjernevæv. Proteinerne identificeret af den integrerede analyse som differentielt udtrykt som et sæt, opreguleret i den invasive fænotype, samt resultaterne af GSEA for proteomics (tabel S9 i File S1) og manuelle cross sammenligninger ved hjælp af Ingenuity Pathway Analyse og humant protein Atlas bekræftet denne situation på niveauet af proteiner. Næsten halvdelen (17 af 36 unikke proteiner – tabel 2) i virkeligheden er proteiner knyttet til hjernen cellulære lokalisering (cellulær komponent) og enten er af neural (Synapse, neuromuskulære forbindelse, Postsynaptisk densitet, Synaptic vesikel, Præsynaptisk vesikelmembranen, Præsynaptisk aktive zone , Neuronal celle krop etc.) eller glial oprindelse (myelin kappe, Compact myelin, etc.) og for det meste vært proteiner eller dele proteinsekvenshomologi med værten.

Desuden både GO overrepræsentation analyse (tabel S7 i File S1) og GSEA (tabel S11 i File S1) af transcriptomics data er stærkt domineret af hjernen relaterede termer angiver vært oprindelse snarere end tumorceller.

tabel 3 angiver opreguleret sæt udskrifter i de angiogene prøver, der støttes af de proteomics data, den mest dominerende tendens overlapper de enkelte analyseresultater er udviklingsproces og dannelse af blodkar. Især tilstedeværelsen af ​​betonen sigt angiogenese udfyldelse tre gener (vav3, anxa2 og anxa2p2) i tabel 3 er meget interessant. Det er første gang, vi ved molekylære niveau analyser var i stand til at angive udtrykket afspejler

de facto

angiogenese i sene generation tumorer (figur 1), som værende en af ​​de vigtigste fænotypiske karakteristika ved sene generation gliom dyr model samt et af kendetegnene ved den gliom i patienten. Desuden ekspressionen af ​​anxa2 blev grundigt valideret på niveauet for immunhistokemi i yderligere vævsprøver af GBM xenograftmodeller samt på lang række mere end 200 kliniske gliomer prøver af forskellige kvaliteter i en form af et væv microarray som vist i vores tidligere forskning . Faktisk bekræftede vi en stærk opregulering af Anxa2 i angiogene xenotransplantater forhold til invasive dem, samt en betydelig stigning i Anxa2 udtryk i høj kvalitet gliomer (klasse III og IV) i forhold til lave karakterer (klasse I og II) [9] .

overrepræsentation af membran lokaliseret proteiner (plasmamembranen, eR, Georgien og i nogle tilfælde MT) ses i tabel 3, kan forklares med den eksperimentelle opsætning af proteomics eksperiment, som omfattede en berigelse skridt for membranproteiner. Derfor integreret analyse også vil have en bias i retning af udskrifter med genprodukter i disse cellulære rum. Dette kan også forklare, at vi ikke ser støtte til underskrift cellecyklus, vækst og spredning, der blev set som en vigtig tendens i de enkelte analyser (tabel S12 i File S1 især). Ved nærmere undersøgelse af den cellulære lokalisering af de underliggende udskrifter for tendensen i tabel S12 i File S1, blev et flertal af disse kommenteret som ligger i kernen, og tilsvarende proteiner vil derfor mindre sandsynligt blive samlet op i membranen målrettet fraktion i proteomics eksperiment.

Individuel analyser peger mod celle vedhæftning vilkår (tabel S11 i File S1) er understøttet af den integrerede tilgang (tabel 3, MSN) og er i overensstemmelse med den invasive fænotype hvor celleadhæsion synes at være

Be the first to comment

Leave a Reply