PLoS ONE: En integrerende tilgang til Mapping differentielt udtrykte gener og Netværk Komponenter Brug Nye parametre at belyse Key Regulatory Gener i kolorektal Cancer

Abstrakt

For at undersøge de pågældende med kolorektal cancer (CRC) indviklede biologiske processer, en systembiologi tilgang integrerer flere biologiske komponenter og andre påvirkende faktorer er afgørende for at forstå. Vi udførte et omfattende system-niveau analyse for CRC, som bistås i optrevling afgørende netværkskomponenter og mange regulatoriske elementer gennem en koordineret visning. Ved hjælp af denne integrativ tilgang, den indsigtsfulde af kompleksitet skjult i et biologisk fænomen er stærkt forenklet. Den microarray analyser lettet differentieret udtryk af 631 betydelige gener ansat i progression af sygdom og leverede interessante forbundet op og ned regulerede gener som

Juni

,

fos

og

MAPK1

. Den transkriptionel regulering af disse gener blev drøftet bredt ved at undersøge transkriptionsfaktorer såsom

hnf4

,

nr2f1

,

znf219

og

DR1

som direkte indflydelse på udtryk. Endvidere blev interaktioner af disse gener /proteiner evalueret og afgørende netværk motiver blev påvist at associere med patofysiologien af ​​CRC. De tilgængelige standard statistiske parametre som

z

-Score,

s

-værdi og betydning profil blev udforsket til identifikation af tonearter fra CRC vej mens nogle få nye parametre, der repræsenterer over-repræsenteret strukturer Der blev også designet i undersøgelsen. Den anvendte metode afslørede 5 centrale gener dvs.

kras

,

araf

,

pik3r5

,

RalGDS

og

Akt3

via vores roman designede parametre illustrerer høj statistisk signifikans. Disse nye parametre kan hjælpe med at granske kandidat markører for sygdomme, der har kendte biologiske veje. Endvidere undersøger og målrette disse foreslåede gener til forsøg valideringer, i stedet bliver tryllebundet af den komplicerede vej vil helt sikkert tilføre værdifuld indsigt i en godt timet systematisk forståelse af CRC

Henvisning:. Sehgal M, Gupta R, Moussa A Singh TR (2015) En Integrativ tilgang til Mapping differentielt udtrykte gener og Netværk komponenter Brug Nye parametre at belyse Key regulerende gener i kolorektal cancer. PLoS ONE 10 (7): e0133901. doi: 10,1371 /journal.pone.0133901

Redaktør: Ying Xu, University of Georgia, USA

Modtaget: 17. april, 2015; Accepteret: 2 jul 2015; Udgivet: 29 Jul 2015

Copyright: © 2015 Sehgal et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed: Data er tilgængelige fra Dryaden. DOI:. 10,5061 /dryad.5b1j0

Finansiering: Dette arbejde blev støttet af Science and Engineering Research Board, Institut for Videnskab og Teknologi (DST), Indien, tildele nummer SR /FT /LS-026/2009 .

konkurrerende interesser:. forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Kolorektal cancer (CRC) påvirker millioner af mennesker verden over, og eksisterer som den mest almindeligt diagnosticeret cancere efter lunge- og brystcancer [1]. CRC bidrager til næststørste dødsårsag hos mænd og tredje højeste hos kvinder, også forekomsten af ​​sygdommen observeres primært i økonomisk udviklede regioner [2, 3] sandsynligvis på grund af livsstil og kosten spørgsmål. Forekomsten og dødeligheden for CRC er cirka 35-40 procent højere hos mænd end hos kvinder [4]. Som pr status kræft i USA for 2013, cirka 102.480 peoplesuffered og 50.830 døde af CRC, der regulerer sværhedsgraden af ​​sygdom [5]. CRC manifesterer hovedsagelig som abnorm vækst af celler, der forekommer ved foring af colon eller rektum og sygdomsprogression sker ved at erstatte en ikke-kræft polyp til cancertumor. Tidligere rapporter [6-8] antyder en række faktorer i forbindelse med sygdommen mønster, såsom inflammatorisk tarmsygdom, polypper, fedme, rygning og genetiske historie af kræft. Sygdommen er også kendetegnet ved rektal blødning, obstruktion, mavesmerter, manglende appetit og efterfølgende vægttab [7, 9]. Ingen af ​​symptomerne uafhængigt sikrer forekomsten af ​​CRC og ofte er der ingen observerbare symptomer i tidlig CRC. Derfor er passende screening for sygdommen krævede [10] for at lette tidlig påvisning og rettidig fjernelse af polypper [11].

For at identificere biomarkører for tidlig påvisning, kræft vej og sygdomsprogression skal være kritisk undersøgt. Selv om der i de seneste årtier har mange undersøgelser indrømmede på screening, diagnose og behandling for CRC [12, 13], men stadig de genetiske og initieringsfaktorer ansvarlige for sygdommen er ukendte [14]. Der er en enorm mangel på forståelse for mekanismer bag udviklingen af ​​CRC fra ikke-kræft polyp til en tumor og deres ansvarlige veje [15]. Undersøgelser viser, at CRC hovedsagelig er forbundet med kromosom ustabilitet (CIN) [16] og mikrosatellit instabilitet (MSI) pathways [17, 18] .Genetic afvigelser i gener involveret i CIN pathway fører til aktivering af onkogener såsom

kras

og inaktivere visse tumorsuppressorgener såsom

Smad4

,

p53

,

Smad2

,

Bax

og

apc

[19 ]. Desuden tidligere rapporter [20] og en database på DNA reparation genetiske associationsstudier [21] tyder på, at mutationer i DNA reparation gener, dvs.

MLH1

,

MSH2

,

MSH3-

og

MSH6

af MSI vej bidrager til arvelig ikke-polypose colorectal cancer (HNPCC) og CRC. Derfor kan der undersøger vigtige op og ned regulerede gener udlede markører for CRC som observeret i andre studier for forskellige sygdomme [22]. Endvidere en omfattende indsigtsfulde på generne og relaterede veje er nødvendig for at designe specifikke og effektive behandlinger for CRC [23].

Der er allerede en massiv ophobning af genekspression data for CRC i offentlige domæner og flere beregningsmetoder er nedlagt sin analyse. Men, den ultimative udfordring ligger i at udtrække vitale biologiske oplysninger eller markører fra denne sammenlægning af data [24]. DNA microarray teknik ikke kun giver en værdifuld foranstaltning til at estimere udtryk for tusinde gener på én gang, men tilbyder også vitale molekylære spor om mekanismer bag patofysiologien af ​​sygdom [22, 25]. Efterfølgende den strategi vi forfulgte omfatter identifikation af biologisk signifikante gener og belysning af centrale mønstre eller motiver dannet af disse kandidatgener, der regulerer den funktionelle konsekvenser af forskellige biologiske processer i CRC. Hver identificeret genet blev derefter kommenteret fokus på kategoriseringen af ​​gener ved hjælp af biologiske processer, molekylære funktioner og cellulære komponenter til deres tilknytning og engagement i CRC [26].

Derudover blev der gjort et forsøg på at identificere vitale netværk komponenter (netværk motiver) forekommer i forhøjede frekvenser end forventet tilfældigt i en sti. Disse netværk motiver giver statistisk overrepræsenteret sub-strukturer (sub-grafer) i et netværk og er anerkendt som simple byggesten i et kompliceret netværk. Disse netværk motiver spiller en central rolle i genkendelse og analyse af specifikke mønstre i biologiske netværk og give betydelige indsigter i bedre forståelse af komplekse biologiske processer involveret i indviklede humane sygdomme [27]. Vi anvendte beregningsmæssige og statistisk kriterium for effektiv sporing af biologiske netværk motiver i CRC og deres funktionelle foranstaltninger evaluering blev udnyttet til at reducere kompleksiteten for anerkendelse bedste egnede kandidater i den foreslåede undersøgelse.

Det vigtigste perspektiv i vores undersøgelse var systemet-komponent analyser for CRC med flere biologiske komponenter, der omfatter ekspression af gener involveret, deres anmærkninger, og analyser i form af komplekse netværk motiver for vitale funktioner. Den forreste mål var at manuelt kuratere og anmærke alle gener, netværkskomponenter, processer, molekylære funktioner og involverede veje i CRC og derefter lettere at identificere et par vigtige gener, der kan tjene som afgørende markører for CRC. I det hele taget var en integrativ tilgang praktiseres der omfatter forskellige aspekter af molekylære data, biomarkører, netværk og veje for at afdække de forviklinger i CRC vej og derefter begrænse søgningen til kun nogle få gener eller netværkskomponenter, der kan besvare forskellige biologiske spørgsmål om CRC . Også sådan

i silico

tilgang kunne anvendes på andre sygdomme i søgen efter at identificere biomarkører og undersøgelsen vil ikke kun hjælpe eksperimentelle biologer, genetikere og andre videnskabelige samfund til at identificere nye biomarkører for sygdomme, men har også konsekvenser for den farmaceutiske industri til at målrette vigtige molekyler og design passende målrettede lægemidler til medicin.

Materialer og metoder

En

i silico

tilgang med forskellige former for rådata, beregningsværktøjer , software og databaser blev anvendt for omfattende forståelse af mekanismer involveret i CRC. Et utal af in-house perl scripts og statistiske teknikker blev anvendt til karakterisering af biomarkører for sygdommen. Hele workflow repræsenterer forskellige parametre og biologiske aspekter, der anses for undersøgelsen er præsenteret i figur 1.

Undersøgelse indledt med karakterisering af differentielt udtrykte gener i kolorektal cancer datasæt og deres transkriptionel regulering. Vigtige interaktioner og netværk mønstre blev identificeret fra CRC-vejen og til sidst funktionel berigelse blev henrettet for centrale aktører i sygdomsprogression.

Biologisk data

DNA microarray analyse blev udført på rå data hentet fra Gene Expression Omnibus (GEO) [28] for den tidlige debut af CRC [29]. Den vigtigste prioritet for at studere genekspression på et tidligt tidspunkt var at identificere biomarkører til tidlig opdagelse af sygdomme som derfor kunne så rammende lykkedes. Det endelige mål med undersøgelsen var at opdage yderligere differentielt udtrykte gener i tidlig debut CRC da ens involveret i familiær adenomatøs polypose (FAP) [30] og HNPCC [31, 32] er allerede godt illustreret. Den ekstraherede datasæt blev derefter analyseret under anvendelse GeneChip U133-Plus 2.0 Array. Desuden blev netværket motiver til CRC opdaget ved at hente biologiske veje fra Kegg [33], Reactome [34], BioGRID [35] og andre pathway databaser [36].

Pre-behandling af data

først og fremmest skridt for DNA microarray analyse er forbehandling og normalisering af rådata, som derefter underkastes yderligere analyse. Denne proces minimerer støj som følge af tekniske variationer og efterfølgende tillader data, der skal sammenlignes for fastsættelsen af ​​de faktiske biologiske forandringer. Gennemførelsen af ​​data normalisering hjælper med at stabilisere ulige mængder start RNA, forskelle i mærkning eller detektionseffetiviteter mellem de anvendte fluorescerende farvestoffer og systematiske afvigelser i ekspressionsniveauerne. Derfor har de data, købmandsbutikker fra hver tilgængelig CRC sygdom chip blevet normaliseret ved hjælp af den robuste multi gennemsnitlige analyse (RMA) algoritme [37] fra Microarray Data Analysis System (MIDAS) i TM4 microarray softwarepakke.

Identifikation af forskelligt udtrykte gener

Efter microarray eksperimenter i erkendelse af gener med ændrede udtryk profiler i sygt tilstand er en absolut nødvendighed og kedelig opgave at udføre. Den multiple problem hypoteser test observeres generelt på grund af tilstedeværelsen af ​​nogle få betingelser, mange observationer og tusindvis af hypoteser, der skal udtrykkeligt testes. For at overvinde dette problem, har en relevant statistik blevet valgt til at teste hvert gen i datasættet, og derefter beregne dens tilsvarende

s

-værdi. En justering proces anvendes på de rå

p

-værdier for at undgå fejl fra hypoteser mangfoldighed [38] og endelig et QQ plot er genereret. Dette plot repræsenterer de værdier af observerede teststørrelser mod de forventede test statistikken under en kombination af nulhypoteser. I sidste ende blev de udtrykte gener for kontrol- og syge tilstande overvejes for signifikans analyse af microarrays (SAM) og vulkan plot analyser til at måle den betydelige kløft, der fører til identifikation af vigtige regulerende gener [39, 40].

Cluster analyse for co-udtrykte gener

gruppering af differentielt udtrykte gener blev karakteriseret ved hjælp af hierarkiske clustering algoritme. Gener, der deler lignende udtryk profiler og andre biologiske funktioner blev grupperet sammen og vice-versa. I tidligere undersøgelser, er denne form for klassificering opnås for forskellige former for kræft, men for CRC, er der observeret en dårlig klassificering [41]. Desuden blev hierarkisk klyngedannelse udført for at udlede betydningen af ​​forskellen udtryk udvælgelse skridt i at klassificere de co-regulerede gener. Endvidere til identifikation af vigtige mønstre og komponenter i multi-dimensional microarray data, principal komponent analyse (PCA) blev udført [42]. Denne teknik lettes påvisningen af ​​større hovedkomponenterne og aided i at analysere og visualisere gener med lignende udtryk profiler.

Transkriptionel regulering af CRC-gener

Da genregulering spiller afgørende rolle på niveauet for transkription ved anvendelse af en række transkriptionsfaktorer (TFS) og deres målgener; et bredt kendskab til transkriptionelle regulatoriske elementer (RES) er nødvendigt for grundig forståelse af genregulering og underliggende komplekse regulerende processer. Rådighed,

i silico

værktøjer som dire (Distant regulerende elementer) [43] og Opossum [44] blev undersøgt til identifikation af VE blandt disse differentielt udtrykte gener. Både toolsassist i identifikationen af ​​TF’er hvor dire har en unik funktion genkende RE’er uden for proximale promotorregioner ved at overveje fuld gen locus. RES herunder proksimale initiativtagere og fjerne RE’er som enhancere, repressorer og lyddæmpere blev fundet for et bredere perspektiv på den pågældende regulatoriske proces med CRC.

Funktionel berigelse for differentielt udtrykte gener

berigelse analyse fokuseret på manuel datasikring og annotation via WEB-baserede gensæt analyse Toolkit (WebGestalt) [45] og Gorilla værktøjer. Den tidligere værktøj består af genomforskning, proteomics og store genetiske undersøgelser genererede data til funktionel annotation af differentielt udtrykte og co-udtrykte datasæt. Dette toolkit integrerer information fra flere offentlige ressourcer og ofte giver præcise og følsomme resultater, medvirken i identifikation af biologiske processer, deres cellulære rum og molekylære funktioner i forbindelse med de tilsvarende gener. Betragtninger, gorilla værktøjet [46] gør beregning på grundlag af eksakte

s

-værdier uden simulering analyser til detektering af de funktionelle egenskaber af genet sæt. Både værktøjerne gør brug af samme statistiske metode dvs. hyper-geometrisk fordeling (HGD) for signifikans afprøvning og funktionelle berigelse af gener hvorimod WebGestalt endvidere udnytter Fishers eksakte test for annotation analyser. Matematisk for HGD hvis der er

‘N’

antal gener i en gruppe, hvor

»A«

gener er relateret til en bestemt GO sigt og en prøve af

‘n’

gener fra

‘N’

er taget, så er sandsynligheden for at erhverve

‘a’

gener forbundet med

a-

eller flere GO vilkår i en prøve

‘n’

er drøftet ved hjælp HGD:

Gorilla viser statistisk signifikante og beriget gener øverst rangerede gen listen og bruger en variant af almindelig HGD opkaldt MHG (minimum hypergeometrisk) for berigelse analyser af sorteret gen lister [47]. I mange tilfælde en fast tærskel

(n)

virker ikke og prioritering af alle de elementer (gener) er nødvendig for at finde værdien af ​​

‘n’ Hoteller, som yderligere minimerer HGD. For eksempel overveje en rangeret gen liste siger

g

1

, …,

g

N

i stedet for en mål sæt, og defineret label vektor:

λ = λ

1

, …,

λ

N

∈ {0

,

1}

N

som angivet af sammenslutningen af ​​klassificeret gener til en given GO sigt

λ

i

= 1

hvis

g

jeg

er forbundet med begrebet [47]. Derefter MHG score givet ved: Hvor

Her er cut-off mellem top bedømt gener og resten af ​​de gener, kalibreret på en præcis måde at maksimere gen berigelse analyser

Detection. af afgørende mønstre fra CRC vej

Undersøgelse af vitale netværk motiver, blev et vigtigt aspekt at anerkende modularitet og løse storstilet struktur af komplicerede biologiske netværk faciliteret fra komplekse CRC sygdom vej. En række afsløring motiv værktøjer som MFinder [48], MAVisto [49] og FANMOD [50] var ansat til at identificere motiver; hvor alle disse værktøjer implementere forskellige algoritmer. MFinder bruger en semi-dynamisk programmering algoritme for at reducere køretiden at opdage netværk motiver og udfører fuld tælling af sub-grafer mens MAVisto værktøj anvender en fleksibel algoritme til identifikation af netværk motiver og omfatter også en avanceret force-rettet layout algoritme [51] for sine analyser. Desuden FANMOD kører en meget avanceret algoritme opkaldt RAND-ESU [52], der virker på både rettet såvel som ikke-styrede netværk for specifikation og prøvetagning af sub-grafer. Denne algoritme udfører bedre end sine counter algoritmer [48] til identifikation af netværk motiver fra komplekse biologiske netværk.

Den statistiske konsekvenser af disse genererede motiver blev derefter evalueret ved hjælp af tilgængelige standard begrænsninger såsom

z

-scores,

p

-værdier og betydning profil (SP).

s

-værdi og

z

-Score for hvert motiv blev estimeret (via Fanmod produktion), og dem, der har

z

-Score 2 og

p

-værdi 0,05 blev klassificeret som væsentlige motiver og er påvist i S1 tabel. Endvidere SP fremlægger normaliserede

z

-Score værdier for en bestemt net motiv

(m

jeg

)

som er givet ved :. Hvor

Z (m

jeg

)

svarer til

z

-Score værdi for hvert netværk motiv

Alle de genererede 4-8 node sub-grafer med unikke netværk motiv id’er blev derefter analyseret i vid udstrækning til at undersøge de gener og deres komplekse interaktioner i CRC bruger vores nye designet parametre som

‘FN

i

,

‘ FTN

jeg

‘ FT

jeg

som repræsenteret i tabel 1. netværket Motif Billed-ID kolonne præsenterer netværk motiv id’er som nabomatricen oprettes for hver interaktion, hvor 0 og 1 svarer til ingen forbindelse og tilslutning blandt knuder henholdsvis.

Her

‘FN

jeg

svarer til antallet af gener til stede i en given netværk motiv id;

‘FTN

jeg

er summen af ​​frekvenser til alle generne, der forekommer i et givet net motiv id og

‘FT

jeg

er defineret som forholdet mellem antallet af gener for et bestemt netværk motiv id og summen af ​​frekvenser til alle gener i et givent net motiv. For en given netværk motiv ID siger

‘n

jeg

, hvor i = 1,2,3, …, n.;

‘FT

jeg

er givet ved:

Hver

‘FT

jeg

‘Drømmeholdet værdi for et bestemt net motiv id giver størrelsen af ​​alle gener involveret i et bestemt netværk motiv. Således den anvendte metode består af både top-down og bottom-up tilgange til detektering af de centrale aktører i CRC vej. Brug af top-down tilgang, først hele CRC vej blev delt i mindre sub-grafer med små funktionelle moduler og derefter de involverede knuder blev identificeret og kommenteret. På den anden side, blev en bottom-up-tilgang anvendt til klassificering samspillet og relationerne mellem noderne. I sidste ende blev resultatet fra begge tilgange indarbejdet at identificere de vigtigste knudepunkter i CRC vej for at udlede de afgørende gener ansat i sygdom.

Resultater

I denne undersøgelse en omfattende analyse for differentielt udtrykte gener, TFS interagerende proteiner, formodet netværk motiver og deres betydning i forskellige veje i relation til CRC er blevet grundigt udført. Udvalgt CRC datasæt for mikromatrice blev anset for processen med normalisering til fjernelse af fejl og støj fra datasættet som afbildet i figur 2. Figuren illustrerer kassen plot for alle fire Affymetrix chips før og efter normalisering hjælp fraktil normalisering og klart viser effekt af normalisering trin ved udbedring af signalet af gener på tværs af alle chips.

2a viser fordelingen af ​​microarray filer, før normalisering og 2b forklarer ensartet fordeling opnås efter gennemførelse af normalisering dvs. fjernelse af støj fra data.

den microarray datasæt blev undersøgt for at identificere specifikke mønstre eller markører, der kan differentiere normal vs. syg tilstand til tilkendegiver modtagelighed og lette tidlig diagnose af CRC. Efter indledende forbehandling og manuel inspektion baseret på den proportionale analyse, sidste sæt underkastet SAM sammensat af kun de robuste ansøgere (se S2 tabel). SAM afslørede i alt 631 gener (Fig 3A) fra microarray datasæt, som differentielt blev udtrykt blandt de testede betingelser siden datapunkter ligge til side den diagonale linie i en væsentlig måde. Vulkanen plot mellem kontrol og sygdomstilstanden for CRC klart belyst forskellen mellem gener, der blev differentielt udtrykt i de to grupper, som vist i fig 3B. Her pletterne repræsenteret i sort er generne, der viser normale udtryk mens de røde med signal log ratio (SLR) 2 er over udtryk og dem med SLR -2 er under udtrykte gener i den syge tilstand. Desuden er SOM væsentlige klynger afbildet i S1 Fig og PCA (godt beskrevet i S2 og S3 Fig) viste fremskrivningerne for 3 forskellige tilstande, dvs. over-udtrykte gener, under-udtrykte gener og gener viser normal udtryk.

betydning analyse af microarrays (SAM) og vulkan plot blev frembragt til detektering af differentielt udtrykte gener i det tidlige colorektal cancer datasæt. I SAM blev 631 betydelige gener identificeret for deres over eller under udtryk i syge tilstand mens vulkanen plot åbenbart belyser de differentielt udtrykte gener med røde pletter, der har signal log ratio (SLR) 2 eller SLR. 2

Efter at karakterisere forskellen udtryk mønster af afgørende gener impliceret i begyndelsen af ​​CRC progression, rolle RE og transkriptionel regulering var vigtigt at anerkende. Vi identificerede i alt 108 TF’er i genekspression datasæt for CRC (S3 Table), repræsenteret i rækkefølge efter faldende forekomst i frekvens kolonnen. Derudover blev betydningen af ​​disse TF’er estimeres ved hjælp af en optimering procedure, der finder en vægt

‘w

jeg

for hver

jeg

th

TF, som et mål for sin tilknytning til input genet sæt og videre beregner betydningen værdi som produktet af TF forekomst (frekvens) og TF vægt. Vi også klassificeret TF’er (se S4 Table) findes i hvert differentielt udtrykte gen fra CRC datasæt, der giver total antal TF’er for hvert gen, locus, deres navne, stilling og deres tilknyttede typer. Desuden har familier for alle de vigtige TF’er blevet anerkendt og illustreret i S5 tabel. Vi kompileret også en liste for top 10 TF’er impliceret i gener, der er ansvarlige for differentieret udtryk i begyndelsen af ​​CRC med deres frekvenser af forekomst, betydning og andre vigtige detaljer som vist i tabel 2. Et par eksperimentelle valideringer supplerer til foreningen af ​​disse transkriptionsfaktorer i CRC er også nævnt i tabellen.

de fleste identificerede TF’er tilhørte zink-koordinerende klasse og hormon-nuklear receptor familie af transkriptionel reguleringssystem. Hepatocyt nuklear faktor 4 (

hnf4

), nuklear receptor underfamilie 2 gruppe F medlem 1 (

nr2f1

) og ned-regulator af transskription 1 (

DR1

) er de mest tilbagevendende TF’er regulerer gener i begyndelsen CRC datasæt og er medlemmer af samme klasse samt familie af TF’er. Alle disse TF’er enten binde direkte eller i form af et kompleks at styre hastigheden af ​​transkription. Denne form for information er primært nødvendige for at forstå genregulering på en alsidig måde. Det forventes, at for reguleringen af ​​gener involveret i CRC, manipulation af regulatoriske region af gener specielt til de identificerede TF’er såsom

hnf4

,

nr2f1

,

DR1

deres klasser kunne give biologisk indsigt til eksperimentelle biologer og genetikere. Endvidere blev der gjort et forsøg på at manuelt kuratere og anmærke generne for deres biologiske roller, funktioner, cellulære komponenter og deres konsekvenser i forskellige komplekse biologiske veje. Ud af 631 differentielt udtrykte gener, var funktionelle berigelse for 509 gener forværret. Maksimale gener havde deres roller i biologisk regulering, proteinbinding og var til stede på membraner af cellen (fig 4). Denne særlige afsnit af manuskriptet giver et indblik i forskellige mekanismer og veje belyst ved reguleringen af ​​gener involveret i CRC vej.

De 631 differentielt udtrykte gener blev udsat for manuel datasikring og annotation analyser for deres deltagelse i forskellige biologiske veje, molekylære funktioner og cellulære komponenter

efter at have erhvervet den differentielle ekspression mønster, vi bestemt at identificere ledende sub-netværk konfigureres af disse gener.; lette annotation af indviklede biologiske netværk impliceret i CRC. På baggrund af rationale blev påvisning af afgørende netværk motiver og netværk mønstre lavet; tilvejebringelse væsentlige spor vedrørende hierarkisk nedbrydning af CRC netværk. Her mønstrene bliver nævnt er små forbundne undernetværk forekommer i væsentligt højere frekvenser i et netværk, end det ville forventes for en given tilfældig netværk. Disse mønstre eller motiver er betydeligt overrepræsenteret og karakterisere visse væsentlige funktionelle aspekter i forbindelse med CRC relaterede veje og dens progression. Flere motiver spænder fra 4-8 sub-graf noder blev genereret og kommenteret for CRC-vejen, der er tilgængelig som supplerende data (findes på: https://www.bioinfoindia.org/CRCData), og et par er blevet afbildet i fig 5. Den anvendte bottom-up-tilgang er tydeligt demonstreret i figur 6 startende fra 4-node sub-grafer og derefter fortsætter en efter en indtil 8-node sub-grafer blev genereret; alle de interagerende gener blev kommenteret sammen med deres funktionelle relationer.

Nogle 4 og 5 node sub-grafer er symboliseret med gen-navne og deres samspil eventuelle. Hvis der blev fundet den givne interaktion i vejen at mangle, er det afbildet som ukendt (sort farvet pil).

Fra 4 til 8 node sub-grafer, hver node er blevet anerkendt og kommenteret med henblik på at udlede visse vitale interaktioner.

De således opnåede fra CRC pathway indeholdt 4-kæde motiver, enkelt input (SIM), flere input modul (MIM), bifan motiver og andre vigtige netværk motiver biologiske signaturer, der blev støttet af betydelige

z

-scores og

s

-værdier for deres statistisk relevans. Disse netværk motiver blev yderligere udsat for annotation og sygdomsspecifikke analyser siden, de har vigtige funktioner til at udføre; som i tilfælde af SIM-motiv, er adskillige gener kontrolleret af en enkelt master-gen og master-genet er kendt for at være autoregulatorisk. Betragtninger, i MIM motiv (en generalisering af SIM), et enkelt gen er kontrolleret af flere gener [22]. Andre regelmæssige 4-node motiver bekræftede tilstedeværelsen af ​​diamant, biparallelle og bifan motiver (ofte bygget af to regulatoriske og to regulerede gener). Endvidere blev disse knudepunkter kommenteret til identificering gener involveret i disse mønstre for deres biologiske signifikans under anvendelse i hus Perl scripts. Lignende type motiv grafer blev genereret for sub-netværk af andre netværk størrelser og annotation af disse grafer var baseret på statistisk kriterium via Mean-frekvenser, standardafvigelse,

z

-scores og

s

-værdier.

den beregnede SP blev derefter superlatively plottes på en graf over de forskellige motiver som vist i fig 7. motivet SP graf viser klart, at da antallet af knudepunkter i et motiv stigning, kompleksiteten stiger og yderligere tendensen tilbagegange repræsenterer mindre normaliserede

z

-Score værdier i retning af store motiv størrelser. Baseret på denne SP profil analyse foreslår vi, at netværk motiver med mindre node størrelse (3 eller 4) er mere funktionelt allierede mod deres rolle i veje, mens motiver af større størrelse ( = 5 noder) er mindre funktionelle (figur 7). Det menes, at den observerede tendens kan være ens i mange sådanne biologiske netværk hvis analyseret.

Motivet betydning profil åbenbart eksemplificerer, at når kompleksiteten i CRC pathway stiger, samspillet mellem knudepunkterne og forviklinger i erkendelse af gener forstærker uhyre. Lesser node størrelse, bliver det let at anmærke knudepunkter (gener) og deres foreninger med stærkere statistisk signifikans (større normaliseret

z

-scores).

Romanen drøftet parametre afsløret at den nedre

‘FT

jeg

‘ Drømmeholdet værdi viser sig at være mere statistisk signifikant. Da det betyder større inddragelse af nogle få gener, der forklarer et kompliceret samspil mellem forskellige knudepunkter i et givet motiv. Endvidere motivet viser mindst

‘FT

jeg

‘ Drømmeholdet værdi dvs 0,171 for motiv id «7n” blev valgt til at identificere centrale aktører i den givne motiv . Denne information blev opnået ved at kortlægge alle gener fra komplekset CRC-vejen til netværket motiver og derefter frekvensen af ​​hvert gen for hvert netværk motiv blev beregnet (se S6 tabel). Denne analyse blev udført for at forstå inddragelsen af ​​forskellige gener på grundlag af deres forekomst (frekvens) i hvert motiv. For eksempel overveje 4a motiv i S6 tabel (detaljer til motiv billeder på https://www.bioinfoindia.org/CRCData), inddragelse af

pik3r5

,

kras

araf

gener var found4, 5 og 4 gange i det samme mønster (motiv).

Be the first to comment

Leave a Reply