PLoS ONE: Integrativ Network Biologi: Graph Prototyping for Co-Expression Cancer Networks

Abstrakt

Netværk-baseret analyse har vist sig nyttig i biologisk orienterede områder, fx, at udforske dynamik og kompleksitet af biologiske netværk . Undersøgelse af et sæt af netværk gør det muligt at udlede generel viden om de bagvedliggende topologiske og funktionelle egenskaber. Den integrerende analyse af netværk typisk kombinerer netværk fra forskellige undersøgelser, der undersøger de samme eller lignende forskningsspørgsmål. For at udføre en integrativ analyse er det ofte nødvendigt at sammenligne egenskaberne af tilsvarende kanter på tværs af datasættet. Denne identifikation af fælles kanter er ofte besværlige og beregningsmæssige intensive. Her præsenteres en tilgang, der er forskellig fra at udlede et nyt netværk baseret på fælles funktioner. I stedet vælger vi ét netværk som en graf prototype, som så repræsenterer en række sammenlignelige netværk objekter, som det har den mindste gennemsnitlige afstand til alle andre netværk i det samme sæt. Vi demonstrerer anvendeligheden af ​​grafen prototyping tilgang på et sæt af prostatakræft netværk og et sæt tilsvarende godartede netværk. Vi viser endvidere, at afstandene i kræft gruppen og godartede gruppe er statistisk forskellige afhængigt af udnyttede distance foranstaltning

Henvisning:. Kugler KG, Mueller LAJ, Graber A, Dehmer M (2011) Integrativ Network Biology: Graph Prototyping for Co-Expression Cancer Networks. PLoS ONE 6 (7): e22843. doi: 10,1371 /journal.pone.0022843

Redaktør: Dongxiao Zhu, University of New Orleans, USA

Modtaget: Marts 22, 2011; Accepteret: 30 juni 2011; Udgivet: 29 Juli 2011

Copyright: © 2011 Kugler et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette projekt blev støttet af Tiroler Zukunftsstiftung og Tiroler Wissenschaftsfonds. Dette arbejde blev også finansieret af COMET center ONCOTYROL og finansieret af Forbundsministeriet for Transport Innovation og Teknologi (BMVIT) og Forbundsministeriet for Økonomi og Arbejde /Forbundsministeriet for Økonomi, Familie og Ungdom (BMWA /BMWFJ), Tiroler Zukunftsstiftung (TZS) og staten Steiermark repræsenteret ved Promotion Agency Steiermark Business (SFG). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

i mange sygdomme ikke længere enkelte gener fungerer som markering, men et sæt af interagerende gener kan anvendes til at karakterisere eller diagnosticere en patologisk proces [1]. Drevet af at rationel en overflod af nye data analysemetoder opstået i de seneste år, da behovet for fremgangsmåder, der er i stand til at indfange de relaterede kompleksiteter opstod. Et simpelt eksempel er at kigge efter objekter, der er stærkt forbundet til andre formål og kan derfor spille en central rolle i regulerende processer. Netværket-baseret analyse [2] af biologisk data er et relateret område i systembiologi [3]. Mens det klassiske dataanalyse var drevet af en reduktionistisk synspunkt sigter moderne netværk biologi ved at opfatte data holistisk [3]. Bruger net tillader efterlader den statiske udforskning af et træk ad gangen, og muliggøre en undersøgelse af mere realistiske dynamiske karakter af biologiske og medicinske data. Dynamikken ligger i flere dimensioner, som systemer ændre sig over tid [4], reagere på perturbationer [5] eller simpelthen udgøres af biologiske funktioner, der er indbyrdes forbundne i komplekse kaskader [6]. Samtidig kombinerer forskellige datakilder er blevet en standard procedure i moderne computational biologi. Det være sig i form af dataintegration eller klassisk meta-analyse, en stor indsats stadig lagt i at standardisere metoder, der muliggør en integrativ analyse [7]. Integrative tilgange tillader øge evidensgrundlaget for nye resultater ved at kombinere oplysninger fra forskellige kilder. I en klassisk integration se data refererer til integration af data af forskellig art (fx genekspression og proteomics). I nærværende papir, vi også henvise til integrationen af ​​den samme type data som dataintegration

Forskning for at kombinere netværk biologi og integrativ dataanalyse har blomstret i de seneste år [8] -. [10]. Dette gør det muligt at udlede generaliseringer fra et sæt af forskellige netværk, der undersøger de samme eller lignende forskningsspørgsmål. Sådanne generelle konstateringer kan bruges til at besvare biologiske spørgsmål eller til at skabe ny hypotese om underliggende processer. Måling af ligheden mellem netværk har vist sig nyttig til at vurdere systematiske effekter af tidsforløbet for metaboliske netværk [8], der matcher regulatoriske interaktioner [9] eller til identifikation af lignende subgraphs i par af netværk [10]. En anden anvendelse af sammenlignende netværk analyse er den systematiske sammenligning af to forening netværk, som blev trimmet til delvis sammenhænge [11]. Alligevel, opdage og udlede viden om fælles egenskaber for et sæt af netværk er en udfordrende opgave, da sammenligne netværk afhænger af definitionen af ​​den underliggende lighed foranstaltning. Imidlertid er ligheden mellem genstande ikke entydigt defineret, da mangesidige aspekter såsom struktur, funktion og semantik er involveret [12]. Derfor er det nødvendigt at finde sammenlignelige træk i biologiske netværk. Ofte sker dette ved at registrere fælles kanter eller hjørner, og sammenligne dem eller deres distributioner [13], [14]. For at løse problemet med meningsfuldt sammenligne biologiske netværk flere forskellige metoder er blevet udviklet. Vi kan her kun præsentere et lille udvalg af disse tilgange og deres applikationer. Piruzian et al. ansat topologiske oplysninger for at integrere transkriptom og proteom data i en rang tilgang [15]. En generaliseret form for graden distribution, den såkaldte graphlet grad fordeling, kan anvendes til bestemmelse af netværk lighed [16]. Graphlets blev også anvendt til at justere PPI netværk mod human og gær [17]. En statistisk metode til at sammenligne store sygdomsinformationsnetværk udledes livmoderhalskræft bruger træ nedbrydning og tilpasning teknik blev også foreslået i [18]. Her fokuserer vi på anvendelsen af ​​sammenligne netværk, der er afledt af den samme type data og anvendes som repræsentationer for en klasse af prøven. Derfor analyserer vi et sæt foreningens netværk afledt af prostatakræft genekspression data. Ved at gøre brug af denne kombination er det muligt at udlede generaliseret information om netværksbaserede fund relateret til bestemte sygdomme eller udviklingsmæssige tilstande. En fælles tilgang til problemet med at analysere netværks egenskaber ved hjælp af meta-analyse er at sammenligne overlapningen af ​​kanter i forskellige netværk. Vi demonstrerede sin nytte for et netværksbaseret integration i en tidligere undersøgelse [19]. En lignende tilgang til delte kanter blev givet af Cootes et al. [10]. En alternativ metode blev præsenteret af Wang et al., Der anvendes information om effekten størrelse at kombinere information fra et sæt af netværk [20]. Men denne fremgangsmåde kræver, information om effekten-størrelse til at være til rådighed. Afsløring fælles kanter i et netværk er en udfordrende opgave, hvis nogen ordentlig kortlægning mellem vertex etiketterne er til rådighed. Når man overvejer co-ekspression netværk, toppunktet etiketter henvise til gen-navne. For at skabe et fælles navn plads på tværs af de forskellige netværk, er det derfor nyttigt at kortlægge undersøgelsens specifikke, platform-afhang gen identifikatorer til andre identifikatorer, f.eks Entrez gen identifikatorer.

I den nuværende papir, vi demonstrerer en alternativ metode til at udlede fælles topologiske egenskaber for et sæt af netværk. Her kan graf prototyping forstås som en metode, der vælger et eksisterende netværk fra et sæt af netværk som repræsentant for det komplette sæt, med hensyn til en underliggende graf afstand foranstaltning [21]. Dette betyder, at den strukturelle graf prototype repræsenterer topologiske egenskaber af et komplet sæt af netværk, afhængigt af udvælgelseskriteriet der er defineret af grafen afstandsmål. En skematisk illustration til udvælgelse af en graf prototype er givet i fig. 1. Bemærk, at andre definitioner af charts prototyper såsom den såkaldte konsensus træ [22] er blevet også undersøgt. Men de vil ikke blive behandlet i dette dokument. Således kan denne prototype netværk derefter anvendes til at udføre en topologisk analyse og udlede ny viden, som den repræsenterer egenskaberne for alle andre net i det samme sæt. En stærk-punkt ved denne fremgangsmåde er, at detektering fælles kanter eller knudepunkter kan blive unødvendige, afhængigt af de anvendte graf afstandsmål. Så er det afgørende at bruge en graf afstand foranstaltning, hvis beregningsmæssige kompleksitet er polynomium. At gennemføre graf prototyping, vælger vi ordentlig graf distance foranstaltninger, som er i stand til meningsfuldt kvantificere afstanden mellem to netværk. Som en del af vores bidrag beskriver vi fire distance foranstaltninger, der er baseret på sandsynlighedsfordelinger for netværk egenskaber. Dette er en anden stærk-punkt i denne fremgangsmåde, da den kan modificeres til at anvende andre, tilpassede graf afstandsmål. For at demonstrere udvælgelsen af ​​en graf prototype [21], [23] vi gør brug af prostatacancer genekspressionsstudier. 25% af nydiagnosticerede mandlige kræftformer i USA er prostatakræft [24], hvilket gør det til et attraktivt mål for vedvarende biomedicinsk forskning. En bred vifte af undersøgelser er blevet gennemført i de seneste år, og meget af det tilsvarende data er til rådighed i datalagre [25] – [27]. Vi anvender vores metode på et sæt af syv prostatakræft undersøgelser [28-24], som består af kræft prøver og prøver fra godartede eller sundt væv. Vi forventer en dobbelt resultat: For det første, vi forventer at se betydelige strukturelle forskelle mellem godartede og kræft studier ved at gøre brug af topologiske foranstaltninger. For det andet forventer vi at se væsentlige forskelle mellem afstandene inden for kræft datanetværk og afstandene inden for de godartede datanetværk. Dette kunne vise, at ikke kun disse net er forskellige, men at selv lighederne mellem de to grupper er forskellige. Hvis det er tilfældet, de patogene processer, der er forårsaget af cancer er mest sandsynligt ansvarlig for at forklare disse iagttagelser. Baseret på tidligere arbejde [19] vi forventer at observere højere ligheder inden for kræft gruppen. Mere præcist forventer vi afstande inden datasæt fra en cancer gruppe til at være mindre end dem fra en godartet sæt.

Dette tal skematisk illustrerer afledning af grafen prototype.

papir er organiseret som følger: i ‘data og metoder’ sektion præsenterer vi de udbyttede datasæt og den følgeslutning processen af ​​nettene. Derefter beskriver vi grafen prototyping tilgang og de anvendte graf distance foranstaltninger i detaljer. Afsnittet ‘Resultater’ sammenfatter og beskriver de opnåede resultater. Afsnittet ‘Diskussion og Outlook’ ender papiret med at diskutere vores resultater og efterfølges af nogle afsluttende bemærkninger.

Materialer og Metoder

Prostata Cancer data

Vi viser grafen prototyping tilgang med et sæt af prostatakræft undersøgelser. Da denne kræft er blevet grundigt undersøgt for de sidste år, et større antal genekspression data ved hånden gennem offentlige arkiver. For det præsenterede undersøgelse en undersøgelse af de repositories NCBI GEO [25], EBI Arrayexpress [26] og Oncomine [27] blev gennemført. For optagelse i vores analyse undersøgelser skal rapportere genekspression niveauer fra prostatakræft og godartede eksemplar hjælp microarrays. Godartede prøve er enten prøver fra normalt væv støder op til tumorer eller raske mænd. Vi expurgate metastatiske former fra prøverne kræft for denne undersøgelse med henblik på at mindske heterogenitet i netværkene. Cellelinie ekspression data blev også udelukket. . For at reducere data forberedelse og kortlægning indsats vi kun omfatter Affymetrix microarray platforme i denne undersøgelse

Til at gennemføre denne analyse vælger vi syv datasæt [28] – [34] fra data pulje som anført i tabel 1. for at undersøge effekten af ​​stikprøvestørrelsen inden undersøgelserne på vores resultater en bred vifte af stikprøvestørrelser (fra små undersøgelser til større dem) er tilladt. Efter udvælgelsen af ​​undersøgelser, der skal indgå, vi re-udfører microarray forbehandling. De angivne stikprøvestørrelser i tabel 1 refererer til den post-kvalitetskontrol tilstand. At muliggøre indbyrdes undersøgelse sammenligning af generne, er de oprindelige identifikatorer kortlagt til Entrez gen identifikatorer ved hjælp af biomaRt pakke [35] for BioConductor [36]. Hvor flere probesets kort til én Entrez gen identifikator, bevarer vi målingen med den højeste varians. Efter denne kortlægning 8906 gener fælles inden for alle syv undersøgelser er tilbage til yderligere analyse. For at udlede en passende netværk repræsentation af dataene, var oprettelsen af ​​foreningens netværk valgt. Men de metoder, der præsenteres nedenfor gælder for en række andre netværkstyper også, hvis det vedtages ordentligt.

Netværk Inferens

For at udlede en ordentlig netværk fremstilling af den underliggende data er en vigtig udfordring i netværksbaseret forskning [37] – [39]. En bred vifte af netværk repræsentationer for biologiske data findes [39] – [41], og grafen prototyping metoden præsenteret i det følgende kan anvendes for de fleste af dem. Her udnytter vi information om associering mellem to gener. De resulterende netværk kaldes derfor foreningens netværk. For at udlede og analysere genekspression data som forening netværk, co-ekspression relationer er ofte brugt [42]. Bemærk, at sammenslutningen ikke nødvendigvis, kausalitet. En måde at løse dette problem er at anvende begrebet kausale medlemskaber [43], hvor gener er blevet funktionelt kategoriseret.

Her bruger vi den gensidige information som et mål for foreningen, som beskrevet i [39 ]. For at udlede de netværk fra genekspression data, gør vi brug af MRNETB algoritme [38]. Hvis du vil oprette datasæt for at vælge en graf prototype, vi udlede to netværk fra hver undersøgelse. Et netværk, der er baseret på oplysninger fra de godartede prøver i en undersøgelse, og en net fra kræft prøver i den samme undersøgelse. Dette fører til 6 benigne netværk og 7 kræftnetværk, som vi fjerner den godartede netværk fra Wang data. Dette sker på grund af den lille prøvestørrelse (), da vi betragter det udledte netværk som værende af ringe pålidelighed. Generelt udlede et netværk for hver patient gruppe for sig tillader udførelse topologiske sammenligninger og dermed udlede ny viden om de underliggende funktionelle forskelle.

Valg af en graf Prototype

For at generalisere grafen ligheden problem [ ,,,0],21], er det blevet vist af Dehmer et al. at en graf kan bruges til at repræsentere et sæt af andre sammenlignelige grafer [21]. Opgaven med at bestemme denne såkaldte graf prototype kan løses ved at anvende distance eller similaritetsmål [21], [44]. Lad være et netværk, og være en graf afstandsmål. At have en række netværk, kan grafen prototype udtrykkes ved [21], [23], [45] 🙁 1) Vi ser, at i Eq. 1 giver den middelafstand fra netværk til alle andre net i. Vi betegner denne som. Vores mål i den nuværende papir er at anvende et udvalg af graf distance foranstaltninger til valg graf prototyper fra et sæt af prostatakræft netværk og et sæt tilsvarende godartede netværk. Anvende forskellige graf distance foranstaltninger betyder, at vi kan dække forskellige aspekter af strukturel lighed. Generelt er det et endnu udestående problem hvad aspekt af strukturel lighed en underliggende foranstaltning fanger [44]. Hvis forskellige graf distance foranstaltninger vælge det samme netværk som en graf prototype for et sæt af netværk, dette øger gyldigheden af ​​valget. Med hensyn til beskæftigelse afstandsmål grafen prototype repræsenterer topologiske egenskaber af de andre net i det samme sæt. Det kan derfor bruges til at udføre en topologisk og funktionel analyse.

Graph Distance Foranstaltninger

For at udføre graf prototyper er det nødvendigt at en meningsfuld måle afstanden mellem to netværk. I dette underafsnit præsenterer vi to tilgange til varetagelse af denne opgave. Den første metode er baseret på brug af upræcis graf matching. Især vælger vi den såkaldte graf redigere afstand (

GED

) [46]. Den anden tilgang er baseret på at sammenligne to diskrete sandsynlighedsfordelinger [47], som er udledt ved at udlede strukturelle træk ved netværkene.

GED

er den minimale omkostninger af en sekvens til at omdanne en graf i anden graf ved hjælp redigere operationer (sletning og indsætte kanter eller sletning, indsætte, og substituerer toppunkter) [46]. Det underliggende problem (for at sammenligne to grafer strukturelt) kan ses som en generalisering af Levenshtein metode [48] til at sammenligne strenge. Generelt beregning af

GED

for (umærkede) grafer er beregningsmæssigt krævende, da det er NP komplet [49]. Til vores formål kompleksiteten kan reduceres på grund af tre forhold [50]: i) Alle vores netværk har det samme antal (usammenhængende) toppunkter, ii) alle de hjørner er mærket entydigt, og iii) ved at vælge kun de gener, er til stede i alle undersøgelser, alle de netværk har det samme sæt af knuder, der befrier os for at slette, indsætte eller erstatte eventuelle knudepunkter. Således reducere den beregningsmæssige kompleksitet til [49]. Til måling afstandene mellem to netværk, beskæftiger vi en normaliseret form, hvilket er givet ved procentdelen

GED

(

pGED

) [51] 🙁 2) hvor er antallet af maksimalt mulige kanter, og faktoren refererer til den ikke-dirigerede karakter af kanterne. Vi vægter alle resterende redigere transformationer (indsætte, slette) lige ved at tildele en vægt på.

En informations-teoretisk tilgang til kvantificering afstande mellem grafer kan defineres på grundlag af Kullback-Leibler divergens (

KLD

) [47]. Vi definerer to diskrete sandsynlighedsfordelingen og således, at

KLD

gives som [47] 🙁 3)

KLD

altid defineres positivt for afstanden mellem og. Noter det . Da

KLD

er asymmetrisk og ikke opfylder Trekantsuligheden, er det ingen metrisk [52]. Vi beregner derefter grafen prototype ved at indstille til

KLD

i Eq. 1. Numerisk stabilitet sikres ved at sætte sandsynligheder for nul til.

En typisk fordeling, der ofte bruges i Systembiologi er graden distribution. I ikke-rettede net, graden angiver antallet af naboer til en vinkelspids. Hvis vi definerer at være antallet af knudepunkter med naboer, kan vi udlede en sandsynlighedsfordeling, således at: (4) hvor er det maksimale antal tilstødende knudepunkter i. Fig. 2 viser graden fordelinger af de benigne og kræft netværk. kan anvendes til at karakterisere et net [9], [42], [53] – [55], og har vist sig at være skalafrie og følge en power-lov fordeling af forskellige former for biologiske netværk [42], [ ,,,0],53] – [55]. Power law fordelinger af graderne kan også ses i fig. 2. Her bruger vi til at beregne den

KLD

, som vi derfor betegne som.

De graders fordelinger for de godartede data (øverst) og kræft data (nederst). Til visning af grunde trimmet vi antallet af tællinger på 300.

Afstande til stede et andet prominent netværk invariant. For en vertex afstanden til alle andre knuder er givet ved (5) hvor er den korteste vej mellem knudepunkter og. Hvis vi lader være kardinaliteten af ​​alle afstande med længden, så den ifølge distributionen afstand er givet som (6) hvor er antallet af stier. Vi ser, at. Bemærk, at er diameteren af, som er den største af de korteste veje mellem alle par af knuder. Afstandsfordelingerne for netværkene er vist i fig. 3. Vi ansætte afstand fordelinger af de inkluderede netværk for at kvantificere afstanden mellem to netværk, der er betegnet som.

De afstandsfordelingerne for de godartede data (øverst) og kræft data (nederst).

Mens de tre distance foranstaltninger, som vi præsenterede over det fuldstændige, usammenhængende netværk blev analyseret vi nu præsentere to distance foranstaltninger, der arbejder på kun tilsluttede grafer. Det betyder, at vi er nødt til at udlede den største tilsluttede delgraf af hvert netværk og anvende de to afstande foranstaltninger til dem. Den tredje fordeling, at vi medtager i vores

kld

-baserede distance foranstaltninger er baseret på vertex sandsynligheder [56]. En vertex sandsynlighed tildeler en sandsynlighed værdi til en vinkelspids ved at gøre brug af en såkaldt toppunkt funktionel [56] 🙁 7) Vi ser, at. I dette papir udnytter vi den følgende toppunkt funktionelle [56] 🙁 8) Antallet af knuder i th område er givet for hver vinkelspids som [56]. Vi ser, at er baseret på metriske egenskaber af grafer [57]. Her lader vi vægtningsfaktorer falde i en eksponentiel måde. Dette giver os mulighed for at understrege de hjørner temmelig tæt på, da de er sandsynligvis stærkere sker ved information, der spreder sig ud fra [56].

Endelig bruger vi en fordeling, der kan beregnes ved hjælp af indholdet topologiske oplysninger baseret på vertex baner [58], [59]. En bane indeholder topologisk ækvivalente vertices [58], og giver oplysninger om antallet af knuder, der tilhører den th vertex kredsløb [58]. Vi her bestemme en sandsynlighedsfordeling ved at summere antallet af baner, der deler det samme antal knudepunkter i et netværk. Lad være antallet af baner, der indeholder knudepunkter. If har vertex baner Derved opnår vi bane distribution (9) Bemærk, at når er summen af ​​antallet af baner, der indeholder det samme antal vinkelspidser. Oplysningerne om fordelingen af ​​topologiske tilsvarende knuder i hver af vores netværk kan derefter bruges til at kombinere de oplysninger for et sæt af netværk ved. Vi henviser til dette som.

Med hver af disse fire præsenteret sandsynlighedsfordelinger vi kan dække forskellige aspekter af topologiske egenskaber af vores netværk. Sandsynlighedsfordelingen for er baseret på oplysninger om, hvordan forbundet generne i hvert af netværkene er. Information om kommunikations- afstande mellem gener reflekteres af fordelingen, der bruges i. er baseret på en sandsynlighedsfordeling, der beskriver udbredelsen af ​​information i et netværk, mens sandsynlighedsfordelingen i afspejler topologisk ækvivalens af knuder. Tabel 2 opsummerer de selvstændige foranstaltninger fjernsalg. Efter at have introduceret vores formelle apparat, vi beregne afstande og graf prototype for de to sample grupper (benigne og kræft). For beregninger og statistiske analyser, vi gør brug af den statistiske programmeringssprog R (https://www.r-project.org). De sandsynlighedsfordelinger til at beregne og er beregnet ved hjælp af QuACN pakke [60].

Resultater

Tabel 3 indeholder en oversigt over de gennemsnitlige afstande for de fem afstande foranstaltninger og de to grupper . Ved beregning af ser vi, at den gennemsnitlige afstand for de seks netværk spænder fra i den godartede gruppe, og fra til for de syv netværk i kræft gruppen. Middelværdierne er (benign) og (kræft). Fig. 4 giver en illustration af alle de enkelte afstande fra ét netværk til alle andre i samme gruppe. En skelnen mellem fordelingen af ​​mellem kræft og godartede prøve kan ses. For godartet gruppe, er det netværk, der er baseret på data fra Yu valgt som graf prototype, mens den for kræft gruppen netværkets form valgt Wang data. Den gennemsnitlige afstand for Yu data og for Wang data. Netværket-specifikke middelafstand af intervallerne fra til for netværkene fra godartede data, henholdsvis til de data, prostata cancer. Middelværdierne er (benign) og (kræft). Fig. 5 visualiserer resultaterne. De valgte graf prototyper er Yu (godartet) med en gennemsnitlig afstand på og Wang (kræft) med en gennemsnitlig afstand på. , Som er baseret på afstanden fordeling inden for et netværk, vælger de netværk fra Singh data (godartet) og Wang data (kræft) som graf prototyper. Grafen prototyper har en gennemsnitlig afstand på (godartet) og (kræft). De gennemsnitlige afstande fra ét netværk til alle andre i de samme grupper for hvert sæt er (godartet) og (kræft). De detaljerede resultater er afbildet i fig. 6. Netværkene fra Yu (godartet) og Wang (kræft) er igen valgt som graf prototyper, når du bruger. Den mindste er for godartet graf prototype, for henholdsvis kræft grafen prototype. Middelværdierne er (benign) og (kræft). Afstandene fra ét netværk til alle andre netværk inden for samme koncern er illustreret som boxplots i fig. 7. Sammen med dette repræsenterer de to sager, hvor afstanden i data kræft er større derefter inden for de godartede data. For foranstaltning baseret på banerne afstandene af grafen prototyper der er til den godartede Yu-netværket og for den kræft netværk, der er baseret på Wang data. De gennemsnitlige afstande er (benign) og (kræft), som vist i fig. 8.

Denne figur illustrerer afstanden fra ét netværk til alle andre netværk, baseret på den normaliserede Graph Edit Afstand

pGED

. I venstre del det forestiller afstandene mellem en godartet netværk og alle andre godartede netværk, mens der i den højre del det viser de afstande for en cancer-netværk til alle andre netværk kræft. De netværk, der er valgt som graf prototyper er fremhævet i forskellige farver (godartet = blå, kræft = brune).

Her viser vi afstandene mellem ét netværk og alle andre netværk som boxplots, målt ved den Kullback-Leibler divergens, som var baseret på graden distribution. I den venstre del viser vi de godartede data, og i den højre del afstandene fra dataene cancer. Grafen prototyper er fremhævet.

Dette tal viser afstandene mellem netværk som boxplots. Afstandene er baseret på fordelingen af ​​afstande mellem knuder og Kullback-Leibler divergens. I venstre del er afstandene mellem godartede netværk, og i højre del afstandene mellem kræftnetværk.

Her viser vi afstandene baseret på Kullback-Leibler divergens, baseret på sfære vertex funktionaler. I venstre del viser vi de godartede prøver og i den højre del afstandene for kræft prøver. De valgte graf prototyper er fremhævet.

Denne figur illustrerer Kullback-Leibler forskelle for de kredsløb sandsynlighedsfordelinger. I venstre del det viser de godartede prøver, og i højre del kræft prøver fra studierne.

Vores vigtigste hypotese er, at der er en signifikant forskel mellem afstandene i gruppen af kræft prøver og afstandene i gruppen af ​​godartede prøver. Til afprøvning af denne hypotese beskæftiger vi en Wilcoxon test (se tabel 4) for hver af de fem distance foranstaltninger vedrørende sæt afstande fra kræft prøver og de godartede prøver. Vi korrigere for multiple test med Bonferroni-metoden. ,, Udviser en signifikant forskel (), som det kan ses i tabel 4. Den observerede resultater understøtter den hypotese, se boxplots i de relaterede figurer.

Til påvisning mønstre inden sættet af afstande, vi anvender klyngedannelse. Derfor vi normalisere resultatet af hver distance foranstaltning uden de oplysninger, gruppen. Dette gøres for hver afstandsmål separat, så at den minimale af hvert afstandsmål er indstillet til, og den maksimale til. Derefter anvender vi hierarkisk klyngedannelse. For hvert netværk har vi en trækvektor, der består af den gennemsnitlige afstand til alle andre netværk for hver af de fem anvendte afstandsmål. Så for den samlede klyngedannelse har vi en matrix med 5 rækker og 13 kolonner. Den tilsvarende Heatmap, ved hjælp af den euklidiske afstand og komplet binding, er afbildet i fig. 9. Vi anvendte også gennemsnitlige kobling som clustering funktion, der fører til det samme resultat. Vi betragter derfor den observerede resultat som stabil med hensyn til disse to forbindelsesled funktioner. Resultaterne viser, at tre af de kræftnetværk (Tsavachidou, Wallace, Singh, Liu) danner en separat klynge, mens alle andre netværk er grupperet sammen. I den anden klynge observere vi at tre af de kræftnetværk (Chandran, Wang, og Yu) klynge nøje til tre godartede netværk (Yu, Singh, Tsavachidou).

Vi viser her den gennemsnitlige afstand fra et netværk til de andre netværk inden for samme koncern (godartet eller kræft). For clustering derefter udeladt vi oplysningerne gruppen. Vi tilføjer uafhængigt oplysningerne gruppen som brune stænger (kræft) og blå søjler (godartet).

På baggrund af resultaterne fra grafen prototyping vi vælge netværket fra Yu data som grafen prototype for godartet sæt, og netværket fra Wang data som grafen prototype for den indstillede kræft. Til analysen af ​​de topologiske egenskaber af de netværk vi undersøge hub gener. Fordelingen af ​​de 15 meste tilsluttede hub grader er vist i tabel 5. Vi observerer, at de vigtigste hub gener i cancer-netværket er bemærkelsesværdigt mindre end dem i den godartede netværk. Dette er i overensstemmelse med kendte resultater, som vi anvendte kant stemmeoptællingen for den integrerende netværksanalyse [19]. I denne undersøgelse har vi også observeret temmelig små grader i almindelige kræftform netværket. En dysregulering af hub gener, der er forbundet med den celle-cyklus, kan spille en vigtig rolle i udviklingen af ​​en aggressiv form for prostatacancer [61]. I lighed med andre skalafrie netværk [62], [63], kan biologiske netværk være sårbare over for angreb mod et af de få centrale hub gener. Det har imidlertid for nylig blevet vist, at hub gener ikke nødvendigvis betegnes som værende skrøbeligt, og at andre foranstaltninger vedrørende dette sted kunne være mere passende [64]. Analyse afstandene mellem knuder giver karakteriserer kommunikationsprocesser i en biologisk netværk. Derfor har vi udforske afstandene mellem knudepunkter i de to grafen prototyper. Definition, excentricitet for en knude er den maksimale af de korteste veje fra alle andre knuder. For den godartede graf prototype størstedelen af ​​knudepunkter har en af, mens for kræft graf prototype størstedelen af ​​knudepunkter har en på 1. Vi sammenligner excentriciteten fordelinger af de to net med en Kolmogorov-Smirnov test, hvilket resulterer i en meget signifikant forskel (). En anden interessant netværk kendetegn er det netværk diameter, som er den maksimale af alle. For de to graf prototyper diametrene er 17 (godartet) og 12 (kræft).

Be the first to comment

Leave a Reply