PLoS ONE: Metode til evaluering af flere mæglere: Mægler Virkninger af rygning og KOL på foreningen mellem CHRNA5-A3 Variant og lungekræft Risk

Abstrakt

En mægling model udforsker de direkte og indirekte virkninger mellem en uafhængig variabel og en afhængig variabel ved at inkludere andre variabler (eller mediatorer). Mægling analyse er for nylig blevet brugt til at dissekere de direkte og indirekte virkninger af genetiske varianter på komplekse sygdomme ved hjælp af case-kontrol studier. Men skævhed kunne opstå i de skøn over den genetiske variant-mægler forening, fordi tilstedeværelsen eller fraværet af den mægler i undersøgelsen prøver ikke samples efter principperne i case-kontrol undersøgelse design. I dette tilfælde kan den mægling analyse ved hjælp af data fra case-kontrol studier føre til tendentiøse skøn over koefficienter og indirekte effekter. I denne artikel, vi undersøgte en multiple-mægling model involverer en tre-sti medierende effekt gennem to mæglere ved hjælp af undersøgelsesdata case-kontrol. Vi foreslår en tilgang til at korrigere skævheder i koefficienter og give præcise skøn over de specifikke indirekte effekter. Vores tilgang kan også bruges, når den oprindelige case-kontrol undersøgelse er frekvens matchet på en af ​​mæglerne. Vi ansat bootstrapping at vurdere betydningen af ​​de indirekte effekter. Vi har udført simulation studier for at undersøge effektiviteten af ​​den foreslåede fremgangsmåde, og viste, at det giver mere præcise estimater af de indirekte effekter samt procent medieret end standard regressioner. Vi anvendte derefter denne tilgang til at studere de medierende effekter af både rygning og kronisk obstruktiv lungesygdom (KOL) på sammenhængen mellem CHRNA5-A3 genlocus og risikoen for lungekræft ved hjælp af data fra en lungekræft case-kontrol undersøgelse. Resultaterne viste, at den genetiske variant påvirker risikoen for lungekræft indirekte gennem alle tre forskellige veje. Procenten af ​​genetiske association medieret var 18,3% gennem rygning alene, 30,2% gennem KOL alene, og 20,6% gennem banen herunder både rygning og KOL, og den totale genetisk variant-lungekræft association forklares ved de to mediatorer var 69,1%.

Henvisning: Wang J, Spitz MR, Amos CI, Wu X, Wetter DW, Cinciripini PM, et al. (2012) metode til evaluering af flere mæglere: medierende virkninger af rygning og KOL om associeringsaftalen mellem CHRNA5-A3 Variant og lungekræft Risk. PLoS ONE 7 (10): e47705. doi: 10,1371 /journal.pone.0047705

Redaktør: Juan P. de Torres, Clinica Universidad de Navarra, Spanien

Modtaget: Juli 2, 2012; Accepteret: 14. september 2012; Udgivet: 15 oktober, 2012 |

Copyright: © Wang et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af USA National Institutes of Health (NIH) tilskud R01CA131324 (SS) og af et fakultet stipendium fra The University of Texas MD Anderson Cancer center Duncan Family Institute for Forebyggelse Cancer og Risikovurdering (JW). Denne undersøgelse gør brug af lungekræft data genereret af støtte fra NIH tilskud U19CA148127 og R01CA121197. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

en mægling model er en statistisk metode, der udforsker de direkte og indirekte effekter af en uafhængig variabel (dvs. indledende variabel) på en afhængig variabel (dvs. resultatet variabel) ved at inkludere et eller flere formidlende variable (eller mediatorer ) [1]. I nogle scenarier kan mægling model udlede kausale effekter fra den oprindelige variabel til mægleren variabel og derefter til resultatet variabel [1]. Mediation modeller er blevet almindeligt anvendt i mange forskellige områder [2], som psykologi, adfærdsmæssige videnskab, genetisk epidemiologi, forskning forebyggelse, og politisk kommunikation forskning. For nylig har der været bestræbelser på at bruge mægling analyse til at dissekere de direkte og indirekte virkninger af genetiske varianter på komplekse sygdomme i genetiske variant associationsstudier [3] – [7]. De fleste af disse undersøgelser anvendte data fra genom-dækkende forening (GWA) undersøgelser, hvor resultatet variabler blev udvalgt på grundlag af case-kontrol undersøgelse design. For eksempel har vores gruppe anvendt single-mediator analyse (dvs. Baron-Kenny procedure) for at identificere mægling virkninger af rygning og kronisk obstruktiv lungesygdom (KOL) på sammenhængen mellem CHRNA5-A3 genetisk locus og risiko for lungekræft ved hjælp data fra en case-kontrol GWA undersøgelse af lungekræft [6]. ignorere case-kontrol undersøgelse design og anvende standard regressioner, kan dog resultere i tendentiøse skøn over de indirekte effekter. Ifølge de seneste undersøgelser af sekundære fænotyper, kunne bias opstå i de skøn over den genetiske variant-mægler forening, fordi tilstedeværelsen eller fraværet af mægleren (dvs. sager og kontroller med hensyn til mægleren) er ikke udtaget prøver efter principperne i tilfælde -styring undersøgelse design [8] – [12]. I dette tilfælde kan den mægling analyse ved hjælp af data fra case-kontrol studier føre til biased indirekte effekt skøn, enten over- eller undervurderes afhængigt af prævalens værdier udfald og mæglere.

Lunge cancer GWA undersøgelser har konsekvent vist, at CHRNA5-A3-genklyngen er stærkt forbundet med en forøget risiko for lungekræft. Desuden har flere undersøgelser, der er forbundet SNP’er spænder denne region med tunge rygning, nikotinafhængighed, rygestop og KOL [13] – [19]. Således er der en debat om, hvorvidt de genetiske varianter har en indvirkning på risikoen lungekræft direkte eller udøve deres virkning i høj grad gennem dybtgående virkning af varianterne på rygning intensitet [20] – [22] eller KOL [23]. Det videre arbejde undersøger denne forening konkluderede, at der er dobbelt veje mellem den genetiske variant og lungekræft forening, uafhængigt via en direkte virkning på lungerne carcinogenese og gennem rygning opførsel [6], [7], [15], [24] – [26 ]. Nyere undersøgelser af rygere har vist, at de genetiske varianter på CHRNA5-A3-genet klynge har en stærkere tilknytning til cotinin niveauer end med selvrapporteret rygning adfærd, og foreslog, at effekten af ​​de genetiske varianter på risiko lungekræft, er i vid udstrækning, hvis ikke udelukkende, via deres effekt på rygning intensitet [27] – [29]. i en ledsagende redaktionel Spitz et al [21] konkluderede imidlertid, at i hvilken grad foreningen medieres af rygning er endnu ikke fastlagt. Tidligere undersøgelser fokuseret på et mediator (for eksempel rygning) ad gangen, og ingen har studeret flere mediatorer samtidigt i én model. Men i virkeligheden, kunne mere end en mægler påvirke sammenhængen mellem den genetiske variant og risiko for lungekræft. I vores tidligere analyse [6], fandt vi, at i single-mediator analyserer rygning og KOL var mediatorer for sammenhængen mellem enkeltnukleotidpolymorfi (SNP) rs1051730 og risiko for lungekræft. analysere flere mediatorer i én model, kunne dog have nogle fordele i forhold til en sådan enkelt mediator analyser [30].

multiple-mægling model, der anvendes til studiet af SNP, rygning, KOL og lungekræft risiko er afbildet som en vej diagram i figur 1. den multiple-mægling model indeholder et tre-sti medierende virkning gennem både rygning og KOL, som tillader en mediator (dvs. rygning) til kausalt påvirke den anden mediator (dvs. KOL) [31]. Denne årsagssammenhæng er biologisk overbevisende, fordi rygning er den kendte stor risikofaktor for KOL [32]. Den underliggende antagelse af denne tre-sti medierende virkning er, at individer, der bærer den skadelige allel af rs1051730 er mere tilbøjelige til at være storrygere, hvilket igen fører til en højere risiko for KOL, hvilket igen øger risikoen for lungekræft. Således, ud over de indirekte effekter, der passerer gennem hver af alene mæglere, vil vi undersøge den indirekte effekt passerer gennem begge mæglere

X

:. Indledende prædiktor variabel (SNP).

M

1

: mediator (rygning adfærd).

M

2

: mediator (KOL).

Y

:. Udfald variabel af interesse (lungekræft)

Så vidt vi ved, har der ikke været nogen tidligere undersøgelse undersøger sådan en multipel mægling model i studie design indstilling case-kontrol , hvor standard regression tilgang kunne give forudindtagede skøn for de indirekte effekter, som vi beskrev ovenfor. Derfor har vi udviklet en metode til at gennemføre en multiple-mægling analyse efter modellen i figur 1. Vi har udført simuleringer for at undersøge effektiviteten af ​​den foreslåede fremgangsmåde, og disse viste tilgang kan give nøjagtige estimater af de indirekte effekter. Den bootstrapping metode blev anvendt til at vurdere betydningen af ​​de indirekte effekter og samlede effekt. Vi udviklede også en tilgang til, når den oprindelige case-kontrol undersøgelse er frekvens matchet på en af ​​mæglerne, som i vores lungekræft case-kontrol undersøgelse, hvor kontrollen er frekvens matchet til tilfælde med hensyn til rygning status. Vi anvendte den foreslåede tilgang til multiple-mægling undersøgelse af de samtidige medierende virkninger af rygning og KOL på sammenhængen mellem SNP rs1051730 og risikoen for lungekræft ved hjælp lungekræft case-kontrol GWA studie data.

Metoder

Lad

X

,

M

1

,

M

2

og

Y

betegne den genetiske variant, to mæglerens fænotyper, og sygdommen variable hhv. Vi antog binære stokastiske variable for både mediator variabler og sygdommen variabel, betegnet som, og henholdsvis med 0 repræsenterer ikke indtræffer og en repræsenterer forekomst af mægleren fænotyper eller sygdommen. Vi overvejede en SNP locus med to alleler: skadelige allel

A

og normale allel

en

. Vi først antaget en dominerende eller recessiv genetisk model for den genetiske variant og også betegnet det som en binær stokastisk variabel,. For en dominerende genetisk model, 0 repræsenterer genotype (

en

,

en

) og 1 repræsenterer genotyper (

En

,

en

) og (

A

,

A

); for en recessiv genetisk model, 0 repræsenterer genotyper (

en

,

en

) og (

En

,

en

) og 1 repræsenterer genotype (

A

,

A

). Bemærk, at hvis et tilsætningsstof genetisk model blev antaget, blev en kategorisk stokastisk variabel betegnes at repræsentere genotyper (

en

,

en

), (

En

,

en

), og (

En

,

A

), hhv. I betragtning af de stokastiske variable,

X

,

M

1

,

M

2,

og

Y

, foreningen blandt alle stokastiske variable, der er vist i figur 1 kan udtrykkes ved hjælp af følgende betingede sandsynligheder med logistiske modeller: (1) (2) (3), hvor

en

0

,

b

0

,

c

0

,

en

1

,

en

2

,

b

1

,

b

2

,

d

, og

c ‘

er regressionskoefficienter og

jeg

,

j

,

k

= 0, 1. Der er forskellige indirekte effekter i denne model [33] (se figur 1): (i) den indirekte effekt passerer gennem mægler

M

1

, forbigå

M

2

, som kan vurderes som

en

1b

1 Hotel (betegnet som

IE

1

); (Ii) den indirekte effekt passerer gennem mægler

M

2

, uden om

M

1

, som kan vurderes som

en

2b

2

(betegnet som

IE

2

); og (iii) de tre-stien indirekte effekt passerer gennem begge mæglere, der kan vurderes som

en

1dB

2

(betegnet som

IE

3 fotos) . Derfor kan gives den samlede indirekte effekt passerer gennem mæglerne som summen af ​​de ovennævnte indirekte effekter:

en

1b

1

+

en

2b

2

+

en

1dB

2

(betegnet som

IE

t

). Den regression koefficient

c ‘

repræsenterer effekten af ​​den genetiske variant af sygdommen ikke er medieret af enten mægler og er normalt kaldes den direkte virkning. Generelt er den samlede effekt af den genetiske variant af sygdommen estimeres ved regression af sygdommen variabel på den genetiske variant variabel direkte. den tidligere analyse har imidlertid vist, at den samlede effekt anslået på denne måde kunne være forudindtaget, når sygdommen variable og /eller mediator variable er binære [34]. Derfor, i dette studie, vi rapporterede den samlede effekt (

TE

) ved hjælp af en alternativ formel defineret som summen af ​​de indirekte og direkte virkninger (angivet som

TE

=

IE

t

+

c ‘

). I dette tilfælde, de procentsatser af foreningen forklares ved de forskellige mægling stier (procent medieret,

PM

) kan vurderes som de specifikke indirekte effekter divideret med den definerede samlede effekt, henholdsvis og betegnet som

PM

1

=

IE

1

/

TE

,

PM

2

=

IE

2

/

TE

,

PM

3

=

IE

3 fotos /

TE

, og

PM

t

=

IE

t-service /

TE,

som repræsenterer

PM

af

M

1

omgåelse

M

2

,

PM

af

M

2

omgåelse

M

1

,

PM

af både

M

1

og

M

2

, og det samlede

PM

gennem forskellige veje, henholdsvis.

Når dataene af interesse er tilfældigt udtaget fra den almindelige befolkning, de skøn over de indirekte effekter og den procent medierede er korrekte. Men hvis dataene samples baseret på en case-kontrol undersøgelse design, de anslåede foreninger blandt de oprindelige variable, og begge mediatorer (dvs.

en

1

,

en

2

og

d

) vil være partisk, hvis standard logistiske regressioner er ansat, hvilket igen vil resultere i tendentiøse skøn over indirekte effekter og procent medierede [8] – [12]. For at opnå nøjagtige skøn over koefficienterne

en

1

,

en

2

, og

d

, vi ændret bias-korrektion foreslåede tilgang i vores tidligere undersøgelse [12]. Kort fortalt kan den forudindtaget koefficient estimeret ud fra den logistiske regression, de prævalens værdierne af sygdommen, og begge mediator fænotyper udtrykkes ved anvendelse af ikke-lineære ligninger. Forekomsten værdier opnås fra litteraturen, og robustheden af ​​denne tilgang til misspecification af prævalens værdier er undersøgt i vores tidligere værker [12], [35]. Løsning af ordningen med ikke-lineære ligninger giver os de korrigerede koefficienter. Med henblik på den multiple-mediator model blev forskellige ikke-lineære ligninger anvendes til at korrigere forskellige koefficienter. Korrektionen tilgang til regression koefficient

d

for

M

1

M

2

forening, mens regression

M

2

M

1

og

X

(se figur 1), er angivet nedenfor. Korrektionen tilgange til de andre parametre, nemlig

en

1

og

en

2

, er givet i tekst S1.

Korrektion af Koefficient

d

Som anført ovenfor regressionskoefficienten

d

, af

M

1

M

2

association mens regression

M

2

M

1

og

X

, kunne være forudindtaget. Vi brugte følgende ikke-lineær estimering ligning tilgang til rette bias. Givet en prøve af

N

deltagere, hvoraf

N

1

er tilfælde (

Y

= 1) og

N

0

er kontroller (

Y

= 0) i forhold til sygdommen, odds ratio (OR) for sammenhængen mellem mæglerne

M

1

og

M

2 Hotel (exp (

d

)) kan udtrykkes som følger: (4), hvor

E

kj

er det forventede antal individer i prøven, med

M

2

=

k

og

M

1

=

j

, som er givet aswhere

j

,

k

,

r

= 0, 1. Den betingede sandsynlighed

p

kj | r

er skrevet som

sandsynlighederne

p

1

og

q

1

repræsenterer forekomsten af ​​mægleren

M

1

og sygdommen, henholdsvis i den almindelige befolkning. De betingede sandsynligheder

p

r | kj

p

k | j

er givet som funktioner af regressionskoefficienter:

og hvor

b

0

,

c

0

, og

d

er ukendte koefficienter af interesse. Baseret på de betingede sandsynligheder angivet ovenfor, kan vi skrive de estimerede forekomsten af ​​sygdommen og mægleren

M

2

som følger: (5) (6)

Givet en prøve med

N

selvstændige individer til en case-kontrol undersøgelse af sygdommen (

Y

), kan man estimere regressionskoefficienterne

b

1

og

b

2

samt forudindtaget koefficient

d

hjælp logistiske regressioner baseret på ligningerne (1) ~ (3). Derfor ligningerne (4) ~ (6) er et system af lineære ligninger med tre ubekendte,

c

0

,

b

0

, og

d

. Vi anvendte den “fsolve” -funktionen i Matlab [36] til at løse den ulineære ligningssystem med brug af standardindstillinger. Som standard “fsolve” funktion benytter den tillid-regionen dogleg algoritme, som er en variant af Powell dogleg-metoden [37]. Løsningen på dette ikke-lineær ligning systemet vil give os den korrigerede estimat for koefficient

d

for sammenhængen mellem to mæglere. Som nævnt ovenfor, for kortfattethed, detaljerne korrektion for koefficienterne

en

1

og

en

2

fik i tekst S1. Vi betegnet de korrigerede koefficienter som, og. På baggrund af disse korrigerede koefficienter, kan de indirekte effekter estimeres som

IE

1

=

b

1

,

IE

2

=

b

2

, og

IE

3

=

b

2

.

Additive Genetisk Model

når den genetiske variant antages at være additiv, der skal tages særlig omhu. I denne situation, anvendte vi en kategorisk stokastisk variabel, for at betegne de tre genotyper, og. Vi anvendte den egenskab, at den partiske eller opnået ved hjælp af logistisk regression er givet ved per-allelen OR og tilpasset tilgangen for en additiv model foreslået i vores tidligere undersøgelse [35]. For at opnå den sande pr-allel OR, vi vurderet tendentiøse eller på to måder. Først fik vi den partiske OR

1 ved at beregne OR af SNP stokastisk variabel

X

= 1 versus

X

= 0, hvilket giver OR for heterozygot genotype mod vildtype homozygot genotype. For det andet, fik vi den partiske OR

2 ved at beregne OR af SNP stokastisk variabel

X

= 2 versus

X

= 0, hvilket giver OR for homozygot genotype for variant allel imod vildtype homozygot genotype. På grundlag af OR

1 og OR

2, og efter de forskellige formler i vores tidligere undersøgelse [12], vi opnåede to korrigerede koefficienter, og det endelige korrigerede koefficient for tilsætningsstoffet genetiske model er gennemsnittet af disse .

Frekvens-matchede Case-control Study

Frekvens matchning er en vigtig og almindeligt anvendte studie design for kendte risikofaktorer konfoundere og har været meget anvendt i case-control studier [38]. I analysen af ​​ægte lungekræft data, fordi rygning er en velkendt risiko confounder for sammenhængen mellem lungekræft og andre risikofaktorer, kontroller var frekvens matchet til lungekræfttilfælde i forhold til rygning status. Det er, for den multiple model mægling vist i figur 1, de sygdomstilfælde og kontroller er frekvens matchet på mægleren

M

1

. I dette scenario, frekvens-matchende design bidrager også til skævhed i skøn over de koefficienter for foreninger blandt SNP og mæglerne (dvs.

en

1

,

en

2

og

d

). Derfor vi tilpasset den foreslåede tilgang i vores tidligere arbejde [12] med visse modifikationer. Vi overvejede først beregningen af. De forventede antal individuelle

E

ji

kan beregnes ASFOR

i =

0, 1, 2 og

j

= 0, 1.

parameteren blev betegnet som forskellen i andelen af ​​personer med tilstedeværelsen af ​​mægleren

M

1

i de tilfælde, sygdom og kontroller, givet som = prop (

M

1

= 1 |

Y

= 0) prop (

M

1

= 1 |

Y

= 1). I virkeligheden betyder valget af kontroller i en frekvens-matchede undersøgelse ikke at være perfekt, det er, må andelen af ​​personer med de matchede variabler ikke at være præcis den samme i de tilfælde, sygdom og knapper (= 0). For eksempel, i studiet af lungekræft, er andelen af ​​nuværende rygere var 48% i lungekræft tilfælde og 42% i kontrollen, og forskellen i proportionerne var = -0,06. Derfor kan medtagelse af parameter tage hensyn til variationer, der opstår, når du vælger kontroller, der er frekvens matchet på mægler, og dermed forbedre robustheden af ​​vores tilgang. De betingede sandsynligheder og kan beregnes ved hjælp af de samme formler i vores tidligere arbejde [12]:

og

i =

0, 1, 2, og

j

= 0, 1.

Ved vurderingen af ​​korrigerede koefficient, vi brugte en lignende formel til at vurdere de forventede antal individuelle

E

kj

: for

j

,

k

= 0, 1.

De betingede sandsynligheder og er defineret som:

og

j

,

k

= 0, 1.

Hvis original sygdom case-kontrol undersøgelse af er frekvensen matchet på mægleren

M

1

, den anslåede værdi af

b

1

vil være ikke-signifikante eller partiske og ikke vil repræsentere den sande sammenhæng mellem mægleren

M

1

og sygdommen. Men fordi den matchende design anser den kendte risiko-confounding faktor på studiet projekteringsfasen, vi typisk kender den tilknyttede risiko. Derfor, for de frekvens-matching case-control studier, vi tilføjet endnu en begrænsning på værdien af ​​

b

1

, der er fastsat som den kendte risiko koefficient (fra litteraturen eller estimeret ud fra uovertruffen sag -Control undersøgelser). I lyset af de nye formler for

E

ji

E

kj

, kan man følge den samme procedure som beskrevet for den umatchede undersøgelse for at vurdere de korrigerede koefficienter og hhv. Den korrigerede koefficient kan evalueres ved hjælp af den samme formel af

E

ki Hoteller, som blev brugt i den umatchede case-kontrol undersøgelse, fordi beregningen af ​​ikke indebærer den matchede mediator variablen

M

1

.

bootstrapping Konfidensintervaller for indirekte effekter

bootstrapping har været ansat til at vurdere betydningen af ​​de indirekte effekter i en multiple-mediator model [30], [33] for at overvinde den svært ved at vurdere standardfejl for de indirekte effekter. I denne undersøgelse anvendte vi også de empiriske konfidensintervaller (CIS), baseret på en resampling-baserede metode med udskiftning [39]. I betragtning af den regression koefficienter

b

1

, og

b

2

opnået ved hjælp af den standard regression og de korrigerede koefficienter, og opnået ved hjælp af den foreslåede fremgangsmåde, de empiriske CI’ers de korrigerede individuelle indirekte effekter

IE

1

=

b

1

,

IE

2

=

b

2

og

IE

3

=

b

2

, samt den samlede indirekte effekt

IE

t

=

b

1

+

b

2

+

b

2

, blev opnået ved følgende trin:

Tag

B

prøver med udskiftning fra undersøgelsens data, hver med

n

1

personer fra de tilfælde, sygdom og

n

0

prøver fra kontrollerne sygdom (

n = n

0 + n

1

). Bemærk, at

n

0

N

0

n

1

N

1

, hvor

N

0

N

1

er antallet af sager og kontroller med hensyn til sygdommen i undersøgelsen prøven.

Evaluer bootstrap regression koefficienter bruger logistiske regressioner baseret på bootstrap prøver. Betegne bootstrap koefficienterne som,,,, og,

u

= 1, 2, …,

B

. De korrigerede koefficienter, og,

u

= 1, 2, …,

B

beregnes ved hjælp af de metoder, der er beskrevet ovenfor.

bootstrap indirekte effekter vurderes som , og ++,

u

= 1, 2, …,

B

. Lad, og være den

u

th bestilles bootstrap indirekte effekter skøn hhv. Derefter 100 (1-)% CI’ers indirekte effekter er givet som (,), (,), (,), og (,), hhv.

Simulation Approach

Vi udførte simulation studier for at undersøge effektiviteten af ​​vores tilgang til vurdering af indirekte effekter i multiple-mægling model i en case-kontrol undersøgelse (figur 1). At efterligne virkelige dataanalyse af lungecancer, antog vi en enkelt di-allel SNP med en mindre allel frekvens (MAF) på 37%. Vi brugte 14%, 24%, og 12% som prævalens værdier for sygdommen (

Y

), mægleren

M

2

, og mægleren

M

1

henholdsvis som indbyrdes prævalens værdier af lungekræft [40], KOL [41], og storrygere [42] i nogensinde rygere. Vi overvejede to forskellige sæt af regressionskoefficienter for foreningerne blandt SNP, mæglerne, og sygdommen. For det første scenarie, vi fast koefficienterne som

en

1

= 0,4055,

en

2

= 0,4055,

d

= 0,6931,

c ‘

= 0,4055,

b

1

= 1,0986, og

b

2

= 1,0986, hvilket svarer til yderste periferi på 1,5, 1,5, 2, 1,5 , 3 og 3, henholdsvis; for det andet scenario, vi fast koefficienterne som

en

1

= 0,3365,

en

2

= 0,3365,

d

= 0,3365,

c ‘

= 0,6931,

b

1

= 0,4055, og

b

2

= 0,4055, hvilket svarer til yderste periferi på 1,4, 1,4, 1,4, 2 , 1,5 og 1,5, henholdsvis. De yderste periferi, der anvendes i denne simulation studier blev valgt til at afspejle de observerede yderste periferi findes i mange GWA studier af almindelige humane sygdomme [20], [43] – [45]. Ifølge disse indstillinger, de teoretiske sande værdier af den procentdel af den samlede indirekte effekt blandt sammenslutningen af ​​interesse er ca. 75% for scenarie én og 32% for scenarie to. For hvert scenarie, vi overvejet forskellige studiedesign (dvs. uovertruffen undersøgelse og frekvens-matchet undersøgelse med hensyn til mediator

M

1

) og forskellige genetiske modeller til SNP (dvs. dominerende, additiv, og recessive genetiske modeller). For frekvens-matchede undersøgelse, vi også overvejet forskellige værdier for parameteren (0, ± 0,05, ± 0,1), der udgør forskellen i andelen af ​​personer med mægleren

M

1

i sygdom tilfælde (

Y

= 1) og kontroller (

Y

= 0). På grundlag af disse parametre, opnåede vi værdierne for skæringspunktet regressionskoefficienter

en

0

,

b

0

, og

c

0

til forskellige situationer.

først genererede vi genotyper for en SNP ved hjælp af genotypefrekvenser, som kan beregnes fra MAF. Mægleren

M

1

værdier blev derefter genereret ud fra datasættet af realiseringer af SNP anvendelse af ligning (1), under antagelse af forskellige genetiske modeller for SNP. Betinget af mægler

M

1

og SNP værdier, vi brugte ligning (2) for at generere værdierne af mægleren

M

2

. Sidste blev sygdomstilfælde og kontroller genereret betinget af værdier af SNP og begge mæglere

M

1

og

M

2

bruge ligning (3). På den måde, vi simulerede en stor mængde data om populationen af ​​interesse og derefter tilfældigt udtaget 1.000 sygdomstilfælde (

Y

= 1) og 1.000 sygdom kontroller (

Y

= 0). Når en frekvens-matchet case-kontrol undersøgelse design med hensyn til mediator

M

1

blev betragtet, de sygdomstilfælde 1.000 stadig udtaget tilfældigt. Imidlertid blev de 1.000 kontroller udtaget således at andelen af ​​tilstedeværelsen af ​​mægleren

M

1

i kontrollerne var ca., at i de tilfælde [38]. De gennemsnitlige resultater af koefficienter og indirekte effekter rapporteret for simuleringen undersøgelser var baseret på 1.000 replikat datasæt.

Resultater

Simulation Study

De gennemsnitlige resultater af regressionskoefficienterne

en

1

,

en

2

,

b

1

,

b

2

,

c ‘

, og

d

estimeret ved hjælp af både standard logistisk regression og den foreslåede tilgang i denne artikel, er angivet i tabel 1. i tabellen, det øverste panel viser resultaterne for den første simulation scenariet og bunden panelet viser resultaterne for den anden simulation scenario. De sande regressionskoefficienter anvendt til generering af dataene er også angivet i tabellen til sammenligningsformål. For hvert scenarie, vi undersøgte forskellige studiedesign (uovertruffen og frekvens-matchet), forskellige genetiske modeller (dominerende, additiv, og recessive), og forskelle i andelene af den matchede variable (

M

1

) mellem sygdomstilfælde og kontroller (= 0, ± 0,05, og ± 0,1).

for uovertruffen case-kontrol undersøgelse design, når de standard logistiske regressioner blev anvendt, skønnene over

c ‘

,

b

1

, og

b

2

var tæt på de tilsvarende sande værdier, der var forventet, fordi udvælgelsen af ​​de sager sygdom og kontroller indfører ikke skævhed i disse skøn. For eksempel, for scenario ene ved hjælp af den dominerende genetiske model (uovertruffen undersøgelse), de anslåede værdier for

c ‘

,

b

1

, og

b

2

var 0,4041, 1,0967, og 1,0989, henholdsvis som var meget tæt på de sande værdier 0,4055, 1,0986, og 1,0986 anvendes til simuleringer. Men de estimerede værdier for

en

1

,

en

2

, og

d

var 0,4615, 0,4547 og 0,7551, henholdsvis som var partiske i forhold til de sande værdier af 0,4055, 0,4055, og 0,6931. På den anden side, den foreslåede fremgangsmåde førte til skøn over, og som 0,4119, 0,4069, og 0,6942, henholdsvis som aftalt godt med de sande værdier.

Når case-kontrol undersøgelse af var hyppigheden-matchet med mediator

M

1

, ud over de koefficienter

en

1

,

en

2

, og

d

koefficienten

b

1

var også meget forudindtaget, som forventet, når standard regression metode anvendes; koefficienterne

c ‘

b stadig korrekt anslået

2

, som i uovertruffen undersøgelse. For eksempel, i scenario en for frekvens-matchede design, når andelen af ​​personer med tilstedeværelse af

M

1

var højere i de tilfælde, end i kontrol med 5% (Δ = -0,05) og den dominerende genetiske model blev antaget, de estimerede værdier af

c ‘

b

2

var 0,4072 og 1,1003, henholdsvis som var tæt på de sande værdier simulation; Men de skønnede værdier af

en

1

,

en

2

,

d

, og

b

1

Be the first to comment

Leave a Reply