Abstrakt
Database for Human Gastric Cancer (DBGC) er en omfattende database, der integrerer forskellige menneskelige mavekræft-relaterede data ressourcer. Humane gastriske kræft-relaterede transcriptomics projekter, proteomics projekter, mutationer, biomarkører og narkotikarelaterede følsomme gener fra forskellige kilder blev indsamlet og forenet i denne database. Desuden blev epidemiologiske statistikker over mavecancerpatienter i Kina og klinisk-patologisk oplysninger kommenteret med gastrisk kræfttilfælde også integreret i DBGC. Vi mener, at denne database i høj grad vil lette forskning vedrørende menneskelige mavekræft på mange områder. DBGC er frit tilgængelig på https://bminfor.tongji.edu.cn/dbgc/index.do
Henvisning: Wang C, Zhang J, Cai M, Zhu Z, Gu W, Yu Y, et al . (2015) DBGC: En Database for Human Gastric Cancer. PLoS ONE 10 (11): e0142591. doi: 10,1371 /journal.pone.0142591
Redaktør: Arun Sreekumar, Baylor College of Medicine, UNITED STATES
Modtaget: Februar 18, 2015; Accepteret: 24 oktober 2015; Udgivet: November 13, 2015
Copyright: © 2015 Wang et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Data Tilgængelighed: Data er fås via Datadryad (https://datadryad.org). Det unikke tiltrædelse nummer er: doi:. 10,5061 /dryad.271dk
Finansiering: Dette arbejde blev delvist støttet af tilskud fra National Natural Science Foundation of China (81.172.329, 31.571.363, 81.372.644, 81.372.645 og 8157111077), kinesisk National High Tech Program (2012AA02A504 og 2012AA02A203), International Cooperative Project fra Shanghai Videnskab og Teknologi Kommissionen (12410706400), Innovation Foundation of Translational Medicine af Shanghai Jiao Tong University School of Medicine (15ZH1002 og 15ZH3001), Fong Shu Fook Tong Foundation og Gastrointestinal Carcinoma biobank projekt af Shanghai Jiao Tong University School of Medicine. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Som en af de mest almindelige kræftformer, mavekræft har den tredje højeste dødelighed og fjerde højeste sygelighed af alle kræfttilfælde i verden [1]. Ifølge de GloboCan statistik i 2012, nye kræfttilfælde gastrisk nummereret næsten en million (952 tusind), og mere end 700.000 dødsfald var forårsaget af mavekræft; næsten halvdelen af disse patienter kom fra Kina (405.000 nye tilfælde og 325.000 dødsfald) [1, 2]. Selv om både dødelighed og sygelighed af mavekræft er faldet i de seneste år, 5-års overlevelse er stadig ret lav [3]. Derfor vil mavekræft fortsat en af de mest vanskelige udfordringer for forskere og læger i lang tid [4].
Forskere verden over har gennemført mange genomforskning, transcriptomics, proteomics og epidemiologiske undersøgelser og kliniske forsøg vedrørende patogenese og behandlinger af mavekræft [5-10]. Disse undersøgelser har genereret store mængder data er relevante for mavekræft, og hastigheden af disse undersøgelser accelererer med den hurtige vækst i kræft viden, færre omkostninger til påvisning og beregning, og udbredelsen af internettet [11]. Disse data indeholder vigtige oplysninger for at undersøge og helbredelse af mavekræft. Men på grund af den begrænsede baggrundsviden om klinikere og grundlæggende forskere, potentialet i disse data kan ikke fuldt udviklet. Nye teknologier og forskningsmetoder kræver stadig udvikling; imidlertid lav effektivitet i forvaltningen data er en primær begrænsning af denne udvikling [12]. På grund af den langsigtede ophobning af decentral forskning, disse data og deres formater kun tilfredsstille individuelle behov, mangler integration og standardisering og resulterer i diversificering, isomerisering, og dissektion af kræft data [13, 14].
på nuværende tidspunkt er rigelige kliniske og grundlæggende undersøgelser vedrørende mavekræft planlagt eller i gang. Forskellige typer af data lagres i forskellige databasesystemer [13], uden at dele eller kommunikation. Således stærkt korreleret information forbliver isoleret, i hvad der kaldes “informations øer”. På den ene side, data dissektion øger vanskeligheden ved data mining, mens på den anden side, det forhindrer klinikere fra at gøre fuld brug af resultaterne af grundforskning for at udvikle kliniske forsøg og applikationer og holder grundlæggende forskere fra at udføre effektive forundersøgelser, der henviser klinisk relevante oplysninger [15].
i denne situation, hente omfattende information om mavekræft er ikke en let opgave, og dele af disse data kan forsvinde i havet af internettet, hvilket ville være meget uheldigt.
Denne forskning udnyttede ressourcer fra internettet og publikationer fra det kinesiske center for Disease Control og Forebyggelse (CDC) og Gastric Cancer center for diagnose og behandling, Key Laboratory of Gastric Neoplasmer i Shanghai. Denne undersøgelse systematisk indsamlet forskellige typer af gastrisk kræft-relaterede data, integreret disse data ressourcer efter filtrering og standardisering, og endelig dannede den første omfattende vidensgrundlag til analyse mavekræft.
Materialer og metoder
data Resources
Database for human Gastric Cancer (DBGC) har integreret følgende mavekræft-relaterede ressourcer:
Epidemiologiske statistik for mavecancerpatienter i Kina fra CDC publikationer
klinisk-patologisk information om mavekræft væv efter kirurgisk resektion fra patienter diagnosticeret på Shanghai Ruijin Sygehus
Molekylær biologiske data om mavekræft fra offentlige online ressourcer (herunder gastrisk kræftrelaterede mutationer, biomarkører, narkotika-følsomme gener, transcriptomics projekter og svarende differentielt udtrykte gener, og proteomics projekter og tilsvarende differentielt udtrykte proteiner)
Rå forskningsdata fra Shanghai Institute of Digestive Kirurgi og Shanghai Key Laboratory of Gastric Neoplasmer
Dataindsamling
1) epidemiologiske statistik over mavecancerpatienter i Kina.
CDC har haft et etableret kræft-system i mange år rapportering og har akkumuleret rigelig epidemiologiske oplysninger om kræftpatienter i Kina. De epidemiologiske statistik mavekræft, herunder sagsnummer, død nummer, incidensrate (rå hastighed, alder justeret sats og kumulative rate), dødelighed (rå hastighed, alder justeret sats og kumulative rate), og incidens (eller dødelighed) fordeling på aldersgrupper blev udtrukket manuelt fra CDC publikationer. DBGC 1.0 dækker alle epidemiologiske statistikker for alle typiske regioner i Kina fra årene 2004 til 2009, og yderligere statistikker vil indgå i den opgraderede version.
2) klinisk-patologisk information om mavekræft væv.
klinisk-patologisk information blev leveret af Shanghai Ruijin Hospital. Klassificering og mellemstationer metoder generelt anvendes til mavekræft diagnose blev kommenteret hjælp gastric kræfttilfælde diagnosticeret på Ruijin Hospital. Typiske mavekræft væv af forskellige stadier og typer blev udvalgt fra en mavekræft biobank, at vi har fastholdt i årevis. Alle patientinformation blev anonymiseret og de-identificeret før vores analyse.
3) Molekylær biologiske data om mavekræft fra offentlige online ressourcer.
Molekylære biologiske data blev udtrukket og kurateret af online ressourcer. Transcriptomics data blev indsamlet fra GEO-databasen (https://www.ncbi.nlm.nih.gov/geo/) og EBI database (https://www.ebi.ac.uk/). Proteomics data blev udtrukket fra den publicerede litteratur gennem manuel aflæsning og standardisering [16, 17]. Mutation data blev indsamlet fra dbVar database (https://www.ncbi.nlm.nih.gov/dbvar/), OMIM database (https://www.ncbi.nlm.nih.gov/omim/), HGMD database (https://www.hgmd.org/), og offentliggjort litteratur [18, 19]. Alle biomarkør data blev udtrukket fra offentliggjort litteratur [20, 21]. Narkotikarelaterede gener blev ekstraheret fra PharmGKB database (https://www.pharmgkb.org/), CancerDR database (https://crdd.osdd.net/raghava/cancerdr/) og offentliggjort litteratur [22, 23]. Vi har designet detaljerede udvinding standarder for hver type molekylærbiologiske data ressource, og hver dataindsamling procedure måtte følge disse standarder for at sikre data sammenhæng. detaljerede procedure Samlingen findes nedenfor:
Transcriptomics data:
Søg i GEO database ved hjælp af følgende nøgleord 🙁 “mave neoplasmer” [MeSH Vilkår] eller “mavekræft” [All Fields] ) og “Homo sapiens” [porgn].
Filter resultaterne manuelt, og vælg publikationer relateret til menneskelig mavekræft til efterfølgende udtrækning af oplysninger.
Klassificere programmerne stikprøvestørrelse og prøvetype .
information Uddrag offentliggørelse (titel, publikation tid, eksperimentere type, vævstype, prøvemængde, prøve beskrivelse, prøve af eksperiment prøve af kontrol, platform, GSE ID, GSM-id’er, download links og litteratur citation ) manuelt, med henvisning til MIAME (Minimum oplysninger om en Microarray Experiment).
Pre-proces rådata (serie matrix filer i GEO-databasen) ved hjælp af Perl til at fjerne de forskelle fra forskellige platforme.
Uddrag differentielt udtrykte gener ved hjælp R sprog
proteomics data:
Søg rådata i PubMed med følgende nøgleord: ( “proteomics” [MeSH Vilkår] OR “proteomics” [ ,,,0],Alle felter]) OG ( “mave neoplasmer” [MeSH Vilkår] eller ( “mave” [All Fields] OG “neoplasmer” [All Fields]) eller “mave neoplasmer” [All Fields] eller ( “gastrisk” [Alle felter] AND “kræft” [Alle felter]) eller “gastrisk kræft” [Alle felter]).
Filter resultaterne manuelt, og vælg de proteomics publikationer relateret til menneskelig mavekræft til efterfølgende udtrækning af oplysninger.
Brug disse papirer som frø litteratur og filtrere referencer igen.
Klassificere publikationerne ved prøvens størrelse og prøvetype.
manuelt læse aviser og udtrække oplysninger offentliggørelse (titel, publikation tid, prøve mængde, prøve eksperiment prøve kontrol, prøve beskrivelse, teknologi anvendte metode, fold forandring, opreguleret protein mængde, nedreguleret protein mængde, og reference) og tilsvarende op-regulerede proteiner og ned-regulerede proteiner (baseret på konklusionerne fra forfattere)
mutation data:.
Søg i OMIM, HGMD og dbVar databaser ved hjælp af søgeord “gastrisk cancer” og udtrække mutation information (gen, mutation typen, beskrivelse af cDNA , beskrivelse af fuld AA, beskrivelse af AA, og reference)
Søg i PubMed med følgende nøgleord:. ( “mutation” [MeSH Vilkår] eller “mutation” [Alle felter]) oG ( “mave neoplasmer “[MeSH Vilkår] eller (” mave “[All Fields] AND” neoplasmer “[Alle felter]) eller” mave neoplasmer “[All Fields] OR (” gastrisk “[All Fields] AND” kræft “[Alle felter]) OR “mavekræft” [Alle felter]).
filter resultaterne manuelt, og vælg papirerne relateret til menneskelig mavekræft til efterfølgende udtrækning af oplysninger.
Tag disse papirer som frø litteratur og filter referencerne igen.
Læs disse papirer og udtrække mutation manuelt (gen, mutation type, beskrivelse af cDNA, beskrivelse af fuld AA, beskrivelse af AA, og reference).
Fjern dublerede data fra de fire kilder
Biomarker data:.
Søg i PubMed med følgende nøgleord:
( “biologiske markører” [MeSH Vilkår] eller ( “biologiske” [Alle Felter] OG “markører” [All Fields]) eller “biologiske markører” [All Fields] eller “biomarkør” [Alle felter]) OG ( “mave neoplasmer” [MeSH Vilkår] eller ( “mave” [All Fields] AND ” neoplasmer “[All Fields]) eller” mave neoplasmer “[All Fields] OR (” gastrisk “[All Fields] AND” kræft “[Alle felter]) eller” gastrisk kræft “[Alle felter]).
Filter resultaterne manuelt, og vælg papirerne relateret til menneskelig mavekræft til efterfølgende udtrækning af oplysninger.
Tag disse papirer som frø litteratur og filtrere referencer igen.
Læs disse papirer og udtrække mutation manuelt (biomarkør navn, fulde navn, type, tidspunkt, beskrivelse, mekanisme, følsomhed, specificitet, og reference).
Klassificere biomarkører ved biomarkør type, scene, specificitet og sensitivitet.
Drug-følsomme data:.
Søg i PharmGKB hjælp søgeordene “mavekræft” og manuelt udtrække narkotika-følsomme oplysninger (lægemiddel navn, gen navn, gen-type, mekanisme, og reference)
Søg i PubMed med følgende nøgleord: “modstand” [All Fields] og ( “mave neoplasmer” [MeSH Vilkår] eller ( “mave” [All Fields] OG “neoplasmer” [All Fields]) eller “mave neoplasmer “[All Fields] OR (” gastrisk “[All Fields] AND” kræft “[Alle felter]) eller” gastrisk kræft “[Alle felter])
Filter manuelt, og vælg papirerne relateret til menneskelig gastrisk modstand kræft narkotika til efterfølgende udtrækning af oplysninger.
Tag disse papirer som frø litteratur og filtrere referencer igen.
Opsummer de 19 stoffer almindeligvis anvendes til den kliniske behandling af gastrisk cancer (5- fluoruridin, camptothecin, carboplatin, cisplatin, docetaxel, doxorubicin, doxorubicin-hydrochlorid, epirubicin, etoposid, fluoruracil, irinotecan, leucovorin, mitomycin C, oxaliplatin, paclitaxel, tamoxifen, trastuzumab, vinblastin og vincristin).
hensyntagen “cisplatin” som et eksempel, søgning i PubMed ved hjælp af søgeord:
( “cisplatin” [MeSH Vilkår] eller “cisplatin” [Alle felter]) og “modstand” [All Fields] OG ( “mave neoplasmer” [MeSH Vilkår] eller ( ” mave “[All Fields] AND” neoplasmer “[Alle felter]) eller” mave neoplasmer “[All Fields] OR (” gastrisk “[All Fields] AND” kræft “[Alle felter]) eller” gastrisk kræft “[Alle felter ]).
Filter resultaterne manuelt, og vælg papirerne relateret til menneskelig gastrisk modstand kræft narkotika til efterfølgende udtrækning af oplysninger.
Tag disse papirer som frø litteratur og filtrere referencer igen.
Læs disse papirer og udtrække narkotika-følsomme oplysninger manuelt (drug navn, gen navn, gen-type, mekanisme, og reference).
Vi kommenteret alle gener og narkotika i denne database til at hjælpe brugere bedre at forstå og bruge disse data ressourcer. Generne er kommenteret i henhold til NCBI (https://www.ncbi.nlm.nih.gov), HGNC (https://www.genenames.org/), Ensembl (https://feb2014.archive.ensembl.org /) og Gene Cards (https://www.genecards.org/). De lægemidler er kommenteret i henhold til DrugBank (https://www.drugbank.ca/).
Desuden mutationer detekteret i TCGA projektet blev også inkluderet for at anmærke gener i DBGC. Brugere kan finde alle mutationer af et bestemt gen detekteret i TCGA projektet. Disse mutationer blev behandlet af ICGC (https://dcc.icgc.org) baseret på TCGA data og refereres af hver mutation i DBGC.
Desuden er der gennemført flere gastrisk kræftrelaterede grundlæggende forskningsprojekter af vores forskerteam. Projektbeskrivelser og rådata findes i DBGC for download og yderligere analyse.
Database Byggeri
DBGC er en relationel database med en MySQL-data lag. En brugervenlig grænseflade designet til at organisere og vise data ressourcer ved hjælp af HTML og JavaScript. Samspillet mellem de data lag og web-interface blev afsluttet ved hjælp af Java EE Platform.
Resultater og Diskussion
Database Beskrivelse
Denne database består primært af tre langsgående datasystemer , epidemiologiske, klinisk-patologiske og molekylærbiologiske data (Fig 1). De molekylærbiologiske data består af gastrisk kræftrelaterede transcriptomics, proteomics, mutation, biomarkør og narkotikarelaterede følsomme gen data. De overordnede statistikker for disse data er anført i tabel 1. Sammen med den epidemiologiske statistikker over mavecancerpatienter i Kina og klinisk-patologisk oplysninger kommenteret med gastrisk kræfttilfælde blev alle disse data udtrukket fra offentlige databaser, publikationer og publiceret litteratur.
Database interfaces
1) Hurtig søgning (figur 2). Den hurtige søgefunktion modul gør identificerer rollen af et gen eller protein i mavekræft mulig via indtastning søgeord i søgefeltet placeret på navigationslinjen. Søgeresultatet vil fortælle dig, om genet eller protein udtrykkes forskelligt i eventuelle transcriptomics projekter eller proteomics projekter, og om det er blevet identificeret som en biomarkør for gastrisk kræft eller et lægemiddel-følsom gen. Desuden, hvis genet har nogen mutation, der er relateret til gastrisk cancer, en detaljeret liste vil blive vist på resultatsiden. For eksempel ved hjælp af “EGFR” som et søgeord, kan vi konkludere, at det blev identificeret som en opreguleret gen i GSE51936 og GSE27342 og som en nedreguleret gen i GSE29630. Den tilsvarende protein af genet EGFR blev identificeret som en up-reguleret protein i 3 proteomics projekter (PubMed IDS: 23.161.554, 24263233 og 24722433). EGFR er blevet rapporteret som en prognose faktor af gastrisk cancer og er relateret til medikamentresistens irinotecan, som er et almindeligt anvendt lægemiddel til behandling af gastrisk cancer. Fire mutationer af EGFR relateret til mavekræft er blevet rapporteret (c.2361G A, c.2402A G, c.2573T G, c.2588G A).
2) Gennemse og Søg (figur 3). Brug navigationen, kan brugerne klikke tilsvarende poster for at gennemse data ressourcer, i DBGC. Nærmere oplysninger vil blive angivet nedenfor. Vi har også etableret flere søgekriterier for hver type data ressource, hvorigennem alle dataelementer, der opfylder betingelserne vil blive vist.
3) Vores database adskiller sig fra andre online ressourcer på grund af inddragelse af epidemiologiske statistik over mavecancerpatienter i Kina. Brugere kan sammenligne statistikker efter køn (mandlige og kvindelige), område (by og land), og alder ved diagnose eller død. Sag nummer, død nummer, incidensrate, og dødelighed i et valgt år område kan vises i både graf og tabel format (Fig 4).
Diskussion
Gastric kræft er en førende kræft på verdensplan i både dødelighed og sygelighed. Højere forekomst og dødelighed af gastrisk kræft observeres i asiatiske regioner, især i Kina. De epidemiologiske statistiske data af mavekræft i denne database blev opnået primært fra publikationer fra CDC, som har været involveret i maligne tumor undersøgelser i flere årtier og har etableret omfattende arkiver ondartede tumor patienter i Kina. Disse data har spillet en vigtig rolle i at fremme forebyggelse af kræft og sundhed politikudformning i Kina [24-26]. Gennem at hente gastrisk cancer epidemiologi data i denne database, kan forskere og klinikere hurtigt at fastslå de epidemiologiske tendenser i mavekræft i Kina.
mavekræft-relaterede mutationer, biomarkører, narkotika-følsomme gener, transcriptomics projekter og tilsvarende varierende udtrykte gener, og proteomics eksperimenter og tilsvarende differentielt udtrykte proteiner blev manuelt indsamlet fra online databaser og publiceret litteratur. Den hurtige søgefunktion leveres af DBGC giver forskerne at identificere rollen af et gen eller protein i mavekræft. Disse differentielt udtrykte gener og proteiner indeholder rigelige vigtige oplysninger om mavekræft, og mange analytiske undersøgelser kan udføres ved hjælp af dem.
Vores forskning team har været involveret i gastrisk kræftforskning i mange år og har opbygget stor erfaring i tumor epidemiologisk forskning, mavekræft clinicopathology og biomarkør forskning, biobank bygning, molekylær biologisk mekanisme forskning, bioinformatik analyse og omfattende database byggeri [27-30]. At give forespørgsel og analyseværktøjer, der er mere bekvemt og praktisk for mavekræft forskere, vi bygget denne database. Den aktuelle version er 1.0. Fordi de store mængder data, der genereres af forskellige eksperimentelle platforme i forskellige områder er meget spredt og heterogene, kan have været savnet nogle nyttige oplysninger i vores proces med dataindsamling. Vi vil fortsætte med at hente disse data og opdatere de seneste data i lang tid for at sikre kvalitet og aktualitet af data. I den næste version, vi agter at dække de nyeste menneskelige gastric kræftrelaterede mutationer, biomarkører og narkotikarelaterede følsomme gener. Transcriptomics data vil blive lagt vægt på den næste version, hvor alle transcriptomics projekter vil blive re-analyseres for at udtrække differentielt udtrykte gener ved forskellige fold ændre værdier. Således kunne brugere forespørge om en bestemt gen udtrykkes differentielt gennem konfigurering af prøvetype og fold forandring værdi.
Konklusion
beskrives i denne artikel, at DBGC, database er en omfattende og web lettere tilgængelige database af human gastrisk cancer. Denne database har integreret en række data ressourcer i forbindelse med mavekræft og forudsat flere nemme-at-bruge web-baserede funktionelle moduler. Vi mener, at DBGC vil være et vigtigt redskab for mavekræft klinikere, tumor grundlæggende forskere, kræft genom forskere, offentlige sundhed politikere og gastrisk kræftpatienter.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.