以下为《1210-Pubmed数据库说明文档》的无排版文字预览,完整内容请下载
Pubmed数据库说明
1. 数据库备份与恢复说明
1.1 数据库压缩备份
Sqlcmd是SQL Server提供的命令行工具。使用sqlcmd对数据库进行压缩备份,数据库备份文件大小为290GB。Sqlcmd中 U 后为实例名, P后为*** 后为查询语句
其中 with stat=1,compression 表示启用压缩
1.2 数据库恢复
恢复为SQL Server数据库,语句如下:
2.PubMed19数据库表格与主要字段说明介绍
A开头的表格是PubMed的原始数据表;B开头的表格是外部数据源填充表格,为消歧工作提供支持;C开头的表格是从A表与B表里面提取出关键信息后合成的表格,便于后面的统计与计算;T开头的表格是消歧工作过程中产生的中间计算表格。
2.1 A01_Articles
每篇文章的具体信息表格
主要字段说明:
字段名
含义
PMID
PubMed(NLM数据库与MEDLINE数据库的合并)给每篇文章的唯一编号
MedlineCitation_Owner
负责创建和验证引文的组织,一共有八个:NLM, NASA, PIP, KIE, HSR, HMD, SIS, NOTNLM
MedlineCitation_Status
引文所处的阶段,有七个可能取值:Completed | In-Process | PubMed-not-MEDLINE | In-Data-Review | Publisher | MEDLINE | OLDMEDLINE,我们选取该属性值为MEDLINE的文章进行分析
Journal_JournalIssue_PubDate_Year
文章的发表年份
Journal_JournalIssue_PubDate_MedlineDate
当Journal_JournalIssue_PubDate_Year字段提取失效(该字段为空)文章的出版年份会在该字段显示
2.2 A02_AuthorList
作者信息
PMID
PubMed(NLM数据库与MEDLINE数据库的合并)给每篇文章的唯一编号
Au_Order
作者在当前文章中的排名
LastName
作者的姓氏
ForeName
作者名字中除去姓氏与后缀的剩余部分
LastNameForeName
LastName+,+ForeName的首字母生成的MD5码,方便后续计算时进行匹配。
AuthorNum
每篇文章的作者数量
Vetle_aid
Vetle进行消歧之后为每个作者分配的作者编号aid
ORCID
作者的ORCID
StrongID
我们根据强指标进行消歧后为每个作者分配的作者编号
S2ID
Semantic Scholar为每个作者分配的唯一编号。
PIID
如果该作者在NIH项目中担任负责人(PI)
,则该字段记录了他在ExPORTER数据库中被分配的PI_ID(每个负责人如果负责多个子项目,则其被分配的PI_ID可能不止一个,多个PI_ID用“,”分隔)。
aid
最终使用的作者消歧结果。以S2id为主体,利用其它消歧作者id进行补充
2.3 A03_KeywordList
文章的关键词信息表格(表格中的关键词信息由数据生产者提供)
PMID
PubMed(NLM数据库与MEDLINE数据库的合并)给每篇文章的唯一编号
Keyword
文章的关键词信息
2.4 A04_A 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 on_merge
合并B05_Vetle_Map与A13_AffiliatioinList的信息,包含解析出来的机构信息,如Zipcode(邮政编码)、Location(位置)、Country(国家)等
2.29 C04_MeshHeadingList_simple
从A06抽取的MeshHeading主题词信息表格,包括PMID,DescriptorName
2.30 C05_NIH_PubMed
从A02和B02中,根据PMID与作者姓名(姓氏全称与名首字母)匹配得到出作者AID与NIH项目负责人(PI)编号PIID的对应表,包括PIID、AID、ProjectNumber等
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]
以上为《1210-Pubmed数据库说明文档》的无排版文字预览,完整内容请下载
1210-Pubmed数据库说明文档由用户“jonewuc999”分享发布,转载请注明出处