详细内容或原文请订阅后点击阅览
构建 PubMed 数据集
构建 PubMed 列出的心血管疾病研究出版物数据集的分步说明作者拍摄照片挑战当我开始撰写硕士论文“与 NIH 资助的心脏病研究中有影响力的科学出版物相关的因素”时,第一个任务是构建一个原始数据集来研究。为了实现这一目标,我求助于 PubMed,这是美国国家医学图书馆 (NLM) 提供的免费研究数据库,用于访问生物医学文献。数据集需要满足几个特定标准,包括:跨越尽可能长的时间段。包括由国立卫生研究院 (NIH) 资助的研究。专注于心血管疾病研究出版物。提供有关第一作者的详细信息,例如其全名、性别、机构隶属关系和研究机构所在的国家/地区。包含每篇文章收到的引用次数、NIH 百分位排名、文章中的总参考文献以及其他与引用相关的数据的信息。包括期刊的科学排名信息。在本文中,我将解释如何根据这些标准创建 PubMed 列出的出版物的数据集。两个限制因素,即第一作者全名的可用性和引用所需的年份,用于选择数据收集的时间段。从 2002 年开始,PubMed 记录开始包含文章的完整作者姓名,即完整作者 (FAU)
来源:走向数据科学构建PubMed数据集
构建有关心血管疾病研究的PubMed上市出版物数据集的分步说明
挑战
当我开始研究硕士论文时,标题为“与NIH资助的心脏病研究中有影响力的科学出版物有关的因素”时,第一个任务是建立一个原始数据集进行研究。为了实现这一目标,我转向了由国家医学图书馆(NLM)提供的免费研究数据库PubMed,用于访问生物医学文献。
满足多个特定标准所需的数据集,包括:
- Spanning the longest possible time period.Including research funded by the National Institutes of Health (NIH).Focusing exclusively on Cardiovascular Disease Research publications.Providing details about the first author, such as their full name, gender, institutional affiliation, and the country of the research institute.Containing information on the number of citations each article received, NIH percentile ranking, total references in the article, and other citation-related数据。包括期刊的科学排名信息。
在本文中,我将根据这些标准来解释如何创建公开上市出版物的数据集。
2020年的PubMed查询示例:“心血管或缺血或心脏和NHLBI [GR]和2020 [DP]”。