python 批量下载pubmed文献（详细教程）使用noteexpress

python一键下载文献，可以是任何导入到noteexpress里的文章，只要有doi即可

tuntun16

6000人浏览 · 2022-06-07 01:06:49

tuntun16 · 2022-06-07 01:06:49 发布

首先是NOTEEXPRESS操作

1.pubmed上下载好题录,导入NE。如下图所示，有2篇文献。

2.点击【预览】，可以看到我们【导出题录】时候保持的样式

3.打开【样式管理器】如下：

4. 选择【安装新的样式输出】，打开已经修改好的年份-标题-doi【python】.nes

下载地址：链接：https://pan.baidu.com/s/1t5FH2TULPo28nKuDu_JDRg?pwd=agzy
提取码：agzy

5.看到下面的菜单栏，点击【样式】右边的三角形——【更多输出样式】

6.选择【自定义】，找到刚才的样式，然后确定

7.然后选中需要的题录，导出txt

在【使用样式】这里，同上操作，找到刚才设置好的样式

点击【开始导出】

桌面生成doi.txt 如下

接着是python操作

python代码:

import requests
from bs4 import BeautifulSoup
import os

# 题录格式如下：2020-Recurrent pregnancy loss-doi:10.1038/s41572-020-00228-z
DOI = []
f = open("C:/Users/docto/Desktop/doi.txt", "r", encoding="utf-8") #根据个人情况修改
for line in f.readlines():
    line = line[:-1]  #去掉换行符
    DOI.append(line)
#DOI = DOI[1:]  #如果第一行是空格，则从第二行开始
#print(DOI)

path = "C:/Users/docto/Desktop/sci_hub文献下载_doi1"   #输出文件夹所在地 #根据个人情况修改
if os.path.exists(path) == False:    #如果没有这个文件夹,那就创建一个
	os.mkdir(path)

head = {\
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'\
        }

i = 0
for doi in DOI:
    i = i + 1
    print("\n" + "[" + str(i) + "]")
    doi = doi.split("-doi:")  #将这一行字段分成两部分 doi[1],和doi[2]  "-doi"会消失在字段里
    url = "https://www.sci-hub.ren/" + doi[1]
    #print("  trying:  "+url)
    filename = path +"/"+ doi[0] + ".pdf"
    if os.path.exists(filename) == False: #判断是否存在这个文件了
        try:
            r = requests.get(url, headers = head)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            soup = BeautifulSoup(r.text, "html.parser")
            download_url = soup.iframe.attrs["src"]
            print("  Downloading:" + doi[0])
            download_r = requests.get(download_url, headers = head)
            download_r.raise_for_status()
            f = open(path +"/"+ doi[0] + ".pdf", "wb")
            f.write(download_r.content)
            print(" √" )
        except:    #跳过出错
            print("  XXX Cannot download:  " + doi[1] + "\n  " + doi[0] + "\n  " + url)
    else:
        print("  Pdf already exists: " + doi[0])