首先是NOTEEXPRESS操作

1.pubmed上下载好题录,导入NE。如下图所示,有2篇文献。

2.点击【预览】,可以看到我们【导出题录】时候保持的样式


3.打开【样式管理器】如下:


4. 选择【安装新的样式输出】,打开已经修改好的 年份-标题-doi【python】.nes

下载地址:链接:https://pan.baidu.com/s/1t5FH2TULPo28nKuDu_JDRg?pwd=agzy 
提取码:agzy 

 

 5.看到下面的菜单栏,点击【样式】右边的三角形——【更多输出样式】

 

 6.选择【自定义】,找到刚才的样式,然后确定

 

 7.然后选中需要的题录,导出txt

 

 在【使用样式】这里,同上操作,找到刚才设置好的样式

点击【开始导出】

桌面生成doi.txt 如下

 


 接着是python操作

python代码:

import requests
from bs4 import BeautifulSoup
import os

# 题录格式如下:2020-Recurrent pregnancy loss-doi:10.1038/s41572-020-00228-z
DOI = []
f = open("C:/Users/docto/Desktop/doi.txt", "r", encoding="utf-8") #根据个人情况修改
for line in f.readlines():
    line = line[:-1]  #去掉换行符
    DOI.append(line)
#DOI = DOI[1:]  #如果第一行是空格,则从第二行开始
#print(DOI)

path = "C:/Users/docto/Desktop/sci_hub文献下载_doi1"   #输出文件夹所在地 #根据个人情况修改
if os.path.exists(path) == False:    #如果没有这个文件夹,那就创建一个
	os.mkdir(path)

head = {\
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'\
        }

i = 0
for doi in DOI:
    i = i + 1
    print("\n" + "[" + str(i) + "]")
    doi = doi.split("-doi:")  #将这一行字段分成两部分 doi[1],和doi[2]  "-doi"会消失在字段里
    url = "https://www.sci-hub.ren/" + doi[1]
    #print("  trying:  "+url)
    filename = path +"/"+ doi[0] + ".pdf"
    if os.path.exists(filename) == False: #判断是否存在这个文件了
        try:
            r = requests.get(url, headers = head)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            soup = BeautifulSoup(r.text, "html.parser")
            download_url = soup.iframe.attrs["src"]
            print("  Downloading:" + doi[0])
            download_r = requests.get(download_url, headers = head)
            download_r.raise_for_status()
            f = open(path +"/"+ doi[0] + ".pdf", "wb")
            f.write(download_r.content)
            print(" √" )
        except:    #跳过出错
            print("  XXX Cannot download:  " + doi[1] + "\n  " + doi[0] + "\n  " + url)
    else:
        print("  Pdf already exists: " + doi[0])

这个代码有查重复功能,如果下载失败了,直接重新运行即可,不会重复下载已有文献

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐