python 批量下载pubmed文献 (详细教程)使用noteexpress
python一键下载文献,可以是任何导入到noteexpress里的文章,只要有doi即可
·
首先是NOTEEXPRESS操作
1.pubmed上下载好题录,导入NE。如下图所示,有2篇文献。
2.点击【预览】,可以看到我们【导出题录】时候保持的样式
3.打开【样式管理器】如下:
4. 选择【安装新的样式输出】,打开已经修改好的 年份-标题-doi【python】.nes
下载地址:链接:https://pan.baidu.com/s/1t5FH2TULPo28nKuDu_JDRg?pwd=agzy
提取码:agzy
5.看到下面的菜单栏,点击【样式】右边的三角形——【更多输出样式】
6.选择【自定义】,找到刚才的样式,然后确定
7.然后选中需要的题录,导出txt
在【使用样式】这里,同上操作,找到刚才设置好的样式
点击【开始导出】
桌面生成doi.txt 如下
接着是python操作
python代码:
import requests
from bs4 import BeautifulSoup
import os
# 题录格式如下:2020-Recurrent pregnancy loss-doi:10.1038/s41572-020-00228-z
DOI = []
f = open("C:/Users/docto/Desktop/doi.txt", "r", encoding="utf-8") #根据个人情况修改
for line in f.readlines():
line = line[:-1] #去掉换行符
DOI.append(line)
#DOI = DOI[1:] #如果第一行是空格,则从第二行开始
#print(DOI)
path = "C:/Users/docto/Desktop/sci_hub文献下载_doi1" #输出文件夹所在地 #根据个人情况修改
if os.path.exists(path) == False: #如果没有这个文件夹,那就创建一个
os.mkdir(path)
head = {\
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'\
}
i = 0
for doi in DOI:
i = i + 1
print("\n" + "[" + str(i) + "]")
doi = doi.split("-doi:") #将这一行字段分成两部分 doi[1],和doi[2] "-doi"会消失在字段里
url = "https://www.sci-hub.ren/" + doi[1]
#print(" trying: "+url)
filename = path +"/"+ doi[0] + ".pdf"
if os.path.exists(filename) == False: #判断是否存在这个文件了
try:
r = requests.get(url, headers = head)
r.raise_for_status()
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, "html.parser")
download_url = soup.iframe.attrs["src"]
print(" Downloading:" + doi[0])
download_r = requests.get(download_url, headers = head)
download_r.raise_for_status()
f = open(path +"/"+ doi[0] + ".pdf", "wb")
f.write(download_r.content)
print(" √" )
except: #跳过出错
print(" XXX Cannot download: " + doi[1] + "\n " + doi[0] + "\n " + url)
else:
print(" Pdf already exists: " + doi[0])
这个代码有查重复功能,如果下载失败了,直接重新运行即可,不会重复下载已有文献
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
已为社区贡献1条内容
所有评论(0)