从网页获取数据,对于爬虫等方法是很快,但是网页文件通常对新手不友好,结构格式什么的很复杂,对于无写爬虫代码能力的小白就只能复制粘贴数据了,一点点从网页上把数据复制,然后粘贴到excel里面。

但是对于复制粘贴,也有快速的方法。

主要依靠pandas库里面的pd.read_clipboard()实现,该函数可以读取剪贴板,变为数据框。

具体使用方法演示如下:

首先我找了一个案例网站,还是东方财富网,财报数据:

2022年中报业绩大全 _ 数据中心 _ 东方财富网 (eastmoney.com)

 到这个网站我们先复制一下第一页的数据。

 注意我这里复制的时候没有复制标题,因为东方财富网这个标题不规范,行数不一样,所以我们复制的时候就复制下面的数据就行。

当然存储下来的数据也没有标题,不过标题就一行,可以后面再去手动加。

写一个Python脚本,运行:

import pandas as pd
data=pd.DataFrame()

while True:
    a=input('退出就输入n,回车或任意键继续')
    if a=='n':
        break
    df=pd.read_clipboard(header=None)
    data=data.append(df)

data.to_excel('复制粘贴的数据.xlsx',index=False)

 每一次我们复制了新的数据,就按一次回车就行,然后再去复制下一页,回车让数据进去,然后循环往复.........当然回车前输入任意别的字符也可以,如果复制完了就输入“n”然后回车退出。

退出后该目录下就会自动多出一个excel文件:

 

 我这里复制了四次,然后存储下来,看看结果:

效果还不错,列名没有后面可以自己加。然后复制了4页就是200条数据,也是对得上,没问题。 

 

 


复制什么别的数据也是可以的,只要列数都是一样,每次回车新复制的数据都会追加进去。

如果感觉要复制的量太多也可以分批完成,先复制1-5页存下来看看效果,然后继续复制6-10....最后合并一下就行。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐