手把手教你使用Python网络爬虫下载一本小说（附源码）-python爬虫实战

如果你想下载该网站上的任意一本小说的话，直接点击链接进去，如下图所示。只要将URL中的这个数字拿到就可以了，比方说这里是951，那么这个数字代表的就是这本书的书号，在后面的代码中可以用得到的。这篇文章主要给大家介绍了小说内容的获取方法，基于网络爬虫，通过requests爬虫库和bs4选择器进行实现，并且给大家例举了常见问题的处理方法。

懒大王爱吃狼

1467人浏览 · 2024-08-17 16:35:51

懒大王爱吃狼 · 2024-08-17 16:35:51 发布

前言

一个抓取小说的代码，感觉还是蛮不错的，这里分享给大家学习。

一、小说下载

如果你想下载该网站上的任意一本小说的话，直接输入名字试试，如下图所示。

在这里插入图片描述这样你就可以获取这本书的数字代码，那么这个数字代表的就是这本书的书号，在后面的代码中可以用得到的。

二、具体实现

代码，如下所示：


# coding: utf-8
'''
笔趣网小说下载
仅限用于研究代码
勿用于商业用途
'''
import requests
import os
from bs4 import BeautifulSoup
import time


def book_page_list(book_id):
    '''
    通过传入的书号bookid，获取此书的所有章节目录
    :param book_id:
    :return: 章节目录及章节地址
    '''
    url = 'http://www.biquw.com/book/{}/'.format(book_id)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
    response = requests.get(url, headers)
    response.encoding = response.apparent_encoding
    response = BeautifulSoup(response.text, 'lxml')
    booklist = response.find('div', class_='book_list').find_all('a')
    return booklist


def book_page_text(bookid, booklist):
    '''
    通过书号、章节目录，抓取每一章的内容并存档
    :param bookid:str
    :param booklist:
    :return:None
    '''
    try:
        for book_page in booklist:
            page_name = book_page.text.replace('*', '')
            page_id = book_page['href']
            time.sleep(3)
            url = 'http://www.biquw.com/book/{}/{}'.format(bookid,page_id)
            headers = {
                'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
            response_book = requests.get(url, headers)
            response_book.encoding = response_book.apparent_encoding
            response_book = BeautifulSoup(response_book.text, 'lxml')
            book_content = response_book.find('div', id="htmlContent")
            with open("./{}/{}.txt".format(bookid,page_name), 'a') as f:
                f.write(book_content.text.replace('\xa0', ''))
                print("当前下载章节：{}".format(page_name))
    except Exception as e:
        print(e)
        print("章节内容获取失败，请确保书号正确，及书本有正常内容。")


if __name__ == '__main__':
    bookid = input("请输入你要下载的小说编号：")
    # 如果书号对应的目录不存在，则新建目录，用于存放章节内容
    if not os.path.isdir('./{}'.format(bookid)):
        os.mkdir('./{}'.format(bookid))
    try:
        booklist = book_page_list(bookid)
        print("获取目录成功！")
        time.sleep(5)
        book_page_text(bookid, booklist)
    except Exception as e:
        print(e)
        print("获取目录失败，请确保书号输入正确！")

程序运行之后，在控制台输入书号，即可开始进行抓取了。
在这里插入图片描述
在本地也会自动新建一个文件夹，在该文件夹下，会存放小说的章节，如下图所示。

三、常见问题

在运行过程中小伙伴们应该会经常遇到这个问题，如下图所示。

这个是因为访问太快，网站给你反爬了。可以设置随机的user-agent或者上代理等方法解决。

四、总结

这篇文章主要给大家介绍了小说内容的获取方法，基于网络爬虫，通过requests爬虫库和bs4选择器进行实现，并且给大家例举了常见问题的处理方法。
上方代码你可在笔网页上点击书，然后复制他的数字编号直接获取

如需开头的.py文件可以在下方获取👇

在这里插入图片描述

本文仅仅做代码学习交流分享，大家切勿爬虫成疾，在爬虫的时候，也尽可能的选择晚上进行，设置多的睡眠，爬虫适可而止，千万别对对方服务器造成过压，谨记！谨记！谨记！

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

OpenLoong项目通过技术监督委员会（TOC）评审

开放原子开发者工作坊

开发者谈开源：KWDB开源数据库的未来路径与生态构建实践

开放原子开发者工作坊

开发者谈开源：洞悉协作创新背后的机遇与挑战

近日，在2024开放原子开发者大会暨首届开源技术学术大会开幕式上，开放原子开源基金会与openKylin、EasyAda、KWDB开源项目举行捐赠签约仪式。一场捐赠签约仪式，让三个开源项目及其背后的开发者们受到瞩目。本次，我们与“龘”（EasyAda）核心维护者王伶卓开启了对话。

开放原子开发者工作坊

所有评论(0)

查看更多评论

懒大王爱吃狼

@m0_65482549

已为社区贡献28条内容