Python爬虫(Selenium)从网站获取信息并存入数据库(MySQL)

在本篇文章中，我们介绍了如何使用Python的Selenium库进行网页爬虫，从网站获取信息并存储到MySQL数据库中。我们详细讲解了每一步的实现过程，确保你能够理解并复现这个项目。通过学习如何从网站提取数据并将其存储在数据库中，你可以为后续的数据分析和处理打下基础。

一只蜗牛儿

744人浏览 · 2024-09-30 08:43:05

一只蜗牛儿 · 2024-09-30 08:43:05 发布

在本篇文章中，我们将介绍如何使用Python的Selenium库进行网页爬虫，从网站获取信息，并将获取到的数据存储到MySQL数据库中。我们将逐步讲解每个部分的实现细节，确保你能够顺利复现这个项目。

1. 项目准备

1.1 环境准备

确保你已经安装了以下依赖：

Python 3.x
Selenium
MySQL Connector/Python
ChromeDriver（需与Chrome浏览器版本匹配）

使用以下命令安装所需的Python库：

pip install selenium mysql-connector-python

1.2 数据库准备

在MySQL中创建一个数据库和表，用于存储爬取的数据。这里我们以爬取“示例网站”的用户信息为例，创建一个名为users的表。

CREATE DATABASE web_scraping;

USE web_scraping;

CREATE TABLE users (
    id INT AUTO_INCREMENT PRIMARY KEY,
    username VARCHAR(100),
    email VARCHAR(100),
    registration_date DATETIME
);

2. 使用Selenium进行网页爬虫

2.1 启动Selenium WebDriver

首先，我们需要启动Selenium WebDriver并打开目标网站。以下是一个简单的启动WebDriver的示例代码：

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 启动Chrome浏览器
driver = webdriver.Chrome(executable_path='path/to/chromedriver')
driver.get('https://example.com')  # 替换为目标网站URL

# 等待页面加载
time.sleep(3)

2.2 获取信息

我们将从目标网站获取用户信息，例如用户名、电子邮件和注册日期。使用Selenium定位元素并提取数据：

# 获取用户信息
users = driver.find_elements(By.CLASS_NAME, 'user')  # 根据实际网页结构修改
user_data = []

for user in users:
    username = user.find_element(By.CLASS_NAME, 'username').text
    email = user.find_element(By.CLASS_NAME, 'email').text
    registration_date = user.find_element(By.CLASS_NAME, 'registration-date').text
    user_data.append((username, email, registration_date))

# 关闭浏览器
driver.quit()

3. 将数据存储到MySQL数据库

3.1 连接数据库

在存储数据之前，我们需要连接到MySQL数据库。以下是连接数据库的代码示例：

import mysql.connector

# 连接到MySQL数据库
db = mysql.connector.connect(
    host='localhost',
    user='your_username',    # 替换为你的MySQL用户名
    password='your_password', # 替换为你的MySQL密码
    database='web_scraping'
)

cursor = db.cursor()

3.2 存储数据

将获取到的数据插入到数据库的users表中：

# 插入数据到数据库
insert_query = "INSERT INTO users (username, email, registration_date) VALUES (%s, %s, %s)"

for user in user_data:
    cursor.execute(insert_query, user)

# 提交事务
db.commit()

# 关闭连接
cursor.close()
db.close()

4. 完整代码

将以上所有代码组合在一起，形成一个完整的爬虫程序：

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import mysql.connector

# 启动Chrome浏览器
driver = webdriver.Chrome(executable_path='path/to/chromedriver')
driver.get('https://example.com')  # 替换为目标网站URL
time.sleep(3)

# 获取用户信息
users = driver.find_elements(By.CLASS_NAME, 'user')  # 根据实际网页结构修改
user_data = []

for user in users:
    username = user.find_element(By.CLASS_NAME, 'username').text
    email = user.find_element(By.CLASS_NAME, 'email').text
    registration_date = user.find_element(By.CLASS_NAME, 'registration-date').text
    user_data.append((username, email, registration_date))

# 关闭浏览器
driver.quit()

# 连接到MySQL数据库
db = mysql.connector.connect(
    host='localhost',
    user='your_username',    # 替换为你的MySQL用户名
    password='your_password', # 替换为你的MySQL密码
    database='web_scraping'
)

cursor = db.cursor()

# 插入数据到数据库
insert_query = "INSERT INTO users (username, email, registration_date) VALUES (%s, %s, %s)"

for user in user_data:
    cursor.execute(insert_query, user)

# 提交事务
db.commit()

# 关闭连接
cursor.close()
db.close()