Python基于Scrapy爬虫的用户购物网购行为的商品推荐大数据可视化分析系统

用户端功能注册登录：用户可以通过手机号注册和密码登录，支持密码找回和重置功能。个人中心：用户可以查看和编辑个人资料，如用户名、邮箱、手机号等，并支持密码的修改。历史浏览记录：系统记录用户的浏览历史和搜索记录，方便用户回顾。公告评论：用户可以对公告进行评论并参与讨论。标签筛选管理员端功能数据爬取：从电商平台（淘宝）爬取商品数据，。用户行为分析：分析用户的浏览、搜索、购买行为，以进行个性化推荐和分析。

豆包程序员

1306人浏览 · 2024-09-26 10:48:04

豆包程序员 · 2024-09-26 10:48:04 发布

项目介绍

用户端功能
注册登录：用户可以通过手机号注册和密码登录，支持密码找回和重置功能。
个人中心：用户可以查看和编辑个人资料，如用户名、邮箱、手机号等，并支持密码的修改。
我的收藏：用户可以收藏内容，并可查看自己的收藏数据。
历史浏览记录：系统记录用户的浏览历史和搜索记录，方便用户回顾。
公告评论：用户可以对公告进行评论并参与讨论。
标签筛选
管理员端功能
数据爬取：从电商平台（淘宝）爬取商品数据，。
用户行为分析：分析用户的浏览、搜索、购买行为，以进行个性化推荐和分析。
数据看板：展示关键业务指标，如访问量、用户增长率、转化率等。
系统管理-权限设置：配置和管理管理员权限。
网购行为分析：综合分析用户的网购行为。
用户购物情况分析：深入了解用户的购物习惯和偏好。
店家数量分析：统计和分析平台上店家的数量和类别。
活跃度分析：分析用户在网购平台的活跃程度。
网购购物车分析：研究用户购物车的使用习惯。
点击率分析：分析商品的点击率，了解用户兴趣。
爬虫管理：管理爬虫任务的启动和停止，确保数据采集的连续性和质量。
市场趋势分析：分析行业趋势、热销商品、用户偏好变化等，为决策提供依据。
销售排行榜：根据销量展示各类商品的排名，分析销售趋势。
价格区间分析：根据商品价格区间，分析用户的消费偏好。

实现功能截图

在这里插入图片描述

技术栈

基于Python大数据技术进行网络爬虫的设计,框架使用Scrapy.
系统设计支持以下技术栈
前端开发框架:vue.js
数据库 mysql 版本不限
后端语言框架支持：
1 java(SSM/springboot)-idea/eclipse
2.python(flask/django)–pycharm/vscode
3.Nodejs+Vue.js -vscode
4.php(thinkphp/laravel)-hbuilderx/vscode
数据库工具：Navicat/SQLyog等都可以

Scrapy爬虫框架

Scrapy是一个Python编写的强大，灵活的网络爬虫框架和数据提取工具。它使用异步I/O网络库Twisted进行高效的爬取，并将提取到的数据存储到多种格式中。然而，在需要大规模爬取复杂的网站时，单机爬虫速度会受到限制。为了解决这个问题，Scrapy提供了分布式爬虫系统
#协同过滤算法
协同过滤推荐技术一般采用最近邻技术，利用用户的历史喜好信息计算用户之间的距离，然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度，系统从而根据这一喜好程度来对目标用户进行推荐。基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的，而且是自动的即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的，不需要用户努力地找到适合自己兴趣的推荐信息。

关键技术和使用的工具环境等的说明

MySQL是一种关系型数据库管理系统，是大部分程序员接触的第一款关系型数据库。它相对于其他数据库来说相当轻量级，而且更加灵活。在大量的web工程中，经常作为首选的数据库，因为其开源免费的特点被大量的开发人员所使用。而且在大数据背景下，其海量的集群更为web的高并发提供了良好的后盾。

虽然Spark同样是大数据的框架和计算模型，但其实它与hadoop是相辅相成的，而且可以灵活的部署在hadoop之上，共享hadoop的文件系统。并且在数据处理上更为高效和方便、灵活。在数据量越来越庞大的现在，基于内存的spark可以很快的得到处理的结果，甚至现在已经可以支持近实时的数据处理。使得大数据的价值更加凸显。

Hadoop是由Apache基金会开源的分布式的大数据基础系统。
用户可以在不知道分布式基础设施的细节的情况下开发分布式程序。可以利用无数台节点集群进行高速计算和文件的多副本容错存储。

ECharts是百度开源的一个数据可视化框架，是web端的js框架，可以很方便的进行搭建数据可视化前端界面。官网的文档尤其简洁，极易上手开发，使得海量数据处理完成后，可以方便高效快速的进行可视化处理，直接作用于决策。使得数据的价值得到了直观的展示和提升。目前支持多种图形的绘制。

解决的思路

该系统架构主要依托scrapy框架进行架构，后台采用python动态网页语言编写，使用scrapy框架技术从网站上爬取数据,采用java/python/php/nodejs部署系统环境，使用pyhcarm作为系统的开发平台，在数据库设计和管理上使用MySQL。在人机交互的过程中，客户端不直接与数据库交互，而是通过组件与中间层建立连接，再由中间层与数据库交互。通过设计良好的框架可以减轻重新建立解决复杂问题方案的负担和精力，并且它可以被扩展以进行内部的定制化，有强大的用户社区来支持它，所以框架通常能很好的解决一个问题。

开发流程

在对大数据的深入研究后，根据其前景，包括数据方面的发展与价值，本套系统从用户痛点需求进行分析入手，对系统架构进行了设计，随后完成了系统方面的具体设计，最后为数据入库对DB进行配置和设计，最后到系统搭建和编码实现，分别为后台数据处理，在数据转换方面包括数据的clean、临时存储落地，数据经过完全处理后入库，和前台的ECharts可视化系统，对处理后落地的数据使用饼图进行可视化展现。对系统进行功能叙述、进行详细的系统分析、进行整体的结构性框架设计和对系统详细的设计、最终完成系统的搭建部分和对系统进行的单元测试这几个方面描述了整个系统的流程。

爬虫核心代码展示

import scrapy
import pymysql
import pymssql
from ..items import xiangmuItem
import time
import re
import random
import platform
import json
import os
from urllib.parse import urlparse
import requests
import emoji
class xiangmuSpider(scrapy.Spider):
    name = 'xiangmuSpider'
    spiderUrl = 'https://url网址'
    start_urls = spiderUrl.split(";")
    protocol = ''
    hostname = ''

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)


    # 列表解析
    def parse(self, response):
        
        _url = urlparse(self.spiderUrl)
        self.protocol = _url.scheme
        self.hostname = _url.netloc
        plat = platform.system().lower()
        if plat == 'windows_bak':
            pass
        elif plat == 'linux' or plat == 'windows':
            connect = self.db_connect()
            cursor = connect.cursor()
            if self.table_exists(cursor, 'xiangmu') == 1:
                cursor.close()
                connect.close()
                self.temp_data()
                return

        list = response.css('ul.subject-list li.subject-item')
        
        for item in list:

            fields = xiangmuItem()



            fields["laiyuan"] = self.remove_html(item.css('div.pic a.nbg::attr(href)').extract_first())
            if fields["laiyuan"].startswith('//'):
                fields["laiyuan"] = self.protocol + ':' + fields["laiyuan"]
            elif fields["laiyuan"].startswith('/'):
                fields["laiyuan"] = self.protocol + '://' + self.hostname + fields["laiyuan"]
            fields["fengmian"] = self.remove_html(item.css('div.pic a.nbg img::attr(src)').extract_first())
            fields["xiaoshuoming"] = self.remove_html(item.css('div.info h2 a::attr(title)').extract_first())

            detailUrlRule = item.css('div.pic a.nbg::attr(href)').extract_first()
            if self.protocol in detailUrlRule:
                pass
            elif detailUrlRule.startswith('//'):
                detailUrlRule = self.protocol + ':' + detailUrlRule
            else:
                detailUrlRule = self.protocol + '://' + self.hostname + detailUrlRule
                fields["laiyuan"] = detailUrlRule

            yield scrapy.Request(url=detailUrlRule, meta={'fields': fields},  callback=self.detail_parse)


    # 详情解析
    def detail_parse(self, response):
        fields = response.meta['fields']

        try:
            if '(.*?)' in '''div#info span a::text''':
                fields["zuozhe"] = re.findall(r'''div#info span a::text''', response.text, re.S)[0].strip()
            else:
                if 'zuozhe' != 'xiangqing' and 'zuozhe' != 'detail' and 'zuozhe' != 'pinglun' and 'zuozhe' != 'zuofa':
                    fields["zuozhe"] = self.remove_html(response.css('''div#info span a::text''').extract_first())
                else:
                    fields["zuozhe"] = emoji.demojize(response.css('''div#info span a::text''').extract_first())
        except:
            pass
 # 去除多余html标签
    def remove_html(self, html):
        if html == None:
            return ''
        pattern = re.compile(r'<[^>]+>', re.S)
        return pattern.sub('', html).strip()

    # 数据库连接
    def db_connect(self):
        type = self.settings.get('TYPE', 'mysql')
        host = self.settings.get('HOST', 'localhost')
        port = int(self.settings.get('PORT', 3306))
        user = self.settings.get('USER', 'root')
        password = self.settings.get('PASSWORD', '123456')

        try:
            database = self.databaseName
        except:
            database = self.settings.get('DATABASE', '')

        if type == 'mysql':
            connect = pymysql.connect(host=host, port=port, db=database, user=user, passwd=password, charset='utf8')
        else:
            connect = pymssql.connect(host=host, user=user, password=password, database=database)

        return connect

    # 断表是否存在
    def table_exists(self, cursor, table_name):
        cursor.execute("show tables;")
        tables = [cursor.fetchall()]
        table_list = re.findall('(\'.*?\')',str(tables))
        table_list = [re.sub("'",'',each) for each in table_list]

        if table_name in table_list:
            return 1
        else:
            return 0

系统设计

系统设计与网络爬虫开发，包括：设计系统架构，包括数据采集、处理、存储和可视化模块。编写网络爬虫代码，实现对目标网站的数据爬取
数据处理、分析，数据可视化与系统测试
对爬取的数据进行清洗和预处理，使用统计进行数据分析，开发数据可视化界面，使分析结果直观呈现。以及进行系统测试，确保所有模块稳定运行。
技术选择方面尽量选择比较成熟可靠的技术，保证系统的可靠性、安全性、可用性。通过论证，在现有技术的情况下基本上可以实现上述需求。
尽量选用正版软件和操作系统，保护知识产权，满足企业发展的要求。