2024年华数杯C题第二版本论文首发+数据集相关代码分享
老外游中国摘要最近,“city 不 city”这一网络流行语在外国网红的推动下备受关注。随着我 国过境免签政策的落实,越来越多外国游客来到中国,通过网络平台展示他们在 华旅行的见闻,这不仅推动了中国旅游业的发展,更是在国际舞台上展现了一个 真实而生动的中国,一举多得。假设外国游客入境后能在中国境内逗留144小时,且能从任一城市附近的机场出境。由于每个城市景点较多,为了便于外国游客能够游览到更多的城
老外游中国
摘要
最近,“city 不 city”这一网络流行语在外国网红的推动下备受关注。随着我 国过境免签政策的落实,越来越多外国游客来到中国,通过网络平台展示他们在 华旅行的见闻,这不仅推动了中国旅游业的发展,更是在国际舞台上展现了一个 真实而生动的中国,一举多得。假设外国游客入境后能在中国境内逗留144小时,且能从任一城市附近的机场出境。由于每个城市景点较多,为了便于外国游客能够游览到更多的城市,现 假定“每个城市只选择一个评分最高的景点游玩”,称之为“城市最佳景点游览原则”。现在需要我们进行数据处理、统计分析、路径优化、多目标优化等多个数学建模技术,通过合理的数据处理和算法选择,为外国游客在中国的游览提供最佳的解决方案。
针对问题1,首先对数据进行预处理,由于我们是通过评分来计算城市和经典数量的,因此第一步将评分为空值和“--”的数据进行删除操作(由于爬虫爬不到数据,因此是空值)。在删除掉噪声数据之后,将所有的数据进行集成,从总体的csv文件当中提取景点评分字段和所在城市,计算33000个景点的最高评分BS,然后统计出获评BS的景点数量,并找到这些景点分布的城市,最后按照拥有BS景点数量排序,列出前10个城市并将结
4.1 问题1求解与分析
4.1.1 问题1分析
针对问题1,首先对数据进行预处理,由于我们是通过评分来计算城市和经典数量的,因此第一步将评分为空值和“--”的数据进行删除操作(由于爬虫爬不到数据,因此是空值)。在删除掉噪声数据之后,将所有的数据进行集成,从总体的csv文件当中提取景点评分字段和所在城市,计算33000个景点的最高评分BS,然后统计出获评BS的景点数量,并找到这些景点分布的城市,最后按照拥有BS景点数量排序,列出前10个城市并将结果可视化。
4.1.2 问题1建模与求解
1、数据预处理
针对我们给出的附件的数据,首先要做的就是对数据进行预处理操作。数据集成是一个将来自不同源的数据合并到一个统一的数据存储库中的过程,以便进行更有效的分析和处理。在问题1当中,首先,需要确认所有352个城市的数据源,确保每个城市的旅游景点数据都存储在CSV文件中,并且每个文件都包含100个经典景点的信息。在合并之前,需要确保所有CSV文件的数据格式是一致的,包括列名、数据类型等。从100各城市数据中可以看到,很多城市并没有100个景点,因此最终得到的数据并不是35200个,而是33000左右。接下来采用python当中的pandas库对352个中国城市旅游景点数据进行合并到一个统一的DataFrame中,并在合并过程中保持数据的完整性和一致性,以便进行进一步问题的数据分析和处理。问题1用到的数据有景点名字、评分以及来源城市。处理前和处理后的数据如图1所示(显示前五行),可以很明显的看出评分的噪声被删除完毕。处理后的数据如图2所示,可以用于直接解决问题1。
由结果可知,所有城市的景点中最高评分是5.0,获得最高评分5.0的景点数量共有2563个,拥有最高评分景点最多的城市前10名分别是三沙、五家渠、玉溪、益阳、天门、阿拉尔、潍坊、烟台、大兴安岭和邢台。可视化结果如下图所示:
4.2 问题2求解与分析
4.2.1 问题2分析
问题2要求结合城市规模、环境环保、人文底蕴、交通便利,以及气候、美食等因素,对 352 个城市进行综合评价,并选出“最令外国游客向往的50个城市”。首先就是数据收集,由于附件数据没有问题2要求的指标,因此从各网站上爬取相关指标评分,然后对不同指标进行标准化处理,确保指标的可比性。接下来对数据进行标准化,然后根据每个指标的重要性分配权重,进行加权求和得到综合评分。最后根据综合评分进行排序,选出最令外国游客向往的50个城市。
4.2.2 问题2模与求解
1、数据采集与数据预处理
问题2需要收集每个城市的规模、环保、人文、交通、气候、美食等数据评分,因此从不同网站上选取了AQI、绿化覆盖率 (%)、废水处理率(%)、废气处理率 (%)、垃圾分类处理率 (%)、历史遗迹数量、博物馆数量、文化活动频次、文化设施数量、公共交通覆盖率 (%)、线路密度 (km/km²) 、高速公路里程 (km)、机场航班数量、年平均气温 (℃)、年降水量 (mm) 、适宜旅游天数、空气湿度 (%) 、餐馆数量、特色美食数量、美食活动频次指标,图6至图8是从不同网站当中收集到的AQI、空气湿度、平均气温等指标的可视化图像,根据这些网站和网站可视化数据整理出来了问题2所需要的数据。如图9所示,根据图9的数据进行问题2的处理。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)