华数杯分享资料(问题一代码+论文+思路)链接(已更新):

通过百度网盘分享的文件:免费分享资料

链接:https://pan.baidu.com/s/14yA1euqJVci3DI7BYqc2Cw

提取码:sxjm

图片

基于贪心算法下的外国人7天中国游优化研究

摘 要

本研究针对外国游客在中国旅游的需求,建立了多种模型以优化游客的游玩路线和体验。

在综合评价352个城市时,考虑了多个因素,包括城市规模、环境环保、人文底蕴、交通便利、气候和美食。通过KMO检验,验证了数据的适用性。然后,采用主成分分析来提取每个因素中的主要成分,降低数据的维度。在无法通过KMO检验的情况下,使用基于熵权法的TOPSIS方法进行降维和权重分配。最终,通过综合这些降维后的数据,对352个城市进行评价,得出了“最令外国游客向往的50个城市”。

对于问题一,针对从广州出发的游客。构建了基于高铁交通的优化路线规划模型,以确保在144小时内尽可能多地游览评分最高的景点。模型中,考虑了总时间限制、每个景点的游玩时间和门票价格。通过贪心算法,找到了在有限时间内游览最多高评分景点的最优路径。该算法每次选择评分最高且总费用最低的景点,并计算其旅行时间和游玩时间,确保总时间不超过144小时。还考虑了本地赶路时间和每天的休息时间,确保模型的实际可操作性和合理性。

对于问题三,在费用优化模型中,进一步优化了游玩路线,目标是既要游览尽可能多的城市,又要使门票和交通的总费用尽可能少。综合考虑了评分、时间和费用,通过贪心算法找到了一个平衡点

关键词:旅游规划,综合评价,优化路线,数据预处理,主成分分析,TOPSIS,贪心算法

一、模型的建立与求解

5.1 数据预处理

5.1.1 数据合并

收集并整合352个城市的旅游景点数据,形成一个包含35200个景点的统一数据集。对于题目给出的数据,并非每个城市都是100个景点,有些城市不足100个。仅有226个城市满足100个景点。具体结果如下所示。

表1:景点个数统计

景点个数

计数

10

3

20

4

40

1

70

2

80

9

81

1

89

1

90

61

91

5

92

5

93

4

94

3

95

4

96

3

97

5

98

6

99

6

100

226

图片

从图中可以看到,每个城市提供的景点数量分布情况较为均匀,但仍有部分城市提供的景点数量明显不足。通过这一步数据预处理,为后续的模型建立奠定了数据基础,确保了数据的完整性和准确性。

5.1.2 数据收集

对于问题二需要以城市为主题,考虑城市规模、环境环保、人文底蕴、交通便利,以及气候、美食等因素。因此,进行了爬虫收集了352个城市的各项指标数据,部分来源网站如下所示

表1:爬虫部分网站

爬虫部分网站

https://huanbao.bjx.com.cn/news/20220701/1237767.shtml

https://abazhou.gov.cn/abazhou/2019nnj/l_c.shtml

https://www.iqair.cn/cn/china/sichuan/aba

https://aqicn.org/city/ngawa-zong/cn/

https://www.qweather.com/air/aba-prefecture-101271901.html

https://www.tianqi.com/air/aba.html

https://www.iqair.cn/cn/china/xinjiang/aksu

图片

为了对后续问题的合城市规模、环境环保、人文底蕴、交通便利,以及气候、美食等因素的数据分析,为了方便后续问题的模型建立与处理,基于该因素收集了AQI 绿化覆盖率 (%) 废水处理率 (%) 废气处理率 (%) 垃圾分类处理率 (%) 历史遗迹数量 博物馆数量 文化活动频次 文化设施数量 公共交通覆盖率 (%) 线路密度 (km/km²) 高速公路里程 (km) 机场航班数量 年平均气温 (℃) 年降水量 (mm) 适宜旅游天数 空气湿度 (%) 餐馆数量 特色美食数量 美食活动频次20十项指标。

这些指标涵盖了环境、文化、交通、气候和旅游设施等多个方面的信息。以下是对每个指标的介绍及其重要性说明:

1. AQI(空气质量指数):空气质量指数(AQI)用于报告每日空气质量。它描述了空气的清洁程度以及空气污染对人类健康的潜在影响。良好的空气质量是游客健康和旅游体验的重要保障。高AQI值可能会对游客健康产生负面影响,降低旅游吸引力。

2. 绿化覆盖率 (%):城市绿化覆盖率是指城市绿地面积占城市建成区总面表1:指标分类

分类

指标

城市规模

历史遗迹数量

博物馆数量

文化设施数量

餐馆数量

环境环保

AQI

绿化覆盖率 (%)

废水处理率 (%)

废气处理率 (%)

垃圾分类处理率 (%)

空气湿度 (%)

人文底蕴

文化活动频次

文化设施数量

历史遗迹数量

交通便利

公共交通覆盖率 (%)

线路密度 (km/km²)

高速公路里程 (km)

机场航班数量

气候

年平均气温 (℃)

年降水量 (mm)

适宜旅游天数

美食

特色美食数量

美食活动频次

餐馆数量

其中部分指标数据可视化如下所示

图片

对于后续问题解题需要所给出城市的经纬度,通过数据查找得出结果如下所示

图片

5.1.3 数据清洗

对于合并后的数据存在大量的缺失值异常值需要进行处理进行剔除,综上所述,方便起见可以直接给出合理的依据将文件,删除评分列中包含空缺值、0、-- 标记的行,该方式简单且符合实际情况。以下为异常值处理前后变化

图片

5.2 问题一模型的建立与求解

对于问题一,利用数据合并的结果进行数据分析即可。对于最高评分,通过调用 DataFrame 的 max方法,可以获取这一最高评分值。这个最高评分值就是所称的 Best Score (BS)。接下来,筛选出评分等于最高评分的所有景点数据。这些景点就是获得最高评分的景点。统计这些景点的数量,可以得到全国范围内获评最高评分的景点总数。

按城市进行分组,并统计每个城市中最高评分景点的数量。通过对筛选出的景点数据按城市进行计数,可以得到每个城市中最高评分景点的数量。按照景点数量从高到低对城市进行排序,提取出拥有最多最高评分景点的前10个城市。这些城市是需要重点展示的。具体结果如下所示

图片

图片

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐