第2关：线性回归的正规方程解

波斯顿房价数据集共有506条波斯顿房价的数据，每条数据包括对指定房屋的13项数值型特征和目标房价组成。用数据集的80%作为训练集，数据集的20%作为测试集，训练集和测试集中都包括特征和目标房价。sklearn中已经提供了波斯顿房价数据集的相关接口，想要使用该数据集可以使用如下代码：#加载波斯顿房价数据集#X表示特征，y表示目标房价。

微风可凉

2293人浏览 · 2023-11-02 15:33:51

微风可凉 · 2023-11-02 15:33:51 发布

任务描述

本关任务：根据本关卡所学知识，构建线性回归算法，并利用波斯顿房价数据对模型进行训练，然后对未知的房价数据进行预测。

编程要求

根据提示，在右侧编辑器补充 Python 代码，实现线性回归算法与MSE损失函数计算方法，并利用房价数据对模型进行训练，然后对未知的房价数据进行预测。

函数说明

numpy方法：

numpy.mean(array, axis) 指定轴上数组元素计算算术平均数。
1. numpy.mean([ [1,2,3],
2. [4,5,6],
3. [7,8,9]],axis=0)
4. [4. 5. 6.]
numpy.ones(shape) 返回一个包含给定形状和数据类型的新数组。
1. numpy.ones([3, 3])
2. [[1. 1. 1.]
3. [1. 1. 1.]
4. [1. 1. 1.]]
numpy.hstack((a, b)) 按水平方向（列顺序）堆叠数组构成一个新的数组。
1. numpy.hstack(([1,2,3],[4,5,6]))
2. [1 2 3 4 5 6]
numpy.vstack((a, b)) 按垂直方向（行顺序）堆叠数组构成一个新的数组。
1. numpy.vstack(([1,2,3],[4,5,6]))
2. [[1 2 3]
3. [4 5 6]]
numpy线性代数方法：

numpy.linalg.inv(m) 返回 m 的逆矩阵
1. numpy.linalg.inv([[2,5],[1,3]])
2. [[ 3. -5.]
3. [-1. 2.]]
numpy.dot(m1, m2) 矩阵 m1 与矩阵 m2 点乘。
1. numpy.dot([[2,5],[1,3]], [[3,-5],[-1,2]])
2. [[1 0]
3. [0 1]]
m.T 矩阵 m 的转置矩阵。
1. m = np.array([[2,5],[1,3]])
2. m.T
3. [[2 1]
4. [5 3]]

测试说明

只需返回预测结果即可，程序内部会检测您的代码，MSE低于30则视为过关。

开始你的任务吧，祝你成功！

#encoding=utf8 
import numpy as np
def mse_score(y_predict,y_test):
    '''
    input:y_predict(ndarray):预测值
          y_test(ndarray):真实值
    ouput:mse(float):mse损失函数值
    '''
    #********* Begin *********#
    mse = np.mean(y_predict - y_test)
    #或者带上平方也是可以的
    #mse = np.mean((y_predict - y_test)**2)
    #********* End *********#
    return mse
class LinearRegression :
    def __init__(self):
        '''初始化线性回归模型'''
        self.theta = None
    def fit_normal(self,train_data,train_label):
        '''
        input:train_data(ndarray):训练样本
              train_label(ndarray):训练标签
        '''
        #********* Begin *********#以下均以矩阵的形式表示
        x = np.hstack([np.ones((len(train_data),1)),train_data])#将训练数组改为一行数据，即X=(1,x1,...,xn)
        self.theta =np.linalg.inv(x.T.dot(x)).dot(x.T).dot(train_label)#公式如下：由损失函数得到的最优解heta=(X^T * X )^(-1) * x ^T *Y
        #********* End *********#
        return self.theta
    def predict(self,test_data):
        '''
        input:test_data(ndarray):测试样本
        '''
        #********* Begin *********#
        x = np.hstack([np.ones((len(test_data),1)),test_data])
        return x.dot(self.theta)# 预测函数Y = heta * X 
        #********* End *********#

主要难点其实在于怎么把数学语言转化为Python语言。