#加州房价预测实例#
任务:
基于加州房价数据集建立一个预测模型,使之可以在给定的条件下,预测加州任何地点的房价的中位数。
一、定义问题
1.公司要如何利用我的模型?
模型的输出将作为另一个机器学习算法的输入,该算法在综合考虑其他因素之后,决定是否值得在该区域投资。
2. 目前是否有可行的解决方案?
目前该区域的房价信息由一个专家团队完成,他们建立了非常复杂的模型。不仅费时费力,而且他们的评估泵不够准确,差错率达到15%。
二、将工程问题归纳为机器学习的问题
有监督学习任务,因为数据样本包含标签。
回归任务,因为你要预测一个价格。这是一个多变量回归任务,你要基于多个特征变量预测价格。
批量学习任务,因为并没有连续数据流输入系统。
三、选择评价指标
回归任务通常采用平方根均方误差(RMSE)作为评价指标,他衡量了系统预测差错的标准差。
???(?,ℎ)=√(1/? ∑_(?=1)?▒〖(ℎ(?((?) ))−?^((?) ) )^2 〗 )
如果有很多街区数据有异常,肯恒需要使用平均绝对误差(MAE)
???(?,ℎ)=1/? ∑_(?=1)?▒〖|ℎ(?((?) ))−?^((?) ) )|〗
四、windows环境配置和软件安装
书上案例是建议用linux系统或者macOS系统去做,但是我用的是window系统,所以将配置过程记录下来。我用的是Anaconda软件去做的。
软件下载过程及配置可以参考安装Anaconda教程这篇文章。
1.创建空间
这时候最好选择一个虚拟空间vitualenv,这样在以后做的过程中可以省去很多麻烦。
打开Anaconda Prompt,输入命令:cd D:\Anaconda3\Scripts(这里的路径是你安装的路径,可以