利用大数据分析预测MLB胜负(中)

在上一篇文章中,我们介绍作者如何分析MLB赛事,并找出影响比赛胜负较为重要的因子,而今天我们就来看看作者究竟是选择了哪些模型进行训练以及预测,并最终做出能够预测MLB胜负高达61.77%準确度的模型吧!!

模型的建构与选择

1.数据的分割

在机器学习中,我们通常需要将数据集分成三个部分,分别是

A.训练集 : 模型学习所用

B.验证集 : 模型调整参数所用

C.测试集 :模型最终测试结果所用

由于训练集跟验证集都是被模型所学习过的资料,因此我们须要特别分出一个测试集,以当作模型没看过的数据,让模型预测看看实战的结果如何

2.模型训练评估

在数据进行一系列的前处理以及分割后,我们接下来就是要让模型进行数据的训练,但究竟要选择哪个模型比较好呢?答案是「无从考据」,我们只能尽可能拿取大量的模型进行训练,因此作者在此利用了8个模型对MLB的数据进行训练,该8个模型分别如下:

Lasso (L1) penalty regularization(L1正规化)
Ridge (L2) penalty regularization(L2正规化)
Elastic net (L1+L2) penalty regularization(弹性网路正规化)
K-Nearest Neighbors classifier(KNN)
Decision tree classifier(决策树)
Random forest ensemble(随机森林)
XGBoost classifier
Stochastic gradient descent classifier(随机梯度下降)
而作者是利用「ROC中的AUC面积」及「brier分数」等评估方法来衡量究竟要选择哪个模型当作最终的预测模型

想看更详细的请到下面连结http://img2.58codes.com/2024/emoticon08.gif

原文出处:Guess365


关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章