零起点学习Python机器学习是一个循序渐进的过程。以下是一个快速入门的指南,帮助你开始学习Python和机器学习:
### 第一步:安装Python环境
1. "下载Python":访问Python官方网站(python.org)下载最新版本的Python。
2. "安装Python":按照安装向导完成安装。
3. "验证安装":打开命令行或终端,输入`python --version`查看Python版本。
### 第二步:学习Python基础
1. "Python语法":学习变量、数据类型、运算符、控制流(if语句、循环等)。
2. "函数和模块":理解函数定义、参数、返回值以及如何导入和使用Python标准库和第三方库。
3. "数据结构":熟悉列表、元组、字典和集合等基本数据结构。
4. "文件操作":学习如何读写文件。
### 第三步:安装和配置机器学习库
1. "安装Anaconda":Anaconda是一个Python发行版,包含了许多科学计算库,包括机器学习库。
2. "安装Jupyter Notebook":Jupyter是一个交互式计算平台,可以让你在浏览器中编写和执行Python代码。
3. "安装机器学习库":使用Anaconda Navigator或命令行安装`scikit-learn`、`pandas`、`numpy`等库。
### 第四步:学习机器学习基础
1. "监督学习"
相关内容:
实现了一个完整的机器学习分类流程,主要使用逻辑回归模型对鸢尾花数据进行分类预测。首先,从指定路径读取训练集和测试集的特征数据与目标数据。接着,调用自定义的 mx_log 函数,创建并训练一个使用 L2 正则化的逻辑回归模型。之后,使用训练好的模型对测试集的特征数据进行预测,并将预测结果添加到一个新的 DataFrame 中,同时对预测结果进行四舍五入处理。再将包含测试集特征、目标数据和预测结果的 DataFrame 保存为 CSV 文件。最后,调用自定义的 ai_acc_xed 函数计算模型的准确率并输出。整个流程涵盖了数据加载、模型训练、预测和评估等关键步骤。
# 导入用于操作系统交互的 os 模块,可用于文件和目录操作
import os
# 导入 sys 模块,提供对 Python 解释器使用或维护的一些变量的访问,以及与解释器进行交互的函数
import sys
# 导入用于正则表达式操作的 re 模块
import re
# 导入用于处理日期和时间的 arrow 模块
import arrow
# 导入用于网页解析的 bs4 模块
import bs4
# 导入 pandas 库,别名为 pd,用于数据处理和分析
import pandas as pd
# 导入用于发送 HTTP 请求的 requests 库
import requests
# 从 bs4 模块导入用于解析 HTML 和 XML 文档的 BeautifulSoup 类
from bs4 import BeautifulSoup
# 导入 sklearn 库,它是一个强大的机器学习库
import sklearn
# 从 sklearn 中导入用于加载数据集的 datasets 以及用于线性模型的 linear_model
from sklearn import datasets, linear_model
# 从 sklearn.model_selection 导入 train_test_split 函数,用于将数据集划分为训练集和测试集
# 旧版本使用 sklearn.cross_validation 中的 train_test_split,现在已迁移到 model_selection
# from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split
# 从 sklearn.linear_model 导入用于创建线性回归模型的 LinearRegression 类
from sklearn.linear_model import LinearRegression
# 从 sklearn 导入用于评估模型性能的 metrics 模块
from sklearn import metrics
# 从 sklearn.model_selection 导入用于交叉验证预测的 cross_val_predict 函数
from sklearn.model_selection import cross_val_predict
# 导入自定义模块 zsys
import zsys
# 导入自定义模块 ztools,并将其别名为 zt
import ztools as zt
# 导入自定义模块 ztools_str,并将其别名为 zstr
import ztools_str as zstr
# 导入自定义模块 ztools_web,并将其别名为 zweb
import ztools_web as zweb
# 导入自定义模块 ztools_data,并将其别名为 zdat
import ztools_data as zdat
# 导入自定义模块 ztop_ai,并将其别名为 zai
import ztop_ai as zai
# 导入自定义模块 zpd_talib,并将其别名为 zta
import zpd_talib as zta
# 导入自定义模块 tfb_sys,并将其别名为 tfsys
import tfb_sys as tfsys
# 导入自定义模块 tfb_tools,并将其别名为 tft
import tfb_tools as tft
# 导入自定义模块 tfb_strategy,并将其别名为 tfsty
import tfb_strategy as tfsty
# 导入自定义模块 tfb_backtest,并将其别名为 tfbt
import tfb_backtest as tfbt
#-----------------------
#1
# 定义文件路径前缀
fs0='dat/iris_'
# 打印初始化信息和文件路径前缀
print('
1# init,fs0,',fs0)
# 读取训练集的特征数据,index_col=False 表示不将任何列作为索引
x_train=pd.read_csv(fs0+'xtrain.csv',index_col=False);
# 读取训练集的目标数据,index_col=False 表示不将任何列作为索引
y_train=pd.read_csv(fs0+'ytrain.csv',index_col=False);
# 读取测试集的特征数据,index_col=False 表示不将任何列作为索引
x_test=pd.read_csv(fs0+'xtest.csv',index_col=False)
# 读取测试集的目标数据,index_col=False 表示不将任何列作为索引
y_test=pd.read_csv(fs0+'ytest.csv',index_col=False)
# 复制测试集的特征数据,方便后续添加预测结果
df9=x_test.copy()
#2
# 打印提示信息,表示开始建模
print('
2# 建模')
# 调用自定义模块 zai 中的 mx_log 函数,传入训练集的特征和目标数据的数组形式进行模型训练
mx =zai.mx_log(x_train.values,y_train.values)
#3
# 打印提示信息,表示开始进行预测
print('
3# 预测')
# 使用训练好的模型 mx 对测试集的特征数据进行预测
y_pred = mx.predict(x_test.values)
# 在复制的测试集特征数据 DataFrame 中添加预测结果列
df9=y_pred
# 在 df9 中添加测试集的目标数据列和预测结果列
df9,df9=y_test,y_pred
# 将预测结果四舍五入并转换为整数类型
df9=round(df9).astype(int)
#4
# 将包含测试集特征、目标数据和预测结果的 DataFrame 保存为 CSV 文件,不保存索引
df9.to_csv('tmp/iris_9.csv',index=False)
# 打印提示信息
print('
4# df9')
# 打印 df9 的最后几行数据
print(df9.tail())
#5
# 调用自定义模块 zai 中的 ai_acc_xed 函数,传入 df9、参数 1 和 False 来计算模型的准确率
dacc=zai.ai_acc_xed(df9,1,False)
# 打印模型的准确率,保留两位小数
print('
5# mx:mx_sum,kok:{0:.2f}%'.format(dacc))
#-----------------------
# 打印完成提示信息
print('
ok!')
# 定义一个名为 mx_log 的函数,用于创建并训练一个逻辑回归模型
# 参数 train_x:表示训练数据的特征矩阵,通常是一个二维数组或 DataFrame,每一行代表一个样本,每一列代表一个特征
# 参数 train_y:表示训练数据的目标值,通常是一个一维数组或 Series,每个元素对应 train_x 中一行样本的目标值
def mx_log(train_x, train_y):
# 创建一个 LogisticRegression 类的实例 mx,用于构建逻辑回归模型
# penalty='l2' 是逻辑回归模型的一个参数设置,指定使用 L2 正则化
# L2 正则化有助于防止模型过拟合,它会对模型的系数进行约束,使得系数的平方和尽可能小
mx = LogisticRegression(penalty='l2')
# 使用训练数据的特征矩阵 train_x 和对应的目标值 train_y 对模型进行训练
# fit 方法是 sklearn 中所有模型类都有的方法,它会让模型学习数据中的模式和规律
# 通过不断调整模型的参数,使得模型能够尽可能准确地根据特征预测目标值
mx.fit(train_x, train_y)
# 返回训练好的逻辑回归模型 mx,以便后续使用该模型进行预测等操作
return mx
#结果验证函数
def ai_acc_xed(df9,ky0=5,fgDebug=True):
#1
#ny_test,ny_pred=len(df9),len(df9)
ny_test=len(df9)
df9=df9-df9
df9=np.abs(df9)
#2
df9=df9
df9.loc == 0, 'y_test_p'] =0.00001
df9=(df9/df9)*100
dfk=df9<ky0]
dsum=len(dfk)
dacc=dsum/ny_test*100
#
#3
if fgDebug:
print('
ai_acc_xed')
print(df9.head())
y_test,y_pred=df9,df9
print('
n_df9,{0},n_dfk,{1}'.format(ny_test,dsum))
dmae=metrics.mean_absolute_error(y_test, y_pred)
dmse=metrics.mean_squared_error(y_test, y_pred)
drmse=np.sqrt(metrics.mean_squared_error(y_test, y_pred))
print('acc-kok: {0:.2f}%, MAE:{1:.2f}, MSE:{2:.2f}, RMSE:{3:.2f}'.format(dacc,dmae,dmse,drmse))
#
#4
return dacc
runfile('D:/zwPython/zwrk/4_零起点Python机器学习快速入门/zai201_mx_log.py', wdir='D:/zwPython/zwrk/4_零起点Python机器学习快速入门')
Reloaded modules: zsys, cpuinfo, ztools, ztools_str, ztools_web, ztools_data, ztop_ai, zpd_talib, tfb_sys, tfb_tools, tfb_strategy, tfb_backtest
1# init,fs0, dat/iris_
2# 建模
3# 预测
4# df9
x1 x2 x3 x4 y_predsr y_test y_pred
33 6.4 2.8 5.6 2.1 1 1 1
34 5.8 2.8 5.1 2.4 1 1 1
35 5.3 3.7 1.5 0.2 2 2 2
36 5.5 2.3 4.0 1.3 3 3 3
37 5.2 3.4 1.4 0.2 2 2 2
5# mx:mx_sum,kok:97.37%
ok!
d:zwpythonpy37python-3.7.6.amd64libsite-packagessklearnutilsvalidation.py:760: DataConversionWarning:
A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples, ), for example using ravel().