零基础学Python,机器学习快速入门指南

零基础学Python,机器学习快速入门指南"/

零起点学习Python机器学习是一个循序渐进的过程。以下是一个快速入门的指南,帮助你开始学习Python和机器学习:
### 第一步:安装Python环境
1. "下载Python":访问Python官方网站(python.org)下载最新版本的Python。 2. "安装Python":按照安装向导完成安装。 3. "验证安装":打开命令行或终端,输入`python --version`查看Python版本。
### 第二步:学习Python基础
1. "Python语法":学习变量、数据类型、运算符、控制流(if语句、循环等)。 2. "函数和模块":理解函数定义、参数、返回值以及如何导入和使用Python标准库和第三方库。 3. "数据结构":熟悉列表、元组、字典和集合等基本数据结构。 4. "文件操作":学习如何读写文件。
### 第三步:安装和配置机器学习库
1. "安装Anaconda":Anaconda是一个Python发行版,包含了许多科学计算库,包括机器学习库。 2. "安装Jupyter Notebook":Jupyter是一个交互式计算平台,可以让你在浏览器中编写和执行Python代码。 3. "安装机器学习库":使用Anaconda Navigator或命令行安装`scikit-learn`、`pandas`、`numpy`等库。
### 第四步:学习机器学习基础
1. "监督学习"

相关内容:

lass="xiangguan" id="content">

实现了一个完整的机器学习分类流程,主要使用逻辑回归模型对鸢尾花数据进行分类预测。首先,从指定路径读取训练集和测试集的特征数据与目标数据。接着,调用自定义的 mx_log 函数,创建并训练一个使用 L2 正则化的逻辑回归模型。之后,使用训练好的模型对测试集的特征数据进行预测,并将预测结果添加到一个新的 DataFrame 中,同时对预测结果进行四舍五入处理。再将包含测试集特征、目标数据和预测结果的 DataFrame 保存为 CSV 文件。最后,调用自定义的 ai_acc_xed 函数计算模型的准确率并输出。整个流程涵盖了数据加载、模型训练、预测和评估等关键步骤。

# 导入用于操作系统交互的 os 模块,可用于文件和目录操作
import os
# 导入 sys 模块,提供对 Python 解释器使用或维护的一些变量的访问,以及与解释器进行交互的函数
import sys
# 导入用于正则表达式操作的 re 模块
import re
# 导入用于处理日期和时间的 arrow 模块
import arrow
# 导入用于网页解析的 bs4 模块
import bs4
# 导入 pandas 库,别名为 pd,用于数据处理和分析
import pandas as pd

# 导入用于发送 HTTP 请求的 requests 库
import requests
# 从 bs4 模块导入用于解析 HTML 和 XML 文档的 BeautifulSoup 类
from bs4 import BeautifulSoup 

# 导入 sklearn 库,它是一个强大的机器学习库
import sklearn 
# 从 sklearn 中导入用于加载数据集的 datasets 以及用于线性模型的 linear_model
from sklearn import datasets, linear_model

# 从 sklearn.model_selection 导入 train_test_split 函数,用于将数据集划分为训练集和测试集
# 旧版本使用 sklearn.cross_validation 中的 train_test_split,现在已迁移到 model_selection
# from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split

# 从 sklearn.linear_model 导入用于创建线性回归模型的 LinearRegression 类
from sklearn.linear_model import LinearRegression
# 从 sklearn 导入用于评估模型性能的 metrics 模块
from sklearn import metrics
# 从 sklearn.model_selection 导入用于交叉验证预测的 cross_val_predict 函数
from sklearn.model_selection import cross_val_predict

# 导入自定义模块 zsys
import zsys
# 导入自定义模块 ztools,并将其别名为 zt
import ztools as zt
# 导入自定义模块 ztools_str,并将其别名为 zstr
import ztools_str as zstr
# 导入自定义模块 ztools_web,并将其别名为 zweb
import ztools_web as zweb
# 导入自定义模块 ztools_data,并将其别名为 zdat
import ztools_data as zdat
# 导入自定义模块 ztop_ai,并将其别名为 zai
import ztop_ai as zai
# 导入自定义模块 zpd_talib,并将其别名为 zta
import zpd_talib as zta
# 导入自定义模块 tfb_sys,并将其别名为 tfsys
import tfb_sys as tfsys
# 导入自定义模块 tfb_tools,并将其别名为 tft
import tfb_tools as tft
# 导入自定义模块 tfb_strategy,并将其别名为 tfsty
import tfb_strategy as tfsty
# 导入自定义模块 tfb_backtest,并将其别名为 tfbt
import tfb_backtest as tfbt

#-----------------------

#1 
# 定义文件路径前缀
fs0='dat/iris_'
# 打印初始化信息和文件路径前缀
print('
1# init,fs0,',fs0)
# 读取训练集的特征数据,index_col=False 表示不将任何列作为索引
x_train=pd.read_csv(fs0+'xtrain.csv',index_col=False);
# 读取训练集的目标数据,index_col=False 表示不将任何列作为索引
y_train=pd.read_csv(fs0+'ytrain.csv',index_col=False);
# 读取测试集的特征数据,index_col=False 表示不将任何列作为索引
x_test=pd.read_csv(fs0+'xtest.csv',index_col=False)
# 读取测试集的目标数据,index_col=False 表示不将任何列作为索引
y_test=pd.read_csv(fs0+'ytest.csv',index_col=False)
# 复制测试集的特征数据,方便后续添加预测结果
df9=x_test.copy()

#2
# 打印提示信息,表示开始建模
print('
2# 建模')
# 调用自定义模块 zai 中的 mx_log 函数,传入训练集的特征和目标数据的数组形式进行模型训练
mx =zai.mx_log(x_train.values,y_train.values)

#3
# 打印提示信息,表示开始进行预测
print('
3# 预测')
# 使用训练好的模型 mx 对测试集的特征数据进行预测
y_pred = mx.predict(x_test.values)
# 在复制的测试集特征数据 DataFrame 中添加预测结果列
df9=y_pred
# 在 df9 中添加测试集的目标数据列和预测结果列
df9,df9=y_test,y_pred
# 将预测结果四舍五入并转换为整数类型
df9=round(df9).astype(int)   

#4
# 将包含测试集特征、目标数据和预测结果的 DataFrame 保存为 CSV 文件,不保存索引
df9.to_csv('tmp/iris_9.csv',index=False)
# 打印提示信息
print('
4# df9')
# 打印 df9 的最后几行数据
print(df9.tail())
  
#5   
# 调用自定义模块 zai 中的 ai_acc_xed 函数,传入 df9、参数 1 和 False 来计算模型的准确率
dacc=zai.ai_acc_xed(df9,1,False)
# 打印模型的准确率,保留两位小数
print('
5# mx:mx_sum,kok:{0:.2f}%'.format(dacc))   

#-----------------------    
# 打印完成提示信息
print('
ok!')

# 定义一个名为 mx_log 的函数,用于创建并训练一个逻辑回归模型
# 参数 train_x:表示训练数据的特征矩阵,通常是一个二维数组或 DataFrame,每一行代表一个样本,每一列代表一个特征
# 参数 train_y:表示训练数据的目标值,通常是一个一维数组或 Series,每个元素对应 train_x 中一行样本的目标值
def mx_log(train_x, train_y):
    
    # 创建一个 LogisticRegression 类的实例 mx,用于构建逻辑回归模型
    # penalty='l2' 是逻辑回归模型的一个参数设置,指定使用 L2 正则化
    # L2 正则化有助于防止模型过拟合,它会对模型的系数进行约束,使得系数的平方和尽可能小
    mx = LogisticRegression(penalty='l2')
    
    # 使用训练数据的特征矩阵 train_x 和对应的目标值 train_y 对模型进行训练
    # fit 方法是 sklearn 中所有模型类都有的方法,它会让模型学习数据中的模式和规律
    # 通过不断调整模型的参数,使得模型能够尽可能准确地根据特征预测目标值
    mx.fit(train_x, train_y)
    
    # 返回训练好的逻辑回归模型 mx,以便后续使用该模型进行预测等操作
    return mx

#结果验证函数
def ai_acc_xed(df9,ky0=5,fgDebug=True):
    #1
    #ny_test,ny_pred=len(df9),len(df9)
    ny_test=len(df9)
    df9=df9-df9
    df9=np.abs(df9)
    #2
    df9=df9
    df9.loc == 0, 'y_test_p'] =0.00001
    df9=(df9/df9)*100
    dfk=df9<ky0]   
    dsum=len(dfk)
    dacc=dsum/ny_test*100
    #
    #3
    if fgDebug:
        print('
ai_acc_xed')
        print(df9.head())
        y_test,y_pred=df9,df9
        print('
n_df9,{0},n_dfk,{1}'.format(ny_test,dsum))
        dmae=metrics.mean_absolute_error(y_test, y_pred)
        dmse=metrics.mean_squared_error(y_test, y_pred)
        drmse=np.sqrt(metrics.mean_squared_error(y_test, y_pred))
        print('acc-kok: {0:.2f}%, MAE:{1:.2f}, MSE:{2:.2f}, RMSE:{3:.2f}'.format(dacc,dmae,dmse,drmse))
        
    #
    #4
    return dacc  
runfile('D:/zwPython/zwrk/4_零起点Python机器学习快速入门/zai201_mx_log.py', wdir='D:/zwPython/zwrk/4_零起点Python机器学习快速入门')
Reloaded modules: zsys, cpuinfo, ztools, ztools_str, ztools_web, ztools_data, ztop_ai, zpd_talib, tfb_sys, tfb_tools, tfb_strategy, tfb_backtest

1# init,fs0, dat/iris_

2# 建模

3# 预测

4# df9
     x1   x2   x3   x4  y_predsr  y_test  y_pred
33  6.4  2.8  5.6  2.1         1       1       1
34  5.8  2.8  5.1  2.4         1       1       1
35  5.3  3.7  1.5  0.2         2       2       2
36  5.5  2.3  4.0  1.3         3       3       3
37  5.2  3.4  1.4  0.2         2       2       2

5# mx:mx_sum,kok:97.37%

ok!
d:zwpythonpy37python-3.7.6.amd64libsite-packagessklearnutilsvalidation.py:760: DataConversionWarning:

A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples, ), for example using ravel().

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章