零基础Python编程+机器学习快速入门指南

零基础Python编程+机器学习快速入门指南"/

零起点学习Python机器学习是一个循序渐进的过程,以下是一个简单的入门指南,可以帮助你从零开始学习Python机器学习:
### 基础准备
1. "安装Python":首先,你需要安装Python。推荐使用Python 3.6或更高版本。 2. "安装Jupyter Notebook":Jupyter Notebook是一个交互式计算环境,非常适合进行机器学习实验。 3. "安装必要的库": - `pip install numpy pandas matplotlib scikit-learn` - 这些是Python机器学习的基础库。
### 学习Python基础
1. "Python语法":学习Python的基础语法,如变量、数据类型、控制流、函数等。 2. "NumPy":NumPy是一个强大的数学库,用于数值计算。 3. "Pandas":Pandas是一个数据分析库,用于数据处理。 4. "Matplotlib":Matplotlib是一个绘图库,用于数据可视化。
### 机器学习基础
1. "了解机器学习":了解机器学习的基本概念,如监督学习、无监督学习、强化学习等。 2. "监督学习":学习如何使用监督学习算法(如线性回归、决策树、支持向量机等)进行预测。 3. "无监督学习":学习如何使用无监督学习算法(如聚类、降维等)进行数据挖掘。
### 使用Scikit-learn
1. "安装Scikit-learn":Sc

相关内容:

lass="xiangguan" id="content">

主要完成了鸢尾花数据集的加载、数据划分以及保存操作。首先,它使用pandas读取dat/iris2.csv文件中的数据。接着,从数据中选取x1、x2、x3、x4作为特征列,xid作为目标列。然后,利用train_test_split函数将特征数据和目标数据按一定规则划分为训练集和测试集,确保每次划分结果可重复。之后,将划分好的训练集和测试集的特征数据、目标数据分别保存为不同的 CSV 文件,方便后续使用。最后,代码打印出各个数据集的最后几行,让用户能直观看到数据情况。

# 导入 os 模块,用于与操作系统进行交互,如文件和目录操作
import os
# 导入 sys 模块,提供对 Python 解释器使用或维护的一些变量的访问,以及与解释器进行交互的函数
import sys
# 导入 re 模块,用于支持正则表达式操作
import re
# 导入 arrow 模块,用于处理日期和时间
import arrow
# 导入 bs4 模块,用于网页解析
import bs4
# 导入 pandas 库,并将其别名为 pd,用于数据处理和分析
import pandas as pd

# 导入 requests 库,用于发送 HTTP 请求
import requests
# 从 bs4 模块中导入 BeautifulSoup 类,用于解析 HTML 和 XML 文档
from bs4 import BeautifulSoup 

# 导入 sklearn 库,它是一个强大的机器学习库
import sklearn 
# 从 sklearn 中导入 datasets 用于加载数据集,linear_model 用于线性模型
from sklearn import datasets, linear_model

# 从 sklearn.model_selection 中导入 train_test_split 函数,用于将数据集划分为训练集和测试集
# 旧版本使用 sklearn.cross_validation 中的 train_test_split,现在已迁移到 model_selection
# from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split

# 从 sklearn.linear_model 中导入 LinearRegression 类,用于创建线性回归模型
from sklearn.linear_model import LinearRegression
# 从 sklearn 中导入 metrics 模块,用于评估模型性能
from sklearn import metrics
# 从 sklearn.model_selection 中导入 cross_val_predict 函数,用于交叉验证预测
from sklearn.model_selection import cross_val_predict

# 导入自定义模块 zsys
import zsys
# 导入自定义模块 ztools,并将其别名为 zt
import ztools as zt
# 导入自定义模块 ztools_str,并将其别名为 zstr
import ztools_str as zstr
# 导入自定义模块 ztools_web,并将其别名为 zweb
import ztools_web as zweb
# 导入自定义模块 ztools_data,并将其别名为 zdat
import ztools_data as zdat
# 导入自定义模块 zpd_talib,并将其别名为 zta
import zpd_talib as zta
# 导入自定义模块 tfb_sys,并将其别名为 tfsys
import tfb_sys as tfsys
# 导入自定义模块 tfb_tools,并将其别名为 tft
import tfb_tools as tft
# 导入自定义模块 tfb_strategy,并将其别名为 tfsty
import tfb_strategy as tfsty
# 导入自定义模块 tfb_backtest,并将其别名为 tfbt
import tfb_backtest as tfbt

#-----------------------

#1 
# 定义要读取的 CSV 文件的路径
fss='dat/iris2.csv'
# 使用 pandas 的 read_csv 函数读取指定路径的 CSV 文件,index_col=False 表示不将任何列作为索引
df=pd.read_csv(fss,index_col=False)

#2
# 打印提示信息
print('
2# df')       
# 打印 DataFrame 的最后几行数据
print(df.tail())

#3
# 定义特征列名列表
xlst,ysgn=,'xid'
# 从 DataFrame 中提取特征列和目标列
x,y= df,df  
# 打印特征列名列表
print('
3# xlst,',xlst)
# 打印目标列名
print('ysgn,',ysgn)
# 打印提示信息
print('x')
# 打印特征数据的最后几行
print(x.tail())
# 打印提示信息
print('y')
# 打印目标数据的最后几行
print(y.tail())

#4
# 使用 train_test_split 函数将特征数据和目标数据划分为训练集和测试集,random_state=1 保证每次划分结果一致
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1)
# 设置测试集特征和目标数据的索引名称
x_test.index.name,y_test.index.name='xid','xid'
# 打印提示信息
print('
4# type')
# 打印训练集特征数据的类型
print('type(x_train),',type(x_train))
# 打印测试集特征数据的类型
print('type(x_test),',type(x_test))
# 打印训练集目标数据的类型
print('type(y_train),',type(y_train))
# 打印测试集目标数据的类型
print('type(y_test),',type(y_test))

#5
# 定义保存文件的路径前缀
fs0='tmp/iris_'
# 打印保存文件的路径前缀
print('
5# fs0,',fs0)
# 将训练集特征数据保存为 CSV 文件,不保存索引
x_train.to_csv(fs0+'xtrain.csv',index=False);
# 将测试集特征数据保存为 CSV 文件,不保存索引
x_test.to_csv(fs0+'xtest.csv',index=False)
# 将训练集目标数据保存为 CSV 文件,不保存索引,保存列名
y_train.to_csv(fs0+'ytrain.csv',index=False,header=True)
# 将测试集目标数据保存为 CSV 文件,不保存索引,保存列名
y_test.to_csv(fs0+'ytest.csv',index=False,header=True)

#6
# 打印提示信息
print('
6# x_train')
# 打印训练集特征数据的最后几行
print(x_train.tail())
# 打印提示信息
print('
x_test')
# 打印测试集特征数据的最后几行
print(x_test.tail())

#7
# 打印提示信息
print('
7# y_train')
# 打印训练集目标数据的最后几行
print(y_train.tail())
# 打印提示信息
print('
y_test')
# 打印测试集目标数据的最后几行
print(y_test.tail())

#-----------------------    
# 打印完成提示信息
print('
ok!')
runfile('D:/zwPython/zwrk/4_零起点Python机器学习快速入门/zai103_iris03.py', wdir='D:/zwPython/zwrk/4_零起点Python机器学习快速入门')
Reloaded modules: zsys, cpuinfo, ztools, ztools_str, ztools_web, ztools_data, zpd_talib, tfb_sys, tfb_tools, tfb_strategy, ztop_ai, tfb_backtest

2# df
      x1   x2   x3   x4      xname  xid
145  6.7  3.0  5.2  2.3  virginica    1
146  6.3  2.5  5.0  1.9  virginica    1
147  6.5  3.0  5.2  2.0  virginica    1
148  6.2  3.4  5.4  2.3  virginica    1
149  5.9  3.0  5.1  1.8  virginica    1

3# xlst, 
ysgn, xid
x
      x1   x2   x3   x4
145  6.7  3.0  5.2  2.3
146  6.3  2.5  5.0  1.9
147  6.5  3.0  5.2  2.0
148  6.2  3.4  5.4  2.3
149  5.9  3.0  5.1  1.8
y
145    1
146    1
147    1
148    1
149    1
Name: xid, dtype: int64

4# type
type(x_train), <class 'pandas.core.frame.DataFrame'>
type(x_test), <class 'pandas.core.frame.DataFrame'>
type(y_train), <class 'pandas.core.series.Series'>
type(y_test), <class 'pandas.core.series.Series'>

5# fs0, tmp/iris_

6# x_train
      x1   x2   x3   x4
133  6.3  2.8  5.1  1.5
137  6.4  3.1  5.5  1.8
72   6.3  2.5  4.9  1.5
140  6.7  3.1  5.6  2.4
37   4.9  3.1  1.5  0.1

x_test
      x1   x2   x3   x4
xid                    
128  6.4  2.8  5.6  2.1
114  5.8  2.8  5.1  2.4
48   5.3  3.7  1.5  0.2
53   5.5  2.3  4.0  1.3
28   5.2  3.4  1.4  0.2

7# y_train
133    1
137    1
72     3
140    1
37     2
Name: xid, dtype: int64

y_test
xid
128    1
114    1
48     2
53     3
28     2
Name: xid, dtype: int64

ok!

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章