此文是《10周入门资料分析》系列的第14篇
想了解学习路线,可以先阅读 学习计画 | 10周入门资料分析
Python的内容比较多,可能要花个几周的时间来讲完。
上一篇文章讲了Python的一些运行环境和资料基础,本篇文章将来讲解高级的,函数参数这些。
控制流
** 在 Python 中有三种控制流语句,if、for和while。**
1. 条件
if age >= 18:
注意不要少写了冒号 : 。
elif是else if的缩写,完全可以有多个elif,所以if语句的完整形式就是:
if <条件判断1>:
<执行1>
elif <条件判断2>:
<执行2>
elif <条件判断3>:
<执行3>
else:
<执行4>
if语句执行有个特点,它是从上往下判断,如果在某个判断上是True,把该判断对应的语句执行后,就忽略掉剩下的elif和else。
if判断条件还可以简写,比如写:
if x:
print(‘True’)
只要x是非零数值、非空字串、非空list等,就判断为True,否则为False。
2. 迴圈
Python 的迴圈有两种。
第一种是for…in迴圈,依次把list或tuple中的每个元素反覆运算出来
所以for x in …迴圈就是把每个元素代入变数x,然后执行缩进块的语句。
Python 提供一个range()函数,可以生成一个整数序列,再通过list()函数可以转换为list。比如range(5)生成的序列是从 0 开始小于 5 的整数:
计算:
第二种迴圈是while迴圈:
在迴圈中,break语句可以提前退出迴圈。
在迴圈过程中,也可以透过continue语句,跳过当前的这次迴圈,直接开始下一次迴圈。continue的作用是提前结束本轮迴圈,并直接开始下一轮迴圈。
要特别注意,不要滥用break和continue语句。break和continue会造成程式码执行逻辑分叉过多,容易出错。大多数迴圈并不需要用到break和continue语句,上面的两个例子,都可以透过改写迴圈条件或者修改迴圈逻辑,去掉break和continue语句。
有些时候,如果程式码写得有问题,会让程式陷入“闭环”,也就是永远迴圈下去。这时可以用Ctrl+C退出程式,或者强制结束 Python进程。
函数
1. 函数是什么
函数(Functions)是指可重複使用的程式片段。它们允许你为某个程式码块赋予名字,允许你透过这一特殊的名字在你的程式任何地方来运行代码块,并可重複任何次数。这就是所谓的调用(Calling)函数。
在 Python 中,函数可以透过关键字 def 来定义。这一关键字后跟一个函数的识别字名称,再跟一对圆括号,其中可以包括一些变数的名称,再以冒号结尾,结束这一行。随后而来的语句块是函数的一部分。
在定义函数时给定的名称称作“形参”(Parameters),在调用函数时你所提供给函数的值称作“实参”(Arguments)。
2. 调用函数
要调用一个函数,需要知道函数的名称和参数。函数的参数只是输入到函数之中,以便我们可以传递不同的值给它,并获得相应的结果。
Python 内置的常用函数包括资料类型转换函数,比如int()函数可以把其他资料类型转换为整数。用input()读取用户的输入:
因为input()返回的资料类型是str,str不能直接和整数比较,必须先把str转换成整数。Python 提供了int()函数来完成这件事情:
函数名其实就是指向一个函数物件的引用,完全可以把函数名赋给一个变数,相当于给这个函数起了一个“别名”:
如果函式呼叫出错,一定要学会看错误资讯。
3.定义函数
在 Python 中,定义一个函数要使用def语句,依次写出函数名、括弧、括弧中的参数和冒号:,然后,在缩进块中编写函数体,函数的返回值用return语句返回。
在 Python 交互环境中定义函数时,注意 Python 会出现…的提示。函式定义结束后需要按两次回车重新回到>>>提示符下:
如果你已经把my_abs()的函式定义保存为abstest.py档了,那么,可以在该档的目前的目录下启动Python 解译器,用from abstest import my_abs来汇入my_abs()函数,注意abstest是档案名(不含.py副档名)。
定义一个什么事也不做的空函数,可以用pass语句:
def nop():
pass
pass语句什么都不做,实际上它可以用作为预留位置,比如现在还没想好怎么写函数的程式码,就可以先放一个pass,让程式码能运行起来。
pass还可以用在其他语句里,比如:
if age >= 18:
pass
缺少了pass,代码运行就会有语法错误。
资料类型检查可以用内置函数isinstance()实现。
Python 的函数返回多值其实就是返回一个tuple;Python 函数返回的是单一值时,返回值仍然是一个tuple。但是,在语法上,返回一个tuple可以省略括弧,而多个变数可以同时接收一个tuple,按位置赋给对应的值。函数可以同时返回多个值,但其实就是一个tuple。
函数执行完毕也没有return语句时,自动return None。
4.函数的参数
Python 的函式定义非常简单,但灵活度却非常大。除了正常定义的必选参数外,还可以使用默认参数、可变参数和关键字参数,使得函式定义出来的介面,不但能处理複杂的参数,还可以简化调用者的程式码。
4.1 位置参数:
power(x, n)函数有两个参数:x和n,这两个参数都是位置参数,调用函数时,传入的两个值按照位置顺序依次赋给参数x和n。
4.2 默认参数:
对于一些函数来说,你可能为希望使一些参数可选并使用默认的值,以避免用户不想为他们提供值的情况。预设参数值可以有效説明解决这一情况。你可以透过在函式定义时附加一个设定运算子=来为参数指定默认参数值。要注意到,默认参数值应该是常数。更确切地说,默认参数值应该是不可变的。
n = 2 是默认参数
定义默认参数要牢记一点:预设参数必须指向不变物件。且只有那些位于参数列表末尾的参数才能被赋予默认参数值,意即在函数的参数清单中拥有默认参数值的参数不能位于没有默认参数值的参数之前。
4.3 可变参数:
有时你可能想定义的函数里面能够有任意数量的变数,也就是参数数量是可变的,这可以透过使用星号来实现。即传入的参数个数是可变的。
我们声明一个诸如 *param 的星号参数时,从此处开始直到结束的所有位置参数(Positional Arguments)都将被收集并彙集成一个称为param的元组(Tuple)。
类似地,当我们声明一个诸如 **param 的双星号参数时,从此处开始直至结束的所有关键字参数都将被收集并彙集成一个名为 param 的字典(Dictionary)。
4.4 关键字参数:
如果你有一些具有许多参数的函数,而你又希望只对其中的一些进行指定,那么你可以通过命名它们来给这些参数赋值 — — 这就是关键字参数(Keyword Arguments) — — 我们使用命名(关键字)而非位置来指定函数中的参数。
关键字参数允许你传入 0 个或任意个含参数名的参数,这些关键字参数在函数内部自动组装为一个dict。
举个例子,扩展函数的功能。试想你正在做一个用户注册的功能,除了用户名和年龄是必填项外,其他都是可选项,利用关键字参数来定义这个函数就能满足注册的需求。
和可变参数类似,也可以先组装出一个dict,然后,把该dict转换为关键字参数传进去:
4.5 命名关键字参数:
如果要限制关键字参数的名字,就可以用命名关键字参数,例如,只接收city和job作为关键字参数。这种方式定义函数并调用:
和关键字参数**kw不同,命名关键字参数需要一个特殊分隔符号*,*后面的参数被视为命名关键字参数。
命名关键字参数必须传入参数名,这和位置参数不同。如果没有传入参数名,调用将报错。
使用命名关键字参数时,要特别注意,如果没有可变参数,就必须加一个作为特殊分隔符号。如果缺少,Python 解译器将无法识别位置参数和命名关键字参数,即缺少 *,city和job被视为位置参数。
4.6 参数组合:
在 Python 中定义函数,可以用必选参数、默认参数、可变参数、关键字参数和命名关键字参数,这 5 种参数都可以组合使用。
但是参数定义的顺序必须是:必选参数、默认参数、可变参数、命名关键字参数和关键字参数。虽然可以组合多达 5 种参数,但不要同时使用太多的组合,否则函数介面的可理解性很差。
透过一个tuple和dict,你也可以调用函数:
对于任意函数,都可以透过类似func(*args, **kw)的形式调用它,无论它的参数是如何定义的。
5. 递迴函数
如果一个函数在内部调用自身本身,这个函数就是递迴函数。理论上,所有的递迴函数都可以写成迴圈的方式,但迴圈的逻辑不如递迴清晰。
使用递迴函数需要注意防止栈溢出。在电脑中,函式呼叫是透过栈(stack)这种资料结构实现的,每当进入一个函式呼叫,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧。由于栈的大小不是无限的,所以,递迴呼叫的次数过多,会导致栈溢出。
透过下面的程式码可以查看你的电脑最大算到多少:
解决递迴呼叫栈溢出的方法是透过尾递迴优化,事实上尾递迴和迴圈的效果是一样的,所以,把迴圈看成是一种特殊的尾递迴函数也是可以的。
尾递迴是指,在函数返回的时候,调用自身本身,并且,return语句不能包含运算式。这样,编译器或者解译器就可以把尾递迴做优化,使递迴本身无论调用多少次,都只佔用一个栈帧,不会出现栈溢出的情况。
要改成尾递迴方式,需要多程式码一点,主要是要把每一步的乘积传入到递迴函数中。Python 标準的解译器没有针对尾递迴做优化,任何递迴函数都存在栈溢出的问题。
模组
学会函数,工作中让你省一半力气,但是Python的优势就是还能再省力。比如中位数、标準差等,依旧需要写代码,有没有现成的直接调用呢?
第一种思路是搜寻,「python 中位数」和「python 标準差」的关键字在网上可以搜出一堆,直接参考即可。
第二种思路是调包,世界上好心人很多,他们已经写好了现成的诸多功能,把它们共用在了网上,这些功能统一做成了「包」。
包的概念类似于资料夹,资料夹中放着很多档,一个.py档就称之为一个模组(Module)。包括 Python 内建的模组和来自协力厂商的模组。.py 档中包含着具体的程式码,程式码太多会显得比较淩乱,为了规範和整理程式码,引入了「类」。类是一种抽象的概念,是物件导向程式设计的核心,资料分析不用深入理解这块,只要知道类是各种函数的集合,方便複用,用起来很简单就行。
dir 函数
内建的dir()函数能够返回由物件所定义的名称清单。
如果这一对像是一个模组,则该清单会包括函数内所定义的函数、类与变数。该函数接受参数。
如果参数是模组名称,函数将返回这一指定模组的名称清单。
如果没有提供参数,函数将返回当前模组的名称清单。
包
变数通常位于函数内部,函数与全域变数通常位于模组内部。如果你希望组织起这些模组的话,就需要包(Packages)。
Python 引入了按目录来组织模组的方法,称为包(Package)。它是一种能够方便地分层组织模组的方式。包是指一个包含模组与一个特殊的 init.py 档的资料夹,这个档是必须存在的,否则,Python就把这个目录当成普通目录,而不是一个包。init.py可以是空档,也可以有Python代码,因为__init__.py本身就是一个模组。
使用模组
在一个模组中,我们可能会定义很多函数和变数,但有的函数和变数我们希望给别人使用,有的函数和变数我们希望仅仅在模组内部使用。在 Python 中,是透过_首码来实现的。
类似__xxx__这样的变数是特殊变数,可以被直接引用,但是有特殊用途,比如__author__,__name__就是特殊变数。我们自己的变数一般不要用这种变数名。
类似_xxx和__xxx这样的函数或变数就是非公开的(private),不应该被直接引用,比如_abc,__abc等。
安装协力厂商模组
对应的 pip 命令是pip3。
预设情况下,Python 解译器会搜寻目前的目录、所有已安装的内置模组和协力厂商模组,搜索路綫存放在sys模组的path变数中:
Python提供了非常丰富的包和模组,合理应用这些模组将极大程度的提供资料分析能力。numpy、scipy、pandas是资料分析最常用的三个包,matplotlib、seaborn是常用的绘图包,scikit-learn、Gensim、NLTK是机器学习相关的包,urllib、BeautifulSoup是常用的爬虫包等。
接下来,我会花几篇文章介绍用numpy、Pandas进行资料分析。
我是「数据分析那些事」。常年分享资料分析乾货,不定期分享好用的职场技能工具
更多的资料分享乾货,关注我的脸书吧!