生成器和迭代器有着一定的渊源关系。生成器必须是可迭代的,但它不仅仅是迭代器,我们可以把它理解为非常方便的自定义迭代器。

简单的生成器

1
>>> my_generator = (x*x for x in range(4))

这是不是跟列表推导式很类似呢?仔细观察,它不是列表,如果这样的得到的才是列表:

1
>>> my_list = [x*x for x in range(4)]

以上两的区别在于是[]还是(),虽然是细小的差别,但是结果完全不一样。

1
2
3
4
5
6
>>> dir(my_generator)
['__class__', '__delattr__', '__doc__', '__format__', '__getattribute__', '__hash__', '__init__',
'__iter__',
'__name__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'close', 'gi_code', 'gi_frame', 'gi_running',
'next',
'send', 'throw']

我们发现了在迭代器中必有的方法__inter__()和next(),这说明它是迭代器。如果是迭代器,就可以用for循环来依次读出其值。

1
2
3
4
5
6
7
8
9
10
>>> for i in my_generator:
... print i
...
0
1
4
9
>>> for i in my_generator:
... print i
...

当第一遍循环的时候,将my_generator里面的值依次读出并打印,但是,当再读一次的时候,就发现没有任何结果。这种特性也正是迭代器所具有的。

如果对那个列表,就不一样了:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
>>> for i in my_list:
... print i
...
0
1
4
9
>>> for i in my_list:
... print i
...
0
1
4
9

难道生成器就是把列表推导式中的[]换成()就行了吗?这仅仅是生成器的一种表现形式和使用方法罢了,我们称之为“生成器推导式”

生成器解析式是有很多用途的,在不少地方替代列表,是一个不错的选择。特别是针对大量值的时候,如上节所说的,列表占内存较多,迭代器(生成器是迭代器)的优势就在于少占内存,因此无需将生成器(或者说是迭代器)实例化为一个列表,直接对其进行操作,方显示出其迭代的优势。比如:

1
2
>>> sum(i*i for i in range(10))
285

备注:上面的sum()运算,并未少写括号,可以直接这么写。

如果列表,你不得不:

1
2
>>> sum([i*i for i in range(10)])
285

通过生成器推导式得到的生成器,掩盖了生成器的一些细节,并且适用领域也有限,下面就要剖析生成器的内部。

定义和执行过程

yield这个词在汉语中有“生产、出产”之意,在python中,它作为一个关键词(你在变量、函数、类的名称中就不能用这个了),是生成器的标志。

1
2
3
4
5
6
7
>>> def g():
... yield 0
... yield 1
... yield 2
...
>>> g
<function g at 0xb71f3b8c>

建立了一个非常简单的函数,跟以往看到的函数唯一不同的地方是用了三个yield语句。然后进行下面的操作:

1
2
3
4
5
>>> ge = g()
>>> ge
<generator object g at 0xb7200edc>
>>> type(ge)
<type 'generator'>

上面建立的函数返回值是一个生成器(generator)类型的对象。

1
2
>>> dir(ge)
['__class__', '__delattr__', '__doc__', '__format__', '__getattribute__', '__hash__', '__init__', '__iter__', '__name__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'close', 'gi_code', 'gi_frame', 'gi_running', 'next', 'send', 'throw']

在这里看到了__iter__()和next(),说明它是迭代器。既然如此,当然可以:

1
2
3
4
5
6
7
8
9
10
>>> ge.next()
0
>>> ge.next()
1
>>> ge.next()
2
>>> ge.next()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
StopIteration

从这个简单例子中可以看出,那个含有yield关键词的函数返回值是一个生成器类型的对象,这个生成器对象就是迭代器。

我们把含有yield语句的函数称作生成器。生成器是一种用普通函数语法定义的迭代器。通过上面的例子可以看出,这个生成器(也是迭代器),在定义过程中并没有像上节迭代器那样写__inter__()和next(),而是只要用了yield语句,那个普通函数就神奇般地成为了生成器,也就具备了迭代器的功能特性。

yield语句的作用,就是在调用的时候返回相应的值。详细剖析一下上面的运行过程:

1.ge = g():除了返回生成器之外,什么也没有操作,任何值也没有被返回。
2.ge.next():直到这时候,生成器才开始执行,遇到了第一个yield语句,将值返回,并暂停执行(有的称之为挂起)。
3.ge.next():从上次暂停的位置开始,继续向下执行,遇到yield语句,将值返回,又暂停。
4.gen.next():重复上面的操作。
5.gene.next():从上面的挂起位置开始,但是后面没有可执行的了,于是next()发出异常。

从上面的执行过程中,发现yield除了作为生成器的标志之外,还有一个功能就是返回值。那么它跟return这个返回值有什么区别呢?

yield

为了弄清楚yield和return的区别,我们写两个没有什么用途的函数:

1
2
3
4
5
6
7
8
9
10
11
12
13
>>> def r_return(n):
... print "You taked me."
... while n > 0:
... print "before return"
... return n
... n -= 1
... print "after return"
...
>>> rr = r_return(3)
You taked me.
before return
>>> rr
3

从函数被调用的过程可以清晰看出,rr = r_return(3),函数体内的语句就开始执行了,遇到return,将值返回,然后就结束函数体内的执行。所以return后面的语句根本没有执行。

下面将return改为yield:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
>>> def y_yield(n):
... print "You taked me."
... while n > 0:
... print "before yield"
... yield n
... n -= 1
... print "after yield"
...
>>> yy = y_yield(3) #没有执行函数体内语句
>>> yy.next() #开始执行
You taked me.
before yield
3 #遇到yield,返回值,并暂停
>>> yy.next() #从上次暂停位置开始继续执行
after yield
before yield
2 #又遇到yield,返回值,并暂停
>>> yy.next() #重复上述过程
after yield
before yield
1
>>> yy.next()
after yield #没有满足条件的值,抛出异常
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
StopIteration

一般的函数,都是止于return。作为生成器的函数,由于有了yield,则会遇到它挂起,如果还有return,遇到它就直接抛出SoptIteration异常而中止迭代。

生成器方法

在python2.5以后,生成器有了一个新特征,就是在开始运行后能够为生成器提供新的值。这就好似生成器和“外界”之间进行数据交流。

1
2
3
4
5
6
7
8
9
>>> def repeater(n):
... while True:
... n = (yield n)
...
>>> r = repeater(4)
>>> r.next()
4
>>> r.send("hello")
'hello'

当执行到r.next()的时候,生成器开始执行,在内部遇到了yield n挂起。注意在生成器函数中,n = (yield n)中的yield n是一个表达式,并将结果赋值给n,虽然不严格要求它必须用圆括号包裹,但是一般情况都这么做。

当执行r.send(“hello”)的时候,原来已经被挂起的生成器(函数)又被唤醒,开始执行n = (yield n),也就是讲send()方法发送的值返回。这就是在运行后能够为生成器提供值的含义。

如果接下来再执行r.next()会怎样?

1
>>> r.next()

什么也没有,其实就是返回了None。按照前面的叙述,读者可以看到,这次执行r.next(),由于没有传入任何值,yield返回的就只能是None。

还要注意,send()方法必须在生成器运行后并挂起才能使用,也就是yield至少被执行一次。如果不是这样:

1
2
3
4
5
>>> s = repeater(5)
>>> s.send("how")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: can't send non-None value to a just-started generator

就报错了。但是,可将参数设为None:

1
2
>>> s.send(None)
5

这是返回的是调用函数的时传入的值。

此外,还有两个方法:close()和throw()

1
2
1. throw(type, value=None, traceback=None):用于在生成器内部(生成器的当前挂起处,或未启动时在定义处)抛出一个异常(在yield表达式中)。
2. close():调用时不用参数,用于关闭生成器。

最后一句,你在编程中,不用生成器也可以。