如果用到数据筛选功能,可以使用x if condition else y的逻辑实现。如果使用的是纯Python,可以使用不断迭代的方式对每一组元素组合进行相应的判断筛选。不过,如果使用numpy中的向量化计可以大大加速运算的过程。
在numpy中有一个这个三目运算的向量版本numpy.where。where方法可以接收三个参数,第一个参数为条件向量,而第二、第三个参数可以是矩阵也可以是标量。接下来做一下相应功能的纯Python功能实现以及向量方式实现。
In [76]: xarr = np.array([1.1,1.2,1.3,1.4,1.5])In [77]: yarr = xarr + 1In [78]: xarrOut[78]: array([ 1.1, 1.2, 1.3, 1.4, 1.5])In [79]: yarrOut[79]: array([ 2.1, 2.2, 2.3, 2.4, 2.5])In [80]: cond = np.array([True,False,True,True,False])In [81]: condOut[81]: array([ True, False, True, True, False], dtype=bool)In [82]: result1 = [(x if c else y) for x,y,c in zip(xarr,yarr,cond)]In [83]: result1Out[83]: [1.1000000000000001, 2.2000000000000002, 1.3, 1.3999999999999999, 2.5]In [84]: result2 = np.where(cond,xarr,yarr)In [85]: result2Out[85]: array([ 1.1, 2.2, 1.3, 1.4, 2.5])
从浮点表示上,两者有一点点小小的差异,在小数点后多位,通常在数值表示上可以忽略。不过,这里还是要进行一下两个结果的一致性判断,因为之前也看到过Python在浮点表达上因为机器而产生的差异。
In [87]: result1 == result2Out[87]: array([ True, True, True, True, True], dtype=bool)