利用pandas进行大文件计数处理的方法

2020-02-15 22:31:15

字体：大中小

来源：转载

供稿：网友

Pandas读取大文件

要处理的是由探测器读出的脉冲信号，一组数据为两列，一列为时间，一列为脉冲能量，数据量在千万级，为了有一个直接的认识，先使用Pandas读取一些

import pandas as pddata = pd.read_table('filename.txt', iterator=True)chunk = data.get_chunk(5)

而输出是这样的：

Out[4]: 332.977889999979 -0.0164794921875 0 332.97790 -0.022278 1 332.97791 -0.026855 2 332.97792 -0.030518 3 332.97793 -0.045776 4 332.97794 -0.032654

DataFram基本用法

这里，data只是个容器，pandas.io.parsers.TextFileReader。

使用astype可以实现dataframe字段类型转换

输出数据中，每组数据会多处一行，因为get_chunk返回的是pandas.core.frame.DataFrame格式，而data在读取过程中并没有指定DataFrame的columns，因此在get_chunk过程中，默认将第一组数据作为columns。因此需要在读取过程中指定names即DataFrame的columns。

import pandas as pddata = pd.read_table('filename.txt', iterator=True， names=['time', 'energe'])chunk = data.get_chunk(5) data['energe'] = df['energe'].astype('int')

输出为

Out[6]:

index	time	energe
0	332.97789	-0.016479
1	332.97790	-0.022278
2	332.97791	-0.026855
3	332.97792	-0.030518
4	332.97793	-0.045776

DataFram存储和索引

这里讲一下DataFrame这个格式，与一般二维数据不同（二维列表等），DataFrame既有行索引又有列索引，因此在建立一个DataFrame数据是

DataFrame(data, columns=[‘year', ‘month', ‘day'], index=[‘one', ‘two', ‘three'])

	year	month	day
0	2010	4	1
1	2011	5	2
2	2012	6	3
3	2013	7	5
4	2014	8	9

而pd.read_table中的names就是指定DataFrame的columns,而index自动设置。而DataFrame的索引格式有很多

类型

说明

例子

obj[val]

选取单列或者一组列

上一篇：对pandas中Series的map函数详解

下一篇：python 自动去除空行的实例

学习交流

如何重启打印机打印服务

如何重启打印机打印服务...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

明兮语文停止运营发展资金链断裂

2020-02-16 09:52:44

2006年李俊编写了“熊猫烧香”电脑病毒，现在过得怎么样？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未来会如何发展？

2020-02-11 22:02:38

NASA说今天地球引力最小能让扫帚立起来？原因很简单

2020-02-11 21:45:12

TCL集团宣布今日起正式更名为“TCL科技”

2020-02-07 10:36:18

黑莓曲终落，情怀价几何？

2020-02-06 12:16:44

疑难解答

图片精选

网友关注