Pandas处理csv表格

2019-11-10 20:46:36

字体：大中小

来源：转载

供稿：网友

1）读取csv文件

data =pandas.read_csv(‘test.csv’) //返回的是DataFrame变量

first_rows = data.head(n) //返回前n条数据,默认返回5条

cols = data.columns //返回全部列名

dimensison = data.shape //返回数据的格式，数组，（行数，列数）

data.values //返回底层的numpy数据

如下去所示的csv数据：

解析1:

import pandas as pdtrain_data = pd.read_csv("train.csv")# 将标签转为0，1，2，3，4，...# 去掉重复的species = train_data['species'].unique()PRint species# 转为0，1，2，3，4，...species = pd.Series(range(0, len(species)), index=list(species))print species# 修改标签数据为：0，1，2，3，4，...def fix_spieces(line):    line['species'] = species.loc[line['species']]    return linetrain_data = train_data.apply(fix_spieces, axis=1)print train_data[0:4]# 返回numpy数据。# 下标从0开始。# 取样本数据，所有行：第二列到最后一列。train_data.values[0::, 2::]# 取标签数据，所有行：第一列。train_data.values[0::, 1]
解析2:
import pandas as pdimport numpy as npfrom sklearn.preprocessing import LabelEncoderfrom sklearn.preprocessing import StandardScalertrain_data = pd.read_csv("train.csv")# 将train_data中的‘id’列弹出。ID = train_data.pop('id')# print train_data[0:1]# 将train_data中的‘species’列弹出。y = train_data.pop('species')# 将species向量化。y = LabelEncoder().fit(y).transform(y)print y# standardize the data by setting the mean to 0 and std to 1standardize = TrueX = StandardScaler().fit(train_data).transform(train_data) if standardize else train_data.valuesprint X[0:1]
2）pandas的主要数据类型dtype：object, 字符串类型int, 整型float, 浮点型datetime, 时间类型bool, 布尔型print data.dtpyes输出每一列的数据类型3）索引4）选择数据data.loc[1] //返回单列数据data.loc[1:3] //返回切片列数据，相当于 data.loc[[1,2,3]]data.loc[:,['ID’]]data.loc[:4,['ID','YELP’]] //返回指定行的指定类，从0行到4行，包括第4行data.iloc[:,:] //返回所有数据data.iloc[:2,1:3] //返回特定行特定列的数据data[‘ID’] //返回列data[2:5] //返回行data[3:6][:2]data[‘ID’][3:6]data[3:6][‘ID’]data[data.YELP>0] //YELP这列的值不为空，即NaNdata[data['ID'].isin(['v4','v5'])] //返回有这个值的列5）缺失值处理去掉包含缺失值的行：df.dropna(how=‘any’)对缺失值进行填充：df.fillna(values=‘NULL’)对数据进行布尔补充：pandas.isnull(df)
6）数据处理
<class 'pandas.core.series.Series'>方法to_stringto_jsonjson.loads(df.loc[0:5,['ID','YELP']].to_json())输出.csv文件。对应解析1:output = model.predict_proba(test_data.values[0::, 1::])        out = pd.DataFrame(output, index=test_data.values[0::, 0].astype(np.int), columns = species.index.values)out.index.name = "id"out.to_csv("output.csv")对应解析2:LABELS = sorted(pd.read_csv('train.csv').species.unique())ID, test_data = load_test_data()yPred_proba = model.predict(test_data)# Converting the test predictions in a dataframe as depicted by sample submissionyPred = pd.DataFrame(yPred_proba,index=ID,columns=LABELS)print('Creating and writing submission...')fp = open('submit.csv', 'w')fp.write(yPred.to_csv())print('Finished writing submission')# Display the submissionyPred.tail()