经常有需要用python脚本去处理excel做统计工作,那么pandas为统计工作的首选。下面来看下dataframe的简单操作。

获取指定行、列

1
2
row = df.iloc[3, :]  # 获取第4行
column = df.iloc[:, 3] # 获取第4列

获取dataframe坐标值

1
value = data.iat[0,5]  # dataframe.iat[0,0]开始

行 or 列拼接

1
nc_df = pd.concat([gt_defect, infer_defect], axis=0)  # 垂直拼接gt_defect列 和 infer_defect列

去重,去空

1
2
nc = df.drop_duplicates().dropna()  # 去重, 去空, df为某一列
# nc = np.array(nc).tolist() # dataframe --> list

从df中筛选出a列中包含string的所有行(不包含空行), return dataframe

1
2
data = df[df['a'].str.contains('string', na=False)]
data = type_not_null[type_not_null[pic_or_product_level].astype(str).str.contains(i, na=False)] # i为数字的话,需要这样筛选

获取dataframe行数

1
total_rows = len(df.index)

去掉 type 列空行

1
type_not_null = df[df['type'].notnull()]  # 保留空行为isnull()

list中某元素的数量

1
model_loushi = one_list.count('loushi')

dataframe新增列

1
df['pic_name'] = df['a'].map(str) + '-' + df['b'].map(str) + '-' + df['c'].map(str)  # 将a,b,c三列拼接成为一列命名为pic_name放在dataframe最后一列