博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python数据分析-数据处理
阅读量:4942 次
发布时间:2019-06-11

本文共 3821 字,大约阅读时间需要 12 分钟。

数据导入:

 

 

导入csvfrom pandas import read_csv;df = read_csv('D://PA//4.1//1.csv')导入文本,要转成UTF-8无BOM格式:from pandas import read_table;df = read_table('D://PA//4.1//2.txt')导入exclefrom pandas import read_excel;df = read_excel('C:/PA/4.1/3.xlsx')
View Code

数据导出:

数据的导出:

from pandas import DataFrame;df = DataFrame({    'age': [21, 22, 23],     'name': ['KEN', 'John', 'JIMI']});df.to_csv("c:/PA/4.1/df.csv");#不导入序号df.to_csv("c:/PA/4.1/df.csv", index=False);
View Code

重复值处理:

from pandas import read_csv;df = read_csv('C:/PA/4.1/data.csv')newDF = df.drop_duplicates();
View Code

缺失值处理:

from pandas import read_csv;df = read_csv('C:/PA/4.4/data.csv')newDF = df.dropna();
View Code

空格值处理:

from pandas import read_csv;df = read_csv('C:/PA/4.5/data.csv')newDF = df["name"].str.strip();df["name"]=newDF;
View Code

字段抽取:

astype(str) 转换成字符型数据,以便于处理。

from pandas import read_csv;df = read_csv('C:/PA/4.6/data.csv')df["tel"]=df["tel"].astype(str);bands=df["tel"].str.slice(0,3);areas=df["tel"].str.slice(3,7);numbs=df["tel"].str.slice(7,11);
View Code

字段拆分:

from pandas import read_csv;df=read_csv("C:/PA/4.7/data.csv");newDF=df["name"].str.split(" ",1,True);newDF.columns=["band","name"];
View Code

记录抽取:

import pandas;from pandas import read_csv;df=read_csv("C:/PA/4.8/data.csv",sep="|");df[df.comments>1000];df[df.comments.between(1000,10000)];df[pandas.isnull(df.title)];df[df.title.str.contains("台电",na=False)];df[(df.comments>=1000)&(df.comments<=10000)]
View Code

随机抽样:

import numpy;from pandas import read_csv;df=read_csv("C:/PA/4.9/data.csv");r=numpy.random.randint(0,10,3);df.loc[r,:];
View Code

记录合并 :

import pandas;from pandas import read_csv;df1=read_csv("C:/PA/4.10/data1.csv",sep="|");df2=read_csv("C:/PA/4.10/data2.csv",sep="|");df3=read_csv("C:/PA/4.10/data3.csv",sep="|");df=pandas.concat([df1,df2,df3])
View Code

字段合并:

from pandas import read_csv;df = read_csv(     "C:/PA/4.11/data.csv",    sep=" ",     names=['band', 'area', 'num']);df = df.astype(str);tel = df['band'] + df['area'] + df['num']
View Code

字段匹配:

import pandas;from pandas import read_csv;item=read_csv(        "C:/PA/4.12/data1.csv",        sep="|",        names=["id","comments","title"]);prices=read_csv(         "C:/PA/4.12/data1.csv",         sep="|",         names=["id","oldprice","newprice"]        )itemprices=pandas.merge(        item,        prices,        left_on="id",        right_on="id" );
View Code

简单计算:

import pandas;from pandas import read_csv;df=read_csv("C:/PA/4.13/data.csv",sep="|");result=df.price*df.numdf["sum"]=result
View Code

数据标准化:

import pandas;from pandas import read_csv;df=read_csv("C:/PA/4.14/data.csv");scale=(df.score-df.score.min())/(df.score.max()-df.score.min())
View Code

数据分组:

import pandas;from pandas import read_csv;df = read_csv("C:\\PA\\4.15\\data.csv", sep='|');bins = [min(df.cost)-1, 20, 40, 60, 80, 100, max(df.cost)+1];labels = ['20以下', '20到40', '40到60', '60到80', '80到100', '100以上'];pandas.cut(df.cost, bins)pandas.cut(df.cost, bins, right=False)pandas.cut(df.cost, bins, right=False, labels=labels)
View Code

日期转换:

import pandas;from pandas import read_csv;from pandas import to_datetime;df = read_csv("C:\\PA\\4.16\\data.csv",encoding="utf-8");df_dt=to_datetime(df.注册时间,format="%Y/%m/%d");
View Code

日期格式化:

import pandas;from pandas import read_csv;from pandas import to_datetime;df = read_csv("C:\\PA\\4.16\\data.csv",encoding="utf-8");df_dt=to_datetime(df.注册时间,format="%Y/%m/%d");df_dt_str=df_dt.apply(lambda x:datatime.strftime(x,"%d-%m-%Y"))
View Code

日期抽取:

 

import pandas;from pandas import read_csv;from pandas import to_datetime;df = read_csv("C:\\PA\\4.18\\data.csv",encoding="utf-8");df_dt=to_datetime(df.注册时间,format="%Y/%m/%d");df_dt.dt.year;df_dt.dt.second;df_dt.dt.minute;df_dt.dt.hour;df_dt.dt.day;df_dt.dt.month;df_dt.dt.weekday;
View Code

 

转载于:https://www.cnblogs.com/qiuyuyu/p/9144034.html

你可能感兴趣的文章
中国象棋棋子及棋盘的绘制
查看>>
socketserver剖析.html
查看>>
分享两个网址,一个是使用mssql自带的跟踪工具和分析工具
查看>>
[贪心][高精度][NOIP]国王游戏
查看>>
Java对象创建的过程及对象的内存布局与访问定位
查看>>
设计模式之二-Proxy模式
查看>>
QT--以共享的方式发布应用,QT依赖库
查看>>
JAVA——孪生素数
查看>>
Asp.net页面间传值方式汇总
查看>>
DB相关问题
查看>>
hibernate 的一对多关联关系映射配置
查看>>
# Mysql免登录重置root密码
查看>>
创造型模式-生成器模式
查看>>
守护线程和非守护线程
查看>>
layui 日期插件onchange事件失效的方法
查看>>
第六章
查看>>
MVC5中Model层开发数据注解
查看>>
Python3安装cx_Oracle连接oracle数据库实操总结
查看>>
[NOIp2008] 双栈排序 (二分图染色 + 贪心)
查看>>
项目管理-软件开发模式对比(瀑布、迭代、螺旋、敏捷)
查看>>