Pandas系列1-DataFrame之初始化

Pandas中如果要初始化DataFrame对象，实际又很多种方式，本文将详解Pandas初始化的几种不同方式。

DataFrame有多种初始化方法，主要分为以下几种情况：

通过Object初始化
通过文件初始化
通过SQL查询结果初始化
通过NoSQL数据库查询结果初始化

下面分别介绍：

通过object初始化

这又分为以下几种方式

Dict of 1D ndarrays, lists, dicts, or Series
2-D numpy.ndarray
Structured or record ndarray
A Series
Another DataFrame

通过list

通过1D data series初始化的时候，如果有多列，那么需要等长

# columns参数是通过一个list参数来指定column labels
df = pd.DataFrame([['a1', 1], ['a2', 4]], columns=['uid', 'score'])
In [477]: df
Out[477]:
  uid  score
0  a1      1
1  a2      4

通过Dict of 1D ndarray

In [298]: df = pd.DataFrame({'col1': np.arange(3), 'col2': np.arange(5, 8)})

In [299]: df
Out[299]:
   col1  col2
0     0     5
1     1     6
2     2     7

通过Dict of lists

In [294]: df = pd.DataFrame({'col1': [1, 2, 3, 4], 'col2': ['a', 'b', 'c', 'd']})

In [295]: df
Out[295]:
   col1 col2
0     1    a
1     2    b
2     3    c
3     4    d

通过list of dicts

注意与上边的dict of lists区分，如果最外层是dict，那么key值默认是column label。而在list of dicts中，每个dict都是一个record，或者说一行

# 可以不等长，缺失值自动设为NaN
In [49]: data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

In [50]: pd.DataFrame(data2)
Out[50]: 
   a   b     c
0  1   2   NaN
1  5  10  20.0

In [51]: pd.DataFrame(data2, index=['first', 'second'])
Out[51]: 
        a   b     c
first   1   2   NaN
second  5  10  20.0

In [52]: pd.DataFrame(data2, columns=['a', 'b'])
Out[52]: 
   a   b
0  1   2
1  5  10

通过Dict of Series

In [314]: s = pd.Series(range(5))

In [315]: s
Out[315]:
0    0
1    1
2    2
3    3
4    4
dtype: int64

In [316]: p = pd.Series(range(8, 13))

In [317]: p
Out[317]:
0     8
1     9
2    10
3    11
4    12
dtype: int64

In [318]: df = pd.DataFrame({'a': s, 'b': p})

In [319]: df
Out[319]:
   a   b
0  0   8
1  1   9
2  2  10
3  3  11
4  4  12

通过2-D numpy.ndarray

In [289]: df = pd.DataFrame(np.arange(16).reshape((4,4)), columns=['one', 'two', 'three',
     ...:  'four'], index=['a', 'b', 'c','d'])

In [290]: df
Out[290]:
   one  two  three  four
a    0    1      2     3
b    4    5      6     7
c    8    9     10    11
d   12   13     14    15

通过文件初始化

pandas通过各种数据文件也可以初始化，比如csv文件，excel文件，json文件，html文件等，详见下图

下面以read_csv详细解释下读取csv文件以及初始化的过程 read_csv的完整文档参考read_csv api，下面通过示例对常用的parameter进行解释：

csv_path = "./test.csv"
columns = ['id', 'name', 'age']
dtype = {'id': int, 'name': object, 'age': int}
pd.read_csv(csv_path, header=None, names=columns, dtype=dtype)

filepath_or_buffer, 这个是最基本的参数，用以指明文件的路径(路径可以是字符串，也可以是各种path对象，详见文档)或者文件对象(也可以接收类文件对象, 即提供read method，如StringIO对象)。另外，这个参数也可以是一个URL，而这个URL可以http, ftp, 或者s3的url.

对于没有权限限制的url，直接使用read_csv可以大大简化代码，但是通过我们的数据不会放置到公开的url地址上，因此这就涉及权限的问题，通常还是通过其它手段将文件下载到本地后再读取。

header, 这个参数用于设置第几行为column names, 默认是'infer'，即Pandas会自动推断哪一行是column names。当文件中没有column names时，相当于设定header=0。很多时候想要忽略原始的column names而自己设定column names，那么可以将这个参数设置为None, 然后通过names参数来设定column names
names, 用于设定column names
dtype, 用于设定每一列对应的数据类型，需要注意的是对string类型需要设置为object
nrows, 要读取多少行，通过这个参数我们可以部分读取文件
usecols, 用于选定列，即指定哪些列load进DataFrame中，通过这个参数可以只读取我们需要的数据，从而减少内存占用，加快load速度。

通过SQL查询结果初始化

import pandas.io.sql as sql

# conn是数据库的连接对象
sql.read_frame('select * from test', conn)

NoSQL查询结果初始化

这里以MongoDB为例

# 从MongoDB中查询年龄大于20岁的用户，查询返回一个cursor对象
user_results = user.find({"age": {"$gt": 20}})

# 将cursor对象转化为list，然后初始化
# columns可以用于选取相应的field的数据，只有在这个列表中的field才会被load进DataFrame对象当中，如果没有对应的数据，会被填入NaN
df = pd.DataFrame(list(user_results), columns=['id', 'age', 'name']

这里需要注意的是如果不指定columns参数，有可能导致某些为空的field没有对应的列，如果指定了列名称，则如果相对应的域没有数据的话，就会自动置为nan

References

read_csv API
IO Tools
《利用Python进行数据分析》