새소식

반응형
IT skill/Python

[python] pandas 정리

  • -
반응형

pip install pandas

pip install xlrd

 

엑셀 읽기

df = pd.read_excel('D:/test.xlsx')
print(df)

   a1  a2  a3  a4
0   1   2   3   4
1   3   2   3   4
2   2   4   4   5

csv 읽기는 pd.read_csv
데이터프레임을 엑셀로 저장하기

df = pd.read_excel('D:/test.xlsx')
df.to_excel('D:/test2.xlsx')

csv로 저장하기는 df.to_csv
칼럼 출력하기

df = pd.read_excel('D:/test.xlsx')
print(df.columns)

Index(['a1', 'a2', 'a3', 'a4'], dtype='object')
열 지정하여 출력하기

df = pd.read_excel('D:/test.xlsx')
print(df['a1'])

0    1
1    3
2    2
리스트를 데이터프레임으로 변환하기

sample_list = ['a1', 'a2', 'a3', 'a4']
print(pd.DataFrame(sample_list))

    0
0  a1
1  a2
2  a3
3  a4
NaN을 지정 문자열로 채우기

df = pd.read_excel('D:/test.xlsx')
print(df)

    a1  a2  a3  a4
0  1.0   2   3   4
1  3.0   2   3   4
2  NaN   4   4   5

print(df.fillna('test'))

     a1  a2  a3  a4
0     1   2   3   4
1     3   2   3   4
2  test   4   4   5
데이터프레임 shape 보기

df = pd.read_excel('D:/test.xlsx')
print(df)

    a1  a2  a3  a4
0  1.0   2   3   4
1  3.0   2   3   4
2  NaN   4   4   5

print(df.shape)

(3, 4)
데이터프레임 인덱스 확인

df = pd.read_excel('D:/test.xlsx')
print(df.index)

RangeIndex(start=0, stop=3, step=1)
데이터프레임의 간단한 통계정보

df = pd.read_excel('D:/test.xlsx')
print(df.describe())

             a1        a2        a3        a4
count  2.000000  3.000000  3.000000  3.000000
mean   2.000000  2.666667  3.333333  4.333333
std    1.414214  1.154701  0.577350  0.577350
min    1.000000  2.000000  3.000000  4.000000
25%    1.500000  2.000000  3.000000  4.000000
50%    2.000000  2.000000  3.000000  4.000000
75%    2.500000  3.000000  3.500000  4.500000
max    3.000000  4.000000  4.000000  5.000000
데이터프레임의 행을 지정하여 읽기

df = pd.read_excel('D:/test.xlsx')
print(df)

    a1  a2  a3  a4
0  1.0   2   3   4
1  3.0   2   3   4
2  NaN   4   4   5

print(df[0:2])

    a1  a2  a3  a4
0  1.0   2   3   4
1  3.0   2   3   4
for문으로 row 반복하기

df = pd.read_excel('D:/test.xlsx')
print(df)

    a1  a2  a3  a4
0  1.0   2   3   4
1  3.0   2   3   4
2  NaN   4   4   5

for row in df.iterrows():
    print(row)
    
(0, a1    1.0
a2    2.0
a3    3.0
a4    4.0
Name: 0, dtype: float64)
(1, a1    3.0
a2    2.0
a3    3.0
a4    4.0
Name: 1, dtype: float64)
(2, a1    NaN
a2    4.0
a3    4.0
a4    5.0
Name: 2, dtype: float64)    
column의 값 반복하기

df = pd.read_excel('D:/test.xlsx')
print(df)

    a1  a2  a3  a4
0  1.0   2   3   4
1  3.0   2   3   4
2  NaN   4   4   5

for value in df['a2']:
    print(value)
    
2
2
4    

 

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감과 광고 클릭 부탁드립니다~