pip install pandas
pip install xlrd
엑셀 읽기
df = pd.read_excel('D:/test.xlsx')
print(df)
a1 a2 a3 a4
0 1 2 3 4
1 3 2 3 4
2 2 4 4 5
csv 읽기는 pd.read_csv
데이터프레임을 엑셀로 저장하기
df = pd.read_excel('D:/test.xlsx')
df.to_excel('D:/test2.xlsx')
csv로 저장하기는 df.to_csv
칼럼 출력하기
df = pd.read_excel('D:/test.xlsx')
print(df.columns)
Index(['a1', 'a2', 'a3', 'a4'], dtype='object')
열 지정하여 출력하기
df = pd.read_excel('D:/test.xlsx')
print(df['a1'])
0 1
1 3
2 2
리스트를 데이터프레임으로 변환하기
sample_list = ['a1', 'a2', 'a3', 'a4']
print(pd.DataFrame(sample_list))
0
0 a1
1 a2
2 a3
3 a4
NaN을 지정 문자열로 채우기
df = pd.read_excel('D:/test.xlsx')
print(df)
a1 a2 a3 a4
0 1.0 2 3 4
1 3.0 2 3 4
2 NaN 4 4 5
print(df.fillna('test'))
a1 a2 a3 a4
0 1 2 3 4
1 3 2 3 4
2 test 4 4 5
데이터프레임 shape 보기
df = pd.read_excel('D:/test.xlsx')
print(df)
a1 a2 a3 a4
0 1.0 2 3 4
1 3.0 2 3 4
2 NaN 4 4 5
print(df.shape)
(3, 4)
데이터프레임 인덱스 확인
df = pd.read_excel('D:/test.xlsx')
print(df.index)
RangeIndex(start=0, stop=3, step=1)
데이터프레임의 간단한 통계정보
df = pd.read_excel('D:/test.xlsx')
print(df.describe())
a1 a2 a3 a4
count 2.000000 3.000000 3.000000 3.000000
mean 2.000000 2.666667 3.333333 4.333333
std 1.414214 1.154701 0.577350 0.577350
min 1.000000 2.000000 3.000000 4.000000
25% 1.500000 2.000000 3.000000 4.000000
50% 2.000000 2.000000 3.000000 4.000000
75% 2.500000 3.000000 3.500000 4.500000
max 3.000000 4.000000 4.000000 5.000000
데이터프레임의 행을 지정하여 읽기
df = pd.read_excel('D:/test.xlsx')
print(df)
a1 a2 a3 a4
0 1.0 2 3 4
1 3.0 2 3 4
2 NaN 4 4 5
print(df[0:2])
a1 a2 a3 a4
0 1.0 2 3 4
1 3.0 2 3 4
for문으로 row 반복하기
df = pd.read_excel('D:/test.xlsx')
print(df)
a1 a2 a3 a4
0 1.0 2 3 4
1 3.0 2 3 4
2 NaN 4 4 5
for row in df.iterrows():
print(row)
(0, a1 1.0
a2 2.0
a3 3.0
a4 4.0
Name: 0, dtype: float64)
(1, a1 3.0
a2 2.0
a3 3.0
a4 4.0
Name: 1, dtype: float64)
(2, a1 NaN
a2 4.0
a3 4.0
a4 5.0
Name: 2, dtype: float64)
column의 값 반복하기
df = pd.read_excel('D:/test.xlsx')
print(df)
a1 a2 a3 a4
0 1.0 2 3 4
1 3.0 2 3 4
2 NaN 4 4 5
for value in df['a2']:
print(value)
2
2
4