판다스는 소프트웨어 라이브러리 용으로 작성된 파이썬 프로그래밍 언어 데이터 조작 및 분석을 위한 패키지라고 볼 수 있다. 특히, 수치표와 시계열을 조작하기위한 데이터 구조와 연산을 제공해준다.
판다스의 Series
판다스의 시리즈를 이해하기에 앞서 우리가 자주 접하는 엑셀을 한번 생각해보자.
엑셀은 칼럽이 있고, 열들이 있다. 그 구조를 이해한 상태에서 시리즈를 직관적으로 이해한다면, 시트의 열 하나를 떠올리면된다.
시리즈의 속성은 index와 values가 있다. 이는 아래 예시를 통해 한번 확인해보자.
시리즈를 생성하는 방법은 list형식, dictionary형식이 있다.
우선 list형식으로 생성해보자.
example1=pd.Series(["undead","Kwandoll","JJang"])
example1
0 undead
1 Kwandoll
2 JJang
dtype: object
그 다음은 dictionary형식으로 생성해보자.
example2=pd.Series({"undead":33,"Kwandoll":22,"JJang":11})
example2
undead 33
Kwandoll 22
JJang 11
dtype: int64
차이점은 무엇일까?
1. 리스트 형식과 딕셔너리 형식의 생성 기호는 다르다. 즉 리스트는 [] 딕셔너리는 {} 이다. 이는 파이썬 기본을 공부한다면 누구나 아는 얘기지만, 모를수도 있기에 적어본다.
2. 인덱스가 다르다. 즉, 리스트형식으로 생성한다면 인덱스라인에 있는 숫자는 리스트 원래 인덱스넘버가 그대로 생성된다. 반대로 딕셔너리로 생성을 한다면, key,value형태이기에 key가 인덱스 value가 value로 들어가는 것이다.
이 차이를 정확하게 집어가야지만 데이터프레임을 이해하고, 그 데이터프레임을 다룰때 정확하게 처리할 수 있다.
시리즈 인덱싱
example1['undead']
33
example2[1]
'kwandoll'
말로 설명하는 것보다 예시가 이해에 더 빠르기에, 이렇게 작성해본다.
해석) example1이라는 Series자료구조에서 인덱스가 'undead'인 value를 출력하라. 결과) 33
해석) example2라는 Series자료구조에서 인덱스가 1인 value를 출력하라. 결과) kwandoll
'Data analysis > Pandas' 카테고리의 다른 글
pandas.DataFrame.apply (0) | 2021.03.16 |
---|---|
[Pandas] DataFrame (0) | 2021.01.15 |
[Pandas] DataFrame 특정 칼럼 혹은 인덱스 선택 (0) | 2021.01.13 |
[Pandas] DataFrame(개념) (0) | 2021.01.13 |