Pandas 데이터 분석을 시작하려면 무조건, 필수로 import 해야되는 라이브러리. 내가 공부하는게 아니라 누군가를 알려줘야 한다고 생각할때, 과연 어떤 방식으로 쉽게 설명을 해줄까...하다가 우선 데이터프레임을 이해하기 전에 어떤식으로 코딩을 하는지를 먼저 알려주는게 나을 것 같다. 바로 시작해보자.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
본인은 초심자들을 위한 내용을 제공할 것이기에, 어느정도 숙련도가 있는 분석가들은 과감하게 나가 주길 바란다.
-import [main_library] as [value] 즉, padas라이브러리를 가져올건데 나는 이걸 사용하기 위해 pd로 줄여서 쓸거야 왜냐면 귀찮거든 이라는 의미다. 좀더 추가로 설명하자면 pd를 ks 로 바꿔 설정해도 상관없다.
-근데 왜 이렇게 해야하는가.. 지금 시작할 튜토리얼과 연관성이 있다.
padas.DataFrame(~~)
pd.DataFrame(~~)
호출라이브러리.호출라이브러리기능 순이다. 즉 pandas를 하면 귀찮다!
<다시 본론으로...>
그래서 결국 pandas에서 DataFrame이란 무엇이냐... 통계분석 언어 중 하나인 R이 있다. 온전히 통계 분석을 위해 개발된 R 과는 다르게 python은 일반 프로그램언어이다. 그러므로 데이터 분석을 하기 위해서는 여러가지 라이브러리를 사용할 수 밖에 없는 것이다. 이 패키지들 중 R의 dataframe 데이터 타입을 참고하여 만든 것이 바로 pandas dataframe이다. pandas는 dataframe을 주로 다루기 위한 라이브러리이며, dataframe을 자유롭게 가공하는 것은 데이터 분석가들에게 중요하다.
우리가 데이터를 다루려면 파이썬 자료구조인 리스트, 튜플, 딕셔너리와 같은 것을 써야하는데 자유자재로 변경 및 처리가 가능하다면, 데이터프레임이 굳이 필요 없을지도..?
우리가 데이터 분석을 하게 된다면 직접 데이터를 만들지 않는다. csv 및 excel 등에 저장되어있는 데이터를 받아오는데 요즘 웹 블로그에서는 만드는 것부터 설명을 해준다. 본인은 생략한다.
불러오자
csv_data=pd.read_csv("C:/data/파일이름.csv")
excel_data=pd.read_excel("C:/data/파일이름.xlsx")
*여담으로 경로 찾아줄 때 절대경로에 저장해있으면 파일이름만 적으면 되지만 다른 경로에 저장되어있다면 위치도 적어주자.
*파일경로 적을때 \\ or / 두가지이다. 백슬래시(\) 하나로는 인식을 못하는게 함정이다.
*불러왔으면 이제 어떤식으로 건드려봐야할지는 다음장에 설명하겠다.
'Data analysis > Pandas' 카테고리의 다른 글
pandas.DataFrame.apply (0) | 2021.03.16 |
---|---|
[Pandas] DataFrame (0) | 2021.01.15 |
[Pandas] Series (0) | 2021.01.15 |
[Pandas] DataFrame 특정 칼럼 혹은 인덱스 선택 (0) | 2021.01.13 |