titanic_data.iloc[0][3]
'Braund, Mr. Owen Harris'
데이터는 Titanic 데이터를 확인해보자.
titanic_data=pd.read_csv("C:/data/titanic/train.csv")
titanic_data
이런식으로 나오는 형태가 데이터프레임이다. 칼럼 즉 변수는 총 12개가 있다. 초심자라고 부담스러워 하지마라. 곧 할것이다.
실제 데이터를 다루기 시작할 때 가장 많이 사용하는 것이 특정 칼럼(변수) 혹은 특정열을 선택해서 아니면 각각의 범위를 지정해서 보는것이다. 실제 Pandas에서 제공해 주는 함수에는 정말 많은 것이 있지만, 대표적인 것만 설명하겠다.
iloc
titanic_data.iloc[0]
위 전체 데이터와 비교해보자. 0번째 인덱스에 있는 value들을 전부 가져온다.
-특정 변수에서 필요한 인덱스 값을 갖고 와보자.
titanic_data.iloc[0][3]
'Braund, Mr. Owen Harris'
titanic_data.iloc[0]['Name']
'Braund, Mr. Owen Harris'
iloc이란 행이든 열이든 숫자로 location을 나타내서 Selecting or indexing 하는 방법이다. 그러나 변수 명을 집어넣어도 상관없다.
해석해보자. 행렬로 설명한다. iloc[행][열] 방식이다. 즉,
나는 [0]번째 전체 행에서 [3] 번째 행을 선택해 보고싶다.
나는 [0]번째 전체 행에서 ['Name']변수에 위치한 값을 선택해 보고싶다.
같은 의미이다.
정확한 표현 방식 및 정리는 다음과 같다.
titanic.iloc[1] # titanic 1번째 인덱스의 행 선택 추출
titanic.iloc[-1] # titanic 마지막 인덱스의 행 선택 추출
titanic.iloc[:,1] # titanic 1번째 인덱스의 열 선택 추출
titanic.iloc[:,-1] # titanic 마지막 인덱스의 열 선택 추출
titanic.iloc[0:5] # 0번째부터 5번째 인덱스 행 선택 추출
titanic.iloc[:,0:5] #0번째부터 5번째 열까지 선택 추출
titanic.iloc[[0,5,24],[1,4,7]] # 0,5,24 인덱스의 행과 1,4,7인덱스의 행 선택 추출
주의할점.
-어떤 방식으로 내가 행과 열을 selection&extraction 하느냐에 따라 그 output structure은 데이터프레임이 될 수 있고 시리즈 형식이 될 수 있다.
-또한 인덱스라는 의미로 주석표기한 이유는 기본 파이썬 언어 인덱스는 0부터이다. 번째로 주석표기한다면 index+1을 해야하기에 혼동을 야기할 수 있으므로 인덱스로 표기한다.
iloc은 요즘 잘 사용하지 않는다고 한다. 하지만 코딩을 활용한 분석에서의 코딩은 내가 원하는 방식으로 이끌어가도 괜찮다고 생각한다.
'Data analysis > Pandas' 카테고리의 다른 글
pandas.DataFrame.apply (0) | 2021.03.16 |
---|---|
[Pandas] DataFrame (0) | 2021.01.15 |
[Pandas] Series (0) | 2021.01.15 |
[Pandas] DataFrame(개념) (0) | 2021.01.13 |