파이썬에서 데이터 통계를 쉽게 사용하기 위한 라이브러리인 판다스의 첫번째 포스팅이다.
넘파이를 사용해도 되지만 기본적으로 넘파이는 통계에 대한 깊은 이해가 필요 하기 떄문에 나같은 초심자는 판다스가
사용하기 쉽다. (물론 그렇다고 통계 공부를 게을리 하라는 얘기는 아님.)
그럼 시작해 보겠다.
먼저 당연히 라이브러리를 임포트 하고 딕셔너리로 데이터프레임을 만든다.
데이터 프레임은
pd.DataFrame('선언한 dictionary이름)
으로 주로 만든다. 또는 다음과 같이
넘파이 array를 선언한 다음 만들 수도 있는데 이는 곧 csv파일을 통해서 DataFrame을 선언 할 수 있음을 의미한다. 다음 시간에는 csv파일을 통해서 DataFrame을 만드는 것과 활용을 알아 보도록 하겠다.
데이터의 형태를 알아 보기 위해서 다음과 같이 shape함수를 사용 할 수 있고
인덱스의 길이을 알아 보기 위해서 index와 len을 혼합해서 사용 할 수 있으며 컬럼의 이름을 알아 볼 수도 있다.
이를 응용하면 len과 columns를 활용하여 컬럼의 길이를 알아 볼 수도 있을 것이다.
그리고 dataframe의 indexing즉, 선택을 위해서 iloc과 loc을 사용 할 수 있으며 두 인덱서의 차이는
iloc은 정수를 사용하여 인덱싱 하는 것이고 loc은 문자를 사용하여 인덱싱 하는 것이다.
iloc의 경우 iloc[x,y]이렇게 사용하거나 iloc[x]와 같이 사용하는데
하나만 사용 할 경우 데이터 프레임의 행을 선택하는 것이다.
그리고 iloc[x.y:]니 iloc[,y:]와 이 indexer처럼도 사용할 수 있는데 위의 그림을 참고 하면 될 것이다.
columns를 drop해야 할 경우 다음과 같이 column을 명명하고 drop하는 것이 일반적이다.
이번에 기본적인 dataframe의 사용법을 알아 보았으니 다음에 직접 데이터를 입력한 다음 필요한 데이터를 가공하여 사용해 보도록 하겠다. 그리고 그과정에서 사용되는 간단한 판다스 명령어를 살펴보자.
'머신러닝 > 기초 문법' 카테고리의 다른 글
Python경로 관련 (0) | 2020.12.08 |
---|---|
0. 파이썬 출력 end='' (0) | 2019.06.20 |
0. 파이썬 출력print and sep (0) | 2019.06.20 |
가상환경 만들고 삭제하기 (0) | 2019.02.14 |
9. 함수 (0) | 2019.02.12 |