데이터를 다룰때 필요한 간단한 기능을 알아보자
실습을 하며 이용할 데이터는 공공데이터 포털에서 가져왔다.
https://www.data.go.kr/data/3076483/fileData.do
2013년 기준 국내 외식기업의 해외 진출 현황을 보여주는 자료이다.
우선 데이터를 불러온 후 형태를 확인해본다.
총 112개의 행, 7개의 컬럼으로 구성된 데이터이다. 그런데 컬럼에 있어야 할 내용이 2행에 있고 오타까지 있는 것을 볼 수 있다. 우선 컬럼명부터 바꿔주겠다.
컬럼이 총 7개이기 때문에 각 열에 맞는 이름을 순서대로 7개 적어주면 위 사진처럼 컬럼명이 생긴다. 그런데 1행과 2행의 내용이 필요가 없어보인다. drop 함수를 이용하여 삭제해주도록 한다.
drop을 이용해주면 필요 없는 내용들을 제거해줄 수 있다. 행, 열 둘 다 제거가 가능하다. 하나 팁이 있다면 어떤 함수의 활용법이 헷갈릴 때는 함수 뒤에 ?를 붙인 후 실행시키면 기본값과 활용 예시를 볼 수가 있다. 예시에 컬럼을 삭제하는 방법도 나와있다.
1행과 2행을 제거한 모습이다. 컬럼 중 No는 단순한 숫자의 나열이고 의미가 없기 때문에 No 컬럼을 삭제해주도록 한다.
데이터가 보기 좋아졌는데 첫 두 행을 지웠더니 인덱스 번호가 2부터 시작한다. 헷갈리지 않도록 인덱스 번호를 다시 설정해준다.
데이터가 한결 보기 깔끔해졌다.
'빅데이터' 카테고리의 다른 글
불린 인덱싱(boolean indexing) & object to int 변환 (0) | 2020.10.19 |
---|---|
특정 데이터 값 변경(replace함수) (0) | 2020.10.19 |
상관계수와 미세먼지 데이터 (0) | 2020.10.19 |
과소적합(Underfitting) 그리고 과적합(Overfitting) (0) | 2020.10.19 |
단순선형회귀분석과 보스턴 집값 데이터(2) (0) | 2020.10.18 |