불린 인덱싱은 필터링의 가장 대표적인 방법으로 많은 데이터 중 내가 원하는 조건을 만족하는 데이터를 추출할 수 있는 기법이다. 시리즈 객체에 조건식을 적용하여 각 행의 데이터가 조건을 만족하는지를 True/False 값으로 표시하여 불린 시리즈를 만들 수 있다. 만들어진 불린 시리즈를 데이터 프레임 형식으로 바꿔주면 원하는 값들만 추출할 수 있다.
앞에서 계속 이용하던 데이터를 이용해서 실습을 해보도록 하겠다.
데이터를 보니 각 브랜드마다 진출해있는 국가, 총 점포 수가 다른 것을 볼 수 있다. 불린 인덱싱을 이용하여 총 점포 수가 20개 이상 40개 미만인 브랜드만 추출해보도록 하겠다.
데이터의 총 점포 수 중 20개 이상 40개 미만을 bool1에 저장하여 프린트를 했는데 오류가 뜬다.
데이터 인포를 다시 본다.
총점포수 컬럼의 숫자가 int가 아닌 object로 저장이 되어있어서 조건을 인식하지 못했던 것이다. 총점포수의 데이터를 int형으로 변환시켜준다.
코드를 입력하고 다시 인포를 보니 int로 잘 바뀌어있다. 그럼 다시 불린 인덱싱을 진행해 준다.
이번엔 잘 된다. 총점포수 >= 20과 총점포수 < 10 둘 다 만족하는 행은 True로 표시되고 둘 중 하나라도 만족하지 못하는 데이터는 False로 표시된다.
특정 데이터를 추출할 때 이용하는 loc를 이용하여 조건에 만족하는 데이터를 추출할 수 있다. 위에 저장한 불린 시리즈 배열을 행 위치에 입력하면 점포 수가 20개 이상, 40개 미만인 데이터만 불러온다. 그리고 열 위치에 특정 컬럼명만 입력하면 보고 싶은 컬럼만 불러올 수 있다.
이를 응용하면 다양한 조건을 만족하는 데이터를 추출할 수 있다.
'빅데이터' 카테고리의 다른 글
특정 데이터 값 변경(replace함수) (0) | 2020.10.19 |
---|---|
drop 함수, 인덱스 리셋 (0) | 2020.10.19 |
상관계수와 미세먼지 데이터 (0) | 2020.10.19 |
과소적합(Underfitting) 그리고 과적합(Overfitting) (0) | 2020.10.19 |
단순선형회귀분석과 보스턴 집값 데이터(2) (0) | 2020.10.18 |