전체 글 (10) 썸네일형 리스트형 drop 함수, 인덱스 리셋 데이터를 다룰때 필요한 간단한 기능을 알아보자 실습을 하며 이용할 데이터는 공공데이터 포털에서 가져왔다. https://www.data.go.kr/data/3076483/fileData.do 2013년 기준 국내 외식기업의 해외 진출 현황을 보여주는 자료이다. 우선 데이터를 불러온 후 형태를 확인해본다. 총 112개의 행, 7개의 컬럼으로 구성된 데이터이다. 그런데 컬럼에 있어야 할 내용이 2행에 있고 오타까지 있는 것을 볼 수 있다. 우선 컬럼명부터 바꿔주겠다. 컬럼이 총 7개이기 때문에 각 열에 맞는 이름을 순서대로 7개 적어주면 위 사진처럼 컬럼명이 생긴다. 그런데 1행과 2행의 내용이 필요가 없어보인다. drop 함수를 이용하여 삭제해주도록 한다. drop을 이용해주면 필요 없는 내용들을 제거해줄.. 상관계수와 미세먼지 데이터 상관계수(Correlation coefficient)란 X와 Y사이의 선형성의 정도를 나타내는 측도이다. 다시 말해 X와 Y의 상관관계를 나타내는 수치이다. 상관계수는 -1부터 1사이의 숫자로 표시되는데 절댓값으로 1에 가까울수록 상관관계가 강한 것이다. 상관계수가 0이면 두 변수간의 상관관계가 없다는 뜻이고 0에 가까울수록 관련성이 적다. 상관계수가 양(+)의 값을 가질 경우 X가 증가할 때 Y 또한 증가한다는 경향이 있음을 의미한다. 음(-)의 값을 가질 때는 X가 증가할 때 Y는 감소하는 경향이 있음을 의미한다. 상관계수를 구하는 공식은 간단하지만 직접 계산해보면 매우 매우 귀찮다. 하지만 이 역시 파이썬을 이용하면 눈 감고도 구할 수 있다. 2015년도의 미세먼지와 관련된 데이터를 이용하여 여러 .. 과소적합(Underfitting) 그리고 과적합(Overfitting) 가장 왼쪽에 있는 Degree 1 예측 곡선을 보면 학습데이터에 비해 지나치게 단순한 선형 곡선을 보인다. 누가 봐도 예측이 잘 안될 것 같다. 반면에 가장 오른쪽에 있는 Degree 15 예측 곡선 그림을 보면 예측 모델이 샘플 데이터를 정확히 예측한 모습을 볼 수 있다. 그렇다면 Degree 15 예측 곡선이 가장 효과적인 예측 모델일까? 머신러닝 모델링을 할 때 보통 트레이닝 데이터를 이용하여 학습을 시키고 테스트 데이터를 이용하여 예측을 한다. Generalization된 모델을 만들기 위해 트레이닝 데이터를 이용하여 학습을 하는 과정이 매우 중요한데 이 과정에서 데이터의 패턴을 제대로 학습하지 못하거나 과도하게 학습을 한다면 문제가 발생할 수 있다. 바로 과소적합과 과적합 문제이다. 과소적합(U.. 이전 1 2 3 4 다음