얼레벌레

[py] pandas 패키지 본문

취업/KT AIVLE SCHOOL

[py] pandas 패키지

__Lucie__ 2022. 8. 7. 16:30

Dataframe?

  • 데이터를 처리/조회/분석하는 가장 효율적인 방법 = 데이터 프레임 사용
  • 데이터 분석에서 가장 중요한 데이터 구조이다.
  • 데이터프레임은 일반적으로 테이블/엑셀 형태이다.
  • 직접 만들 수 있지만 보통 csv/엑셀 파일 또는 db에서 읽어옴.

Dataframe 생성

import pandas as pd

dict = {'Name': [ 'Lucie', 'Sarang', 'Shine', 'Hikari'],
		'Level': ['Gold', 'Bronze', 'Silver', 'Gold'],
        'Score' : [56000, 23000, 44000, 52000]_
        
df = pd.DataFrame(dict)

df.head() #상위 5개 행 출력, 인자로 개수 넘겨주면 상위 n개 행 출력

 

csv 파일 불러오기 - pd.read_csv()

path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/titanic_simple.csv'
data = pd.read_csv(path)

data.head(10)

 

Dataframe 탐색하기

  • 상위 데이터 확인
    • data.head(n) : 상위 n개 행 데이터
  • 하위 데이터 확인
    • data.tail(n) : 하위 n개 행 데이터
  • 데이터프레임의 크기
    • data.shape : (row, cols)의 튜플 형태로 확인 가능
    • 데이터를 분석할 때 처리할 데이터 양을 확인하는 목적으로 많이 사용
  • 인덱스 정보 확인
    • data.index
  • 값 정보 확인
    • data.values
  • 열 정보 확인
    • data.columns : 데이터프레임의 열 이름을 출력
  • 열에 대한 상세한 정보 확인
    • data.info() : 각 열에 대해 열 이름, non-null인 것들의 개수, 데이터 타입 출력
  • 기초 통계 정보 확인
    • data.describe() : 각 열에 대해 개수, 평균, 표준편차, 최솟값, 사분위값, 최댓값 출력
  • 열 자료형 확인
    • data.dtypes : 각 열들의 이름과 자료형 출력

 

DataFrame 정렬하기

sort_values() 메소드 사용, 특정 열을 기준으로 정렬함.

ascending 옵션을 통해 오름차순, 내림차순을 설정할 수 있음

# 월급 기준으로 정렬해라, 내림 차순으로 (가장 많이 받는 월급부터 월급 기준으로 정렬)
data.sort_values(by = "MonthlyIncome", ascending = False)


#복합 열 정렬 - 열 2개 기준 정렬
#직무 만족도 기준으로 일단 오름차순 정렬해, 그런데 같으면 월급이 더 높은사람을 먼저 보여줘.
data.sort_values(by = ["JobSatisfaction", "MonthlyIncome"], ascending=[True, False])

#정렬하기 전으로 되돌리기
data.reset_index(drop=True)

 

집계

교유값 확인 : unique() 메소드

# 결혼 상태 열에 뭐가 있는지 보여줘
data(['MaritalStautus']).unique()
# Married, Single, Divorced

개수 확인 : value_counts() 메소드

# MaritalStatus 열 고유값 개수 확인
data['MaritalStauts'].value_counts()
# Married, Single, Divorced 별 개수를 세줌

기본 통계 메소드

data['MonthlyIncome'].sum() #MonthlyIncome 열 합계
data['MonthlyIncome'].max() #최댓값
data[['MonthlyIncome', 'Age']].mean() #Age열, MonthlyIncome 열의 평균값
data['MonthlyIncome'].median() #MonthlyIncome 열 중앙값

 

Series 와 DataFrame

데이터 프레임 : 2차원구조

시리즈 : 1차원 구조

 => 데이터프레임에서 열 하나를 떼어내면 시리즈가 된다.

 

특정 열 조회

  • 1차원(시리즈)으로 조회하기 =>  결과: 시리즈
    • df['Column'] 
    • df.Column
  • 2차원(데이터프레임)으로 조회하기 => 결과: 2차원
    • df[['Column']]
  • 조건으로 조회하기
    • df.loc[행 조건, 열 이름]
    • location의 약자이다
    • 열 이름은 생략 가능하고
    • 열 이름이 1개라면 결과가 시리즈로,
      열 이름 여러개를 리스트로 넘겨주면 결과가 데이터 프레임으로 나온다.
  • isin() 메소드
    • isin([값 1, 값 2, ...]) : 값1 또는 값2 또는.. 값n 인 데이터만 조회한다.
      isin에 값을 여러개 넘길 때는 리스트 형태로 넘겨야 한다.
  • between메소드
    • between(값1, 값2) : 값1~값2까지 범위의 데이터만 조회한다.
    • inclusive 옵션을 줄 수 있음 => both, neither, left, right 가 있다.
      inclusive 옵션의 디폴트값은 right (왼쪽범위 미포함, 오른쪽 범위 포함)
      left로 설정하면 right와 반대가 됨 (왼쪽범위 포함, 오른쪽범위 미포함)
  • 조건 만족하는 행의 일부 열 조회
    • data.loc[조건, ['열이름1', '열이름2', ...]] 
    • 열 이름이 여러개일 경우 리스트 형태로 넘긴다.
#.loc 예제

# 1 - DistanceFromHome 값이 10보다 큰 행을 조회함
data.loc[data['DistanceFromHome']>10]
# or
data[data['DistanceFromHome']>10]

# 2 - 여러 조건 연결하기
data.loc[(data['DistanceFromHome']>10) & (data['JobSatisfaction'] ==4 )]

#isin() 예제
#직무 만족도가 1이거나 4인 사람들의 행을 출력
data.loc[data['JobSatisfaction'].isin([1, 4])]

#between() 예제
# 나이가 25세 이상 30세 미만인 사람들의 행을 출력
data.loc[data['Age'].between(25, 30)]

 

groupby 메소드

  • 특정 컬럼 별 데이터를 구하고자 할 때 groupby를 사용한다.
  • as_index 옵션 : True로 설정하면 집계 기준이 되는 열이 인덱스 열이 된다.
    디폴트는 True
#예시 코드

#결혼 상태 별 나이의 평균값을 구하라.
data.groupby('MaritalStatus', as_index=True)['Age'].mean() #인덱스가 MaritalStatus열이 됨
data.groupby('MaritalStatus', as_index=False)['Age'].mean() #인덱스를 새로 설정
# + 첫번째 코드는 시리즈로 나왔는데 두번째 코드는 데이터프레임으로 나옴
# 	이유? as_index=False로 줬으니까 열이 2개가 된 것 => 그래서 시리즈가 아닌 데이터 프레임으로 출력됨

#이렇게 보고자 하는 열을 리스트형태로 주면, 열이 여럿이라는 의미라서 결과가 데이터프레임이된다.
data.groupby('MaritalStatus', as_index=True)[['Age']].mean()

#그래서 이렇게 여러 열 집계도 가능하다.
data_mean = data.groupby('MaritalStatus', as_index=True)[['Age', 'MonthlyIncome']].mean()

#sum() 메소드 앞에 아무 열도 지정하지 않으면 모든 열에 대한 집계가 이루어진다.
data_sum = data.groupby('MaritalStatus', as_index=False).sum()
  • by 옵션 :  집계 기준 열을 설정하는 옵션
data_sum = data.groupby(by=['MaritalStatus', 'Gender'], as_index=True)[['Age', 'MonthlyIncome']].mean()
  • agg 메소드 : 여러 함수로 한꺼번에 집계
data_agg = data.groupby('MaritalStatus', as_index=False)[['MonthlyIncome']].agg(['min', 'max', mean'])

 

데이터프레임 변경하기 

데이터프레임 변경은 데이터의 전처리를 위해 꼭 알아두어야 한다.

열 이름 변경

  1. 일부 열 이름 변경 : rename() 메소드
    • inplace=True 옵션 : 변경사항이 실제 반영됨.
  2. 모든 열 이름 변경 : columns 속성을 변경한다. (변경이 필요 없는 열은 기존 이름을 부여해 변경)
#rename() 메소드 예제
data.rename(columns = {'DistanceFromHome' : 'Distance',
				'EmployeeNumber' : 'EmpNo.',
                'JobSatisfaction' : 'JobSat',
                'MonthlyIncome' : 'M_Income',
                'PercentSalaryHike' : 'PctSalHike',
                'TotalWorkingYears' : 'TotWY'}, inplace=True)
               
               
#모든 열 이름 변경 예제
data.columns = ['Attr', 'Age', 'Dist', 'EmpNo', 'Gen', 'JobSat', 'Marital', 'M_Income', 'OT', 'PctSalHike', 'TotWY']

 

열 추가

dataframe['새로추가할열이름'] = 값 

data['Income_LY'] = data['M_Income']/(1+data['PctSalHike']/100)
data['Income_LY'] = round(['Income_LY'])

+ insert() 메소드를 사용하면 원하는 위치에 열을 추가할 수 있다. (하지만 데이터 프레임의 칼럼의 물리적인 위치를 너무 신경쓰지 말자!)

 

열 삭제

일단 무언가를 삭제할 때는 조심조심조심조심조심*10000 해야한다!

  1. 열 하나 삭제 : drop() 메소드
    • axis=0 : 행 삭제(기본값)
    • axis=1 : 열 삭제
    • inplace=True : 옵션을 지정해줘야 실제로 반영이 된다.
  2. 여러 열 삭제 : 삭제할 열을 리스트 형태로 전달해 한번에 여러 열을 제거할 수 있다.
#열 삭제 예제
data.drop('Income_LY', axis=1, inplace=True)

data.drop(['JobSat2', 'Diff_Income'], axis=1, inplace=True)

 

유익한 기능

  1. 범주형 값을 다른 값으로 변경 : map() 메소드
  2. 크기를 기준으로 범위를 나누어 등급 지정 : cut() 함수
    • 균등구간분할 : 범위 개수를 지정하면 자동으로 크기를 기준으로 나눔.
#map() 예제
data['Gen'] = data['Gen'].map({'Male':1, 'Female':0})

#cut() 예제
#균등구간분할
pd.cut(data['M_Income'], 3) #3등분해서 보여줌
data['M_Income_Group'] = pd.cut(data['M_Income'], 3, labels=['a', 'b', 'c']) #3등분해서 등급 매김

#구간을 직접 지정하기
bin = [0, 10000, 15000 np.inf] 
data['M_Income_Group2']=pd.cut(data['M_Income'], bins=bin, labels=['a', 'b', 'c'])

 

# 예제 - 0세부터 90세까지를 유아, 10대, 20대, ..., 80대로 지정하기
#하드코딩 버전
bin = [0, 10, 20, 30, 40, 50, 60, 70, 80, np.inf]
titanic['Age2'] = pd.cut(titanic['Age'], bins=bin, right=False, labels=['young', '10s', '20s','30s', '40s', '50s', '60s', '70s', 'old'])

#반복문 버전
bin = range(0, 91, 10)
label = []
for b in bin:
	if b==0:
    	name = '유아'
    else:
    	name = str(b)+'대'
    label.append(name)
pd.cut(titanic['Age'], bins=bin, labels=label)

#### bin은 경계, 
#### 경계값이 10개면 구간은 9개가 되어야 한다.

'취업 > KT AIVLE SCHOOL' 카테고리의 다른 글

[크롤링] 동적 페이지 크롤링  (0) 2022.08.07
[크롤링] 웹 - 서버와 클라이언트, 웹 구조  (0) 2022.08.07
[py] 데이터 유형과 numpy  (0) 2022.08.07
[py] 기본 문법  (2) 2022.08.04
[git] git 사용법  (0) 2022.08.03