Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 프로그래머스
- python
- BFS
- 코테
- 미니프로젝트
- 코테연습
- 모델링
- 취준
- 데이터전처리
- 백준
- 에이블스쿨
- 코딩테스트
- 상어중학교
- 음수와 size 비교
- 스터디
- 코테준비
- 개인정보수집유효기간
- 머신러닝
- 코테공부
- 크롤링
- 알고리즘
- dfs
- Ai
- C++
- 코딩
- Queue
- 21609
- kt에이블스쿨
- 파이썬
- map
Archives
- Today
- Total
얼레벌레
[py] pandas 패키지 본문
Dataframe?
- 데이터를 처리/조회/분석하는 가장 효율적인 방법 = 데이터 프레임 사용
- 데이터 분석에서 가장 중요한 데이터 구조이다.
- 데이터프레임은 일반적으로 테이블/엑셀 형태이다.
- 직접 만들 수 있지만 보통 csv/엑셀 파일 또는 db에서 읽어옴.
Dataframe 생성
import pandas as pd
dict = {'Name': [ 'Lucie', 'Sarang', 'Shine', 'Hikari'],
'Level': ['Gold', 'Bronze', 'Silver', 'Gold'],
'Score' : [56000, 23000, 44000, 52000]_
df = pd.DataFrame(dict)
df.head() #상위 5개 행 출력, 인자로 개수 넘겨주면 상위 n개 행 출력
csv 파일 불러오기 - pd.read_csv()
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/titanic_simple.csv'
data = pd.read_csv(path)
data.head(10)
Dataframe 탐색하기
- 상위 데이터 확인
- data.head(n) : 상위 n개 행 데이터
- 하위 데이터 확인
- data.tail(n) : 하위 n개 행 데이터
- 데이터프레임의 크기
- data.shape : (row, cols)의 튜플 형태로 확인 가능
- 데이터를 분석할 때 처리할 데이터 양을 확인하는 목적으로 많이 사용
- 인덱스 정보 확인
- data.index
- 값 정보 확인
- data.values
- 열 정보 확인
- data.columns : 데이터프레임의 열 이름을 출력
- 열에 대한 상세한 정보 확인
- data.info() : 각 열에 대해 열 이름, non-null인 것들의 개수, 데이터 타입 출력
- 기초 통계 정보 확인
- data.describe() : 각 열에 대해 개수, 평균, 표준편차, 최솟값, 사분위값, 최댓값 출력
- 열 자료형 확인
- data.dtypes : 각 열들의 이름과 자료형 출력
DataFrame 정렬하기
sort_values() 메소드 사용, 특정 열을 기준으로 정렬함.
ascending 옵션을 통해 오름차순, 내림차순을 설정할 수 있음
# 월급 기준으로 정렬해라, 내림 차순으로 (가장 많이 받는 월급부터 월급 기준으로 정렬)
data.sort_values(by = "MonthlyIncome", ascending = False)
#복합 열 정렬 - 열 2개 기준 정렬
#직무 만족도 기준으로 일단 오름차순 정렬해, 그런데 같으면 월급이 더 높은사람을 먼저 보여줘.
data.sort_values(by = ["JobSatisfaction", "MonthlyIncome"], ascending=[True, False])
#정렬하기 전으로 되돌리기
data.reset_index(drop=True)
집계
교유값 확인 : unique() 메소드
# 결혼 상태 열에 뭐가 있는지 보여줘
data(['MaritalStautus']).unique()
# Married, Single, Divorced
개수 확인 : value_counts() 메소드
# MaritalStatus 열 고유값 개수 확인
data['MaritalStauts'].value_counts()
# Married, Single, Divorced 별 개수를 세줌
기본 통계 메소드
data['MonthlyIncome'].sum() #MonthlyIncome 열 합계
data['MonthlyIncome'].max() #최댓값
data[['MonthlyIncome', 'Age']].mean() #Age열, MonthlyIncome 열의 평균값
data['MonthlyIncome'].median() #MonthlyIncome 열 중앙값
Series 와 DataFrame
데이터 프레임 : 2차원구조
시리즈 : 1차원 구조
=> 데이터프레임에서 열 하나를 떼어내면 시리즈가 된다.
특정 열 조회
- 1차원(시리즈)으로 조회하기 => 결과: 시리즈
- df['Column']
- df.Column
- 2차원(데이터프레임)으로 조회하기 => 결과: 2차원
- df[['Column']]
- 조건으로 조회하기
- df.loc[행 조건, 열 이름]
- location의 약자이다
- 열 이름은 생략 가능하고
- 열 이름이 1개라면 결과가 시리즈로,
열 이름 여러개를 리스트로 넘겨주면 결과가 데이터 프레임으로 나온다.
- isin() 메소드
- isin([값 1, 값 2, ...]) : 값1 또는 값2 또는.. 값n 인 데이터만 조회한다.
isin에 값을 여러개 넘길 때는 리스트 형태로 넘겨야 한다.
- isin([값 1, 값 2, ...]) : 값1 또는 값2 또는.. 값n 인 데이터만 조회한다.
- between메소드
- between(값1, 값2) : 값1~값2까지 범위의 데이터만 조회한다.
- inclusive 옵션을 줄 수 있음 => both, neither, left, right 가 있다.
inclusive 옵션의 디폴트값은 right (왼쪽범위 미포함, 오른쪽 범위 포함)
left로 설정하면 right와 반대가 됨 (왼쪽범위 포함, 오른쪽범위 미포함)
- 조건 만족하는 행의 일부 열 조회
- data.loc[조건, ['열이름1', '열이름2', ...]]
- 열 이름이 여러개일 경우 리스트 형태로 넘긴다.
#.loc 예제
# 1 - DistanceFromHome 값이 10보다 큰 행을 조회함
data.loc[data['DistanceFromHome']>10]
# or
data[data['DistanceFromHome']>10]
# 2 - 여러 조건 연결하기
data.loc[(data['DistanceFromHome']>10) & (data['JobSatisfaction'] ==4 )]
#isin() 예제
#직무 만족도가 1이거나 4인 사람들의 행을 출력
data.loc[data['JobSatisfaction'].isin([1, 4])]
#between() 예제
# 나이가 25세 이상 30세 미만인 사람들의 행을 출력
data.loc[data['Age'].between(25, 30)]
groupby 메소드
- 특정 컬럼 별 데이터를 구하고자 할 때 groupby를 사용한다.
- as_index 옵션 : True로 설정하면 집계 기준이 되는 열이 인덱스 열이 된다.
디폴트는 True
#예시 코드
#결혼 상태 별 나이의 평균값을 구하라.
data.groupby('MaritalStatus', as_index=True)['Age'].mean() #인덱스가 MaritalStatus열이 됨
data.groupby('MaritalStatus', as_index=False)['Age'].mean() #인덱스를 새로 설정
# + 첫번째 코드는 시리즈로 나왔는데 두번째 코드는 데이터프레임으로 나옴
# 이유? as_index=False로 줬으니까 열이 2개가 된 것 => 그래서 시리즈가 아닌 데이터 프레임으로 출력됨
#이렇게 보고자 하는 열을 리스트형태로 주면, 열이 여럿이라는 의미라서 결과가 데이터프레임이된다.
data.groupby('MaritalStatus', as_index=True)[['Age']].mean()
#그래서 이렇게 여러 열 집계도 가능하다.
data_mean = data.groupby('MaritalStatus', as_index=True)[['Age', 'MonthlyIncome']].mean()
#sum() 메소드 앞에 아무 열도 지정하지 않으면 모든 열에 대한 집계가 이루어진다.
data_sum = data.groupby('MaritalStatus', as_index=False).sum()
- by 옵션 : 집계 기준 열을 설정하는 옵션
data_sum = data.groupby(by=['MaritalStatus', 'Gender'], as_index=True)[['Age', 'MonthlyIncome']].mean()
- agg 메소드 : 여러 함수로 한꺼번에 집계
data_agg = data.groupby('MaritalStatus', as_index=False)[['MonthlyIncome']].agg(['min', 'max', mean'])
데이터프레임 변경하기
데이터프레임 변경은 데이터의 전처리를 위해 꼭 알아두어야 한다.
열 이름 변경
- 일부 열 이름 변경 : rename() 메소드
- inplace=True 옵션 : 변경사항이 실제 반영됨.
- 모든 열 이름 변경 : columns 속성을 변경한다. (변경이 필요 없는 열은 기존 이름을 부여해 변경)
#rename() 메소드 예제
data.rename(columns = {'DistanceFromHome' : 'Distance',
'EmployeeNumber' : 'EmpNo.',
'JobSatisfaction' : 'JobSat',
'MonthlyIncome' : 'M_Income',
'PercentSalaryHike' : 'PctSalHike',
'TotalWorkingYears' : 'TotWY'}, inplace=True)
#모든 열 이름 변경 예제
data.columns = ['Attr', 'Age', 'Dist', 'EmpNo', 'Gen', 'JobSat', 'Marital', 'M_Income', 'OT', 'PctSalHike', 'TotWY']
열 추가
dataframe['새로추가할열이름'] = 값
data['Income_LY'] = data['M_Income']/(1+data['PctSalHike']/100)
data['Income_LY'] = round(['Income_LY'])
+ insert() 메소드를 사용하면 원하는 위치에 열을 추가할 수 있다. (하지만 데이터 프레임의 칼럼의 물리적인 위치를 너무 신경쓰지 말자!)
열 삭제
일단 무언가를 삭제할 때는 조심조심조심조심조심*10000 해야한다!
- 열 하나 삭제 : drop() 메소드
- axis=0 : 행 삭제(기본값)
- axis=1 : 열 삭제
- inplace=True : 옵션을 지정해줘야 실제로 반영이 된다.
- 여러 열 삭제 : 삭제할 열을 리스트 형태로 전달해 한번에 여러 열을 제거할 수 있다.
#열 삭제 예제
data.drop('Income_LY', axis=1, inplace=True)
data.drop(['JobSat2', 'Diff_Income'], axis=1, inplace=True)
유익한 기능
- 범주형 값을 다른 값으로 변경 : map() 메소드
- 크기를 기준으로 범위를 나누어 등급 지정 : cut() 함수
- 균등구간분할 : 범위 개수를 지정하면 자동으로 크기를 기준으로 나눔.
#map() 예제
data['Gen'] = data['Gen'].map({'Male':1, 'Female':0})
#cut() 예제
#균등구간분할
pd.cut(data['M_Income'], 3) #3등분해서 보여줌
data['M_Income_Group'] = pd.cut(data['M_Income'], 3, labels=['a', 'b', 'c']) #3등분해서 등급 매김
#구간을 직접 지정하기
bin = [0, 10000, 15000 np.inf]
data['M_Income_Group2']=pd.cut(data['M_Income'], bins=bin, labels=['a', 'b', 'c'])
# 예제 - 0세부터 90세까지를 유아, 10대, 20대, ..., 80대로 지정하기
#하드코딩 버전
bin = [0, 10, 20, 30, 40, 50, 60, 70, 80, np.inf]
titanic['Age2'] = pd.cut(titanic['Age'], bins=bin, right=False, labels=['young', '10s', '20s','30s', '40s', '50s', '60s', '70s', 'old'])
#반복문 버전
bin = range(0, 91, 10)
label = []
for b in bin:
if b==0:
name = '유아'
else:
name = str(b)+'대'
label.append(name)
pd.cut(titanic['Age'], bins=bin, labels=label)
#### bin은 경계,
#### 경계값이 10개면 구간은 9개가 되어야 한다.
'취업 > KT AIVLE SCHOOL' 카테고리의 다른 글
[크롤링] 동적 페이지 크롤링 (0) | 2022.08.07 |
---|---|
[크롤링] 웹 - 서버와 클라이언트, 웹 구조 (0) | 2022.08.07 |
[py] 데이터 유형과 numpy (0) | 2022.08.07 |
[py] 기본 문법 (2) | 2022.08.04 |
[git] git 사용법 (0) | 2022.08.03 |