목록취업/KT AIVLE SCHOOL (23)
얼레벌레
5주차 정리 1-3일차 모델링 기초 4-5일차 모델링 성능 올리기 6일차 시계열 모델링 모델이란? 모델 정의 : 데이터로부터 패턴을 찾아 수학식으로 정리해 놓은 것, 모델링 : 오차가 적은 모델을 만드는 과정 모델의 목적 : 샘플을 가지고 전체를 추정 => 패턴을 찾는 방법으로 지도학습/비지도학습 으로 나뉨 => 지도학습에서도 Regression/Classification 나뉨 실제 값 = 모델 + 오차 오차는 자료가 벗어난 정도로, (실제값-모델) 제곱의 합으로 구함 모델 분류 지도학습 회귀 (Regression) => 평가 방법 : R2 score(오차 비), MSE(오차 양), RMSE, MAE, MAPE(오차 율) Linear Regression : 데이터를 하나의 직선으로 요약 전제조건 : Na..
서론 기다리던 미니프로젝트!! 교육 프로그램 신청할 때 프로젝트에 대한 기대가 너무 너무 컸던 나는 4주차인 미니프로젝트가 즐거웠다. 무작정 팀 프로젝트에 투입되지 않고 프로젝트 개요에 대한 자세한 설명 -> 개별과제 수행 -> 팀프로젝트를 효율적/체계적으로 진행하는 방법 설명 -> 팀프로젝트 -> 팀별 발표 순으로 진행되어서 프로젝트를 처음하는 사람들도 순조롭게 할 수 있는 커리큘럼이었다. 1일차 '대중교통 수요 분석' 프로젝트 개요 설명 및 개별과제 수행 2일차 조별 토론 방법론 교육 및 팀 내에서 개별 가설 공유 3일차 '따릉이 수요 분석' 개요(정확히 기억 안남) 4일차 개별과제 / 조별 토론 및 팀별 발표 1 & 2 일차 서울시 내 버스 이용 현황 데이터를 가지고 대중교통 수요 분석을 통해 서울..
코딩마스터스 8월 8일부터 9월 1일까지 4주간 열린다. 코딩 마스터스에 들어가면 문제 목록 (100개) 과 순위를 확인할 수 있다! 순위가 있어서 자극이 돼서 열심히 하게 된다. 난이도는 코딩마스터스 내에서는 기-초-중 이렇게 나뉘었는데, 백준이랑 비교하면 브~실 정도 인 것 같다. 사실 난 모든 코테를 C++로 해서 python으로만 진행되는 코딩마스터스에 불리하다는 생각이 들지만..ㅠㅠ 그래도 파이썬이랑 친해지고 좋지 뭐.. 하면서 자기위안중이다 ㅋㅅㅋ 메타버스 스터디룸 제작 이벤트 8월 5일에 공지로 올라온 이벤트이다. 2022. 08. 08(월) ~ 2022. 08. 19(금)까지 진행된 이벤트인데, 게더타운을 활용해 스터디룸을 제작하고(희망자에 한함) 반별 게시판에 16일까지 제출했다. 그리고..
3주차 내용정리 8월 8일-9일: 데이터 전처리 9월 10일-12일: 데이터 분석 및 의미찾기 다른 블로그들 보면 교육 프로그램을 주차별로 정리하시던데, 난 주차별로 말고 1일치씩 정리해야지~! 라고 다짐을 했는데..ㅎ 한 3주차에 접어드니까 드는 생각은 시간이 너무너무너무 할애가 돼서 부담스럽다는 것이다;; (주객전도가 되어버림) 그래서 그냥 나도 주차별로 정리해야겠다 ㅋㅋ ML 프로세스 비즈니스에 대한 이해 데이터 자체에 대한 이해 => 8월 10-12일 데이터 전처리 => 8월 8-9일 모델링 학습과 평가 적용 데이터 전처리 중요한 Crispy-DM 표 x, y 분할 ( x를 feature, y를 target) feature engineering: 우리가 가지고있는 데이터, 도메인지식을 통해 현재 ..
서론 웹 크롤링은 3일에 걸쳐 진행되었는데, 마지막 날에는 selenium과 xpath, scrapy를 이용해 크롤링하는 방법을 배웠다. 갈수록 난도가 높아졌는데, 특히 scrapy를 이용한 방법은 많이 어려웠다. Selenium 셀레니움이란? 브라우저의 자동화 목적으로 만들어진, 다양한 브라우저와 언어를 지원하는 라이브러리이다. 브라우저의 자동화가 왜 필요할까? 웹 페이지를 개발했을 때, 브라우저에서 동작되는 웹서비스 뒤에는 코드가 있고, 그 코드가 동작해서 브라우저 상에서 기능들이 동작한다. 서비스를 만들고 나서는 주기적으로 서비스를 업데이트(코드를 수정)하는데, 배포 전에 각 기능들이 클라이언트의 입장에서 잘 작동이 되는지 확인해봐야 한다. 클라이언트의 입장에서 서비스 내 모든 기능을 다 테스트하려..
동적 페이지 크롤링 - 실습 위주 직방의 원룸 매물 정보 크롤링하기 프로세스 동 이름으로 위도 값과 경도 값 가져오기. 위도 값과 경도 값을 geohash 값으로 변환하기. geohash 란? 위도 값, 경도 값을 가지고 지도에 찍으면 점으로 찍힘 (당연) 그런데 우리가 보통 직방 어플이나 네이버 지도 어플을 보면 점이 아닌 범위로 나옴 ex) 강남구 역삼동 찍었을 때 점으로 나오는 게 아니라 그 주변이 범위로 나옴 이렇게 변환해주는 것이 geohash geohash 값을 가지고 매물 아이디들을 가져오기 매물 아이디를 가지고 매물 정보 수집 실제 코딩 모듈 파일로 만들어보자. (.py) 매직 커맨드를 이용한다. 모듈 파일을 만들 때에는 코드에 포함되어 있는 패키지도 같이 선언해 주어야 한다. 매직 커맨드..
웹페이지 종류 웹페이지 종류에 따라 크롤링 방식이 달라진다. 정적 페이지 페이지의 데이터가 변경될 때 URL이 변경된다. html 포맷의 데이터를 수집한다. ex) 페이지1 에서 2를 누르면 URL1 -> URL2로 변경, 텍스트도 변경됨 동적 페이지 페이지의 데이터가 변경될 때 URL이 변경되지 않는다. json 포맷의 데이터를 수집한다. ex) 더보기 버튼을 클릭했는데 URL이 바뀌지 않음, 그런데 텍스트는 추가됨. requests 패키지 브라우저의 url을 입력하면 서버에서 데이터를 다운받아 화면에 출력한다. url => data 동적 페이지 크롤링 프로세스 웹 서비스를 분석 크롬 개발자 도구에서 URL을 얻는다. 네트워크 탭의 네트워크 트래픽에 뜨는 것에서 remote address 네트워크 트래..

서론 '크롤링'이라는 말을 듣고 졸업프로젝트 때의 악몽이 떠올랐다. 인공지능과 ai는 학부과정으로 깔짝깔짝 듣고 웹 크롤링에 대해 아는 것이 하나도 없었는데 팀원들 중에 그나마 AI를 접해본 사람이 나였어서, 거의 맨땅에 헤딩 수준의 구글링 독학으로 크롤링을 했다. 그래서 크롤링을 배운다고 했을 때 반갑기도 하고 드디어 이걸 제대로 배우는 구나.. 싶어서 나름 기뻤다. AI 분야는 많은 데이터를 가지고 작업을 수행하는 만큼, 데이터를 수집하는 것도 필요하다. 웹크롤링을 3일치 배운 지금 생각해보면, 내가 졸프 때 했던 크롤링 방법은 여러가지 방법중에 selenium 을 이용한 방법이었다. 본격적인 크롤링을 배우기 전에 웹에 대해 알아보았다. 웹 구조 웹 크롤링이 웹에서 데이터를 긁어오는 것인 만큼, 웹이..
Dataframe? 데이터를 처리/조회/분석하는 가장 효율적인 방법 = 데이터 프레임 사용 데이터 분석에서 가장 중요한 데이터 구조이다. 데이터프레임은 일반적으로 테이블/엑셀 형태이다. 직접 만들 수 있지만 보통 csv/엑셀 파일 또는 db에서 읽어옴. Dataframe 생성 import pandas as pd dict = {'Name': [ 'Lucie', 'Sarang', 'Shine', 'Hikari'], 'Level': ['Gold', 'Bronze', 'Silver', 'Gold'], 'Score' : [56000, 23000, 44000, 52000]_ df = pd.DataFrame(dict) df.head() #상위 5개 행 출력, 인자로 개수 넘겨주면 상위 n개 행 출력 csv 파일 불러..
데이터의 유형과 보는 방법 데이터 분석/모델링을 위해 다룰 수 있는 데이터 2가지 - 숫자형 / 범주형 범주형 집단으로 묶을 수 있는, 질적 데이터 (정성적 데이터) 명목형 데이터 (모일 수 있는) ex) 성별, 시/도, 흡연 여부, 음주 여부 순서형 데이터(원래 숫자인데, 숫자를 범주로 나타낸 것) ex) 연령대, 매출 등급 수치형 양적 데이터 (정량적 데이터) 이산형(countable) 데이터 (딱 떨어지는 숫자) ex) 판매량, 매출액, 나이 연속형 데이터 (딱 떨어지지 않는) ex) 온도, 몸무게 범주형, 수치형 판별 법 : 예를 들어 3월과 1월이 있을 때 3월의 3이 1월의 1의 3배를 의미하는가? 아님, 아니면 범주형이다. 이렇게 분석할 수 있는 데이터는, 데이터를 모을 때 2차원 구조(표/..