목록취업/KT AIVLE SCHOOL (23)
얼레벌레
1~2일차 서울시 생활인구 예측 (개별 프로젝트) 3~5일차 내비게이션 도착시간 예측 (팀 프로젝트) 서울시 생활인구 예측 서울시 인구 정보 공공데이터 기반으로 생활 인구를 예측하는 문제였다. (서울시 공공데이터 포탈 데이터 활용) 필요 도메인 지식 시간 단위 : 1시간 유동인구 : 일정 기간, 특정 지점을 통행하는 보행자 생활인구 : 특정 시점에 특정 지역에 존재하는 사람 수 (그 순간을 캡쳐한다고 생각) 1일차에는 주어진 데이터셋(2017-2022 데이터)을 활용해 분석, 전처리, 모델링을 하는 과정으로 별로 어렵지 않았는데, 2일차에서는 주어진 데이터셋 중 2017-2021 데이터를 가지고 모델링을 하고 2022년도 생활인구를 예측해야 했다. 그리고 예측한 결과를 캐글 competition에 올려 ..
1~2일차 4차 개인 미니프로젝트 3~4일차 4차 팀 미니프로젝트 "스팸문자분류" 프로젝트 전 주에 nlp(자연어처리)를 배우고 나서, 한 주간 미니 프로젝트로 스팸 문자를 분류하는 프로젝트를 진행했다. 스팸인지 아닌지 분류하는 문제였고, 텍스트 데이터를 vectorize 해서 학습시켜야 했다. 개별 & 팀 미니 프로젝트 1, 2일차는 혼자서 데이터 분석, 전처리, 모델링, 성능 분석의 과정을 거치며 문제를 해결했다. 나는 전처리로 크게 NaN 값 제거, label을 수치형으로 변환을 했고, train, test split 후 vectorization을 진행했다. (n-gram, sequence 둘 다 시도) 모델로는 GaussianNB, LSTM, Conv1D 를 사용했는데, NLP 에서 BERT 모델..
1일-4일차 미니프로젝트 3차 5일차 자연어 처리 요즘 코테, 면접, 자소서, +에이블스쿨에서 매 주 진행되는 미니프로젝트, 대학원 원서접수, 등등 너~무 할 일이 많아서 블로그 포스팅을 미루다 보니 4주가 지난 지금에서야 3차 미니프로젝트를 적는다.. (오늘 6차 미니 프로젝트 끝났는데 😂) 3차 미니프로젝트 개요 전 주에 배웠던 컴퓨터 비전 내용을 바탕으로 프로젝트를 진행했다. 실제로 KT에서 진행했던 프로젝트 사례를 기반으로 '이미지 분류' 모델링을 경험했다. 동영상 미디어 (슈퍼맨이 돌아왔다, 코미디 빅리그로 진행함!)를 가지고 메타데이터를 활용해, 고객이 해당 미디어를 코너 별로 골라 볼 수 있게 모델을 학습시키고 분류하는 작업을 했다. 필요했던 작업 1) 원본 영상을 분할하여 학습 이미지 데이..
1, 2일차 CNN 3, 4, 5일차 Object Detection CNN keras, tensorflow를 활용한 CNN 모델링을 진행했다. CNN은 공간 구조 특성을 잘 반영하는 특징이 있는데, 이 특징은 CV에 매우 유용한 특징이다. (이미지는 기본적으로 3차원 구조인데, 이 구조를 살려서 특징 추출 가능) 그래서 CNN 구조가 제안된 시점부터 지금까지도 CV 분야에서는 CNN 구조를 많이 쓴다고 한다. keras와 tensorflow keras가 tensorflow 위에서 동작하는 라이브러리인데, tensorflow는 머신러닝 프레임워크이다. 이 중에서도 Conv2D, Maxpool2d, BatchNorm, Dropout 등의 함수와, 이에 들어가는 argument들, 각 layer에서의 작동 원..

1일차 Sequential, Functional 방법 / 선형회귀, 로지스틱회귀 2일차 히든레이어, learning_rate, early stopping, validation split 3일차 ML과 DL의 차이점, ANN 4일차 ANN 실습 DAY 1 본격적인 모델링이라기 보다는 tensorflow, keras 사용법에 대해 익혔다. 선형 회귀 y = w1*x1 + w2*x2 + w3*x3 + w0 식에 기반한 구조이다. Sequential하게 구현 세션 클리어 : 기존의 모델이 남아있다면 지우기 keras.backend.clear_session() 레이어 블록을 쌓을 발판 생성 : 레고처럼 차곡차곡 model = keras.models.Sequential() 레이어 블록 조립 model.add(ker..

서론 7-8주차에 추석연휴가 껴있어서, 추석연휴 전날 에이블데이 시간을 가졌다. 코딩마스터스 시상, 특강, 그간의 교육을 돌아보는 시간, 선배와의 시간, 반별 교류 시간이 있었다. 코딩마스터스 시상 코딩 마스터스 시상은 그랜드 코딩마스터랑 마스터 이렇게 시상했던 것 같다. (상장 명 잘 기억안남) 그랜드는 100문제 다 푼 사람에게, 마스터는 80문제 이상 푼 사람에게 줬던 듯? 특강 카이스트 경영공학부 교수님이 오셔서 특별 강의를 해주셨다. "데이터기반 의사결정"에 대한 강의였는데, 그 중에서 리뷰요청 푸시알림에 대한 내용이 가장 기억에 남았다. 리뷰요청 푸시알림을 보내는 타이밍을 결정하는 건데, 분석해보니 상품을 받은 직후(하루 이내)에 푸시알림을 보내면 안보냈을 때 대비해서 오히려 리뷰를 안쓰고, ..

1일차 모델 해석 2일차 모델 평가 AI 모델 해석과 평가가 필요한 이유 AI 모델을 하는 이유는 비즈니스 문제를 해결하기 위해서였다. 그럴려면 누군가가 모델에 대해서 왜 그런지, 비즈니스 문제를 해결할 수 있는지 의문을 제기했을 때 대답할 수 있어야 한다. 인식 전환 : 모델이 왜 그렇게 예측했는가? 모델이 비즈니스 문제를 해결할 수 있는가? 이 문제들에 대한 대답을 찾기 위해 AI 모델 해석과 평가가 중요하다. Interpretability vs Explainability Interpretatbility : 해석, input에 대해 모델이 왜 그런 output을 예측했는가? (whitebox model은 본질적으로 해석가능) Explainability : 설명, 추가로 투명성에 대한 요구, 모델이 어..
서론 2차 미니프로젝트를 했다.. 1차 때랑 다르게 오티도 없었고 하루죙일 혼자서 모델링해서 어렵기도 했지만 정신적으로 개짱났다. 2차 미니 플젝하기 전에 혼자서 모델링이랑 전처리, 모델 성능 개선에 대해서 복습을 하고 들어갔어야하는데 그러지 못해서 시간이 오래걸렸다 ㅜㅜ 1 & 2일차 => 악성사이트 탐지 모델링 3 & 4일차 => 공기질 예측 모델링 1일차 데이터 수집 & 모델링 2일차 One day competition, 모델링 ppt 제작 3일차 개별 과제 및 조별 토의 4일차 조별 토의 및 결과 발표 악성사이트 탐지 모델링 데이터 수집 -> 모델링 -> one day competition -> ppt 제작 순으로 개별로 진행되었다. kaggle 사이트에서 competition을 진행했는데, 다른..
시계열 데이터란? 순서가 있고, 시간의 간격이 같은 데이터 ex) 음성, 주식데이터, 문장 시계열 데이터를 분석하는 것은, 시간의 흐름에 따른 패턴을 분석하는 것이다. 흐름을 어떻게 정리할 것인지에 따라 모델링 방식이 달라진다. 전통적 시계열 모델링 : x는 관심사가 아님, y만 가지고 과거 데이터들을 보며 패턴을 추출하여 예측 y(t) = w1*y(t-1) + w2*y(t-2) + w3*y(t-3) + w0 AR, MA, ARMA, ARIMA, SARIMA, SARIMAX ML 기반 시계열 모델링 : x와 y의 관계를 통해 패턴을 찾음 특정 시점 데이터들과 예측대상시점과의 관계로부터 패턴을 추출하여 예측 y(t+1) = w1x1(t) + w2x2(t) + w3x3(t) + w4x4(t) + w0 fea..
모델링의 목표 모든 데이터셋은 모집단의 부분집합 -> 모델링의 목표는 부분집합을 학습해서 모집단을 적절히 예측하는 것 (적절한 성능을 얻는 것) 성능 튜닝 선형 모델 - 변수 선택법 변수 선택법 : 전진 선택법 혹은 후진 소거법 AIC값(Akaike information criterion, 아카이케 통계량, 모델의 적합도)을 기준으로 탐색, AIC 값은 낮을수록 좋다 AIC 값은 작을수록 좋은 모델이다 AIC = - 모델의 적합도 + 변수의 개수 (모델의 적합도(설명력)이 높을수록, 변수의 개수는 적정 개수일수록 좋음) AIC값이 가장 작은 모델을 단계별, 순차적으로 탐색 feature 별로 각각 단순회귀 모델을 생성하고 AIC 값 비교하여 제일 작은 변수 선정 단계 1에서 선정된 변수에 나머지 변수를 ..