일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- BFS
- 개인정보수집유효기간
- 크롤링
- python
- kt에이블스쿨
- map
- 파이썬
- 21609
- 코테준비
- 취준
- 데이터전처리
- 모델링
- 음수와 size 비교
- 코딩
- 코테
- 코딩테스트
- Queue
- 코테연습
- dfs
- 프로그래머스
- 코테공부
- 미니프로젝트
- 상어중학교
- 에이블스쿨
- 백준
- C++
- 알고리즘
- Ai
- 머신러닝
- 스터디
- Today
- Total
목록크롤링 (3)
얼레벌레
서론 웹 크롤링은 3일에 걸쳐 진행되었는데, 마지막 날에는 selenium과 xpath, scrapy를 이용해 크롤링하는 방법을 배웠다. 갈수록 난도가 높아졌는데, 특히 scrapy를 이용한 방법은 많이 어려웠다. Selenium 셀레니움이란? 브라우저의 자동화 목적으로 만들어진, 다양한 브라우저와 언어를 지원하는 라이브러리이다. 브라우저의 자동화가 왜 필요할까? 웹 페이지를 개발했을 때, 브라우저에서 동작되는 웹서비스 뒤에는 코드가 있고, 그 코드가 동작해서 브라우저 상에서 기능들이 동작한다. 서비스를 만들고 나서는 주기적으로 서비스를 업데이트(코드를 수정)하는데, 배포 전에 각 기능들이 클라이언트의 입장에서 잘 작동이 되는지 확인해봐야 한다. 클라이언트의 입장에서 서비스 내 모든 기능을 다 테스트하려..
동적 페이지 크롤링 - 실습 위주 직방의 원룸 매물 정보 크롤링하기 프로세스 동 이름으로 위도 값과 경도 값 가져오기. 위도 값과 경도 값을 geohash 값으로 변환하기. geohash 란? 위도 값, 경도 값을 가지고 지도에 찍으면 점으로 찍힘 (당연) 그런데 우리가 보통 직방 어플이나 네이버 지도 어플을 보면 점이 아닌 범위로 나옴 ex) 강남구 역삼동 찍었을 때 점으로 나오는 게 아니라 그 주변이 범위로 나옴 이렇게 변환해주는 것이 geohash geohash 값을 가지고 매물 아이디들을 가져오기 매물 아이디를 가지고 매물 정보 수집 실제 코딩 모듈 파일로 만들어보자. (.py) 매직 커맨드를 이용한다. 모듈 파일을 만들 때에는 코드에 포함되어 있는 패키지도 같이 선언해 주어야 한다. 매직 커맨드..
웹페이지 종류 웹페이지 종류에 따라 크롤링 방식이 달라진다. 정적 페이지 페이지의 데이터가 변경될 때 URL이 변경된다. html 포맷의 데이터를 수집한다. ex) 페이지1 에서 2를 누르면 URL1 -> URL2로 변경, 텍스트도 변경됨 동적 페이지 페이지의 데이터가 변경될 때 URL이 변경되지 않는다. json 포맷의 데이터를 수집한다. ex) 더보기 버튼을 클릭했는데 URL이 바뀌지 않음, 그런데 텍스트는 추가됨. requests 패키지 브라우저의 url을 입력하면 서버에서 데이터를 다운받아 화면에 출력한다. url => data 동적 페이지 크롤링 프로세스 웹 서비스를 분석 크롬 개발자 도구에서 URL을 얻는다. 네트워크 탭의 네트워크 트래픽에 뜨는 것에서 remote address 네트워크 트래..