일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- angular-cli
- vscode
- npm repository
- Nexus
- angular
- 페이지구분
- phantomjs
- REQUEST
- cyber.shinhan
- ISO9126
- Cheerio
- casperJS
- 서버
- 신한대학교
- 네이버 클라우드 플랫폼
- ISO25010
- 도커
- angular2
- 소프트웨어
- docker
- SW
- pylint
- 품질 표준
- angular2 google analytics
- 구글 클라우드 플랫폼
- ISO25000
- RxJS
- nodejs
- 품질
- 크롤링
- Today
- Total
목록크롤링 (2)
나를 위한 기록들
request, cheerio모듈을 이용해서 tistory 메인화면 크롤링 request, cheerio 모듈을 설치npm install --save requestnpm install --save cheerio request 모듈 사용법 https://www.npmjs.com/package/requestvar request = require('request');request('http://www.google.com', function (error, response, body) { console.log('error:', error); // Print the error if one occurred console.log('statusCode:', response && response.statusCode); /..
robots.txt 파일은 사이트의 루트에 위치하며 사이트에서 검색 엔진 크롤러가 액세스하는 것을 방지하기 위한 규약이다. 즉, 검색 로봇이 robots.txt 파일을 읽고 액세스 여부를 판단한다. 하지만 접근 방지를 설정했더라도 무시하고 접근할 수도 있다. 설정법 태그 사용사이트 루트( / ) 디렉토리에 robots.txt 생성 태그 사용 ... 태그를 넣어주면 된다. 참고로 tistory 는 META 태그를 이용해야 한다.Content에 값은 "INDEX", "NOINDEX", "FOLLOW", "NOFOLLOW" 가 있다. Content 값 설명 ALL 문서 수집, 링크된 문서 수집 0 INDEX 문서 수집 0 NOINDEX 문서 수집 X FOLLOW 링크된 문서 수집 O NOFOLLOW 링크된 문..