일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- pylint
- npm repository
- SW
- cyber.shinhan
- RxJS
- 크롤링
- ISO25010
- REQUEST
- angular-cli
- 구글 클라우드 플랫폼
- casperJS
- ISO25000
- 서버
- 페이지구분
- 소프트웨어
- angular2
- vscode
- Nexus
- 네이버 클라우드 플랫폼
- Cheerio
- angular2 google analytics
- 품질
- docker
- 도커
- nodejs
- 품질 표준
- 신한대학교
- phantomjs
- ISO9126
- angular
- Today
- Total
나를 위한 기록들
robots.txt ( 로봇 배제 표준 ) 란 무엇일까? 본문
robots.txt 파일은 사이트의 루트에 위치하며 사이트에서 검색 엔진 크롤러가 액세스하는 것을 방지하기 위한 규약이다.
즉, 검색 로봇이 robots.txt 파일을 읽고 액세스 여부를 판단한다. 하지만 접근 방지를 설정했더라도 무시하고 접근할 수도 있다.
설정법
- <META> 태그 사용
- 사이트 루트( / ) 디렉토리에 robots.txt 생성
<META> 태그 사용
<html> <head> <title> ... </ title> <META NAME = "ROBOTS" CONTENT = "NOINDEX, NOFOLLOW"> </ head>
<META> 태그를 넣어주면 된다. 참고로 tistory 는 META 태그를 이용해야 한다.
Content에 값은 "INDEX", "NOINDEX", "FOLLOW", "NOFOLLOW" 가 있다.
Content 값 | 설명 |
ALL | 문서 수집, 링크된 문서 수집 0 |
INDEX |
문서 수집 0 |
NOINDEX |
문서 수집 X |
FOLLOW |
링크된 문서 수집 O |
NOFOLLOW |
링크된 문서 수집 X |
사이트 루트(/) 디렉토리에 robots.txt 생성
- 메모장을 사용해 robots.txt 생성
- https://www.naver.com/robots.txt
- 모든 로봇에게 접근을 허락하는 경우
User-agent: * Allow: /
모든 로봇을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.
User-agent: *
Disallow: /
모든 로봇에 세 디렉터리 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
모든 로봇에 특정 파일 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.
User-agent: *
Disallow: /directory/file.html
BadBot 로봇에 모든 파일 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.
User-agent: BadBot
Disallow: /
BadBot 과 Googlebot 로봇에 특정 디렉터리 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.
User-agent: BadBot
User-agent: Googlebot
Disallow: /private/
다양하게 조합하여 사용할 수 있다.
User-agent: googlebot # googlebot 로봇만 적용
Disallow: /private/ # 이 디렉토리를 접근 차단한다.
User-agent: googlebot-news # googlebot-news 로봇만 적용
Disallow: / # 모든 디렉토리를 접근 차단한다.
User-agent: * # 모든 로봇 적용
Disallow: /something/ # 이 디렉토리를 접근 차단한다.
- robots.txt 를 생성해주는 도구
'JS > 크롤링' 카테고리의 다른 글
request, cheerio를 이용하여 웹 크롤링하기 (1) | 2017.09.05 |
---|---|
[크롤링] casperJS, PhantomJS 로 로그인, 캡쳐 하기 (0) | 2017.03.30 |