본문 바로가기

블로그마케팅 공부/ 검색엔진최적화

검색엔진 로봇의 인덱스 방지기능


다음 회색 박스안의 글의 출처는 http://www.bmlee.com/ 입니다. 

직접 들어가보시면 유용한 정보가 많이 있습니다.

그대로 가져왔습니다. ^^;





검색엔진 최적화의 기본 : 검색엔진의 인덱스 방지기능 (robots.txt파일과 메타 태그) 




검색엔진 최적화에 반드시 필요한것은 아니지만, 기본적으로 알아두시는게 좋습니다. 



robots.txt은 로봇 제외 표준이라 불리며, 검색엔진 봇들로 하여금 사이트의 전체, 또는 특정부분의 접근을 제한하게 만드는 역할을 합니다. 


robots.txt파일은 검색엔진 봇들로 하여금 어떤 디렉토리는 인덱스가 가능하며, 어떤 디렉토리는 인덱스를 해서는 안된다는 것을 알려줍니다. 


검색엔진 봇들 또한 특정 사이트를 방문했을때, 이 robots.txt파일을 제일 먼저 찾게되며, 이 파일에 쓰여있는 내용에 대하여 절대 복종합니다. 


robots.txt파일이 없어도 크게 상관은 없습니다. 

검색엔진 봇은 모든것을 허용한다는 의미로 받아 들입니다. 



기본적으로 robots.txt파일은 최상위 디렉토리에 위치합니다. 

예) http://www.bmlee.com/robots.txt 



robots.txt파일의 생성 


어려운거 하나도 없습니다. 

그냥 메모장 하나 열어서 


 


위와같이 작성한 다음, 그냥 업로드 하면 끝입니다. 





User-Agent: [스파이더 또는 봇(bot)의 이름] 

Disallow: [제외할 디렉토리 또는 파일의 이름] 




예를들어 모든 검색엔진 봇을 나타내려면 User-Agent: 뒤에 '*'를 입력합니다. 

그리고 제외할 디렉토리또한 아무것도 없을때엔 : 


User-Agent: * 

Disallow: 




반대로 어떠한 검색엔진도 자신의 사이트를 인덱스 하지 못하게 할경우 : 


User-Agent: * 

Disallow: / 


(조심해야 합니다. '/'하나를 붙이느냐 떼어내느냐에 따라 결과는 정 반대가 됩니다.) 




특정 디렉토리와 파일을 제외시킬때 : 


User-Agent: * 

Disallow: /admin 

Disallow: /images 

Disallow: /secret.html 




특정 검색엔진으로 하여금 인덱스를 금지 시킬때 : 


User-Agent: Googlebot 

Disallow: /admin 

Disallow: /images 

Disallow: /secret.html 




구글봇으로 하여금 인덱스를 하게 하되 네이버봇으로 하여금 특정 디렉토리와 파일 인덱스를 금지 시킬때 : 


User-Agent: Googlebot 

Disallow: 

User-Agent: Naverbot 

Disallow: /admin 

Disallow: /images 

Disallow: /secret.html 





특정파일의 로봇 인덱스 금지를 메타태그로 컨트롤 할수도 있습니다. 


< meta name="robots" content="index,follow"> 

(모든 로봇들이 허용되며 링크를 따라가도됨) 


또는 


< meta name="robots" content="noindex,follow"> 

(모든 로봇들이 인덱스는 하지말되 링크는 따라가게 만듬) 


또는 


< meta name="robots" content="index,nofollow"> 

(모든 로봇들이 인덱스는 하되 링크는 따라가지 못하게 만듬) 


또는 


< meta name="robots" content="noindex,nofollow"> 

(모든 로봇들이 인덱스도 허용되지 않으며 링크또한 못 따라가게 만듬) 


< meta name="revisit-after" content="7 days"> (7일 후에 다시 방문할것) 


위와같이 메타태그를 < head>와 < /head>사이에 끼워놓으면 됩니다. 


name의 'robots'는 모든 검색엔진 봇을 의미하며, 특정 검색엔진만을 나타낼때에는 Googlebot, Msnbot, Naverbot과 같이 특정 봇의 이름을 써주시면 됩니다. 

content의 'index' 또는 'noindex'는 인덱스를 하느나 마느냐, 

'follow'는 페이지 내에 있는 링크들을 따라 가느냐 마느냐를 나타냅니다. 


'follow'의 기능은 각각의 링크에서도 컨트롤이 가능합니다. 

예를 들에 자신의 페이지에 < a href=http://www.bmlee.com/>이병무의 개인 홈페이지< /a>라는 링크가 있을때, 로봇들이 이 링크를 따라가는것을 원치 않는다면 

< a href=http://www.bmlee.com/ rel="nofollow">이병무의 개인 홈페이지< /a> 

위와 같이 rel="nofollow" 를 < a> 태그안에 넣어주시면 됩니다. 


참조 : http://www.robotstxt.org/