«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

올해는 머신러닝이다.

검색엔진에 등록하는 Robot.txt 본문

웹 관련 팁 모음

검색엔진에 등록하는 Robot.txt

행복한 수지아빠 2014. 11. 18. 12:16

출처 : http://cgimall.co.kr/happy_faq/board_detail.cgi?db=board_faq&thread=260&page=1&search_type=whole&search_word=%C1%A4%C3%A5


검색로봇(robot.txt) 설정에 대해서 안내를 드리려고 합니다.

먼저 검색로봇에 대해서 알아 보겠습니다 ^^

누구나 한번쯤은 인터넷에서 자신에게 필요한 정보를 검색해 보셨을텐데요 
이때 사용자는 네이버, 구글, 다음 같은 포털사이트에서 원하는 정보를 찾습니다. 
그럼 이런 포털사이트들은 어떻게 이런 많은 정보를 가지고 있을까요?
바로 검색로봇 때문입니다. 

우리가 많이 사용하는 포털사이트(네이버,구글,다음,야후)들은 모두 검색로봇을 가지고 있습니다. 
검색로봇은 알아서 웹사이트들을 돌아다니면서 찾은 정보를 자신의 서버에 저장해 놓습니다. 
그리고 사용자들이 검색하는 검색단어에 맞는것들을 자신의 서버에서 찾은 후 사용자들에게 알려주는 방식입니다.

즉, 검색로봇은 스스로 사이트들을 돌아다니면서 정보를 수집하는 기능을 한다는 것이 키 포인트 입니다.


이번엔 검색로봇을 활용하는 방법에 대해서 알아 보겠습니다 ^^

검색로봇을 컨트롤하기 위해서는 자신의 웹사이트에 robot.txt 라는 파일이 있어야 합니다. 
Cgimall 솔루션은 설치된 기본폴더에 robot.txt 파일을 만들어 주시면 됩니다. 
( 저희 Cgimall 에서는 기본적인 robot.txt 파일을 미리 첨부해 놓았습니다. ^^ )

robot.txt 의 내용에는 모두 User-agentDisallow 단어를 사용하고 있습니다.
User-agent 는 검색로봇의 이름을 설정하는 기능입니다.
Disallow 는 검색가능 여부를 설정하는 기능입니다.

간단한 예로 몇가지 상황에 대한 예를 들어 보겠습니다.
 

  1. 내 사이트의 모든것들이 검색되도록 설정할 경우.
    User-agent: *
    Disallow:
        
      
  2. 내 사이트의 모든것들을 검색되지 않도록 설정할 경우.
    User-agent: *
    Disallow: /
        
       
  3. 내 사이트의 html , img 폴더를 검색하지 못하도록 설정할 경우.
    User-agent: *
    Disallow: /html/
    Disallow: /img/
       
      
  4. 내 사이트의 내용이 구글에 검색되지 않기를 원하실 경우.
    User-agent: Googlebot
    Disallow: /
       
       
  5. 내 사이트의 내용이 구글에 특정폴더(html , img)를 제외하고 검색되기를 원하실 경우.
    User-agent: Googlebot
    Disallow: /html/
    Disallow: /img/
       
      

위의 예를 보시면 대충 감이 오실겁니다 ^^
User-agent 에 * 을 입력하시면 모든검색 사이트들을 대상으로 하는 설정이 되며
User-agent 에 로봇이름을 넣으시면 해당 검색 사이트들에 대해서만 설정이 가능합니다.

  
여기서 robot.txt 설정을 조금 더 고급편으로 가 보겠습니다.
 

  1. 특정 파일(test.php)에 대해서만 검색거부하기
    User-agent: *
    Disallow: /test.php?
      
      
  2. html 확장자에 대해서만 검색불가 설정
    User-agent: *
    Disallow: /*.html$
       
      
  3. 조금더 다양하게 로봇들 종류별로 컨트롤 할 수 있습니다.
    User-agent:Googlebot 으로 설정하시면 구글에 관련된 검색설정을 할 수 있습니다. 
    이 처럼 User-agent 에 로봇이름을 이용하여 여러가지 다양하게 설정이 가능하며
    검색사의 이름 종류는 아래와 같습니다. 
      
    naverbot, DAUMOA, Googlebot, Yeti , Cowbot 등이 있습니다. ^^
    그 외에도 더 있습니다만 .. 가장 많은 접근하는 봇은 Naver , Daum , Google 입니다.
      
      

위 처럼 검색가능하게 해줄 폴더들을 설정하신다면 조금더 트래픽 관리와 함께 
효과적인 검색관리가 가능하게 됩니다. ^^ 
robot.txt 파일 다운로드 ]

네이버의 경우 사이트등록이 되어 있는 경우에... 정보수집이 가능한것으로 알고 있습니다. 
그러므로 사이트를 오픈하셨고 ... 검색이 되기를 원하실 경우 사이트등록을 해 주시면 감사하겠습니다.
네이버만 사이트등록에 영향을 받고... 나머지는 영향을 안 받는 것으로 알고 있습니다. 
그러나 검색에 관해서는 포털사이트들의 정책에 따라서 매번 바뀌게 되므로 수시로 확인해 보시는게 좋습니다. ^^
사이트등록 FAQ 바로보기 - 클릭 ]




부가적인 기능 설명 ]
1:1 게시판과 같은 회원전용 게시판의 경우 아래의 메타태그를 이용하여 검색하지 못하도록
설정하시는 방법도 있습니다. 
html 파일의 <HEAD> 와 </HEAD> 사이에 아래의 코드를 추가하시면 됩니다. 
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

NOINDEX는 검색로봇이 해당 페이지의 내용을 인덱싱 하지 못하도록 , 즉 색인작업을 하지 못하도록 하는 설정.
NOFOLLOW는 검색로봇이 해당 페이지에 수록된 링크값을 참조하여 추가적인 검색을 하지 못하도록 하는 설정