Post

sitemap.xml과 robots.txt

sitemap.xml과 robots.txt에 대해 정리한 페이지입니다.

sitemap.xml과 robots.txt

Tags
sitemap, robots.txt

개요

sitemap.xmlrobots.txt에 대해 정리한 페이지입니다.

sitemap.xml

개념

sitemap.xml은 웹 사이트의 모든 중요 페이지들의 URL 목록을 XML 형식으로 작성한 파일입니다. 이는 검색 엔진 크롤러에게 사이트 내 페이지들의 구조와 업데이트 정보를 제공하여 검색 엔진 크롤러가 사이트를 효율적으로 크롤링하고 인덱싱할 수 있도록 돕습니다.

주요 특징

sitemap.xml의 주요 특징은 다음과 같습니다.

  • 검색 엔진 최적화(SEO)

    검색 엔진이 사이트의 구조를 더 잘 이해할 수 있도록 하여 새로운 내용이나 갱신된 페이지가 빠르게 인덱싱되도록 지원합니다.

  • 사이트 구조 노출

    페이지 간의 계층 구조, 우선순위(Priority), 변경 빈도(Change Frequency) 등의 정보를 제공하여 검색 엔진이 중요 페이지를 더 잘 파악할 수 있게 합니다.

구성 요소

sitemap.xml의 구성 요소는 다음과 같습니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
<?xml version="1.0" encoding="UTF-8"?>
<urlset
      xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
      xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
            http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
<url>
  <loc>https://hyunjinno.github.io/</loc>
  <lastmod>2025-04-08</lastmod>
  <changefreq>weekly</changefreq>
  <priority>1.0</priority>
</url>
<url>
  <loc>https://hyunjinno.github.io/categories/</loc>
  <lastmod>2025-04-08</lastmod>
  <changefreq>weekly</changefreq>
  <priority>0.5</priority>
</url>
</urlset>
태그설명예시
<urlset>여러 개의 <url> 요소를 감싸는 최상위 요소 
<url>각각의 페이지 정보를 담는 요소 
<loc>페이지의 절대 URLhttps://www.example.com/
<lastmod>마지막 수정 날짜 (형식: YYYY-MM-DD)2025-04-11
<changefreq>변경 빈도always hourly daily weekly monthly yearly never
<priority>우선순위0.0 ~ 1.0 (기본값: 0.5)

Caution
changefreqpriority는 필수가 아니며, 검색 엔진이 이를 반드시 따르지는 않습니다.

robots.txt

개념

robots.txt은 웹 사이트의 최상위 경로(Ex. https://www.example.com/robots.txt)에 위치시키는 텍스트 파일로, 검색 엔진 크롤러에게 sitemap.xml 파일의 위치를 알려주고, 어떤 페이지나 섹션을 크롤링해도 되는지, 또는 크롤링하지 말아야 하는지를 지시하는 역할을 합니다.

주요 특징

robots.txt의 주요 특징은 다음과 같습니다.

  • 크롤링 제어

    민감 정보가 포함된 영역이나, 중복 컨텐츠, 또는 낮은 가치의 페이지 등을 검색 엔진이 크롤링하지 않도록 차단할 수 있습니다.

  • 크롤링 허용/차단

    특정 크롤러에 대해 크롤링을 허용할지, 또는 차단할지 제한할 수 있습니다.

구성 요소

robots.txt의 구성 요소는 다음과 같습니다.

1
2
3
4
5
User-agent: *
Disallow: /assets/
Allow: /

Sitemap: https://hyunjinno.github.io/sitemap.xml
요소설명예시
User-agent크롤링을 허용할 검색 엔진 설정User-agent: * (모든 검색 엔진에 대해 크롤링 허용)
Disallow크롤링 대상에서 제외할 경로Disallow: /assets/ (/assets 경로에 속하는 모든 페이지를 크롤링 대상에서 제외)
Allow크롤링 대상에 포함할 경로Allow: / (모든 페이지를 크롤링 대상으로 설정)
Sitemapsitemap.xml 파일의 위치 지정Sitemap: https://hyunjinno.github.io/sitemap.xml

Caution
robots.txt은 크롤러에 대한 접근 지침일 뿐이므로, 검색 엔진이 이를 반드시 따르지는 않습니다.

참고 자료

This post is licensed under CC BY 4.0 by the author.