Web Crawler - 소프트웨어 개발 > 백엔드 | AI Insight Note

웹 크롤러(Web Crawler)는 인터넷을 자동으로 탐색하며 웹 페이지를 검색·색인하는 봇 프로그램이다. 스파이더 봇(spider bot)이라고도 불리며, 시드 URL에서 출발해 링크를 따라 페이지를 수집한다. 검색 엔진 인덱싱, 가격 모니터링, 데이터 마이닝에 사용된다.

크롤러의 종류

유형	설명
인터넷 크롤러	전체 웹을 탐색하며 새 사이트를 발견·색인 (GoogleBot, BingBot 등)
기업 크롤러	특정 비즈니스 사이트를 크롤링해 내부 검색 가능하게 함
포커스드 크롤러	단일 주제·도메인 유형만 크롤링, 확률 기반으로 링크 선택
증분 크롤러	기존 페이지를 재방문해 색인 업데이트, 콘텐츠 변경 감지
분산 크롤러	여러 머신에서 동시에 크롤링 작업 분산 수행
병렬 크롤러	다운로드 효율 향상을 위해 여러 프로세스 병렬 실행

작동 방식

크롤러는 세 단계를 순환 반복한다.

1. 검색 (Discover)
   시드 URL 방문 → 페이지 내 링크 추출 → 크롤 프론티어에 추가

2. 렌더링·다운로드·색인 (Render / Download / Index)
   robots.txt 확인 → HTML 렌더링 → 콘텐츠 다운로드 → 색인 저장

3. 반복 (Repeat)
   크롤 프론티어에서 다음 URL 꺼내기 → 1번 반복

크롤 프론티어(crawl frontier)는 아직 방문하지 않은 URL의 큐로, 선택 정책·재방문 정책·예절 정책에 따라 방문 순서가 결정된다.

핵심 요구사항

기능:
- 시드 URL에서 시작, 하이퍼링크 추출·탐색
- HTML/이미지/PDF 등 다양한 콘텐츠 수집
- robots.txt 및 noindex 메타 태그 준수
- 중복 페이지 감지·제거

규모 (대형 크롤러 기준):
- 10억 페이지/월 수집
- HTML 평균 500KB → 500TB/월 저장
- QPS: 10억 / (30×24×3600) ≈ 385 페이지/초

아키텍처

[Seed URLs]
    ↓
[URL Frontier (Priority Queue)]
    ↓
[Fetcher Workers] → [DNS Cache] → HTTP GET
    ↓
[Content Parser]
    ↓
[Duplicate Detector (Bloom Filter / SimHash)]
    ↓
[Link Extractor] → URL Normalizer → URL Frontier
    ↓
[Content Store (S3)]
    ↓
[Indexer]

URL Frontier 설계

요소:
1. 우선순위 큐: 중요도 기반 (PageRank, 갱신 빈도)
2. 예의(Politeness): 동일 도메인 요청 간격 제한
   - 도메인별 큐: q_amazon, q_naver, ...
   - 각 큐에서 n초 간격으로만 fetch

구현:
  - Front: 우선순위별 큐 (5개)
  - Back: 도메인별 큐 → 라운드로빈으로 Worker에 배분

중복 탐지

python

import hashlib
from bitarray import bitarray

# Bloom Filter: URL 방문 여부
class BloomFilter:
    def __init__(self, size=10**8):
        self.bits = bitarray(size)
        self.bits.setall(0)

    def _hash(self, url, seed):
        h = hashlib.md5((url + str(seed)).encode()).hexdigest()
        return int(h, 16) % len(self.bits)

    def add(self, url):
        for s in range(3):
            self.bits[self._hash(url, s)] = 1

    def __contains__(self, url):
        return all(self.bits[self._hash(url, s)] for s in range(3))

# SimHash: 콘텐츠 유사도 (near-duplicate)
# 64비트 fingerprint, 해밍 거리 ≤ 3 → 중복 판단

확장성 고려

항목	전략
저장소	S3 + Parquet (압축)
URL 저장	Cassandra (도메인 파티셔닝)
분산 크롤링	URL 해시 기반 샤딩
실패 재시도	지수 백오프 + DLQ
robots.txt	TTL 캐시 (24시간)

주요 과제

크롤러 트랩 (Crawler Trap)

robots.txt 파일과 noindex 메타 태그로 의도적으로 특정 페이지 크롤링을 방지할 수 있다. 무한 루프를 유발하는 동적 URL 생성 패턴도 트랩의 일종이다.

# robots.txt 예시
User-agent: *
Disallow: /private/
Disallow: /admin/
Crawl-delay: 10

동적 콘텐츠 업데이트

웹 페이지는 수시로 변경되므로 크롤러는 증분 크롤링으로 페이지를 주기적으로 재방문해 색인을 최신 상태로 유지해야 한다.

대역폭 문제

대규모 크롤링 시 네트워크 용량을 과도하게 소비할 수 있다. Crawl-delay 지시어와 도메인별 요청 간격 제한으로 대상 서버 부하를 줄인다.

중복 콘텐츠

동일한 내용이 여러 URL에 존재하면 비생산적인 리소스 낭비와 색인 오류가 발생한다. SimHash 기반 유사도 탐지로 near-duplicate를 걸러낸다.

웹 크롤링 vs 웹 스크래핑

항목	웹 크롤링	웹 스크래핑
목적	데이터 색인	데이터 추출
범위	광범위한 URL 탐색	특정 대상 집중
규칙 준수	robots.txt 준수	권한 무시 가능
대표 도구	GoogleBot, Scrapy	BeautifulSoup, Puppeteer
활용	검색 엔진, 아카이빙	시장 조사, 리드 생성

주요 검색 엔진 봇

봇	검색 엔진
GoogleBot	Google (데스크톱·모바일 각각 존재)
BingBot	Bing
DuckDuckBot	DuckDuckGo
Slurp	Yahoo
Baiduspider	Baidu
YandexBot	Yandex

크롤링의 중요성

웹 크롤러는 검색 엔진의 근간이며, 비즈니스 관점에서도 세 가지 핵심 가치를 제공한다.

발견 가능성 (Discoverability) 검색 엔진 봇이 사이트를 발견하고 색인해야만 검색 결과에 노출된다. 크롤러가 페이지를 색인하지 못하면 콘텐츠의 품질과 무관하게 검색 유입이 차단된다. 이는 SEO의 전제 조건이다.

사용자 만족도 정확하고 최신의 색인은 사용자에게 관련성 높은 검색 결과를 제공한다. 증분 크롤러가 콘텐츠 변경을 빠르게 반영할수록 검색 품질이 향상된다.

자동화 크롤러는 수작업 없이 대규모 웹 데이터 수집을 자동화한다. 크롤링 속도·빈도·대상 규칙을 매개변수로 설정해 원하는 범위를 정밀하게 제어할 수 있다.

미래 동향

데이터 생산량이 기하급수적으로 증가하면서 웹 크롤러의 역할도 진화하고 있다.

생성형 AI와의 통합 RAG(Retrieval-Augmented Generation) 파이프라인에서 최신 웹 데이터를 LLM에 공급하는 수단으로 엔터프라이즈 크롤러의 중요성이 높아지고 있다. 정기적인 재크롤링으로 지식 베이스를 최신 상태로 유지하는 것이 핵심 요구사항이 됐다.

엔터프라이즈 크롤러의 전문화 단순 URL 수집을 넘어 인증된 콘텐츠 크롤링, PDF·문서 파싱, 도메인별 규칙 기반 필터링, 실시간 색인 동기화 기능을 갖춘 프로덕션 수준 크롤러에 대한 수요가 늘고 있다. Elastic Web Crawler 등이 이 영역에서 대표적인 솔루션으로 자리잡고 있다.

AI 기반 콘텐츠 분류 수집한 페이지를 단순 저장하는 것을 넘어, 크롤링 시점에 ML 모델로 콘텐츠를 분류·요약·임베딩하여 구조화된 형태로 저장하는 방식이 확산되고 있다.

참고문헌

1.Elastic. (2024). What is a Web Crawler?. Elastic
2.Cho, J., & Garcia-Molina, H. (2002). Parallel Crawlers. Proceedings of WWW 2002
3.Olston, C., & Najork, M. (2010). Web Crawling. Foundations and Trends in Information Retrieval, 4(3), 175–246

Web Crawler웹 크롤러