공부하는 개발자

  • HOME

2021/12/16 1

대규모 시스템 설계 기초 - 9. 웹 크롤러 설계

웹 크롤러는 몇 개 웹 페이지에서 시작하여 그 링크를 따라 나가면서 새로운 컨텐츠를 수집한다. 크롤러는 다양하게 이용된다. 검색 엔진 인덱싱 웹 페이지를 모아 검색 엔진을 위한 로컬 인덱스 생성 웹 아카이빙 나중에 사용할 목적으로 장기보관하기 위해 웹에서 정보를 모으는 절차 웹 마이닝 인터넷에서 유용한 자료를 도출 (주주 총회 자료 or 연차 보고서 저장 등) 웹 모니터링 인터넷에서 저작권이나 상표권이 침해되는 사례를 모니터링 웹 크롤러의 기본 알고리즘은 간단하다. URL 집합이 입력으로 주어지면, 해당 URL 들이 가리키는 모든 웹 페이지를 다운로드 한다 다운받은 웹 페이지에서 URL들을 추출한다. 추출된 URL들을 다운로드할 URL 목록에 추가하고 위의 과정을 처음부터 반복한다. 요구사항 정성적 측면..

개발 공부 기록하기/20. 일반 2021.12.16
이전
1
다음
프로필사진

공부하는 개발자

생각을 정리하고 공부한 것을 공유하는 블로그입니다.

  • 전체글 (236)
    • 개발 공부 기록하기 (108)
      • 01. JAVA & Kotlin (38)
      • 02. DB & SQL (24)
      • 03. AWS & Infra (13)
      • 04. Spring & Spring Boot (10)
      • 05. JPA & queryDSL (0)
      • 06. gradle (0)
      • 07. react.js & vue.js (11)
      • 08. 네트워크 (1)
      • 20. 일반 (10)
      • 30. 알고리즘 모음 (0)
    • 주식 공부 기록하기 (114)
      • 01. 산업분석 (45)
      • 02. 기업분석 (33)
      • 03. 포트폴리오 관리 (9)
      • 04. 투자기업 모니터링 (8)
      • 05. 주식 (혹은 경제) 관련 용어 정리 (6)
      • 06. 투자 철학, 마인드 (13)
    • 일상 기록하기 (9)
      • 01. 지나가는 일기 (2)
      • 02. 독서 기록 (7)
    • 지식 공유하기 (3)
      • 어렵지만 쉬운 자바 강의: 입문편 (3)
    • 프로젝트 기록하기 (0)
    • 이것저것 공부하기 (1)

Tag

AWS SQS 들이파기, 코틀린, 투자에 대한 생각, 유진기업, 디스플레이, Real MySQL, 하워드 막스, MySQL, 건기식, Java, 삼일씨엔에스, 산업분석, 2020포트폴리오, AWS, 산업리포트, 포트폴리오, SQS, 철강, Effective Java, 기업분석,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

  2021. 12  
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.