구글에 의한 웹페이지 수집은 페이지당 최대 15MB까지 검색 순위를 낮추지 않기 위해 필요한 대책은?
본문 바로가기
시사, 경영

구글에 의한 웹페이지 수집은 페이지당 최대 15MB까지 검색 순위를 낮추지 않기 위해 필요한 대책은?

by 소식쟁이2 2022. 7. 17.

구글에 의한 웹페이지 수집은 페이지당 최대 15MB까지 검색 순위를 낮추지 않기 위해 필요한 대책은?

구글은 검색 결과에 표시하는 웹사이트의 정보를 수집하기 위해 인터넷에 공개되어 있는 무수한 웹페이지의 정보를 "구글봇"이라고 불리는 크롤라가 수집하고 있다. 이 구글봇에 대한 공식 문서(영어판)에는 '15MB 이상의 파일을 크롤할 때는 선두 15MB까지만 크롤한다'는 기재가 포함되어 있는데, 이 15MB 제한에 대한 자세한 해설이 새롭게 공개되었다.

Google은 Google bot를 이용해 날마다 계속 증가하는 넷상의 방대한 수의 웹 페이지를 크롤하고 있다.Google은 웹 사이트의 관리자 전용으로 Google bot의 사양을 정리한 문서를 공개하고 있습니다만, 이 문서에 추가된 「Google bot는 1 파일에 대해 최대 15MB까지만 크롤 한다」라고 하는 기술에 관해서 많은 문의가 많았다고 한다. 그래서 구글은 구글봇의 15MB 제한 세부사항에 대한 해설을 새롭게 공개했다.

◆ '15MB'란 웹 페이지의 어느 부분의 크기를 나타내는가?
구글봇은 페이지 상에 읽히는 모든 콘텐츠가 아닌 페이지 소스만 크롤하고 있다. 15MB라는 제한은 HTML 파일 등의 '대상 페이지의 URL에 접속했을 때 가장 먼저 읽히는 파일'을 대상으로 한 것으로 페이지 상에 표시되는 이미지나 무비와 같은 콘텐츠의 합계 크기가 15MB를 초과한 경우에도 HTML 파일 등의 크기가 15MB를 넘지 않으면 15MB 제한 대상이 되지 않다.

◆ 15MB 제한은 웹사이트 관리자에게 어떤 영향을 줄까?
Google에 따르면, 인터넷상에 존재하는 HTML 파일의 사이즈의 중앙값은 30KB라고 한다. 따라서 대부분의 웹사이트 관리자는 15MB 제한을 신경 쓸 필요가 없다. 구글은 HTML 파일이 15MB를 초과하는 웹 사이트의 관리자에게 스크립트를 외부 파일로 이동하도록 권장하고 있다.

◆ 15MB 넘는 파일은 어떻게 다뤄지나
Google bot은 파일의 앞부분부터 15MB까지를 크롤하고, 그 이후는 크롤하지 않는다.

◆ 15MB 제한은 구글봇이 이미지나 영화를 수집하지 않는 것을 의미하는가?
상술한 대로, Google bot는 화상이나 무비의 실제 파일을 수집하지 않고, 「<img src="https://example.com/images/ 화상 파일.jpg">」와 같은 HTML 형식으로 수집하고 있다.

◆ 데이터 URL은 파일 크기에 포함되나?
데이터 URL이라고 불리는 구조를 이용하면 이미지 파일 등을 문자열로 변환하여 HTML 파일에 포함시킬 수 있다. 이 데이터 URL은 구글봇의 크롤 대상이므로 15MB 제한에 포함된다.

◆ 웹페이지 크기를 조사하는 방법은?
구글은 웹페이지 크기를 알아보는 방법으로 웹브라우저 개발자 도구를 사용하는 방법과 명령어 라인 툴 cURL을 사용하는 방법을 소개하고 있다. 예를 들어 Google Chrome에서는 "Ctrl+Shift+I"로 디벨로퍼 툴을 띄우고 "Network" 탭으로 전환한 상태에서 웹페이지를 갱신하면 파일 크기를 알아볼 수 있다.

반응형

댓글