유튜브에는 얼마나 많은 동영상이 있고 얼마나 많은 사람들이 보고 있는지를 과학적으로 조사하기 위한 기법
본문 바로가기
시사, 경영

유튜브에는 얼마나 많은 동영상이 있고 얼마나 많은 사람들이 보고 있는지를 과학적으로 조사하기 위한 기법

by 소식쟁이2 2023. 12. 27.

 

유튜브에는 얼마나 많은 동영상이 있고 얼마나 많은 사람들이 보고 있는지를 과학적으로 조사하기 위한 기법

동영상 전송 플랫폼 유튜브(YouTube)는 이제 인터넷 사용자 대부분이 한 번쯤 접해본 적이 있다고 해도 과언이 아닌 서비스로, 소셜 미디어 중 최대 규모를 자랑합니다. 매사추세츠대 애머스트교에서 공공정책, 커뮤니케이션, 정보학을 가르치는 이단 저커먼 교수가 이 유튜브(YouTube)의 규모를 과학적으로 파악하기 위해 구축한 조사 방법을 설명하는 내용입니다.


현행 소셜 미디어 조사의 대부분은 가짜 뉴스나 오정보, 증오 메시지를 발견하는 데 중점을 두고 있습니다. 이러한 조사는 소셜 미디어 상에서 특정 키워드를 검색하여 나온 게시물의 수와 노출(impression)을 계산하는 것 뿐이므로 조사 자체는 그리 어려운 일이 아닙니다. 그러나 저커먼 교수는 분모가 되는 전체의 수를 밝히지 않고 분자가 되는 절대수만을 조사하는 경향을 분모 문제라고 부르며 문제 삼고 있습니다.

예를 들어 조사기업 아바즈(Avaaz)가 2020년 8월 발표한 '코로나19 관련 오류정보 보고서'에서는 코로나19 관련 오류정보가 1년간 38억회 열람된 것으로 보고하고 있습니다. 38억 회라는 것은 매우 큰 숫자이지만, 전체 사용자가 모든 게시물을 열람한 수가 나타나지 않아 38억 회라는 숫자가 전체 중 어느 정도 규모인지 알 수 없다는 것입니다. 실제로 페이스북에서는 30억 명의 사용자가 하루에 수십에서 수백 개의 뷰를 생성하고 있는 것을 감안하면, 총 38억 번의 조회수라는 것은 매우 작은 수로도 해석할 수 있습니다.

분모가 되는 전체 데이터에 접근할 수 있었던 소셜 미디어에는 레딧(Reddit)과 트위터(Twitter. 현 X)가 있었습니다. 그러나 둘 다 일반 액세스를 차단하고 API를 유료화했기 때문에 연구자들이 분모 기반으로 Reddit나 Twitter 연구를 수행하는 것이 더 이상 거의 불가능해졌다고 저커먼 교수는 말합니다.

그래서 저커먼 교수는 Reddit이나 Twitter보다 인터넷 사용자에게 널리 이용되는 유튜브에 주목했습니다. 조사 매체인 Pew Research Center에 의한 조사에서는 10대 젊은이의 93%가 YouTube를 사용하고 있다고 하며, TikTok이 63%, SnapChat이 60%인 것과 비교하면 YouTube는 보다 인터넷 사용자 전체를 포착하기 쉬운 소셜 미디어라고 할 수 있습니다.

하지만 유튜브에는 몇 가지 API가 준비돼 있지만 유튜브에서 샘플이 되는 동영상을 랜덤으로 추출하기 위한 방법이 없다고 합니다. 지금까지의 YouTube 관련의 연구에서는, 선택한 동영상 리스트에 대해 연구하거나, 1편의 지정한 동영상으로부터 추천받은 동영상을 따라 갈 것인가를 연구할 수 밖에 없고, 물론 그러한 기법으로도 충분히 뛰어난 조사는 가능하지만, YouTube의 전체 동영상의 샘플을 얻을 수는 없습니다. 랜덤으로 샘플을 추출할 방법이 없으면 유튜브의 전체 규모를 추정할 수도 없다고 저커먼 교수는 주장했습니다.

그래서 저커먼 교수는 Reddit의 과거 글을 모두 축적해 제공하는 사이트 Pushshift.io 의 운영자인 제이슨 바움가트너 씨와 상담했습니다.그리고 바움가트너 씨는 유튜브의 "Innertube API"라고 불리는 문서화되지 않은 API를 사용하여 무작위 URL을 추측하여 동영상이 있는지 확인하는 시스템을 구축했습니다.

유튜브 URL은 "https://www.youtube.com/ watch?v=○○○○"로 되어 있으며, 이 ○○○○부분에는 알파벳 대문자와 소문자, 숫자, "_"와 "-"로 구성된 11자리 문자열이 들어갑니다. 생각할 수 있는 문자열은 대충 잡아도 18경 4000조 패턴이나 있으며, 아무리 YouTube에 대량의 동영상이 보존되어 있다고 해도, 우선은 이 문자열의 패턴이 끝나는 일은 없습니다. 만일 YouTube에 10억 개의 동영상이 보존되어 있다고 해서, URL을 랜덤으로 선택해도 유효한 주소를 취득할 수 있는 확률은 184억 분의 1이라고 하는 계산이 됩니다.

저커먼 교수와 바움가트너는 문자열을 랜덤으로 생성하고 동영상이 있는지 체크한다는 방법은 술 취한 사람이 생각한 번호로 전화를 걸어 상대방이 받는지 시험하는 것과 같다고 해서 drunk dialing이라고 불렀다고 합니다. 바움가트너는 이 drunk dialing을 3만2000배의 속도로 수행할 수 있도록 개선하고, drunk dialing으로 검증하는 문자열을 제한함으로써 다시 시도 횟수를 줄여 동영상 추출률을 향상시키는 방법도 고안하고 있습니다. 덧붙여 대량의 스크립트를 돌리는 것으로 수개월에 1만 개 이상의 랜덤한 YouTube 동영상을 추출하는 기법도 확립되었습니다.

이 스크립트를 통해 2만 4964개의 동영상을 샘플로 추출하고, 이것으로부터 YouTube의 전체 규모를 추정한 결과를 정리한 사이트 「Tube Stats」가 아래에 링크로 공개되어 있습니다.

TubeStats
https://tubestats.org/

 

TubeStats

TubeStats is an open-source tool that lets you navigate YouTube data and compare videos across the platform.

tubestats.org

 

 

 

 

 

 

2023년 유튜브에는 133억2582만1970편의 동영상이 있을 것으로 추정된다고 합니다. 위의 막대그래프는 2006년부터 2023년까지의 YouTube에 보존되어 있는 동영상의 추정 갯수 추이를 정리한 것입니다.




동영상 재생 횟수, 가장 빈번한 값은 10.880%의 '17~32회'로 대부분의 동영상이 조회수 1000회 벽을 넘지 못하고 있음을 알 수 있습니다.
동영상 언어는 전체의 31.844%가 영어입니다. Tube Stats에서는 샘플을 기반으로 한 추정 데이터가 한 달에 한 번 업데이트됩니다.


저커먼 교수는 "아마 가장 중요한 것은 Tubestats를 가능한 한 유지할 생각이라는 것입니다. 유튜브가 이 데이터의 존재나 우리가 이 데이터를 만들기 위해 사용한 방법에 이의를 제기할 가능성은 있습니다. 그러나 저는 모든 미디어 플랫폼에 대해 이러한 높은 수준의 데이터를 정기적으로 공개해야 한다고 생각합니다. 유튜브와 같은 플랫폼은 우리 디지털 공공권의 가장 중요한 부분의 일부이며, 우리는 거기에 무엇이 있는지, 혹은 누가 이 콘텐츠를 만들고 누구에게 리치하고 있는지에 대해 훨씬 더 많은 정보를 필요로 합니다."라고 주장하고 있습니다.

*재미있거나 도움이 되셨다면 '구독' 꾹 눌러 주시기를 부탁드립니다. 늘 행복하세요.

 


How Big is YouTube? - - Ethan Zuckerman
https://ethanzuckerman.com/2023/12/22/how-big-is-youtube/

 

How Big is YouTube? - Ethan Zuckerman

How big is YouTube? It's not easy to find out, but we did two years of research and figured out how...

ethanzuckerman.com

 

반응형

댓글