[Sci&Tech] ‘취향 저격’ 영상 추천하는 ‘유튜브 알고리즘’ 원리!

-유튜브 개미지옥 만드는 추천 알고리즘의 원리는?
-취향 비슷한 이용자들 활용한 ‘협업 필터링’
-콘텐츠 유사성으로 추천하는 ‘콘텐츠 기반 필터링’
-나만의 세계에 갇히게 만드는 ‘필터 버블’

오늘도 자기 전 아무 생각 없이 유튜브 앱을 켰다. 뜬금없이 피드에 ‘두더지가 농작물에 주는 피해와 잡는 방법’이라는 제목의 동영상이 떴다. 홀린 듯이 들어가 9분 정도 되는 영상을 봤다. 나는 분명히 두더지를 검색해본 적이 없다. 그 다음에는 궁예가 “누구인가~!”라고 말하는 영상을 봤다. 다음 영상 목록에 만화가 주호민이 리코더를 연주하는 콘텐츠가 떴다.

댓글 창을 보니 나만 이런 게 아닌 모양이다. ‘알 수 없는 유튜브 알고리즘이 나를 여기로 이끌었다’와 같은 댓글들이 달려있었다. 사람들은 알고리즘에 의해 동영상을 보도록 ‘간택’ 당했다고 말한다. 오늘은 알 수 없는 유튜브 추천 알고리즘이 ‘어떻게 작동하는 건지’ 알아 보기로 한다.

-이 기사는 <나침반> 3월호 'Sci&Tech'에 4p분량으로 실린 내용의 일부입니다.
-전체 기사 내용이 궁금하다면 '나침반' 정기구독을 신청하세요~
경쟁력 있는 나만의 학생부 만드는 비법이 매달 손안에 들어온다면? 학종 인재로 가는 길잡이 나침반 36.5도와 함께라면 가능합니다. 매달 선명해지는 대입로드를 직접 확인하세요!

▼ <나침반> 정기구독 신청

* 대입 성공의 길 알려주는 '나침반36.5' 매거진 정기구독 이벤트 [배너 클릭]

음악부터 친구까지 추천하는 취향 저격 ‘추천 알고리즘’
유튜브에서 보았던 전자제품 리뷰 영상이 포털사이트, SNS에 광고로 뜬 경험은 대부분 있을 것이다. 내가 사이버상에 남긴 발자국을 추적해 선호할 만한 상품을 추천해주는 ‘개인 맞춤 추천 알고리즘’이 작용했기 때문이다.

실제로 우리의 일상생활 곳곳에는 이 알고리즘이 미치지 않은 곳이 없을 정도로 광범위하게 쓰이고 있다. 우리가 자주 클릭하는 영화, 음악과 비슷한 장르를 추천받고, 맛집, 이동경로부터 심지어는 친구까지 추천을 받는다.

추천 알고리즘은 이용자의 선호를 분석해 고객이 ‘소비할 것 같은’ 상품이나 서비스를 제안한다. 여기엔 ‘고객을 알아야 물건을 팔 수 있다’는 마케팅의 기본 전략이 담겨 있다. 실제로 온라인 매체인 아마존, 유튜브, 네이버 등은 이 추천 알고리즘을 이용해 매출을 올리는 마케팅 전략을 취하고 있다.

특히 아마존 매출의 35%는 개인화 추천에 따른 물품 구매에서 발생한다고 한다. 또한 넷플릭스는 인기 있는 콘텐츠가 소진되면 발길이 끊어지는 동영상 산업의 한계를 극복하기 위해 추천 알고리즘 개발에 전력을 붓고 있다. 실제로 이용자의 75%는 추천 영화를 선택해 시청한다고 한다.

유튜브 개미지옥 만드는 추천 알고리즘의 원리는?
유튜브 앱을 켜면 나오는 메인 홈에는 내가 보고 싶은 ‘취향 저격’ 콘텐츠가 가득하다. 검색 상단에 노출되는 동영상, 다음 동영상 목록까지, 개인 맞춤화를 강조해온 유튜브가 추천한 콘텐츠다.

유튜브는 이용자의 데이터를 바탕으로 좋아할 만한 영상을 끊임없이 추천해 빠져나갈 수 없게 만든다. 유튜브 추천 알고리즘의 목표가 이용자의 동영상 시청 시간을 늘려 광고를 통한 수익 극대화기 때문이다.

실제로 한국언론진흥재단의 조사에 의하면 유튜브 이용자의 시청시간 중 70%가 추천된 영상을 본 시간이라고 한다. 그만큼 추천 알고리즘은 유튜브 수익에 긴요한 영향을 미친다고 할 수 있다.

그렇다면 유튜브는 어떤 기준으로 콘텐츠 추천 시스템을 작동시킬까. 지금껏 유튜브 측이 알고리즘 작동 방식을 정확히 밝힌 바는 없다. 다만 보편적인 원리로 많이 쓰이는 방식은 알려져 있다. 추천 알고리즘은 크게 추천할 학습 기반 데이터에 따라 ‘협업 필터링Collaborative filtering’과 ‘콘텐츠 기반 필터링Content-based filtering’으로 분류될 수 있다.

현재는 알고리즘이 발달을 거듭하면서, 협업 필터링과 콘텐츠 기반 필터링의 장점을 섞은 하이브리드Hybrid 추천 시스템이나 여타의 알고리즘을 융합한 머신 러닝Machine Learning 추천 시스템 등의 체계가 사용되고 있다.

취향 비슷한 이용자들 활용한 ‘협업 필터링’
협업 필터링이란 이용자들로부터 얻은 데이터를 기반으로 선호를 예측하는 기법이다. 협업 필터링은 크게 이용자 기반 추천과 아이템 기반 추천으로 나뉜다.

아이템 기반 추천이란 과거에 구매했던 제품과 연관성이 높은 다른 제품을 추천하는 방식이다. 예를 들어 이용자가 콜라를 구매한 이력이 있다면, 유사성이 높은 사이다나 환타 같은 탄산음료를 추천해주는 방식이다.

반면, 이용자 기반 추천은 취향이 비슷한 이용자들을 같은 그룹에 놓고, 이용자들에게 비슷한 상품을 추천하는 방식이다. 예를 들어 연령대가 10대인 A 선호 그룹에 있는 사람들은 주로 햄버거를 구매할 때 감자튀김과 콜라를 함께 구매했다. 그렇다면 데이터에 따라 같은 선호 그룹의 이용자가 햄버거를 구매할 때 콜라와 감자튀김을 추천해주는 방식이다.

협업 필터링은 이용자 개개인의 데이터를 활용해 추천하는 방식이다. 이로써 다수가 원하는 상품보다는 개인의 취향을 정밀하게 파악해 관심 가질 만한 상품을 추천할 수 있다는 장점이 있다. 개인 맞춤 알고리즘인 만큼 상품의 구매로 이어질 확률이 높다. 게다가 이용자가 많아질수록 데이터가 쌓여 추천 정확도와 신뢰도 또한 올라간다.

그러나 데이터에 대한 의존도가 높아 생기는 문제점도 있다. 이용자의 정보나 상품에 대한 데이터가 없다면 추천이 어렵다. 따라서 처음 사용하는 이용자거나 새로 나온 상품은 추천이 어렵다. 또한 이용자가 많아질수록 데이터양이 많아져 계산이 오래 걸려 효율성이 떨어진다는 단점이 있다.

콘텐츠 유사성으로 추천하는 ‘콘텐츠 기반 필터링’
협업 필터링의 단점을 보완해주는 것이 바로 ‘콘텐츠 기반 필터링’ 기법이다. 콘텐츠 기반 필터링이란 말 그대로 이용자가 소비한 콘텐츠를 기준으로 유사한 특성을 가진 콘텐츠를 추천하는 방식이다.

예를 들어, 이용자가 선호하는 콘텐츠를 분석해보니 ‘마블(Marvel) 영화’라는 공통점이 나왔다. 마블 영화의 특성을 추출해 보니 ‘히어로물, 로버트 다우니 주니어(Robert Downey Jr.) 출연, 장르: 액션’이라는 분석이 나왔다.

그러면 콘텐츠 기반 필터링에 의해 이용자에게는 다른 히어로물인 ‘버즈 오브 프레이 (Birds of Prey)’, ‘스파이더맨 (Spider-Man)’ 등을 추천할 수 있다. 또한 로버트 다우니 주니어가 출연한 다른 영화 ‘(셜록 홈즈 Sherlock Holmes)’를 추천할 수 있다.

따라서 계산이 오래 걸리고, 새로운 상품에 대한 추천이 어려운 협업 필터링의 단점을 콘텐츠 기반 필터링으로 해결할 수 있게 됐다.

하지만 비슷한 특성의 상품을 계속해서 추천하기 때문에 추천되는 아이템의 다양성이 떨어진다는 단점이 존재한다. 또한 콘텐츠의 특성만을 추출하다 보니, 이용자 개인의 취향을 정밀하게 파악할 수 없다는 문제점도 있다.

나만의 세계에 갇히게 만드는 ‘필터 버블’
추천 알고리즘은 검색하기도 전에 내가 좋아하고 필요한 것들을 보여주어 우리의 생활을 편리하게 만들었다. 그러나 필터링 된 정보가 과연 진실이라고 할 수 있을까? 미국 시민운동가 엘리 프레이저(Eli Pariser)는 추천 알고리즘 때문에 나만의 세계에 갇혀버리는 ‘필터 버블(Filter Bubble)’이 일어날 수 있다는 문제를 제기했다.

필터 버블이란 인터넷 정보제공자가 이용자에게 맞춤형 정보를 제공함으로써 이용자가 필터링 된 정보만을 접하게 되는 현상을 말한다. 실제로 우리는 콘텐츠를 자유롭게 선택해 시청한다고 믿는다. 하지만 우리가 동영상이나 기사를 선택하는 순간부터, 추천 알고리즘이 작동해 이용자의 자율적인 콘텐츠 선택을 방해한다.

실제로 진보적인 성향을 가진 이용자의 핸드폰에는 추천 알고리즘으로 인해 보수적인 성향의 뉴스가 자동적으로 걸러지고 있다. 만약 이용자가 이를 인식하지 못하고 계속해서 진보적인 성향의 뉴스만 보게 된다면, 자신이 보는 뉴스가 무조건 옳고, 진실 된 것이라고 확고히 믿게 될 수밖에 없다.

다양한 정보를 접하기 어려워지고, 자신의 생각과 비슷한 것만 보다 보니 인식이 왜곡된 것이다. 장기적으로는 자신의 의견에 대한 고정관념과 편견이 강화되는 ‘확증 편향’까지 일으킬 수 있다.

확증 편향이란 자신의 가치관, 신념에 부합하는 정보에만 주목하고, 그 외의 정보는 무시하는 심리적 경향을 말한다. 결국 추천 알고리즘이 만든 버블 속에 갇혀 왜곡된 세계에서 살게 될 수 있다는 이야기다.

추천 알고리즘에 의한 문제를 최소화하기 위해 기업들은 다양한 시도를 하고 있다. 네이버는 기존 관심사와는 다른 분야의 기사도 함께 추천될 수 있도록 알고리즘을 검토하고 있다고 말했다.

독자의 이념적·정치적 성향과 반대 성향의 기사를 권하는 앱 ‘Read across the aisle’도 출시됐다. 우리 역시 추천 알고리즘에 의해 편향된 시각을 가지고 있었던 것은 아닌지 점검해보고, 경각심을 가질 필요가 있다.

■ <나침반> 3월호 해당 페이지 안내

*에듀진 기사 링크: http://www.edujin.co.kr/news/articleView.html?idxno=32671

상단영역

본문영역