인플루언서 분석에 적용된 AI 기술들 | 피처링
#테크

인플루언서 분석에 적용된 AI 기술들

2023-03-07 발행0명이 봤어요.



인플루언서와 AI?


요즘 인플루언서 마케팅은 폭발적으로 성장하고 있습니다.

SNS에서 팔로워가 많은 인플루언서와 함께하면 새로운 잠재 고객에게 쉽게 다가갈 수 있고, 브랜드와 소비자 간의 신뢰도를 높일 수 있습니다. 당연한 이야기인듯 하지만 인플루언서들이 너무 많아서 브랜드들이 파트너 선택하는 데 어려움을 겪고 있습니다.

대체 어떤 인플루언서를 골라야 할지 막막하죠!


피처링은 창업 이후 줄곧 이 부분에 역량을 집중하고 있습니다.

이 과제를 해결하기 위해 수많은 데이터 분석과 AI가 필요합니다.

AI 기반 인플루언서 분석은 브랜드가 타겟 오디언스들과의 핏을 맞추고 최고의 투자 수익을 창출할 가능성이 가장 높은 인플루언서를 식별하는데 만들어지고 있습니다.



피처링에서 집중한 기술


기존 애드테크에서의 성과 측정은 고도화 되어왔고, 보다 정확하고 체계적인 데이터 분석과 측정을 통해 광고 효과를 평가하고 최적화하는 방식으로 발전해 왔습니다.

반면에 인플루언서 시장은 광고주들이 인플루언서의 팔로워 수나 영향력만을 고려하여 광고를 진행하는 경우가 많아, 정확한 성과 측정이 어려운 문제가 있습니다.


다시 한번 강조하면, 인플루언서의 마케팅은 무조건 인플루언서의 영향력으로 결정됩니다. 이 영향력은 눈에 보이는 것으로만 판단할 수밖에 없습니다. 인플루언서의 피드를 보고있는 팔로워는 몇명이며, 사진을 올렸을 때 얼마나 많은 사람이 좋아요나 댓글을 남기는지와 같이 정형화된 데이터로만 영향력을 판단 할 수 밖에 없습니다.


이 판단을 흐리게 하는 인플루언서 시장의 가장 큰 문제점이 있었습니다.


1. 가짜 인플루언서 없애기


활동 지표가 상시 노출되는 SNS 특성상 일부 인플루언서들은 자신의 영향력이 크다는 것을 포장하기 위해 노력하고 있습니다. 포장하는 데에는 단돈 만원만 있으면 인플루언서로 둔갑 할 수 있습니다. 이러한 노력으로 포장된 반 쪽짜리 인플루언서를 선택하는 순간 마케팅은 무조건 실패로 끝나게 됩니다.


단돈 1만원으로 팔로워 1만명의 인플루언서 만들기


1.1 가짜 인플루언서는 누구인가?


가짜 인플루언서들은 다음과 같은 행위들을 하고 있습니다.


1) 자신의 계정의 팔로워 해줄 가짜 계정들을 구매합니다.

2) 좋아요를 로봇 혹은 업체가 생성한 계정으로 누르게 합니다.

3) 댓글 또한 업체가 생성한 계정으로 원하는 문구를 기입하여 작성 하도록 합니다.


위의 3가지를 업체에 의뢰하고 1주일 정도로 작업하면 누구도 알아보기 힘든 멋진 인플루언서(?) 계정이 탄생합니다.

가짜 인플루언서의 그 계정 주인은 진짜일지어도 그 영향력을 받는 오디언스들은 허상의 인물을 뜻합니다.

피처링은 초창기 인플루언서 시장에 관해 연구할때 정확한 성과 측정을 하기전에 가짜 팔로워같은 노이즈 데이터를 제거하는데에 집중 하였습니다.



1.2 가짜 오디언스 걸러내기


초기 분류 모델에선 적은 데이터만 존재 하였기 때문에 가짜 오디언스를 충분히 찾아 낼 수 있었습니다. 이전 블로그 글에서 가짜 팔로워를 찾는 방법에 대해 한번 다뤄봤으니 참고해주세요.


피처링에서는 가짜 오디언스를 탐지하기 위해 다양한 영역에서 AI와 알고리즘이 도입되고 있습니다.


1) 팔로워들의 사용하는 언어가 달라도 너무 달라요.

한국어로 한국에서만 활동하는 음식 콘텐츠를 주로 올리는 인플루언서의 댓글에 아래와 같은 내용이 달린다면 어떤것을 의미 할까요?

‘음식 포스팅’에서 전혀 의미가 다른 형태의 댓글들


피처링에서는 댓글의 언어들로 가짜를 판별 할 수 있고, 판별 하기위해 AI가 도입되어 있습니다.

언어 판별에서는 구글이 만든 CLD3(CLD - Compact Language Detector)라는 언어 식별을 위한 신경망 모델을 적용하였습니다.

CLD3 모델은 인터넷에서 찾을 수 있는 언어 데이터를 사용하여 훈련되었으며, 입력된 텍스트를 기반으로 언어를 식별합니다. 인플루언서가 작성한 글이나 오디언스의 댓글과 같은 텍스트 데이터를 제공하면, CLD3 모델을 사용하여 언어를 예측할 수 있습니다.

해당 모델은 약 100개 이상의 언어를 탐지해 낼 수 있습니다.


2) 비정상적인 아이디는 로봇이 만들었을 확률이 있습니다.

실제 업체에 의뢰한 로봇 계정들


언어에 대한 탐지와 더불어 각 단어별 임베딩을 통해 팔로워나 오디언스들의 비정상적인 아이디를 탐지 해내고 있습니다.

임베딩이란 비교 대상이 되는 사용자 정보(아이디 등과 같은)를 취합하여 각 오디언스들의 의미를 반영하는 벡터로 변환하는 것입니다. 임의의 사용자를 벡터로 표현하는 것은 최근 각광을 받고 있는 딥러닝의 표현 학습의 일종으로 볼 수 있습니다.

가짜 아이디들의 유사도를 만들어 실제 봇이 만들었을 만한 이름이 발견되고 임계치 이상 되면 걸러내는 동작을 하고 있습니다.



3) 인플루언서의 활동 데이터 변화량을 보면 알 수 있습니다.

예상 곡선을 심하게 이탈한 경우 봇 작업을 했을 확률이 높습니다


특정 날짜나 특정 시간대에 팔로워나 좋아요가 급격히 증감한 경우도 유심히 살펴봐야 합니다. 어떠한 이슈가 아닌 경우에야 특정 봇 작업으로 이루어진 활동이라고 판단 할 수 있습니다.

활동 데이터의 변화량은 시계열 분석에 주로 활용되고 있는 LSTM(Long Short-Term Memory) 딥러닝 모델활용하고 있습니다.

LSTM은 RNN의 일종으로, 이전에 입력된 데이터를 기억하고 이를 기반으로 새로운 데이터를 예측하는 모델입니다. 인플루언서의 팔로워 수, 좋아요 수, 댓글 수 등과 같은 데이터를 시계열로 정리한 후 LSTM 모델에 학습시킬 수 있습니다.

실제 활동과 오디언스 정보를 활용하여 팔로워나 구독자수의 원만한 그래프 예측과 벗어나면 팔로워를 구매했을 확률이 높습니다. 셀럽처럼 SNS외의 영향력이 있거나 특정 이슈가 발생한 것 외에는 많이 증가하기는 어렵습니다.




1.3 가짜들의 데이터로 가짜 인플루언서 찾기


분석해야할 인플루언서가 늘어날 수록 국내에서 활동하는 수십만명의 인플루언서와 그에 반응하는 수억명의 오디언스들의 데이터는 대량의 비정형 데이터로 인해 어려운 작업이 될 수 있습니다.


일일히 Rule-base로만 판단하기엔 더 큰 컴퓨팅 기술이 필요 하였으며, 오토인코더(Autoencoder) 신경망을 활용한 여러가지 필터를 사용하여 보다 빠르게 탐지 할 수 있는 자체 모델링을 만들었습니다. 오토인코더를 사용하여 팔로워 데이터를 인코딩하고, 이를 기반으로 유사한 팔로워 그룹으로 클러스터링을 하고 있습니다.


인플루언서의 계정만 넣으면 위의 패턴들을 몇초 만에 탐지 하여 얼마나 진짜로 구성되어있는지 Ouput을 만들어내는 AI 입니다.



2. 영향력 측정하기


이제 노이즈를 제거하였으니, 보다 성과를 낼 수 있는 인플루언서를 파악 해야 합니다.

인플루언서의 성과는 영향력으로 발휘되며 영향력은 단순한 개념이지만 기준을 내리기는 굉장히 어렵습니다.


피처링은 인플루언서의 영향력을 아래와 같이 정의를 내렸습니다.

1) 영향력은 누군가의 삶의 변화(에너지)를 주는 행위

(e.g., 슬픈 얘기를 듣고 우울해짐, 좋은 물건 추천으로 돈을 쓰게 됨)

2) 선하거나 악하거나 누군가의 행동 및 마음의 변화를 일으킬 힘


피처링은 인플루언서의 영향력을 아래와 같이 기준을 정했습니다.

1) SNS 마케팅의 의사결정에 기준 지표

2) 인플루언서 관련하여 다양하게 활용할 수 있는 범용적인 지표

3) 상품 기획 단계부터 상품 비즈니스 프로세스의 최적화까지 맞춤형 트렌드를 읽을 수 있는 지표


인플루언서의 영향력은 주로 온라인 콘텐츠로만 이루어집니다.

온라인상의 콘텐츠는 같은 메타 정보와 픽셀을 갖고 있지만, 누군가에는 다른 형태의 영향력을 끼치게 됩니다.

콘텐츠와 해당 콘텐츠를 소비하는 오디언스와의 관계에 대해 집중하였습니다.


영향력을 알기 위해선 콘텐츠를 정확히 분석해야 합니다.


다양한 콘텐츠들이 다양한 영향을 끼치고 있습니다


콘텐츠가 나타내는 다양한 속성들을 분류하고 어떠한 가치를 가지고 있는지 판별하는것이 무엇보다 중요했습니다.

여기서도 다양한 AI 기술들을 접목하여 콘텐츠를 분류하고 유형을 분석합니다. 그리고 오디언스가 느끼는 영향력에 대해 정의를 내리며 나아가 브랜드의 가치 및 메시지와 일치하는지 확인합니다.


피처링에서는 콘텐츠 중 정적인 이미지를 분석하는대에 초기 역량을 쏟아 부었습니다.

그 중 몇가지만 간단히 소개하면, 이미지 처리 분야에서 가장 많이 사용되는 딥러닝 CNN 모델, YOLO(You Only Look Once) 딥러닝 알고리즘 등을 사용해 사진이 담고 있는 다양한 객체를 탐지하였습니다.


2.1 이미지 콘텐츠 객체에 대해 알아내기


YOLO 알고리즘은 이미지에서 객체를 감지하고 실시간으로 바운딩 박스와 클래스 확률을 예측할 수 있는 객체 감지 알고리즘입니다. 다른 객체 감지 알고리즘 보다 비교적 빠르고 컴퓨팅 리소스를 최소화 할 수 있어 사용하고 있습니다.


YOLO 딥러닝을 사용하여 사진 콘텐츠들을 분석하는 단계를 간략히 소개해드리면 다음과 같습니다.


1) 데이터 수집 및 전처리


이미지를 분석하기전에 AI가 학습할 수 있도록 수많은 데이터를 수집합니다. 데이터를 수집한 후에는 이미지 크기를 고정된 크기로 조정하고, 필요한 형식으로 변환하고, 텍스트 데이터에서 이미지를 분리하는 등 데이터를 전처리해야 합니다.

피처링에서는 주로 협찬 및 공동구매와 같은 광고 캠페인에 직접적인 관계가 있는 객체들을 주로 학습 하고 있습니다.


Yolo는 다른 모델 대비 높은 성능을 보여줌


2) 모델 훈련

다음 단계는 YOLO 모델을 훈련하는 것입니다. 사전 학습된 모델을 사용하거나 주석이 달린 이미지의 대규모 데이터 세트를 사용하여 자체 모델을 학습할 수 있습니다. YOLO는 인스타그램과 같은 일상 이미지들의 수많은 객체를 판별하고 감지하는대 있어서 충분히 우수한 성능을 발휘하고 있습니다.



3) 모델 미세 조정

모델을 학습시킨 후 특정 작업에 맞게 모델을 미세 조정할 수 있습니다. 예를 들어, 인스타그램 게시물에서 특정 개체를 감지하려는 경우 해당 특정 개체가 포함된 주석이 달린 이미지의 작은 데이터 세트에서 모델을 미세 조정할 수 있습니다.


4) 평가

마지막으로 인스타그램 게시물의 테스트 세트에서 모델의 성능을 평가해야 합니다. 정밀도, F1 스코어를 사용하여 모델의 성능을 평가하고 있으며, 수많은 캠페인을 담당한 피처링 담당자들이 정성적으로 함께 평가하고 있습니다.


2.2 인물 분석하기


콘텐츠에는 사물과 더불어 가장 중요한 요소는 🧔🏻‍♂️인물입니다.

인플루언서 대한 인물 충성도를 알 수 있으며, 혹은 오디언스들이 올리는 콘텐츠로 연령대 및 성별을 추론 할 수 있습니다.


인물의 연령을 예측하는 AI 프로세스


인물에 대한 이미지는 CNN(컨볼루션 신경망), VGG-16 아키텍처를 사용하며 이미지 분류를 위해 ImageNet에서 사전 훈련되었습니다.

피처링에서는 기본 데이터셋 20만개, UTKFace 데이터셋 그리고 자체 레이블링한 30만개 이상의 이미지셋으로 데이터를 훈련 시켰고, 비교적 높은 정확도로 인물의 속성을 분류 하고 있습니다. 나아가 인물의 행동(포즈), 인물의 감정등을 분류 할 수 있는 모델고도화하고 있으며, 콘텐츠에 대한 속성을 분류 할 수 있도록 지속적으로 연구 중입니다.



콘텐츠의 속성들을 어느정도 탐지했다면 분류 단계로 넘어갑니다.


2.3 콘텐츠 분류하기


콘텐츠의 분석은 이미지 뿐만 아니라 글, 영상 다양한 형식에 따라 적재적소에 알맞은 AI 기술들이 도입되어 있습니다. 객체의 사물과 인물 속성 뿐만 아니라 목적이나 장소, 이미지 톤까지 태깅 하고 있으며 이러한 기반 데이터는 종합적으로 모델링 되어 최종 분류 결과물을 만들어 냅니다.



분류 모델에는 Komoran 토큰분류기와 SGDCalssifier 알고리즘을 사용 하여 개발되어 있습니다.

SGDClassifier는 라벨이 지정된 SNS 게시물의 대규모 데이터 세트를 사용하여 훈련할 수 있는 선형 분류기입니다. 다중 클래스 분류 접근 방식을 사용하여 게시물을 피처링에서 용도에 맞는 여러 카테고리로 분류할 수 있습니다.



2.4 참여 정보 분석과 유의미한 오디언스 분류


마지막으로 분류한 데이터와 해당 콘텐츠의 반응한 수많은 데이터를 코호트 분석을 통해 실제 유의미한 영향력을 분석 합니다.

유의미한 오디언스는 영향력을 가장 많이 받고 있는 사람들이며 온라인 상에서 영향력을 가장 쉽게 알 수 있는 방법은 인플루언서가 추천한 상품의 구매입니다.



실제 어떠한 반응을 하였는가? → 유의미한 의미가 있는가? → 구매 전환율

구매 전환율은 곧 구매 수요와 연결되어 있고, 이 지표는 인플루언서에 영향을 받고 있는 오디언스들이 유의미하게 영향을 받았다라는 정량적인 수치가 될 수 있습니다.

간단한 예를들어, 어떠한 인플루언서가 SNS에서 멋진 상품을 소개하고, 해당 상품의 실제 구매전환율을 측정하면 해당 콘텐츠를 통해 인플루언서가 어느정도 영향력을 미쳤는지 판단 할 수 있는 것입니다.



가짜 오디언스들을 걸러내고, 포스팅의 예상 반응수와 구매 전환율은 random forest, Xgboost 모델을 활용하여 예측하고 있으며, 예측 정확도는 RSME로 측정한 결과, 0.91(91%)의 정확도, 10.2 RMSE의 최종 예측 정확도로 글로벌 최상위 수준을 보이고 있습니다.





3. 그래서 인플루언서의 영향력 점수는?



위의 일련의 과정을 다시 정리하면 아래와 같습니다.


1) 오디언스 퀄리티 분석 하기(노이즈 제거) 2) 콘텐츠 분석으로 참여에 대한 영향력 기반 데이터 만들기 3) 유효 영향력을 산정하여 인플루언서 가치 측정하기


위의 과정들을 통해 피처링은 인플루언서 분석에 필요한 다양한 데이터들을 만들어 내고 있습니다.

만들어진 영향력 데이터는 정량적인 트렌드 영향력 데이터 색인 하고, 다중 SNS 플랫폼 데이터 및 포털 데이터까지 모두 집계하여 종합적인 분석 데이터를 생성하고 있습니다.



앞으로도 인플루언서 분석에서 중요한 AI


이 글에서는 피처링 서비스의 핵심 지표중 유효 오디언스 영향력에 대한 단편적인 부분만 조금 다뤄봤습니다.

한달 동안 약 650억건 이상의 데이터 I/O를 처리하고 있는 피처링 엔진은 수많은 논리적인 코드와 빅데이터를 위한 데이터 파이프라인, 그리고 AI 기술과 함께 만들어 지고 있습니다.


피처링 서비스는 광고주들이 인플루언서를 선정하는데 있어서 중요한 역할을 수행하고 있습니다.

AI 알고리즘을 사용하여 방대한 양의 데이터를 분석함으로써 브랜드는 인플루언서와 팔로워의 행동에 대한 심층적인 인사이트를 확보하고 마케팅 전략에 대해 더 많은 정보에 기반한 결정을 내릴 수 있습니다. 앞으로 혹은 근미래에 피처링이 더욱 집중해야 할 것은 궁극적으로 인플루언서들이 핵심 가치를 존중하게 되고, 광고주들이 보다 효과적인 마케팅 전략을 수립할 수 있도록 지원할 것입니다.

피처링 뉴스레터를 구독해보세요.
인플루언서 마케팅 트렌드, 캠페인 운영 노하우를 무료로 받아보실 수 있습니다.