은소랜 은퇴 연구소

지난 5월 2일, 제 블로그 방문 통계에 좀 이상한 현상이 발견되었습니다.

 

시작한 지 3개월밖에 안된 신생 블로그이므로 유입자는 하루 평균 200~300명 정도이고 대부분 경우 다음 검색을 통해 유입되는 것이 일반적인 상황입니다. 

그런데 5월 2일은 아래 데이터와 같이 방문객 숫자가 497명으로 평소 대비 2배로 늘었고 그중에서 직접 유입이 239명으로 유난히 많았습니다. 읽은 글도 "코로나19, 이탈리아 예측 시나리오는 어느 쪽으로?"라는 글에 편중되어 있습니다.

 

당일 제 블로그에 도데체 무슨 일이 있었을까요 ?

 

당일 제 블로그에 도대체 무슨 일이 있었을까요?

궁금증이 쌓였지만 시간이 없어 차일피일 미루다가 오늘 이것저것 찾아보았습니다. 

 

◈ 궁금증 ?

직접 유입은 무엇이고 사건 발생 당일 (^^) 갑자기 왜 이렇게 많은 직접 유입이 발생했을까 ?

 

먼저 직접 유입에 대한 일반적인 이해입니다.

티스토리에서 밝히는 직접 유입은 아래 설명과 같습니다.

블로그나 포스팅의 URL을 주소창에 직접 입력하거나 즐겨찾기를 통한 방문이 "직접 유입"으로 잡힌다고 합니다. 

그래서 "직접 유입"의 비율이 앞도적으로 높은 경우는 상당히 유명한 블로그가 아니면 일반적으로 일어날 수 없는 일입니다. (제 티스토리 스킨을 제공하는 '친절한 효자손' 블로그의 경우는 직접유입 비중이 매우 높다는 글을 읽은 기억이 납니다. 많은 분들이 북마크를 해 두고 주기적으로 방문할 것이기 때문에 충분히 이해가 되는 이야기입니다.)

 

그래서 저와 같은 수준의 블로그에서 그런 일이 발생한다면 블로그 URL을 아는 블로그 작성자가 블로그로 들어간 숫자가 많았다고 해석을 하라고 합니다. 즉, 집 주인이 자기 집을 자주 들락거렸다는 것입니다.

 

일견 이해가 되는 유추입니다.

그런데 이런 단순한 통계 오류를 티스토리 같은 대형 시스템에서 용인한다는 것은 이해가 안 되어서 좀 더 조사를 해 보았더니 역시 이런 부분은 방문자 통계에서 필터링을 하고 있었습니다.

아래는 관련 내용입니다.

티스토리에서 밝혔듯이 블로그 소유자의 방문은 유입 통계에서 제외되므로 가장 가능성이 높은 용의자인 제 자신은 다행히 일단 용의 선상에서 제외되었습니다.

설령 티스토리 시스템에서 저의 방문을 제외하지 못했다고 하더라도 사건 발생일은 토요일이었고 아내와 같이 산행을 한 날이어서 블로그를 쳐다볼 시간이 별로 없었다는 충분한 알리바이도 갖고 있었습니다. ^^

 

아무튼 이 정도가 티스토리를 통해서 추적해 볼 수 있는 것의 전부인 셈입니다.

 

구글 애널리틱스 (Google Analytics)로 심층 조사

 

그래서 구글 애널리틱스 (Google Analytics, 이하 GA) 데이터를 찾아보았습니다. 아래는 GA의 잠재고객 섹션 데이터입니다.

5월 2일에 GA 리포트를 보면 사용자가 417명입니다. 티스토리에서는 497명이었습니다. 일단 80명의 차이가 보입니다. 이 부분은 간단히 설명이 됩니다.

티스토리 운영자가 밝힌 방문자수에 대한 정의는 아래와 같습니다.

즉, 우리가 보는 티스토리 방문자 숫자는 실제 방문자 숫자가 아니라 페이지 뷰수를 이야기하는 것입니다.

1명의 방문자가 2개 페이지를 봤다면 티스토리의 통계에는 2로 잡힌다는 이야기입니다. 

그런 기준으로 보면 티스토리 방문자 숫자 (497명)와 위의 GA의 페이지 뷰수 (502회)가 비슷한 것을 이해할 수 있습니다.

 

아래는 GA의 획득 섹션의 정보들입니다. 

위에서 인용한 GA 데이터 시트를 참고하면 5월 2일 발생한 "직접 유입의 이상 증가 현상"에 대해 좀 더 구체적으로 정리해 볼 수 있습니다.

 

- 티스토리의 직접 유입과 유사하게 GA에서 Direct 유입이 많았다.

- 이 Direct 유입의 약 90%는 " /80 포스팅"으로 유입되었다.

- 이 일은 대부분 오전 10:00~ 오후 2:00 사이, 즉 한낮에 발생했다.

- 대부분의 방문자는 New Visitor였다 (98%)

- 인구통계 데이터 (언어, 국가, 도시)에는 특별한 이상 징후가 없었다 (대부분 한글/한국/서울)

- 운영체제는 안드로이드(59%), iOS(21%)로 80%가 모바일로 들어왔다.

 

참고로, Direct 유입의 대부분을 차지한 "/80"은 아래 글입니다.

https://smorning.tistory.com/80

 

코로나19, 이탈리아 예측 시나리오는 어느쪽 으로 ?

어제 코로나19 확산 예측 시나리오에 대한 것들을 한번 정리해 봤습니다. 2020/03/20 - 코로나19 확산 예측들의 비교 국내 언론에 보도된 3개의 예측 시나리오 가운데서 대만 국립대학교 쉬청즈(徐丞

smorning.tistory.com

여기에서 GA의 Direct 유입에 대해서 궁금해집니다. 과연 티스토리 직접 유입과 동일한 것일까요 ?

구글에서 밝힌 채널 정의입니다.

사용자가 웹사이트 URL을 직접 입력하거나 북마크를 통해서 사이트를 방문한 세션으로 정의되어 있습니다. 티스토리의 정의와 동일합니다.

좀 더 구체적으로 보면 Direct는 Referral 정보가 남아 있지 않은 유입 전체를 가리킵니다.

 

리퍼럴(Referral) 정보 : 웹브라우저로 웹을 서핑할 때 하이퍼링크를 통해서 각각의 사이트로 방문 시 남는 흔적으로 현재 페이지로 방문하기 직전 웹페이지 주소를 말함

 

즉, Direct 유입은 ULR직접 입력 및 즐겨찾기를 통한 입력이 대부분이지만 그 외에도 아래와 같은 경우가 있을 수 있다고 합니다.

 

결론.....

어쨎거나 "Direct 유입"은 블로그 방문 직전의 웹페이지 정보인 리퍼럴(Referral) 정보가 없는 경우이므로 엄밀히 이야기하면 더 이상 추적이 어렵다는 이야기인 셈입니다.

범죄로 치면의 증거를 찾을 수 없는 완전 범죄 카테고리라고 할 수 있겠습니다. 

그러나, 지금까지 확보한 자료를 토대로 막연하지만 개연성있는 가설을 세워 보면 아래와 같습니다.

GA에서 이야기하는 Direct 유입 (위의 그림)에서 2번째 케이스, 즉 네이버 밴드 (Naver Band)를 통해서 이일이 벌어진 것으로 전제를 해 봅니다. 

 

<사건의 재 구성>

5월 2일 당일 오전 10시경 누군가가 제 "코로나 19, 이탈리아 예측 시나리오는 어느 쪽으로"을 읽고 나름 공감을 하십니다. 이 분이 누구인지는 아래 설명한 GA의 고객 ID 정보를 통해서 417명을 모두 찾아 보면 알아 낼 수 있을 것입니다.

이 분의 인상 착의는 아래와 같습니다.

 

"10시 이전에 들어 오셔서", "Direct가 아닌 구체적인 Referral을 가지고 있고",  "/80 포스팅을 읽었고",  "글을 읽기 위해 제법 긴시간을 체류하였음",  이 네가지 공통 특징을 갖는 분으로 압축하면 최초 전파자를 특정할 수 있을 것입니다. 

이 최초의 전파자가 자신이 속해 있는 네이버 밴드에 제 글의 링크를 
올립니다.  최소한 200명이상의 회원이 있는 제법 큰 밴드입니다. 그 날이 토요일인 탓에 회원 대부분이 늦게 일어나서 브런치를 드시면서 제 글을 스캔 수준을 읽었고 그 기록이 제 티스토리에 이상 현상으로 남게 되었다.....소설에 가깝나요 ^^.

 

참고로 아래는 GA 데이터의 사용자 탐색기 세션의 데이타입니다. 말씀드린 것처럼 방문 고객에 대해서 암호화된 ID 정보가 표시됩니다. 이 개별 ID를 누르면 아래에 보이는 것처럼 구체적인 정보를 얻을 수 있습니다. ( 이걸보면 좀 무섭다는 생각이 듭니다. 어쩌면 구글은 우리의 모든 정보를 갖고 있을 것 같다는 생각이 들기 때문입니다. )

 

이상,

큰 의미는 없는 일이었습니다만, 데이터를 바탕으로 재미있는 시간을 가져 봤습니다.

 

고객 ID정보 : 당일 방문한 417명의 ID 정보를 개별적으로 볼 수 있음.
Ex. 115번 방문자에 대한 정보들...


이 글을 공유합시다

facebook twitter kakaoTalk naver band