본문 바로가기
IT/AB 테스트

[A/B 테스트] 2부 모두를 위해 선택된 주제_ch.8 제도적 기억과 메타 분석

by vulter3653 2023. 8. 8.

<A/B 테스트> 의 '2부 모두를 위한 입문 주제_ch.8 제도적 기억과 메타 분석'의 내용을 요약 및 정리한 내용입니다.

 

https://product.kyobobook.co.kr/detail/S000060625360

 

A/B 테스트 | 론 코하비 - 교보문고

A/B 테스트 | 신뢰도 높은 실험을 설계하는 가이드를 제공한다. 특히 각각 과정이 더욱 정확하게 측정가능한 온라인을 대상으로 한다. 구글, 링크드인과 마이크로소프트의 빅테크 기업에서 전 세

product.kyobobook.co.kr


0. 주목해야 하는 이유

조직이 '날기' 단계인 성숙기에 접어들게 되면, 모든 실험과 변화의 역사에 담고 있는 제도적 기억은 점점 더 중요해집니다. 이러한 제도적 기억은 실험들에 걸쳐 일반화하는 패턴을 식별하고, 실험 문화를 육성하며, 미래 혁신 등을 개선하는데 사용됩니다.

1. 제도적 기억은 무엇인가?

종합 대조 실험을 혁신 프로세스의 기본 단계로 완전히 수용하게 되면, 회사는 효과적으로 설명, 스크린샷 주요 결과를 포함한 실험에 의한 모든 변경에 대해 효과적으로 디지털 저널을 가지는 것이 가능합니다.

 

이에 과거에 실행된 수백, 심지어 수천 개의 실험은 각각 저널의 한 페이지로, 각각의 변화에 대한 소중하고 풍부한 데이터를 갖게 됩니다. 이러한 디지털 저널을 우리는 제도적 기억이라고 부릅니다.

 

따라 이번에는 역사적 시험에서 얻은 모든 데이터에 대한 메타 분석과 데이터 마이닝을 통해 제도적 기억을 어떻게 활용하는 가에 대해 살펴보겠습니다.

 

  1. 제도적 기억의 일부로서 데이터를 취득하고 정리하는 것은 필수적인 과정입니다. 모든 변화를 시험하는 중앙집중식 실험 플랫폼을 구성하는 것은 이러한 과정을 더욱 쉽게 만들어줍니다.
  2. 각 실험에 대해 소유자가 누구인가, 실험 시작 시간이 언제인가, 실행 시간을 얼마인가를 포함해 변경이 시각적이라면 설명문과 스크린샷과 같은 메타 정보를 취득하는 것을 강력하게 권장합니다.
  3. 실험이 다양한 지표에 얼마나 큰 영향을 미쳤는지를 요약한 결과를 가져야 합니다. 이는 트리거된 영향과 함께 전체적인 영향을 가진 명확하게 정의된 스코어 가드를 포함합니다.
  4. 실험의 근거가 되는 가설, 어떤 결정이 내려졌고 그 이유가 무엇인지를 파악해야 합니다.

 

2. 제도적 기억이 왜 유용한가?

이 모든 실험으로부터의 데이터를 마이닝해서 우리는 메타분석을 얻을 수 있습니다. 사용사례를 범주에 따라 정리하면 아래와 같습니다.

 

2.1 실험문화

과거의 실험에 대한 요약된 견해를 갖는 것은 실험의 중요성을 강조하고 문화를 공고하느데 도움을 줄 수 있습니다. 메타분석의 몇 가지 구체적인 예는 아래와 같습니다.

 

2.1.1 실험이 더 광범위한 조직 목표 확대에 어떻게 기여했는가? 

예를 들어, 회사의 목표가 사용자당 세션 수 향상에 있다면, 실험을 통해 시작된 변경으로 지난 1년간 사용자당 세션 수 향상에 얼마나 기여하는가? 이것은 수많은 작은 개선이 합해진 것일 수 있습니다. 빙 광고 팀은 2013년과 2015년 사이의 수익 증가가 수백 개의 실험에서 얻은 증분적 개선으로 인한 것임을 나타내는 강력한 도표를 보여줬습니다.

 

2.1.2 큰 충격이나 놀라운 충격을 주는 실험은 무엇인가? 

사람들은 구체적인 사례에 영향을 받습니다. 이는 조직이 통찰력을 대량으로 얻은 큰 숫자보다 더 큰 영향을 줍니다.

 따라 큰 성과나 경이로운 결과를 가진 실험을 정기적으로 공유하는 것이 도움이 됩니다. 또한 사람들이 관심을 갖는 지표에 큰 영향을 미치는 실험에 대한 정기적인 보고서를 공유할 수도 있습니다.

 

2.1.3 얼마나 많은 실험이 지표에 긍정적인 영향과 부정적인 영향을 주는가? 

 빙, 구글과 같이 최적화가 잘된 도메인에서 어떤 측정에 의한 성공률은 10~20%에 불과합니다. 마이크로소프트는 실험의 3분의 1이 주요 지표를 긍정적으로 움직였고, 3분의 1은 부정적으로 움직였으며, 3분의 1은 유의한 영향을 미치지 않았다고 보고하고 있습니다. 링크드인은 역시 유사한 통계를 관찰했습니다.

 실험의 영향에 대해 객관적으로 참된 평가를 할 수 없으면, 긍정적인 실험과 부정적인 실험 모두를 실시해서 서로의 영향을 상쇄할 가능성을 인지하는 것도 중요합니다.

 

2.1.4 실시되는 기능 중 실험을 거친 기능의 비율은 얼마인가? 

 가장 많은 실험을 하는 팀은 어떤 팀인가? 분기별 또는 연도별 성장률은? OEC를 가장 효과적으로 움직인 팀은? 실험되지 않는 변경과 관련된 기능 중단의 사례는? 실험되지 않은 기능의 중단에 대한 사후분석시 위와 같은 질문들에 대해 답하지 않으면 안 될 때, 사람들은 실험이 정말로 안전망을 제공한다는 것을 깨닫고, 문화가 변화합니다.

 실험을 실행하는데 관여하는 팀이 많은 대기업일수록 제도적 기억은 이러한 질문들에 대해 보다 세부내역을 작성하고, 설명책임을 장려하도록 도움을 줍니다.

 

2.2 실험 모범 사례

반드시 모든 실험자가 모범 사례를 따르지는 않습니다. 또한 이는 더 많은 사람들이 실험을 하게 될 때, 더욱 늘어나는 일반적인 현상입니다.

 

따라서 충분한 수의 실험을 실행한 후, 메타분석을 실시하고 요약통계를 보고해 팀과 리더십을 어느 정도 개선할 수 있는지 보여줘야 합니다. 또한 설명책임을 더욱 높이기 위해 팀별 통계를 세분화하는 방법도 있습니다.

 

이러한 통찰력을 통해 모범 사례 대비 가장 큰 격차를 해소하기 위해 자동화에 투자해야 하는지 여부를 결정할 수 있습니다.

 

예 : 실험확대 일정을 검토함으로써 링크드인은 많은 실험이 초기 확대 단계에 너무 많은 시간을 소비하는 반면, 다른 실험들은 사내의 베타 확대 단계를 거치지 않는다는 것을 깨달았게 되었습니다. 따라 이를 해결하기 위해 링크드인은 자동확대 기능을 구축해 실험자가 최적의 확대 방식을 준수할 수 있도록 지원했습니다.

2.3 미래 혁신

만약 새로 합류하게 된 사람에게 과거에 잘 작동한 것과 그렇지 않았던 것에 대한 카탈로그를 갖게 하는 것은 매우 가치있는 일입니다. 이러한 방법은 반복적인 실수를 방지하고 효과적인 혁신을 고무합니다. 또한 거시적인 환경 변화 때문에 과거에는 효과가 없었던 변화들은 다시 시도할 가치가 있게 만들어주며, 많은 실험에서 메타분석을 실시함에 따라 더 나은 아이디어로 안내할 수 있는 패턴을 생겨나게 해줍니다.

 

예 1 : 핵심 지표를 움직이는데 가장 효과적인 실험 유형은 무엇인가? 어떤 종류의 UI 패턴이 사용자의 참여를 유도할 가능성이 더 높은가? 등등 GoodUI.org는 반복적으로 성공하는 UI 패턴을 많이 요약하고 있습니다.

 

예 2 : SERP(검색 엔진 결과 페이지)같은 특정 페이지를 최적화하는 많은 실험을 수행한 후에 간견, 두께, 줄 길이, 미리 보기 등의 변경이 지표들에 미치는 영향을 예측할수 있다. 따라서 SERP 에 새로운 요소를 추가하면 실행할 실험 공간을 좁힐 수 있다.

 

예 3 : 국가 간 실험 이질성을 살펴보는 것입니다. 여려분은 각 국가가 기능에 대해 어떻게 다르게 반응하는지에 대한 숨겨진 통찰력을 발견할 수 있는데, 이것은 이러한 사용자들에게 맞춤화된 더 나은 사용자 경험을 구축할 수 있게 해준다.

2.4 지표

지표는 실험과 분리할 수 없습니다. 실험을 통해 다양한 지표가 어떻게 수행되고 있는지 살펴보고 이를 더 효과적으로 활용하는 방법에 대한 이해를 높일 수 있습니다. 아래는 지표에 대한 메타 분석의 사용 사례 입니다.

2.4.1 지표 민감도 

지표를 개발하면서 한 가지 중요한 기준은 실험 중에 의미 있게 측정할 수 있느냐 하는 것 입니다.

 

어떤 실험으로도 통계적으로 유의하게 움직일 수 없는 지표는 좋은 지표가 아닙니다. 분산이 민감도를 낮추는 주요 요인이기는 하지만, 외생적 변화가 지표에 영향을 미칠 수 있는 가능성 또한 고려해야 합니다.

 

예 1 : 일일 활성 사용자는 단기 실험에서 움직이기 어려운 지표입니다 .기존 지표의 과거 실험에서의 성과를 비교함 으로서 기존 지표를 연구하면 단기 자표에 대해서 장기기표를 식별할 수 있다. 또한 신뢰할 수 있는 실험들을 찾아 새로운 측정 기준을 평가하고 여러 가지 정의 옵션들을 비교할 수 있다.

2.4.2 관련된 지표

실험에서 지표의 움직임을 통해 지표가 서로 어떻게 관련되는지 식별할 수 있습니다. 다만 이는 지표 간의 상관관계와는 다르다는 점에 유의해야 합니다.

 

예 1 : 링크드인을 더 자주 방문하는 사용자는 또한 훨씬 더 많은 메시지를 보내는 경향이 있습니다. 그러나 세션과 메시지가 실험에서 반드시 함께 움직이는 것은 아닙니다.

 

예 2 : 실험과 관련된 지표인 조기지표는 영향을 표시하는 데 시간이 걸리는 다른 지표에 대해 선도적 신호를 보여주는 경향이 있습니다. 이러한 조기 지표는 느리게 움직이는 지표가 의사결정에 중요한 경우 특히 유용하며, 많은 실험을 연구함으로써 이러한 관계를 밝혀낼 수 있습니다.

2.4.1 베이지안 접근에 대한 확률론적 사전확률

실험을 평가하는 베이지안적 시각이 인기를 끌면서, 합리적인 사전확률을 구축할 수 있느냐 하는 것이 중요한 관심사 중 하나가 되었습니다.

 

좀 더 성숙된 제품의 경우, 역사적 실험에서 지표의 움직임이 합리적인 사전 분포를 제공할 수 있다고 가정하는 것이 합리적이지만, 급속도로 진화하는 제품 영역의 경우 과거의 경험적 분포가 합리적으로 미래를 나타낼 수 있을지 명확하지 않은 점을 유의해야 합니다.

2.5 경험적 연구

방대한 양의 실험 데이터는 또한 연구자들에게 메타분석을 통해 그들의 이론을 평가하고 연구할 수 있는 경험적 증가를 제공합니다.

 

예 1 : Azevedo et al.(2019) 연구진은 기업이 어떻게 실험을 가장 잘 활용해 혁신 생산성을 향상시킬 수 있는지를 연구했습니다. 이를 통해 마이크로소포트의 실험 플랫폼에서 실행된 수천 개의 실험을 바탕으로 한 최적의 구현과 실험 전략을 제안했으며, 실험의 랜덤화도 큰 도움이 되는 변수가 되는 것을 발견했습니다.

 

예 2 : Saint-Jacques et al.(2018)은 2014~2016년 링크드인에서 '당신이 알 수도 있는 사람들' 알고리듬에 대해 실시한 700여 건의 실험을 조사한 결과 취업 결과에 가장 도움이 되는 것은 가장 강력한 연결 관계가 아니라 강도와 다양성을 절충하는 연결 관계들이라는 인과관계의 증거를 발견했습니다.

 

예 3 : Lee and Shen(2018)은 출시된 여러 실험의 영향을 어떻게 종합할 것인지 살펴봤습니다. 일련의 실험이 수행될 때, 일반적으로 눈에 띄는 성공적인 결과를 가진 실험이 선택되어 제품으로 출시되게 됩니다. 이 과정에 있어서의 통계적 선택 편향을 조사하고, 에어비엔비의 실험 플랫폼에서 실행된 실험 연구를 바탕으로 수정방법을 제안했습니다.


Q. 확인 문제

다음은 제도적 기억이 무엇인가? 에 대한 설명입니다. 다음 초성에 해당하는 단어를 작성해주세요.

 

1. 제도적 기억의 일부로서 데이터를 취득하고 정리하는 것은 필수적인 과정이다. 모든 변화를 시험하는 ㅈㅇㅈㅈㅅ 실험 플랫폼을 구성하는 것은 이러한 과정을 더욱 쉽게 만들어줍니다.

2. 각 실험에 대해 변경이 ㅅㄱㅈ이라면 메타 정보를 취득하는 것이 좋다.

3. 실험이 다양한 지표에 얼마나 큰 영향을 미쳤는지를 ㅇㅇㅎ ㄱㄱ를 가져야 한다. 이는 트리거된 영향과 함께 전체적인 영향을 가진 명확하게 정의된 스코어 가드를 포함합니다.

4. 실험의 ㄱㄱㄱ ㄷㄴ ㄱㅅ, 어떤 결정이 내려졌고 그 이유가 무엇인지를 파악해야 합니다.

A. 정답

드래그하면 오른쪽에 정답이 나옵니다 :)

 

1. 중앙집중식

2. 시각적

3. 요약한 결과

4. 근거가 되는 가설