IT/AB 테스트

[A/B 테스트] 2부 모두를 위해 선택된 주제_ch.9 종합 대조 실험의 윤리

vulter3653 2023. 8. 8. 16:59

<A/B 테스트> 의 '2부 모두를 위한 입문 주제_ch.9 종합 대조 실험의 윤리'의 내용을 요약 및 정리한 내용입니다.

 

https://product.kyobobook.co.kr/detail/S000060625360

 

A/B 테스트 | 론 코하비 - 교보문고

A/B 테스트 | 신뢰도 높은 실험을 설계하는 가이드를 제공한다. 특히 각각 과정이 더욱 정확하게 측정가능한 온라인을 대상으로 한다. 구글, 링크드인과 마이크로소프트의 빅테크 기업에서 전 세

product.kyobobook.co.kr


0. 주목해야 하는 이유

실험의 윤리를 이해하는 것은 리더부터 엔지니어, 제품 관리자, 데이터 과학자에 이르기까지 모든 사람에게 중요합니다. 즉, 모든 사람이 윤리적 고려사항을 숙지하고 생각해야만 합니다.

 

기술, 인류학, 심리학, 사회학, 의학 등 모든 분야에서 종합 대조 실험은 실제 사람들에게 행해집니다. 따라 이번에는 실험의 윤리와 관련해 전문가의 조언을 구할 시기를 결정할 때에 고려해야 할 질문과 우려사항에 대해 알아보겠습니다.

 

1. 배경

윤리의 넓은 정의는 모두가 해야 하거나 해서는 안 되는 것은 규정하는 일련의 규칙이나 도덕입니다.

 

연구에 적용되는 윤리는 결과의 완전성, 공동 작업에 필수적인 가치관, 공적 설명 책임, 더 나아가 안전과 피실험자의 보호 등을 아우르는 도덕적 사회적 가치를 확보하기 위한 행동 규칙을 만드는데 사용됩니다.

 

연구에 적용된 윤리는 시간과 함께 변할 수 있으며, 이러한 변화는 조사 연구가 예상치 못한 결과에 대한 세계, 문화 사람들의 반응의 변화를 반영하는 것입니다. 다만, 윤리적 행동에 대한 규칙과 규제는 계속 발전하나 과학에 뒤처지고 있습니다.

 

해당 주제는 너무 깊은 것이라 여기서 충분히 탐구할 수 없기 때문에 종합 대조 실험의 연구 윤리에 대한 개요만 제시하겠습니다.

 

따라 심층적인 연구를 위해 핵심 원칙, 체크리스트, 실무 지침을 제시하는 몇 가지 참고자료를 추천합니다.

 

실험자들은 윤리 전문가가 아닐지라도, 스스로에게 질문을 하고, 관행을 비판적으로 검토하고, 사용자와 비즈니스의 장기적인 최대 이익을 고려해야 합니다.

 

최근 기술 분야에서 나온 아래의 두 가지 예는 실험의 윤리에 대한 필요성을 보여줍니다.

 

  1. 페이스북과 코넬 대학의 연구자들은 무작위로 선택된 참가자가 부정적인 게시물에 노출된 경우, 일주일 후에 보다 많은 부정적인 콘텐츠를 게시했는지 알아봤습니다. 그리고 이와 반대로 또 다른 무작위로 선택된 참가자가 조금 더 긍정적인 게시물에 노출된 경우, 일주일 후에 보다 더 긍정적인 게시물을 올렸는지 결정하는 소셜 미디어를 통한 감정 전염을 연구했습니다.
  2. OKCupid는 우선 알고리즘으로 30%, 60%, 90% 매치로 판정된 고객의 쌍을 식별했다. 다음 이들 3개의 그룹에 대하 각각 1/3은 30% 일치, 1/3은 60% 일치, 나머지 1/3운 90% 일치라고 알려주는 실험을 실행했다. 이를 통해 일치에 대한 잘못된 정보가 진실과 마찬가지로 효과가 있다는 것을 보여주었고, 이는 감정의 조작에 대한 사례가 되었습니다.

 

이러한 예와 많은 다른 예들을 고려해서 어떤 A/B 테스트를 실행할지를 평가하는 기준을 고려할 수 있습니다. 어떻게 평가해야 할까요?

 

먼저 1979년에 발표된 벨몬트 보고서와 이들 원칙을 기반으로 해서 실행 가능한 심사 기준을 구축한 공통 법칙을 참조할 수 있습니다.

 

이들을 1930년대 투스케지 매독 연구와 1960년대 밀그램 실험 등 온라인 실험보다 위해의 위험성이 훨씬 높은 의료 분야에서 몇 가지 사례를 거쳐 확립되었습니다. 이러한 지침을 바탕으로 해당 임상시험이 정당화 되는지와 랜덤화된 대조 실험을 실시하는 것이 비현실적이거나 비윤리적이라고 인식되는 상황이 있는지에 대해 질문을 던집니다.

 

벨몬트 보고서와 일반 규칙은 생물 의학 및 행동 인간 주제의 맥락에서 다음과 같은 세 가지 핵심 원칙을 제공합니다.

 

  • 사람에 대한 존중
    • 사람들을 존중하라. 즉, 실험에서 사람들을 자율적 주체로 대하며 그렇지 않을 경우 사람들을 보호하라. 이는 투명성, 진실성, 지율성(선택과 동의)에 초점을 맞춘 것으로 해석된다.
  • 유익성
    • 사람을 위험으로부터 보호한다. 벨몬트 보고서는 유익성이 참가자에 대한 위험을 최소화하고 이익을 최대화하는 것을 의미한다고 기술하고 있지만, 공통 법칙을 그렇게 하는 과정에서 어려움을 인식하고 대신 제안된 연구를 검토할 때, 위험과 이익을 적절히 평가하고, 균형을 적절히 맞추는데 초점을 맞춘다.
  • 정의
    • 실험 참가자가 착취되지 않고, 위험과 이익이 공정하게 분배되도록 보장한다.

 

복잡성 때문에 공통 법칙은 연구 자체의 유익성과 위해성뿐만 아니라, 면책조항을 포함한 연구 참자자들의 투명성, 진실성 및 자발성의 필요성을 알리는 조항을 제시합니다.

 

이러한 질문은 상당한 위해가 발생할 수 있는 분야인 의학에서 유용한 프레임워크인 반면, 명확히 옳고 그른 답은 거의 없습니다. 그렇기에 특정 온라인 A/B 실험과 관련해 이러한 원칙을 평가하려면 판단, 생각, 주의 및 경험이 필요합니다. 따라 추가로 고려해야 할 핵심 영역들이 존재하며 이는 아래와 같습니다.

 

1.1 위험

연구에서, 참가자는 어떤 위험에 직면하는가?

"연구에서 예상되는 위해성이나 불편함의 확률과 크기가 일상 생활이나 일상적인 신체적 또는 심리학적 검사나 시험을 수행하는 동안 일반적으로 부딪히는 것보다 크지 않다"고 공통 법칙에 의해 정의되는 최소 위험을 초과하고 있는가?

 

그 해약은 신체적, 심리적, 정서적, 사회적, 경제적일 수 있습니다.

 

이때 한 가지 유용한 개념은 임상적 평형입니다.

 

임상적 평형은 관련 전문가 커뮤니티가 두 가지 실험 방법이 진정으로 불확실한 상태에 있는가에 대한 여부를 말하는 것입니다.

 

온라인 종합 대조 실험을 평가할 때 한 가지 유용한 기준은 '그 기능을 조직 표준에 따른 실험 없이 모든 사용자에게 적용해도 문제가 없는지의 여부' 입니다.

 

만약 실험 없이 알고리즘 또는 제품의 외관과 사용자의 느낌을 변경하려면, 우선 확실히 실험을 실행해서 과학적으로 평가할 수 있어야 하고, 아마도 실험없이 예상치 못한 효과를 발견할 수도 있어야 할 것입니다. 기능을 배포할지 여부를 결정하는 것은 사실상 실험입니다. 이는 종합 대조 실험이 아닌, 시계열을 관측하는 순차적 테스트 일 수도 있습니다. 이때, 핵심 지표가 음수가 되면, 해당 기능은 폐지 됩니다.

 

물론 온라인 종합대조 실험에서 모든 사람에 대해 실험하는 것을 받아들여지더라고, 도덕성을 이유로 종합 대조실험에 대한 저항이 있을 수 있습니다. 이를 'A/B 환상'이라고 합니다.

 

만약 무엇인가를 실시하기로 결정할 때 어떤 결과가 발생할 지를 가정하는 경우, 해당 가정은 성립할 수 도 있고, 그렇지 않을 수도 있습니다. 100%의 사용자에게 무엇인가를 실시하고자 한다면, 100% 사용자를 목표로 하되 50%의 사용자에게 실험적으로 실시하는 것도 좋은 아이디어입니다.

 

Meyer가 작성한 예에서는 다음과 같이 기술하고 있습니다.

 

. . . 한 회사의 대표는 일부 직원들이 퇴직할 수 있을 만큼 저축을 하지 못하고 있는 것을 우려하고 있다. . . 그녀는 지금부터 401(k) 우편물을 발송할 때, 직원의 연령으로부터 5년 이내의 동료들 중 얼마나 많은 동료들이 퇴직 연금 자동 적립에 등록했는지에 대한 진술을 포함하기로 결정한다. 그녀는 가입하지 않는 소수의 직원들이 대다수와 반대되는 행동을 하고 있음을 알게 됨으로서 그들도 등록하도록 영향을 받을 것이라고 가정하고 있는 것이다.

 

위의 예시의 경우, 기업 대표의 의도도 좋았고, 동료 효과의 이점을 보여줬지만 종합 대조실험이 실행됐을 때 적대적 반응을 일으켜 저축이 감소하는 결과를 초래했습니다.

 

1.2 이익

위험의 다른 측면은 연구의 이익을 이해하는 것입니다.

 

종종 온라인 종합 대조 실험의 경우, 직접적으로는 실험군의 사용자, 결과로부터 이익을 얻는 모든 사용자들을 위한 제품 개선의 관점에서 또는 간접적으로 사용자들이 서비스로부터 계속 이익을 얻을 수 있도록 지속 가능한 비즈니스를 구축하는 관점에서 이익이 고려됩니다. 사용자 생산성의 개선은 처음 버킷에 속할 것이며 광고 수익의 개선은 간접적 이익의 마지막 버킷에 속할 수 있습니다.

 

단, 이익을 평가하는 것이 까다로울 수 있는 한 가지 상황은, 종종 상충 관계를 계량화할 수 있게 함으로써 궁극적으로 모든 사용자의 경험을 개선하다는 목표를 갖고 참가자들에게 더 나쁜 경험을 제공하는 실험을 실행할 때 발생합니다.

 

예를 들어 사용자 경험을 느리게 하는 실험 실행, 장기적 효과를 이해하기 위한 더 많은 광고 표시 또는 그 가치를 평가하기 위한 권고사항과 같은 기능을 비활성화 하는 실험을 들 수 있습니다. 이러한 경우, "실험이 유익하지 않지만 ,사용자에 있어 위험은 최소한이다"라고 일반적으로 합의한다는 점에서 임상적 평형조건을 위반하게 됩니다.

 

이러한 실험을 실행함으로써 얻는 이익은 보다 정보에 입각한 의사결정에 사용할 수 있는 상충 관계를 확립하는 것에 있으며, 궁극적으로 사용자 경험을 향상시키는데 도움이 됩니다.

 

다만, 중요한 것은 이러한 경우 사용자들에 대한 기만 행위는 없다는 점이다.

 

대부분의 온라인 종합 대조 실험 보다는 위해 가능성이 높긴 하지만, 의학 분야의 약물 독성 연구에서도 유사한 경우를 찾을 수 있습니다. 어떤 시점에 너무 많은 약물이 해로울 수 있다는 것을 알고 있지만, 연구를 실행하지 않으면 그 효과가 얼마나 해로운지 알 수 없습니다.

 

강조해야 할 점 하나는 새로운 특징, 새로운 텍스트, 새로운 알고리즘 및 인프라를 시험하고 심지어 상충 관계를 확립하기 위해 실험을 실행하는 것과 사람 사이의 행동 실험과 관계를 초점을 맞춘 속임수 실험 및 암시의 힘 실험을 실행하는 것 간에는 큰 차이가 있다는 것 입니다.

 

속임수 실험은 더 높은 윤리적 위험을 야기해, 참가자들이 존중되고 있는지에 대한 의문이 제기될 수 있습니다.

 

실험 참가자에 대한 존중을 생각할 때, 가장 먼저 물어봐야할 질문은 투명성과 기대에 관한 것입니다. 제품의 UI에 무엇이 있는지와 무엇이 광범위하게 소통되는가에 의해 제품이 사용자에게 무엇을 제공하는가에 대한 기대를 설정합니다. 실험은 이러한 기대를 따라야 합니다.

 

투명성을 보장하기 위한 몇 가지 다른 방법들과 함께, 정보에 입각한 동의는 참가자들이 위험과 유익성, 프로세스, 대안 옵션, 수집되는 데이터와 그것이 어떻게 처리되는지에 대해 충분히 알고 난 후에 연구에 참여하기로 동의하는 것은 핵심 윤리적 개념입니다.

 

여기서 유럽의 GDPR(일반 데이터 보호 규정)과 같은 법적 정의에 대한 구체화보다는 일반적인 의미 측면에서 동의를 논의하고 있다는 점에 유의합니다.

 

대부분의 의학 실험은 각 참자가에 대해 사전 동의를 가지며, 이러한 사전 동의가 없는 실험은 통상 위험 정도가 최소한이고 다른 조건을 만족해 공통 법칙하에서 동의 면제의 자격을 갖습니다.

 

대조적으로, 온라인 서비스 제공자의 실험은 일반적으로 참가자들에게 훨씬 낮은 수준의 위험을 수반하지만, 온라인 서비스가 물리적 패키지 발송, 승차 공유 등과 같은 경험에 영향을 미치기 시작함에 따라 위험과 결과성이 증가할 수 있습니다. 게다가, 실험의 규모를 고려할 때, 사전동의서를 얻는 것은 엄청나게 비싸고 사용자들에게 성가신 행위입니다.

 

그렇기에 대신, 동의가 필요한 실험부터 이용자에 대한 위험과 잠재적 위해가 매우 낮고 동의가 필요하지 않은 실험까지 가능성의 범위를 고려하게 됩니다.

 

이 경우 스펙트럼의 중간에 있는 한 가지 대안이 추정적 동의인데, 이는 작지만 대표적인 그룹의 사람들이 연구에 참여하는 것에 대해 어떻게 느낄 것인가를 질문하고 만약 동의한다면, 이러한 감정이 모든 참가자들에게 일반화될 것이라고 가정하는 것입니다.

 

1.3 선택지의 제공

또 다른 고려사항은 참가자에게 어떤 선택지가 있는가 입니다.

 

예를 들어 검색 엔진의 변경사항을 테스트하는 경우, 참가자는 항상 다른 검색 엔진을 사용할 수도 있습니다. 다른 온라인 서비스로의 전환 비용은 시간, 비용, 정보 공유 등의 측면에서 더 높을 수 있습니다.

 

이러한 요인은 참가자에 제공되는 선택지를 평가할 때 고려해야만 하고, 위험과 편익의 균형을 취해야만 합니다.

 

예를 들어 암에 대한 신약을 시험하는 의학 임상 실험에서 대부분의 참가자들이 직면하는 주된 선택지는 죽음이므로, 사전 동의가 주어질 때 위험이 매우 크더라도 수락할 가능성이 클 것 입니다.

 

2. 데이터 수집

A/B 실험을 실행하기 위한 한 가지 전제조건은 실험 분석과 의사결정을 위해 데이터를 측정해야 한다는 것입니다.

 

많은 경우 이러한 데이터는 사용자에게 고품질의 서비스를 제공하고 측정하기 위해 수집됩니다. 그 결과 데이터 수집 동의서는 온라인 서비스의 서비스 약관에 포함되는 경우가 많습니다.

 

다른 참고 문헌이 데이터 수집에 대해 더 자세히 논의하고 있고, 물론 모든 실험이 모든 적용가능한 개인 정보 보호 및 데이터 보호 법률을 준수하는 것이 전제 조건에 해당합니다.

 

그럼에도 실험자나 엔지니어는 데이터 수집에 관한 다음과 같은 주요 질문에 반드시 대답할 수 있어야만 합니다.

 

1. 어떤 데이터를 수집하고 있으며 사용자는 해당 수집에 대해 무엇을 이해하고 있는가? 프라이버시(개인정보보호)를 설계에서부터 고려하는 것은 이 영역의 유용한 프레임워크 중 하나입니다.

 

  • 사용자는 자신에 대해 수집되고 있는 데이터를 이해하고 있는가?
  • 얼마나 민감한 자료인가? 그것은 금융 데이터를 포함하고 있는가? 건강 데이터를 포함하고 있는가? 그 데이터는 인권을 침해하는 방법으로 사용자를 차별하는 데 사용될 수 있는가?
  • 데이터를 개인에게, 즉 개인적으로 식별할 수 있는 것으로 간주할 수 있는가?
  • 데이터를 수집하는 목적은 무엇이며, 데이터를 어떻게 사용할 수 있으며, 누구에 의해 수집되는가?
  • 목적상 자료수집이 필요한가? 개별 사용자를 보호하기 위해 데이터를 얼마나 빨리 집계하거나 삭제할 수 있는가?

 

2. 데이터 수집에 어떤 문제가 생길 수 있는가?

 

  • 데이터 또는 일부 부분집합이 공개될 경우 사용자에게 어떤 해가 될 것인가?
  • 건강, 심리적 또는 정서적 상태, 사회적 지위, 또는 금융에 해를 끼치는 것을 고려해야 합니다.

 

3. 개인정보 보호와 유용성에 대한 사용자의 기대는 무엇이며, 그러한 기대는 어떻게 보장되고 있는가?

 

예를 들어, 만약 참가자가 공개 환경에서 관찰되고 있다면, 개인정보 보호에 대한 기대는 낮아집니다.

 

만약 연구가 기존 공공 데이터에 관한 것이라면, 더 이상의 기밀 유지를 기대할 수 없습니다. 다만 데이터를 개인적으로 식별할 수 없는 경우, 개인 정보 보호의 중요성이 반드시 문제가 되지는 않습니다.

 

이러한 경우에는 다음과 같은 관점이 중요합니다.

 

  • 참가자들이 어느 수준의 기밀 유지를 기대하는가?
  • 해당 데이터 취급에 대한 내부 안정장치는 무엇인가? 특히 개인 식별이 가능한 경우, 회사의 누구라도 데이터에 액세스할 수 있는가, 아니면 액세스 기록과 감시로 데이터가 안전한가? 그러한 보안에 대한 침해는 어떻게 포착, 전달 및 관리되고 있는가?
  • 이러한 보장이 충족되지 않을 경우 어떤 보상이 발생할 것인가(참가자에게 통지될 것인가)?

 

3. 문화와 프로세스

이러한 문제들은 복잡하고 미묘한 것입니다. 그렇기에 모든 판단과 원칙의 설정을 전문가에게 맡기고 싶을 것입니다. 그러나 윤리적 고려가 충족되도록 하기 위해서는 리더뿐만이 아니라 모든 사람들이 이러한 질문과 함의를 이해하고 고려하는 것이 중요합니다. 그렇기에 자기 성찰은 매우 중요합니다.

 

다만 기업(리더)은 이러한 수준의 이해도가 전반적으로 다음과 같은 수준에 도달하도록 프로세스를 구현해야 합니다.

 

  1. 문화적 규범과 교육 프로세스를 확립해 직원들이 해당 문제에 대해 숙지하고 제품 및 엔지니어링 리뷰에서 이들 질문을 확실히 하도록 해야 합니다.
  2. 기관 심사 위원회(IRB)의 역할을 하는 프로세스를 만들어야 합니다.
    • IRB는 인간을 대상으로 하는 연구의 가능성을 심사하고, 위험과 유익성을 평가하고, 투명성을 보장하고, 프로세스를 제공하며, 참여자에 대한 무결성과 존중을 보장하기 위해 더 많은 것을 제공합니다. 또한 IRB는 연구를 승인하거나, 대안은 요구하거나, 거부하는 역할을 합니다. 그렇기에 IRB는 철저한 검토와 적절한 자기반성을 보장하고 교육목적을 위한 적시 프로세스를 확립하기 위해 실험자들이 고려할 질문을 제공하는데 큰 도움을 줍니다.
  3. 도구, 인프라 및 프로세스를 구축해 식별되건 안 되건 모든 데이터가 안전하게 보존되도록 하고, 업무를 완료하기 위해 데이터가 필요한 사람에 한정하여 시간 제한적으로 접근 권한을 제공해야 합니다.
  4. 어떤 데이터 사용이 허용 가능한지, 어떤 데이터 사용이 허용되지 않는지에 대한 명확한 원칙과 정책이 있어야 합니다.
  5. 모든 데이터 사용이 기록되어야 하며, 위반에 대해 정기적으로 감사가 시행되도록 해야 합니다.
  6. 최소 리스크를 넘거나 데이터 민감성 이슈를 가진 경우를 처리한는 방법에 대해 명확한 상부 보고 경로를 만들어야 합니다.

 

이러한 실험의 윤리를 둘러싼 이러한 질문과 과정은 체크해야 할 항목이 아니라 최종 사용자를 위한 제품 설계와 실험을 개선하는 논의로 실험에 동반되어야만 합니다.


Q. 확인 문제

다음은 생물 의학 및 행동 인간 주제 연구의 맥락에서의 세 가지 핵심 원칙과 A/B테스트에서 추가로 고려해야할 핵심 영역들입니다. 

 

생물 의학 및 행동 인간 주제 연구 맥락에서의 세 가지 핵심 원칙과 A/B 테스트에서 추가로 고려해야할 핵심 영역들을 각각 나열해주세요.

 

1. 이익

2. 위험

3. 정의

4. 유익성

5. 선택지의 제공

6. 사람에 대한 존중

A. 정답

드래그하면 오른쪽에 정답이 나옵니다 :)

 

생물 의학 및 행동 인간 주제 연구 맥락에서의 세 가지 핵심 원칙

  • 3. 정의
  • 4. 유익성
  • 6. 사람에 대한 존중

A/B 테스트에서 추가로 고려해야할 핵심 영역들

  • 1. 이익
  • 2. 위험
  • 5. 선택지의 제공