Can AI chatbots replace human subjects in behavioral experiments?

in ai •  last year 

https://www.science.org/content/article/can-ai-chatbots-replace-human-subjects-behavioral-experiments

채플힐에 있는 노스캐롤라이나 대학교의 사회 심리학자인 커트 그레이는 실험을 수행하기 위해 몇 가지 절차를 거쳐야 합니다. 연구를 시작하기 전에 그의 연구실은 기관 심의 위원회의 윤리적 승인을 받아야 하는데, 이 승인에는 몇 주 또는 몇 달이 걸릴 수 있습니다. 그런 다음 연구팀은 사람들을 실험실로 데려오는 것보다 쉬운 온라인 참가자를 모집해야 하는데, 그레이는 온라인 피험자들이 산만하거나 게으른 경우가 많다고 말합니다. 그런 다음 연구원들은 데이터를 정리하는 데 몇 시간을 소비합니다. 하지만 올해 초, 그레이는 우연히 다른 방법을 발견했습니다.

그는 앨런 인공 지능 연구소의 컴퓨터 과학자들과 함께 인간처럼 도덕적 판단을 내리는 AI 시스템을 개발할 수 있는지 연구하고 있었습니다. 하지만 먼저 스타트업 OpenAI의 시스템이 이미 이 작업을 수행할 수 있는지 알아볼 필요가 있다고 생각했습니다. 연구팀은 인간과 매우 흡사한 텍스트를 생성하는 GPT-3.5에 이전에 사람이 평가한 464개 시나리오의 윤리성을 -4(비윤리적)에서 4(윤리적)까지의 척도로 판단하도록 요청했습니다(예: 가난한 사람들을 위한 프로그램에 자금을 지원하기 위해 집을 팔거나 절친한 친구의 배우자와 바람을 피우는 시나리오). 시스템의 답변은 상관 계수 0.95로 사람의 답변과 거의 동일한 것으로 나타났습니다.

"저는 '와, 이건 말도 안 되니까 백업을 해야겠다'고 생각했습니다."라고 그레이는 말합니다. "GPT에게 이러한 판단을 내릴 수 있고 그 판단이 일치한다면, 적어도 가끔은 사람에게 물어보는 대신 GPT에게 물어보면 어떨까요?"라고 말합니다. 이 연구 결과는 이번 달에 "AI 언어 모델이 인간 참가자를 대체할 수 있을까?"라는 제목의 기사로 인지 과학 동향에 게재되었습니다.

이러한 AI 시스템으로 알려진 생성 언어 모델은 전 세계를 강타했습니다. 아마도 가장 잘 알려진 것은 ChatGPT 챗봇을 구동하는 OpenAI의 GPT 모델 시리즈일 것입니다. 하지만 구글과 메타를 비롯한 다른 주요 기술 기업들도 자체 모델에 리소스를 투입하고 있습니다. 이 모델들은 책과 웹 페이지의 방대한 양의 텍스트를 학습한 후 인간의 언어적 행동을 모방하는 놀라운 능력을 갖추게 되었습니다. 이미 컴퓨터 코드를 작성하고, 법률 문서를 요약하고, 학생을 가르치거나 치료를 진행하는 챗봇을 구동하는 데 활용되고 있습니다.

이제 연구자들은 심리학, 정치학, 경제학, 시장 조사와 같은 분야에서 AI가 인간을 가장하는 능력을 고려하고 있습니다. 아직 챗봇이 행동 연구에서 인간을 완전히 대체할 수 있다고 주장하는 사람은 없습니다. 하지만 챗봇은 파일럿 연구와 실험 설계에서 시간과 비용을 절약할 수 있는 편리한 대용물 역할을 할 수 있습니다. 또한 언어 모델은 사람과 함께 진행하기에는 너무 비실용적이거나 비윤리적이거나 심지어 위험할 수 있는 실험에도 도움이 될 수 있습니다. "정말 흥미로운 시기입니다."라고 하버드 비즈니스 스쿨의 마케팅 교수인 아옐렛 이스라엘은 언어 모델이 행동 연구에 미치는 영향이 "혁명"에 해당할 수 있다고 말합니다. "이러한 결과 중 일부는 정말 놀랍습니다."

그의 윤리 연구에서 그레이는 평균적인 인간의 반응을 유도하기 위해 일종의 집단적인 모든 사람으로 GPT-3.5를 사용했습니다. 그러나 이러한 모델은 누구든 연기하라는 메시지를 표시할 수 있기 때문에 놀라울 정도로 다양한 참가자로 패널을 채우는 데에도 사용할 수 있습니다: 모델에는 다수가 포함됩니다. 작년에 브리검 영 대학교(BYU)의 연구원들은 인간 샘플의 시뮬레이션인 '실리콘 샘플'을 만들었습니다. 한 연구에서는 GPT-3에 나이, 성별, 인종, 교육 수준, 정치적 성향 등 입양된 사람의 외형에 대한 정보를 제공했습니다. 연구진이 이러한 변수 중 하나를 제외하고 모델에 입력하도록 요청했을 때, 모델의 답변은 유권자를 대상으로 한 설문조사의 결과와 거의 일치했습니다. 또한 연구진은 이 모델이 할당된 정당 소속과 일치하는 정치적 발언을 뱉어내는 것을 발견했습니다. 이 연구의 공동 저자인 BYU 정치 심리학자 리사 아길은 온라인 설문조사에 가상 참가자를 사용하여 가장 드러날 가능성이 높은 질문을 테스트하고자 합니다. 이를 통해 실제 설문조사의 효율성을 높일 수 있습니다. "설문조사 표본이 점점 더 비싸지고 대표성이 떨어지고 있기 때문에 이는 중요한 문제입니다."라고 그녀는 말합니다.

언어 모델도 성격 원형을 채택할 수 있습니다. MIT(매사추세츠 공과대학교)의 컴퓨터 과학자 Hang Jiang이 주도한 연구에서 연구원들은 GPT-3.5에 내성적, 적대적, 양심적, 신경증적, 경험에 폐쇄적인 등 다양한 성격 특성의 조합으로 행동하도록 유도하여 수백 개의 페르소나를 가정하게 했습니다. 각 페르소나에 대해 표준 성격 테스트를 완료하고 800단어로 된 어린 시절 이야기를 작성하게 한 다음 성격 특성과 관련된 심리언어학적 특징을 분석했습니다. 모델들은 테스트와 이야기 모두에서 주어진 성격을 충실히 표현했습니다. Jiang은 이러한 모델을 통해 연구자들이 다양한 성격을 가진 사람들이 다양한 직업에서 얼마나 잘 수행할 수 있는지 테스트할 수 있다고 말합니다.

시장 조사자들은 이미 이 모델에서 가치를 발견하고 있습니다. 이스라엘과 동료들은 최근 연구에서 GPT-3.5가 현실적인 소비자 행동을 보여주는 것으로 보인다는 사실을 발견했습니다. 다양한 가격대의 노트북을 구매할 의향이 있는지 물었을 때, 소득이 12만 달러라고 했을 때와 5만 달러라고 했을 때 가격에 덜 민감했습니다. 치약은 이전에 구입했던 브랜드를 선호했으며, 요구르트는 집에 이미 많은 양이 있다면 더 적은 금액을 지불할 것이라고 답했습니다. 또한 불소가 함유된 치약이나 알루미늄이 없는 데오도란트 등 특정 제품 속성에 대해서는 현실적인 프리미엄을 지불할 의향이 있다고 답했습니다.

이 모델은 항상 동일한 답변을 제공하는 것이 아니라 선호도와 지불 의향에 대한 다양한 답변을 제공했습니다. 이스라엘과 그녀의 동료들은 수많은 응답을 취합하여 현실 세계에서 소요되는 시간과 비용의 극히 일부로 토큰 제품에 대한 가상 고객 설문조사를 구축했습니다. 언어 모델 학습 데이터는 서구의 부유한 사람들에게 편향되어 있기 때문에 소비자 설문조사도 비슷하게 왜곡될 수 있습니다. 하지만 이스라엘은 AI가 다양한 소비자를 가장하거나 특정 인구 통계를 확대하여 제품의 매력이나 잠재력을 보다 대표적으로 조사하도록 유도하는 방법을 구상하고 있습니다.

한 시장 조사 회사는 이미 언어 모델을 활용하고 있습니다. 스타트업 Synthetic Users는 Google, IBM, Apple을 비롯한 고객사가 설문조사 대상자의 유형을 설명하고 새로운 웹사이트나 웨어러블과 같은 제품에 대한 필요, 욕구, 느낌에 대해 질문할 수 있는 OpenAI 모델을 사용하는 서비스를 구축했습니다. 이 회사의 시스템은 합성 인터뷰를 생성하는데, 공동 설립자인 Kwame Ferreira는 기업이 실제 사람을 대상으로 설문조사를 할 때 얻는 "밋밋한" 피드백보다 "무한히 풍부하고" 유용하다고 말합니다.

챗봇을 서로 대결시켜 보다 복잡한 인간 상호작용을 연구할 수도 있습니다. 작년에 스탠포드 대학과 Google의 연구원들은 Facebook과 Reddit과 같은 플랫폼에서 사용자 행동을 연구하기 위한 '소셜 시뮬라크라'를 개발했습니다. 연구진은 사용자 신원, 커뮤니티 주제, 커뮤니티 규칙, 포럼에 대한 이전 게시물을 반복적으로 GPT-3에 입력하는 방식으로 1000명의 서로 다른 사용자로 SimReddit이라는 플랫폼을 채웠습니다. 인간은 그 결과의 토론을 실제 토론과 구별하는 데 어려움을 겪었고, 플랫폼 디자이너는 이 도구가 규칙이나 중재 관행을 만드는 데 유용하다는 것을 알게 되었습니다.

올해 연구원들은 "제너레이티브 에이전트"라고 부르는 캐릭터로 채워진 더욱 몰입감 있는 시뮬레이션을 구축했습니다. 이 캐릭터들은 경험을 기억하고, 반성하고, 계획을 세우고 실행할 수 있는 능력을 부여받았습니다. 연구진이 한 상담원에게 발렌타인데이 파티를 열자는 아이디어를 주자 이틀에 걸쳐 마을의 모든 상담원이 협력하여 파티를 열었습니다. 두 프로젝트를 주도한 스탠퍼드 컴퓨터 공학 대학원생인 박준성 씨는 가상 세계가 실제 사람들에게 경제 정책을 적용하기 전에 시간에 따른 효과를 연구하는 데 사용될 수 있다고 말합니다.

경제학자와 심리학자들은 수년 동안 에이전트 기반 모델을 사용하여 에이전트와 참여 규칙을 모두 프로그래밍해 왔습니다. 하지만 시뮬레이션은 단순하고 수작업으로 코딩된 이론적 가정에 의존하는 경향이 있습니다. 관련 연구를 수행한 MIT 슬론 경영대학원의 경제학자 존 호튼은 언어 모델에 기반한 에이전트가 더 현실적이라고 말합니다. 그는 수천 명의 구직자와 고용 관리자를 시뮬레이션하여 노동 시장 규정을 테스트하는 상상을 합니다. "그건 꽤나 거친 일이 될 것입니다."라고 그는 말합니다.

언어 모델의 모든 명백한 기능에도 불구하고 언어 모델은 결코 완벽한 인간의 거울이 아닙니다. 언어 모델은 인간의 전형적인 편견을 몇 가지 보여주지만 다른 편견은 보여주지 않습니다. 예를 들어, GPT-3.5에 대한 최근의 한 연구에 따르면 인간과 마찬가지로 일반 인구에서 자신의 의견이 얼마나 널리 퍼져 있는지 과대평가하는 경향이 있으며, 이는 잘못된 합의 효과로 알려진 편향입니다. 하지만 인간과 달리 이 모델은 위험을 감수하고 운명의 유혹에 빠지는 데 거의 주저하지 않았습니다. 막스 플랑크 생물 사이버네틱스 연구소의 인지 과학자 마르셀 빈츠는 AI가 인간 참가자를 정확히 모방하려면 세상과 물리적으로 상호작용해야 할 수도 있으며, 수동적인 읽기만으로는 지능적 행동의 모든 뉘앙스를 학습하기는 어렵다고 말합니다. 하지만 그는 어쨌든 AI가 빠르게 발전할 것이라고 생각합니다. "몇 년 안에 어떤 실험에 투입해도 인간 행동과 구별할 수 없는 행동을 만들어내는 시스템을 갖출 수 있을 것"이라고 말합니다.

중요한 질문은 언어 모델이 기존 연구 결과를 재현하는 데 그치지 않고 새로운 연구 결과를 일반화하여 예측할 수 있는지 여부입니다. 모델이 기존에 발표된 심리학 연구 결과와 일치하는 것처럼 보이면 암기된 질문에 대한 응답으로 학습 데이터를 되풀이하는 것일 수 있습니다. 따라서 많은 연구자들은 질문을 새로운 방식으로 표현하기 위해 많은 노력을 기울이고 있습니다.

또 다른 쟁점은 모델이 사람들이 실제로 행동하는 것을 반영하는지, 아니면 말만 하는 것을 반영하는지에 대한 것입니다. 사람들은 종종 연구자, 심지어 자기 자신에게까지 거짓말을 합니다. Synthetic Users의 공동 설립자인 휴고 알베스는 모델들이 익명의 토론 포럼에 올라온 솔직한 내용을 바탕으로 부분적으로 훈련받았기 때문에 실제 선호도를 반영한다고 보기 어렵다고 말합니다. "저는 육아 포럼에서 친구에게 묻지 않을 질문들을 한 적이 있습니다."라고 그는 말합니다.

호튼은 OpenAI와 다른 사람들이 더 안전하고 덜 공격적인 모델을 안내하기 때문에 이러한 무방비 상태의 반응이 지속되지 않을 수 있다고 우려합니다. "이러한 모델을 더 잘 조정하고 나쁜 말을 하지 않도록 하려는 노력은 사회 과학에 반하는 것입니다."라고 그는 말합니다. "실제 사람들은 항상 친절하지 않습니다. 실제 사람들은 인종차별적이고 성차별적인 말을 하죠."

현재로서는 합성 참가자가 실험을 시험하는 데 가장 유용하다고 연구자들은 말합니다. 모델이 설문조사 질문에 예상치 못한 답변을 제공하거나 전혀 응답하지 않는다면 이해하기 어렵고 질문을 다시 작성해야 할 수도 있다고 Argyle은 말합니다. 이스라엘은 1,000개의 질문으로 설문조사를 설계하고 언어 모델을 사용하여 관심 있는 결과와 상관관계가 가장 높은 질문으로 질문의 범위를 좁힐 수 있다고 말합니다. 마찬가지로 경제학 실험에서도 호튼은 사람들을 대상으로 연구를 시작하기 전에 모델을 사용하여 100만 개의 협상 시나리오를 실행하여 행동에 가장 큰 영향을 미치는 요인을 파악할 수 있다고 말합니다. "시뮬레이션은 일종의 지도를 제공하는 것과 같습니다."라고 그는 말합니다.

사람들과 함께라면 절대 하고 싶지 않은 실험도 실행할 수 있습니다. 참가자가 보이지 않는 두 번째 피험자에게 점점 더 강한 전기 충격을 가하라는 명령에 순종한 1963년 밀그램 실험은 오늘날 윤리 심의를 통과하지 못했을 것입니다. 하지만 올린 공과대학의 컴퓨터 공학 학부생인 가티 아허는 GPT-3로 이 악명 높은 연구를 재현하는 것은 충분히 쉬웠습니다. 그녀와 그녀의 동료들은 원래 실험에 참여한 사람들처럼 모델이 300볼트가 될 때까지 버튼을 놓지 않는다는 사실을 발견했습니다.

Aher는 이 모델이 자살 충동을 느끼는 사람에게 어떤 말을 해야 하는지 등 연구하기 어려운 다른 민감한 영역에서도 지침을 제공할 수 있다고 생각합니다. 그레이는 연구자들이 배척이나 자존감에 대한 부정적인 피드백의 역할을 연구할 수 있다고 말합니다. 또는 베트남 전쟁의 미라이 학살에서 볼 수 있는 비인간화를 연구하기 위해 상황을 설명하고 모델에게 어떻게 할 것인지 물어볼 수도 있다고 말합니다(모델이 너무 비위생적이지 않다면요).

아길은 아직까지 인간 참가자를 언어 모델로 대체한 사례는 알지 못한다고 말합니다. "솔직히 말해서 이 모든 것이 아직은 가설에 불과합니다."라고 그녀는 말합니다. "먼저 언어 모델이 작업을 수행할 수 있다는 것을 입증해야 합니다." 하지만 호튼은 이러한 변화가 불가피하다고 믿습니다. 그는 10년 전 많은 사회과학 실험이 대면 설문조사에서 온라인 설문조사로 바뀌었던 비슷한 변화를 떠올립니다. "사람들은 '어떻게 온라인으로 실험을 할 수 있지? 이 사람들은 대체 누구야? 하지만 지금은 '아, 그래, 당연히 그렇게 해야지'라는 반응입니다."

챗봇은 이미 온라인 설문조사에 침투하고 있을지도 모르지만, 연구자가 아닌 피조사자들 사이에서 사용되고 있습니다. 최근의 한 연구에서는 크라우드 워커에게 텍스트 요약 작업을 요청했는데, 그 결과 최소 3분의 1이 ChatGPT를 사용하고 있는 것으로 나타났습니다. 그레이는 농담 반 진담 반으로 "온라인 참가자들이 이미 GPT를 사용하고 있다면, 그냥 GPT 자체에 물어보는 것이 낫습니다."라고 말합니다.

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!