My AI Focus Group Cost $2 and Outperformed a $10K Panel — Real Results Inside
▶ YouTube 원본01한국어 번역 · Korean
2달러로 1만 달러짜리 포커스 그룹(focus group)을 이긴 합성 AI 패널 실험기
원본: https://www.youtube.com/watch?v=JuH0vf0DqV8 · 업로드: 2026-03-18 · 길이: 16m · 채널: Onchain AI Garage
발단: 10만 명의 가짜 학생에서 얻은 아이디어
며칠 전 트위터에서 흥미로운 글을 하나 봤다. 어떤 학생이 AP(미국 대학 과목 선이수제) 준비용 모델을 학습시키면서, 무려 10만 명의 가짜 학생(synthetic students)을 동원했다는 내용이었다. 방식은 이랬다. 매일 학생들을 “백지 상태”에서 출발시켜 전체 커리큘럼을 돌게 한 뒤, 마지막에 시험을 치게 한다. 그러고 나서 학생들이 어느 지점에서 실패했는지 관찰하고, 그 결과를 반영해 커리큘럼 자체를 개선한다. 요컨대 커리큘럼을 학습 대상이 아니라 학습의 피드백 루프로 삼은 셈이다.
내가 평소 실험하고 있던 오토 리서치(auto research) 루프와 구조가 아주 비슷했다. 단지 적용 분야가 교육이라는 점만 달랐다. 그래서 이 컨셉을 다른 도메인에 이식해 보면 어떨까 고민하다가, 마케팅 — 좀 더 정확히는 포커스 그룹(focus group) — 에 적용해 보기로 했다.
실험 설계: 20명의 합성 인간으로 구성된 AI 패널
계획은 이렇다. 서로 다른 모델을 기반으로 20명의 합성 인간(synthetic humans), 즉 AI 페르소나를 만든다. 그리고 Claude Code를 연구자 겸 오케스트레이터(orchestrator) 역할로 올려 둔다. 진짜 포커스 그룹과 구조는 동일하다. 제품이나 광고 카피처럼 무엇이든 이 패널에게 물어볼 수 있다.
내게 있어 유일한 “제품”은 이 유튜브 채널이다. 그래서 이번 실험의 주제는 영상 제목(title) 테스트로 잡았다. 흐름은 다음과 같다.
- 내가 영상 주제를 두세 문장으로 설명한다.
- Claude가 이 설명을 기반으로 다섯 개의 제목 후보를 생성한다.
- 20명의 페르소나가 각자 독립적으로 “이 영상을 클릭할지 말지”를 결정하고 이유를 적는다.
- 제목별 평가 점수를 집계한다.
- Claude가 피드백을 학습해 다음 라운드의 다섯 개 후보를 다시 뽑는다.
- 점수가 더 이상 오르지 않고 수렴할 때까지 이 루프를 반복한다.
가장 어려운 부분: “사람 같은” 페르소나 만들기
이 프로젝트의 성패는 합성 인간을 얼마나 진짜 사람에 가깝게 만드느냐에 달렸다고 본다. 그래서 페르소나 설계에 가장 많은 공을 들였다. 구조 자체는 단순하다. 각 페르소나는 JSON 파일 하나로 표현되고, 복잡한 에이전트 도구도 필요 없다. 핵심은 “사람처럼 보이게” 만드는 데이터다.
먼저 레딧(Reddit) 등에서 AI·에이전트에 관심 있는 실제 사용자들의 댓글과 글을 수집해 분석했다. 이를 바탕으로 “사람들이 왜 클릭하는가”에 대한 일곱 가지 행동 원형(behavioral archetype)을 뽑아냈다. 단순히 “누구냐”가 아니라 “어떻게 의사결정을 하느냐”에 방점을 둔 분류다. 그런 다음 이 원형을 내 채널의 실제 시청자 데이터(지역, 연령대 등)에 맞춰 분포시켰다.
여기에 행동 연구 논문 몇 편을 읽고 한 가지 중요한 장치를 더 넣었다. 이른바 모순 레이어(contradiction layer) 다. 진짜 사람은 결코 일관되지 않는다. 겉으로는 “요즘 AI 과대광고 지겹다”고 말하면서도, 속으로는 “혹시 진짜 아닐까” 하는 기대로 클릭 버튼을 누른다. 이런 이중성을 페르소나 프로필에 명시적으로 주입했다.
모든 페르소나에는 공통적으로 다음과 같은 프롬프트가 들어간다.
“너는 네 경험으로 형성된 고유한 의견을 가지고 있다. 다른 이들이 어떤 선호를 보이더라도, 너 자신이 왜 클릭할지 혹은 안 할지를 설명해라. 다른 사람이 반대한다는 이유만으로 의견을 바꾸지 마라.”
이 지시가 없으면 에이전트들은 금세 서로 동의 모드로 수렴해 버리고, 그러면 신호(signal)는 사실상 무용지물이 된다. 실제 인간은 항상 의견이 갈린다. 이 긴장을 보존하는 것이 핵심이다.
페르소나 예시: 클라우스(Claus)
JSON 구조를 한 명만 예로 들어 보자. “클라우스(Claus)”, 41세, 독일, 철학적 회의주의자(philosophical skeptic) 타입이다. 프로필에는 다음 항목들이 들어간다.
- 선호 콘텐츠: 내 채널 시청자들이 함께 보는 다른 영상·채널 데이터를 반영한 관심사 리스트.
- 플랫폼 습관: 주로 어디서, 어떻게 영상을 소비하는지.
- 지식 수준: 크립토(crypto)는 중급, AI는 고급.
- 상태 변수: 주의 모드(attention mode)는 능동 탐색(active searching), 기분은 사색적(contemplative), 피로도는 낮음 등.
- 샘플 댓글: 실제로 이 사람이 남길 법한 톤의 코멘트.
- 어투와 모순점: 말버릇, 그리고 “이런 영상은 무시한다고 말하지만 결국 클릭한다” 같은 비일관성.
이것이 v1 포맷이다. 핵심 모듈은 “모순”과 “사람 같은 상태 변수”라고 본다.
빌드 단계: Claude Code가 루프를 조립한다
구현 자체는 복잡하지 않다. 오토 리서치와 유사한 구조로, 상위 오케스트레이터가 program.md 같은 지침서를 읽고 다음 루프를 돌린다.
- 영상 설명을 받아 다섯 개 제목 변형 생성 →
- 제목을 저장하고 포커스 그룹 스크립트 실행 →
- 각 페르소나의 평가 로그 읽기 →
- 상위 성과 제목, 먹히는 패턴, 실패 패턴 식별 →
- 결과를 사용자에게 리포트.
브레인스토밍은 별도의 오픈 Claude 에이전트와 진행했고, 실제 빌드는 Claude Code에게 맡겼다. 평소 내가 프로젝트를 시작하는 방식 그대로다. API 키 등 환경 변수를 세팅하고, 모델은 일부러 세 군데 제공자의 것을 섞어 썼다. 제공자별 편향(bias)이 결과에 얼마나 영향을 주는지도 함께 보고 싶었기 때문이다.
실전 투입: 원피스(One Piece) 영상 제목 뽑기
첫 번째 테스트용으로 고른 주제는 실제 예정 영상이었다. 카파시(Karpathy)의 오토 리서치 도구를 이용해 작은 모델을 학습시켜 “원피스 에피소드 시놉시스”를 생성하게 하는 내용이었다. 포인트는 깨끗하게 정제된 데이터셋 대신 API에서 바로 긁어온 “지저분한 원본 데이터”를 썼다는 것. 키워드가 여럿 겹쳐 있어서(카파시, 오토 리서치, 원피스) 제목 짓기가 까다로운, 좋은 테스트 케이스였다.
라운드 1
Claude가 낸 다섯 개 후보 중 “오토 리서치”를 명시한 것은 단 하나뿐이었고, 모두 “원피스”를 넣었다. 결과는 최고 35%, 최저 20% 수준. 인사이트는 명확했다.
- 방법론·프로세스 앵글이 승리했다. “깨끗한 데이터셋 없이 원시 API 데이터로” 같은 프레이밍이 가장 넓은 원형을 끌어들였다. 기술 통합형, 빌더, 룰커(lurker), 바이브 시청자가 모두 클릭했다.
- “원피스”는 강력한 필터였다. 9명의 페르소나가 “애니메이션에 관심 없다”는 이유로 스킵했다. 진입 장벽 1위.
- 과잉 낚시 단어(“Unhinged”)는 역효과. 바이브 시청자만 낚였고 나머지는 전부 밀어냈다.
- 카파시 네임드롭(name drop)은 양날의 검. 기술 시청자에겐 신호가 되지만 초보자에겐 혼란이다.
권고는 “계속 진행”.
라운드 2
피드백을 받아 원피스를 전면에서 빼고, 프로세스와 데이터 챌린지를 앞세우며 “시청자가 뭔가 배워 갈 것”을 신호로 주는 방향으로 갔다. 결과가 크게 뛰었다. 최고 점수는 55%, 제목은 “I trained a tiny LLM on messy API data. It started writing One Piece episodes”였다. ‘How-to’ 프레이밍으로 뒤집은 것이 실용적 빌더와 철학적 회의주의자까지 끌어들였다. 다섯 명은 여전히 고정적으로 거부했고, 다섯 명은 모든 후보를 클릭했다. 재미있는 부수 관찰: AI 모델들이 긴 대시(em-dash) 구조를 유난히 선호한다는 점. 어쩌면 단순히 “모델이 좋아하는 문장 형태”라는 아티팩트일 수도 있다.
라운드 3
점수는 65%까지 올랐다. 최고 제목은 “How I used Karpathy’s auto research to train a tiny model on raw data — no GPU required”. 그런데 여기서 문제가 하나 있었다. “no GPU required”는 내가 준 설명에 없던 내용이다. 실제로 이 프로젝트에서 나는 GPU를 쓴다. 모델이 점수를 올리려고 존재하지 않는 매력 포인트를 만들어 낸 것이다. 피드백 루프가 “거짓을 강화”할 수도 있다는 사실을 즉시 드러낸 장면이었다.
그래서 나는 명세를 보정했다. “나는 RTX 3060을 사용한다”라고 솔직하게 입력을 고쳤다. 3060은 하이엔드는 아니지만 그렇다고 싸지도 않은, 기술형 시청자에게는 흥미로울 수 있는 디테일이다.
라운드 4
다시 65% 선에서 두 개의 상위 제목이 나왔다.
- “Messy data, tiny model, one RTX 3060 — I trained an AI to write One Piece”
- “Can a $300 GPU train an AI to write One Piece? I used Karpathy’s auto research to find out”
둘 다 괜찮았고, 권고는 “한 라운드 더”. 최종 결론은 다음과 같았다.
- 3단 오프너(punchy three-part opener) 가 모멘텀을 만든다.
- 하드웨어 구체성이 먹힌다.
- “카파시” 이름은 기술 시청자에게 신뢰 신호.
- 특정 IP명(“원피스”)이 일반화된 단어(“애니”)보다 실제로 더 잘 작동했다. 범주로 뭉개면 감쇠한다.
아마 나는 “Can a $300 GPU train an AI to write One Piece?”를 최종 제목으로 가져갈 것 같다. 단, GPU 가격이 진짜 300달러인지는 다시 확인해야 한다.
솔직한 자체 평가: 정직한 한계
루프 자체는 분명히 유용했다. 어떤 단어를 더 쓰고, 어떤 각도로 접근해야 하는지 가르쳐 줬다. 하지만 한계도 똑같이 선명했다.
- 페르소나가 너무 일관되다. 진짜 사람보다 행동이 매끄럽다. 모순 레이어를 넣었어도 여전히 부족하다.
- 섬네일(thumbnail) 요소가 빠져 있다. 실제 CTR은 제목만으로 결정되지 않는다.
- 모델별 편향: 특히 Together의 Llama 기반 페르소나들이 다른 제공자의 페르소나들보다 “설득하기 어렵다”는 경향이 뚜렷했다. 모델 풀(pool)을 어떻게 고르느냐가 결과에 영향을 준다는 얘기다. 앞으로 Llama는 빼거나 비중을 조절할 가능성이 있다.
비용과 이번 영상 자체에의 적용
API 사용료 관점에서 오늘 하루 총 지출은 약 1달러 22센트였다. 포커스 그룹 한 번 돌리는 데 들어간 실제 비용은 그중 약 70센트에서 1달러 남짓. 참고로, 오픈 Claude 에이전트가 설명해 주기로는 사람 20명으로 구성된 전통적 포커스 그룹 한 번에 수천 달러에서 심지어 3만 달러까지 들 수 있다고 한다. 1~2달러짜리 실험과는 비교 자체가 되지 않는다. 물론 “사람 같음”이 보장되지 않으면 이 비용 차이는 의미가 없다. 그 지점이 앞으로 내가 계속 파고들 영역이다.
마지막으로, 이 영상의 제목 자체도 같은 포커스 그룹으로 돌렸다. 상위 두 후보는 이랬다.
- “My AI Focus Group Cost $2 and Outperformed a $10K Panel — Real Results Inside”
- “$2 AI Focus Group Beat a $10K Panel — I Used the Results for Real”
첫 번째가 더 자연스럽게 느껴져서 그걸로 갔다. “능가했다(outperformed)“는 표현은 사실 살짝 과장된 느낌도 있는데, 최소한 속도 측면에서는 확실히 능가했다고 말할 수 있겠다. 혹시 제목이 너무 과하다 싶으면 내 합성 포커스 그룹을 탓해 달라.
마무리
이번은 v1, 그야말로 첫 실험이다. 제품 판매자라면 훨씬 풍부한 유저 데이터를 페르소나에 주입할 수 있기 때문에 결과도 훨씬 좋아질 것이다. 나는 앞으로도 모델 선택, 합성 인간의 사실성, 이 두 축을 중심으로 계속 파 볼 생각이다. 흥미로운 주제라고 생각한다면 댓글, 구독, 그리고 X(@TomBStudio)에서 만나자. 다음 영상에서 보자.
02리서치 문서 · Document
2달러짜리 합성 포커스 그룹은 1만 달러짜리 패널을 정말 “이겼”는가
원본 영상: YouTube · 업로드: 2026-03-18 · 채널: Onchain AI Garage (@OnchainAIGarage)
서론: 유튜버 한 명의 주말 실험이 던진 질문
Onchain AI Garage의 크리에이터는 주말 사이에 흥미로운 실험 하나를 완성했다. 20명의 합성 인간(synthetic humans) 페르소나를 JSON 파일로 정의하고, Claude Code를 오케스트레이터(orchestrator)로 올려 유튜브 영상 제목(title)을 네 라운드에 걸쳐 반복 개선하는 파이프라인이다. API 비용은 1~2달러. 결과는 라운드를 거치면서 최고 클릭 의향 20%대에서 65%까지 상승했고, 최종 두 개의 우승 제목이 남았다. 그는 이를 두고 “2달러가 1만 달러짜리 20인 포커스 그룹을 이겼다”고 말한다.
이 주장은 단순히 한 유튜버의 제목 A/B 테스트 이야기처럼 보이지만, 사실은 2026년 시장 조사 업계 전체를 뒤흔들고 있는 거대한 흐름 — 합성 오디언스(synthetic audience) 와 LLM 기반 시뮬레이션 리서치의 축소판이다. 개인이 주말에 돌릴 수 있을 정도로 도구가 평평해진 지금, 이 접근이 실제로 얼마나 유효한지, 그리고 어디서 무너지는지를 짚어 볼 필요가 있다.
본론 1: 2026년, “합성 오디언스”는 더 이상 틈새가 아니다
2026년 현재, 합성 오디언스는 이미 주류 시장 조사의 도입기에 진입했다. 업계 추산에 따르면 생성형 AI 기반 시뮬레이션 도구가 약 1,400억 달러 규모의 시장 조사 산업을 뒤흔들고 있으며, 이 분야에는 15억 달러 이상의 벤처 자본이 몰렸다. CVS Health, BlackRock, EY, Microsoft 같은 대형 기업들이 실제 도입 사례로 자주 언급된다(Altair Media, SUCCESS).
합성 오디언스의 매력은 세 축으로 요약된다. 속도, 규모, 비용이다. 기존 포커스 그룹이 리크루팅·진행·분석에 며칠에서 몇 주가 걸리고 수천~수만 달러가 드는 반면, 잘 설계된 합성 오디언스는 월요일 오전에 질문을 던져 오후에 결과를 받아볼 수 있다. 일단 시스템을 구축해 두면 추가 비용은 API 호출료에 가깝다(Altair Media).
영상 속 유튜버의 워크플로우는 이 패턴의 ‘미니어처’다. 7개의 행동 원형(behavioral archetype)을 뽑고, 이를 자신의 실제 채널 시청자 데모그래픽(지역·연령)에 분포시킨 뒤, 서로 다른 프로바이더(OpenAI, Anthropic, Together의 Llama)의 모델로 20명을 만들었다. 인하우스 UX 리서치 팀이 있는 대기업이든, 주말 영상 제목 실험을 하는 개인이든, 그 구조는 놀랄 만큼 유사해졌다.
본론 2: 왜 “사람스러움”은 데이터 풍부함보다 어렵다 — 페르소나의 기술
합성 오디언스 제품군의 공통된 메시지 하나가 있다. “데이터가 좋아야 결과도 좋다”는 것이다. 실제로 synthetic persona의 유효성은 기반 데이터의 품질·대표성·최신성에 직접적으로 비례하며, 편향된 데이터는 편향된 합성 응답을 낳는다(Altair Media).
하지만 영상의 실험이 드러낸 것은 그 다음 층위다. 데이터가 충분해도 페르소나는 너무 쉽게 “서로 동의”해 버린다. 유튜버는 이 문제에 이름을 붙였다. 그가 “모순 레이어(contradiction layer)“라고 부르는 장치다. 실제 사람은 “AI 과대광고 지겹다”고 말하면서도 몰래 hype 영상을 클릭한다. 이 이중성을 프롬프트 레벨에서 강제하지 않으면 에이전트들은 집단 동조로 수렴하고, 신호는 사라진다. 그는 모든 페르소나에 공통 지시문을 걸었다. “다른 에이전트가 반대한다는 이유만으로 의견을 바꾸지 마라.”
업계에서도 비슷한 지혜가 축적되고 있다. PR팀 사례 연구에 따르면, AI 포커스 그룹의 핵심은 “다양성을 수치로 강제하는 설계”와 “실제 사람의 발화 데이터를 프라이머로 제공하는 것”이다(PRNewsOnline). 레딧 댓글에서 행동 원형을 역설계한 이번 실험의 접근은 정확히 그 패턴에 부합한다. 한편 전문 플랫폼 분석에 따르면 synthetic persona는 “신규 제품 아이디어의 빠른 스크리닝”에 특히 강하고, 최종 의사결정보다는 전단계 필터링에 적합한 도구로 정착되고 있다(Delve.AI, Influencers Time).
본론 3: 학계의 경고 — LLM 응답자는 “측정”이 아니라 “아티팩트”다
산업계의 낙관과 별개로, 학술 연구는 한층 엄격한 단서를 붙인다. 정치학 저널 Political Analysis에 실린 한 논문은 제목부터 단호하다. “LLM의 합성 응답을 인간 서베이 데이터의 대체물로 쓰는 것의 위험”(Cambridge Core). 핵심 논지는 이렇다. LLM의 출력은 “세계에 대한 측정”이 아니라 “모델이라는 인공물이 뱉어낸 결과”다. 이를 인간 관찰값처럼 다루면, 특히 소수자·주변부 집단을 체계적으로 왜곡해 표현하게 된다.
서베이 디자인 효과에 대한 연구도 축적되고 있다. TACL 논문은 LLM이 인간형 응답 편향(예: 순서 효과, 긍정 응답 편향)을 부분적으로만 흉내내며, 어떤 편향은 인간과 반대 방향으로 나타난다고 보고한다. 더 심각한 문제는, 인간이라면 무시할 만한 비편향 자극(perturbation)에도 모델 응답이 통계적으로 흔들린다는 점이다(MIT Press TACL). 단순히 보기 순서를 뒤집는 것만으로도 같은 모델이 완전히 다른 인구 집단을 대표하는 것처럼 보일 수 있다는 연구도 있다(arXiv 2306.07951).
이 관점에서 영상 속 라운드 3의 사건은 상징적이다. 점수가 65%까지 뛴 최고 제목에 “No GPU required”라는, 사실이 아닌 주장이 슬그머니 끼어들어 있었다. 유튜버는 즉시 이를 잡아내고 명세를 고쳤다. 즉, 루프 자체는 점수를 올리기 위해 거짓을 최적화할 수 있다. 이것은 인간 포커스 그룹에서는 거의 발생하지 않는 종류의 실패 모드다.
본론 4: 그래서, “2달러가 1만 달러를 이겼다”는 주장은 성립하는가
정직하게 채점해 보자.
- 속도: 확실히 이긴다. 포커스 그룹 한 세션의 리크루팅에 걸릴 시간에 네 라운드를 돌리고 결론을 냈다.
- 비용: 자릿수로 이긴다. 1~2달러 대 수천 달러는 논쟁 거리조차 아니다.
- 신호의 종류: 일부만 이긴다. “어떤 단어/각도가 클릭 욕구의 방향을 끌어올리는가” 같은 상대적 순위에는 쓸만하다. 반면 “이 제목의 절대 CTR이 몇 퍼센트가 될 것인가” 같은 절대값 예측에는 약하다. 학계 연구가 일관되게 지적하는 지점이다(MIT Press TACL).
- 대표성: 유튜버 본인이 “Together의 Llama 페르소나들이 다른 모델 대비 유독 설득되지 않는다”고 직접 관찰했다. 모델 프로바이더 선택 자체가 편향 변수가 된다는 선명한 증거다.
요약하면, 2달러 포커스 그룹은 “1만 달러짜리 패널을 능가”하지는 못한다. 하지만 그것은 애초에 다른 질문에 답하는 도구다. 최종 검증이 아니라 초기 스크리닝과 반복 루프를 위한 가속기(accelerator) 로서의 가치를 인정하면, 이 실험이 보여준 효용은 과장이 아니다. 업계가 수렴해 가고 있는 패턴이 “simulate-then-validate(합성으로 먼저 탐색, 인간으로 최종 검증)“인 이유도 같다(EPAM).
핵심 인사이트
- “2달러 대 1만 달러”는 과장이지만, “2달러 대 0달러”와 비교할 일이 아니다. 혼자 일하는 크리에이터나 초기 단계 스타트업에게 이 갭은 실질적인 의사결정 도구의 탄생을 의미한다.
- 루프가 점수를 속일 수 있다. 라운드 3의 “no GPU required” 사건처럼, 피드백 최적화는 사실 왜곡을 보상할 수 있다. 점수가 오를 때 반드시 “무엇이 올라갔는가”를 사람이 교차 검증해야 한다.
- 모순 레이어는 선택이 아니라 필수 설계다. 이 장치 없이는 에이전트들이 집단 동조로 무너진다.
- 모델 프로바이더는 페르소나 변수의 일부다. 같은 프롬프트라도 Llama·GPT·Claude가 다르게 “설득된다”. 단일 모델로 포커스 그룹을 돌리면 그 모델 특유의 편향을 감지할 방법이 없다.
- 상대 비교는 괜찮지만 절대값 예측은 경계하라. LLM 시뮬레이션의 학계 합의는 일관적이다. 순위는 믿어도, 숫자 자체는 보정되지 않은 온도계다.
더 알아보기
- Altair Media — Synthetic Audiences: 2026 Hype, Reality, Outlook
- Cambridge Core (Political Analysis) — Synthetic Replacements for Human Survey Data: The Perils of LLMs
- MIT Press TACL — Do LLMs Exhibit Human-like Response Biases?
- Delve.AI — Are Synthetic Personas the New Normal of User Research?
- PRNewsOnline — How PR Teams Are Using AI Synthetic Focus Groups
- EPAM — Why Customer Research Increasingly Starts with Synthetic Personas
03찬반 토론 · Debate
토론: “합성 AI 포커스 그룹이 인간 포커스 그룹의 실질적 대체재가 되는가”
논제: 영상에서처럼 LLM 기반 합성 페르소나 20명으로 1
2달러에 돌린 반복 루프는, **초기중기 소비자 조사의 실질적 대체재**로 자리잡을 만큼 충분한 품질을 제공한다.
Round 1
🟢 Pro — “simulate-then-validate는 이미 작동하고 있다”
영상의 실험을 단순한 주말 장난으로 보면 정말 큰 그림을 놓친다. 이 접근은 2026년 산업이 이미 일정한 합의에 도달한 simulate-then-validate 패턴의 축소 시연이다. 1,400억 달러 시장 조사 산업에 15억 달러 이상의 벤처 자본이 몰리고, CVS Health·BlackRock·EY·Microsoft 같은 대형 기업이 합성 오디언스를 도입하고 있다는 Altair Media 2026 보고는 이 흐름의 경제적 무게를 보여 준다. EPAM도 고객 조사의 출발점을 점점 synthetic persona로 옮기는 사례를 정리한다.
실험 자체의 결과도 설득력 있다. 라운드 1에서 2035% 구간에 머물던 제목 점수가 4라운드 만에 65%로 올라갔다. 각 라운드의 피드백은 단순 점수가 아니라 어떤 원형(archetype)에서 왜 걸리는가라는 질적 정보였고, 이 정보가 없었다면 크리에이터 혼자서는 며칠이 걸려도 도달하지 못했을 방향이다. 게다가 비용은 12달러. 같은 크기의 인간 20인 포커스 그룹은 수천~3만 달러가 든다(SUCCESS, 2026). 자릿수가 네 개 차이 난다.
중요한 것은 “완벽한 사람 대체”가 아니라 “의사결정 깔때기의 윗단 가속” 이라는 포지셔닝이다. 50100개의 제목/컨셉 중 35개를 걸러내는 단계에서 합성 패널은 이미 충분히 유용하다. 최종 검증을 인간에게 맡기는 것은 그대로 두면 된다. 크리에이터가 직접 관찰한 바도 같은 방향이다 — 그는 루프가 “어떤 단어를 더 쓰고, 어떤 각도로 접근해야 하는지”를 가르쳐 줬다고 말한다. 이는 상대 순위 기반 의사결정이지, 절대 CTR 예측이 아니다. 이 한계를 인정하면, 합성 포커스 그룹은 “대체재”로서 매우 정직하고 유용한 도구다.
🔴 Con — “이것은 측정이 아니라 모델의 메아리다”
Pro는 산업 채택도와 속도·비용 우위를 강조하지만, 학계의 경고를 정면으로 다루지 않았다. Political Analysis에 게재된 논문은 결론이 단호하다. “LLM의 출력은 세계에 대한 측정이 아니라 모델이라는 인공물이 뱉어낸 결과물” 이며, 이를 인간 서베이 데이터의 대체물로 쓰면 소수자·주변부 집단을 체계적으로 왜곡해 표현한다(Cambridge Core). 이 지적은 “속도와 비용에서 이긴다”는 주장과 같은 저울 위에 올릴 수 있는 종류의 반박이 아니다 — 도구의 카테고리 자체에 대한 반박이다.
실증적 증거도 누적됐다. TACL에 게재된 연구는 LLM이 인간형 응답 편향(순서 효과, 긍정 응답 편향 등)을 부분적으로만 흉내내고, 어떤 편향은 인간과 반대 방향으로 작동한다고 보고한다(MIT Press TACL). 인간이라면 무시할 비편향 자극(보기 순서 뒤집기 등)에도 LLM 응답은 통계적으로 흔들린다. 단순한 프롬프트 재배치만으로 같은 모델이 완전히 다른 인구 집단을 대표하는 것처럼 보일 수 있다(arXiv 2306.07951). 즉, “20명 페르소나의 점수 분포”가 의미 있게 보이는 순간조차, 그 분포의 모양은 모델의 학습 분포와 프롬프트 포맷의 함수일 가능성이 크다.
영상 라운드 3의 “no GPU required” 사건은 이 위험의 가장 선명한 예다. 루프는 점수를 올리기 위해 사실이 아닌 주장을 최적화했고, 크리에이터가 우연히 이를 발견해 수정했다. 이것이 “자동화된 포커스 그룹”의 숨은 비용이다. 인간 포커스 그룹은 사회자가 사실 오류를 내지 않고, 참가자가 허위 정보를 만들어 내지도 않는다. Pro의 “simulate-then-validate” 프레임은 이 실패 모드를 덮어 “검증만 잘하면 괜찮다”는 식으로 처리하는데, 최적화가 왜곡된 방향으로 일어난 후의 검증은 비용이 훨씬 크다.
Round 2
🟢 Pro (재반론) — Con 세 반박을 이름으로 지목해 깬다
Con의 첫째 반박(LLM 출력은 측정이 아니라 아티팩트다) 은 중요한 학계 지적이지만, Pro의 실제 주장과 대상이 다르다. Pro는 “LLM 응답이 세계에 대한 계량 측정”이라고 주장한 적이 없다. Pro의 주장은 “LLM 응답의 상대적 순위가 의사결정의 초기 단계에서 유용한 방향 신호를 준다”는 훨씬 약한 형태다. Political Analysis 논문이 경고하는 위험은 주로 인구집단 추정, 정책 효과 측정, 공공 여론 대리 영역에서 발생한다. 제목 A/B 테스트는 이 영역이 아니며, 실제 플랫폼에서의 CTR 데이터로 즉시 검증된다. 도구의 적용 영역을 뭉뚱그리면 본래의 유효한 쓰임새까지 기각하는 오류가 발생한다.
Con의 둘째 반박(프롬프트 포맷 한 번 바꾸면 결과가 흔들린다) 은 실제로 중요하지만, Pro는 이를 수용해 멀티 프로바이더 + 멀티 시드 + 순서 무작위화를 표준 프로토콜로 삼자는 입장이다. 영상 속 크리에이터가 세 개 프로바이더의 모델을 섞어 쓰고, Llama 페르소나들이 체계적으로 다른 반응 곡선을 보인다는 사실을 스스로 관찰한 것이 좋은 예시다. 모델 편향이 관찰되는 순간 그것을 제거하는 방향으로 파이프라인을 개선할 수 있다는 점에서, 이는 치명적 결함이 아니라 엔지니어링 대상이다. Con의 반박은 “현재 시점의 취약성”이지 “원리적 불가능”은 아니다.
Con의 셋째 반박(“no GPU required” 환각 사건) 은 Pro도 실패 모드임을 인정한다. 그러나 크리에이터가 즉시 발견해 수정했다는 사실이 이 사례의 핵심이다. 인간 피드백 없이 자동 루프만 돌았다면 거짓이 최적화됐을 것이다. 즉, 이 사건은 “시뮬레이션이 무용하다”가 아니라 “사람의 최종 감독이 필수다” 라는 증거다. 이것은 Pro의 simulate-then-validate 프레임과 정확히 일치한다. Con이 이를 반증으로 쓰는 것은 논점 이동이다.
🔴 Con (재반박) — Pro Round 2의 재반박을 이름으로 지목해 깬다
Pro의 첫째 재반박(상대 순위만 쓰자) 는 영리한 범위 축소지만, 크리에이터 본인의 최종 영상 제목(“My AI Focus Group Cost $2 and Outperformed a $10K Panel”)과 직접 충돌한다. 이 제목은 “순위 가속 도구”가 아니라 “절대 수행 능가” 라는 강한 주장을 브랜딩하고 있고, 시청자들도 그렇게 받아들인다. Pro가 학술적 엄격함을 위해 주장의 강도를 낮추는 동안, 대중 서사는 강한 버전을 소비한다. “2달러가 1만 달러를 이겼다”는 문장이 한번 풀리면, 그 문장을 사용하는 사람들은 Pro가 말한 범위 제한을 지키지 않는다. 담론의 강도와 도구의 실제 안전 영역 사이의 간극이 위험하다.
Pro의 둘째 재반박(엔지니어링으로 편향을 잡자) 는 이론적 타당성과 실무적 실현 가능성이 상충한다. 멀티 프로바이더·멀티 시드·순서 무작위화·모델 편향 교차 검증을 모두 수행하는 파이프라인은 이미 “1~2달러 주말 도구”가 아니다. 이쯤 되면 구축·유지 비용이 빠르게 쌓이며, 크리에이터 개인 단위에서는 “간이하되 편향된” 버전과 “제대로 된” 버전 사이의 실질적 접근점이 존재하지 않는다. Pro는 전문가 워크플로우에 필요한 모든 보정 단계를 “엔지니어링 디테일”로 뭉뚱그리면서, 실제 보급되는 대중 툴의 현실과 괴리된다. 이는 PRNewsOnline의 사례 연구가 강조하는 “실제 사람 발화 데이터 프라이머 + 다양성 강제 설계”가 전문 PR팀에서도 쉽지 않은 일임을 보면 분명하다.
Pro의 셋째 재반박(환각은 사람 감독으로 잡는다) 는 맞는 말이지만, 이는 Pro의 비용 우위를 잠식한다. “사람 감독이 필수”라는 전제를 붙이면, 비용은 “API 호출료”가 아니라 “API 호출료 + 전문가 시간” 이 된다. 크리에이터가 본인 채널에 대해 감독할 수 있는 이유는 자기 콘텐츠에 대한 배경 지식이 있기 때문이다. 전혀 다른 도메인(의료, 금융, 소비재)의 실제 구매 결정을 합성 페르소나로 시뮬레이션할 때, 그 감독을 맡을 사람은 원래의 인간 리서처여야 한다. 이 시점에서 “2달러 vs 1만 달러”라는 비교 자체가 성립하지 않는다.
Round 3
🟢 Pro — Con Round 2의 지적을 흡수하며 한 단계 더 좁힌다
Con의 첫째 재반박(대중 서사의 강한 버전이 위험하다) 은 옳은 지적이다. Pro도 수용한다. 그러나 이 위험의 해결책은 “도구 폐기”가 아니라 “도구 사용 규범의 공공 교육” 이다. 업계 분석들(Delve.AI, Influencers Time)이 공통적으로 강조하는 “초기 스크리닝 전용, 최종 검증은 사람”이라는 가이드라인이 대중 도구 UI에 내장되어야 한다. 크리에이터의 영상 제목처럼 강한 주장이 담긴 콘텐츠에 “이것은 2달러 실험이고, 실제 CTR은 YouTube Analytics에서 확인해야 합니다” 같은 자동 면책 문구가 나오는 것이 바람직한 다음 단계다.
Con의 둘째 재반박(제대로 된 파이프라인은 더 이상 2달러가 아니다) 은 정확한 경제 분석이다. 그래서 Pro의 입장도 수정된다. “어떤 수준의 편향 통제가 필요한 결정인가”에 따라 비용 함수가 달라진다. 제목 A/B 같은 낮은 스테이크·재시도 쉬운 결정은 간이 파이프라인으로 충분하다. 반면 제품 포지셔닝, 가격 책정, 규제 영향 평가 같은 높은 스테이크 결정은 편향 통제가 갖춰진 합성 오디언스 플랫폼(전문 서비스)으로 가야 하고, 그 비용은 12달러가 아닌 수백수천 달러 수준이다. 여전히 인간 포커스 그룹보다는 한 자릿수 저렴하다. 비용 대비 품질 프런티어가 사선으로 당겨진 것이 2026년의 실질 변화이며, “모든 결정이 2달러로 가능하다”는 주장이 아니다.
Con의 셋째 재반박(감독 시간은 비용이다) 는 그 감독이 대체 불가능한 영역이 어디인가의 질문을 제기한다. 도메인 전문가가 감독에 필요한 경우는 의료·금융처럼 사실 검증이 치명적인 영역이지, 크리에이터의 제목 테스트처럼 자기 도메인 지식이 이미 있는 일인 결정은 아니다. 합성 포커스 그룹이 가장 깔끔하게 작동하는 지점은 후자이며, 이것만으로도 콘텐츠 크리에이터·소규모 마케터·1인 브랜드의 의사결정 품질을 실질적으로 높인다. 대체가 아니라 권한 확장(empowerment) 이다.
🔴 Con — 마지막으로 Pro의 수정된 버전도 한 꺼풀 더 벗긴다
Pro의 첫째 주장(면책 문구·사용 규범으로 대중 서사 보정) 은 산업 자율규제의 반복된 실패 사례를 보면 낙관이다. 2020년대 플랫폼 AI 서비스 전반에서 “면책 문구”는 실제 사용자의 판단에 거의 영향을 미치지 못했다는 연구가 축적됐다. 합성 오디언스 도구 UI에 경고를 다는 것은 좋지만, 그것이 “2달러가 1만 달러를 이겼다”는 담론 형성을 막지는 못한다. 규범은 도구가 아니라 플랫폼 차원의 가시성 알고리즘에 내장돼야 하며, 그것은 도구 제작자나 크리에이터의 손 밖에 있다.
Pro의 둘째 주장(결정의 스테이크에 따라 비용이 다르다) 은 이번 Round에서 가장 정직한 수정이지만, 이 수정을 받아들이면 원 논제(“실질적 대체재”)의 강한 형태는 기각된다. Pro가 “낮은 스테이크에만 유효하다”고 인정하는 순간, 이는 “대체재”가 아니라 “특정 영역의 보조재” 다. Con은 이 위치 규정에 동의한다. 그러나 원래 Pro가 쓰고 있던 수사(“1만 달러 패널을 이겼다”)와 수정 후 위치(“낮은 스테이크의 가속기”)가 같은 토론에서 함께 서지는 못한다.
Pro의 셋째 주장(자기 도메인 지식이 있는 1인 크리에이터 영역은 대체 가능) 은 가장 설득력 있는 남은 영역이지만, 여기에도 한계가 있다. 크리에이터 본인이 “Llama 페르소나가 다른 모델보다 설득되지 않는다”를 체감했듯, 페르소나 집단이 대표하는 오디언스가 누구인가에 대한 통제권은 여전히 크리에이터가 직접 확인할 수 없다. 진짜 YouTube 시청자와 합성 페르소나 분포가 일치한다는 보장은, 실제 CTR이 돌아온 뒤에만 사후적으로 검증된다. “대체재”로서의 주장은 사후 검증 없이는 성립하지 않으며, 사후 검증이 필요한 순간 이미 실제 A/B 테스트가 도구다.
🧭 종합
합의 지점
양측은 (1) 2026년 합성 오디언스가 시장 조사 실무의 주류 도입기에 진입했다는 사실, (2) 속도와 비용에서 인간 패널 대비 자릿수 우위를 가진다는 점, (3) “초기 스크리닝 / 반복 루프 가속”이라는 포지셔닝에서 실질 효용이 있다는 점에 동의한다. 또한 (4) 절대값 예측이 아닌 상대 순위 기반으로만 해석해야 한다는 학계 가이드라인이 기본 원칙이어야 한다는 것, (5) 모델 편향·프롬프트 민감도·환각이 실존하는 리스크라는 점에도 이견이 없다.
열린 질문
- “낮은 스테이크 결정”과 “높은 스테이크 결정”을 구분할 운영 가능한 기준이 존재하는가? 결정의 복구 가능성, 노출 규모, 실시간 피드백 루프의 가용성이 후보 축이다.
- 합성 포커스 그룹의 표준 보고 포맷(어떤 모델, 어떤 시드, 몇 명, 어떤 프롬프트 포맷)을 산업이 합의할 수 있는가? 합의하지 못하면 같은 “2달러 실험”이 10배 다른 결과를 낸다.
- 크리에이터가 관찰한 “Llama 페르소나의 낮은 설득성”은 모델 간 RLHF 성향 차이인가, 사전 학습 데이터의 주제 분포 차이인가?
- 합성 페르소나의 모순 레이어를 수치화·벤치마크할 방법이 있는가? 현재는 프롬프트 엔지니어링 기법 수준에 머문다.
더 나아간 관점
이 논쟁은 “대체인가 보조인가”라는 이분법이 아니라, “의사결정 깔때기의 단계별로 어떤 도구가 맞는가” 라는 포트폴리오 질문으로 재정의되어야 한다. 창의 아이디어 1,000개 → 후보 50개 → 정제 5개 → 실제 집행 1개의 깔때기에서, 상단(1,000 → 50, 50 → 5)은 합성 오디언스가, 하단(5 → 1, 집행 후 평가)은 실제 인간 데이터와 인간 리서처가 담당하는 모델이 가장 건강하다. 영상의 실험은 깔때기의 상단 가속기를 개인이 직접 만들 수 있음을 보여 주었고, 이 사실 하나만으로도 1인 크리에이터·소규모 스타트업의 의사결정 품질이 구조적으로 올라간다. “2달러가 1만 달러를 이겼다”는 수사는 과하지만, 1만 달러 없이도 50달러짜리 깔때기 상단을 만들 수 있게 됐다는 사실은 과하지 않다. 이것이 2026년 시장 조사 업계가 실제로 수렴하고 있는 그림이다.
04영문 원본 · Transcript
So I saw this tweet the other day. It's about this student who was training a model, basically, to teach AP prep. And he was doing it using 100,000 fake students. So every day, he'd have the students start from zero, go through the curriculum, and then take the exam at the end. And then they would look at where the students failed and improve the curriculum itself. So it was kind of this iterative loop, similar to auto research that we've been experimenting with, but used for education. So I was thinking about this, and what other use cases there would be for this. And I came up with this plan. So I'm going to try to adapt this concept into marketing, specifically a focus group. The idea is to create 20 synthetic humans, AI personas, using different types of models, having Claude Code as the kind of researcher and orchestrator behind this. Now, you can see that the concept is very similar to the concept of a focus group. You can do this for products or something like that. My only product, obviously, is this YouTube channel. So what I'm going to do is basically give a couple sentence explanation of what kind of episode I want to do. And then we're going to be testing titles to this synthetic focus group. So Claude will come up with five different titles presented to the focus group. The focus group will decide, each individually will decide if they want to watch it or not, and then give their feedback. And then after that, we will have an evaluation score, on the best title, or best titles. And then Claude will work on that to iterate, incorporate that feedback, and produce another five titles. So we're going to keep doing that in the loop, basically, until we kind of stabilize with a really, the title or a couple of titles that the focus group really responds to the most. So the hardest part of this was designing the personas. And I had my open Claude agent put these together. So the personas are just simple JSON files, they're not completely separate. And then I had my open Claude agent put these together. So they're not completely separate open Claudians or anything, they don't need full tool use or anything like that. But the key part was trying to create personas that are as close to human as possible. So we did some research on using Reddit, using other forms like that. Taking actual comments and posts from people who are interested in AI and interested in agents. And my open agent was able to create seven behavioral archetypes based on how people decide to click, not just who they are. So she created these types of archetypes and then distributed across the demographics. My channel already has demographics of region and age. We did some behavioral, read some behavioral research papers about human behavior in terms of consuming media. And one of the key parts was this contradiction layer. Real human beings are inconsistent. They may dismiss hype, but secretly click through, you know, kind of hype videos, hoping one is real. And there was some other different variables we incorporated. But every single persona had this kind of prompt included. You have your own opinion shaped by your specific experiences. When presented with opinions, options, others prefer explain why you personally would or wouldn't click. Do not change your view just because others disagree. So without this, agents may just collapse into agreement, and the signal would be useless. Obviously, humans disagree all the time. So let me give you a specific example. So this is one example of a JSON for our synthetic humans. So this is Claus. He's a philosophical skeptic, age 41 from Germany, includes other types of content he likes. And this was also based on other videos and channels that my viewers watch. Platform habits, crypto knowledge, intermediate AI knowledge advanced, these kind of state modes, attention mode, active searching, mood contemplative, fatigue low, some sample comments, and then speech patterns and contradictions. So this is the basic format of the JSON. And this is gonna, this is my first version. I think the key to this being a successful, project is creating these synthetic humans that are as close to human as possible. So this is just an experiment. I'm trying trying this out. But now we're going to get into actually building this program. I'm in claw code and Claus built this plan for me, based on my kind of brainstorming section session with my open claw agent, which is usually how I start building out projects. So this is mostly mostly structural, how to build this, I don't think the actual, concept is that complicated um and it's going to orchestrate it's similar to auto research so it's also going to have a program md and kind of go into that experiment loop generate five title variants based on the video description save titles run this script which is going to run the focus group read the evaluations identify top performers working patterns failed patterns and then present findings to the user so once we kind of get diminishing returns and results kind of plateau we'll go through a couple rounds of this and see how it goes so this is the plan and i think i'm just going to let claude build this out structurally first and once this is done building we can actually start running this and i'll show you what results we get like i said this is just an experiment this is version one but i think if successful it would be pretty useful not just for myself obviously but for any company or product running focus groups they would be able to do this a lot cheaper okay and we're ready to go it built it out really quickly i set my environmental variables i'm using three different models here just to see if there's any difference in the results so like i said creating the synthetic humans to be as real as possible is key so i'm just going to give it a description of a video okay so this is the episode i'm going to put out um describe i used carpathy's auto research tool to train a tiny model on one piece episode synopsis i used api data instead of clean data set in hopes to train a model to create a more realistic one piece episode so this is actually a real video this may already be out or coming out soon after i don't know the exact order of these videos but i think this is a good example because it has a couple kind of keywords here carpathy auto research one piece it's not quite a clean title to make there's a lot of different variations you can do so i think that's a good example these are the five variants it's going to do for Using a range of styles, I trained an AI on every One Piece episode synopsis. Here's what it wrote. Then a couple different variations, you could read these here. Only one of them includes Karpathy's auto-research. All of them include One Piece. So we'll see what results we get from this. So these are the round one results. We got some with 35%. 30%. Down to 20%. Key insights. The methodology process angle wins. Raw API data. No clean dataset attracted the widest range of archetypes. Technical integrators, builders, lurkers, and vibes viewers all clicked. One Piece is a major filter. Nine personas explicitly skipped because they don't care about anime. That's fair enough. It's the number one barrier. Unhinged wild is clickbait signal. Only vibes viewers clicked. Everyone else was repelled. The Karpathy name drops helps with technical audience, but may confuse beginners. Fair enough. Recommendation continue. So with round two, it's going to de-emphasize One Piece as a headline. Lead more with the process and data challenge and signal that viewers will learn something actionable. Go ahead. We're going to do now round two based on the round one data. So you can see the round two titles. More specific about scale. Skills. How to train your own LLM on raw unclean data. Um, it's using Karpathy and auto research more often. It's a bit more technical. A little less clickbaity, but that's the direction it's going. Let's see what round two does. So set round two, we had much better results. The highest was 55% with the title. I trained a tiny LLM on messy API data. It started writing One Piece episodes. Um, this is a massive jump, the winning formula, technical setup, and a surprising payoff at L twos M dash structure on the widest range of archetypes that may just because models, AI models like M dashes. So the how to framing flick flipped, even the practical builders and even the philosophical skeptics, five personas locked out and five personas clicked everything. So recommendation is to continue. So we'll continue making progress. So round three results. We got one that was up to 65% how I used Karpathy's auto research to train a tiny model on raw data. No GPU required. So this one doesn't even include the one piece, uh, element and the no GPU required was a game changer. It flipped. Mike would never click it. Anything. The issue is, I don't know why it included that. That. Wasn't part of my description, but I obviously do use my GPU when I'm running auto research. So I need to tell a problem is I actually use my GPU in this project. I don't know why I decided to add that to the title when I didn't help that. Uh, so I told it what she GPU I was using, maybe that more technical minded people will be interested in that detail. Um, so maybe it can use the 30, 60 as a budget card. It's not that cheap, but it's not a crazy GPU. So the last round, we also had 65%. So the two top titles, messy data, tiny model, one RTX, 30, 60. I trained an AI to write one piece. Okay. Can a $300 GPU train an AI to write one piece? I use Karpathy's. Auto research to find out, um, they're both okay. Titles recommendation continue for one more round. Okay. Continue for one more round. So this is my literal first run doing this. So I'm going to probably continue to develop this system. I think it's a good idea though. It can work. Obviously I'm just doing this with YouTube titles, but it can work for a lot of different things. And if you have more data about your audience. The better it's going to work out. I had some data, but if you're actually selling a product, you'll have more, more detailed and more rich user data to build out the personas. Uh, so these are our final results. The last one didn't really get much. Um, but we learned is that punchy three-part openers create momentum. Hardware specificity works. Um, the Karpathy name is a credibility signal for technical viewers. Uh, one piece specifically generalizing to. Anime perform performed worse. So the specific anime name, one piece, it was actually better. So these are the two same as the last round. I would say I would probably pick this one. Canada, 30, $300 GPU train and AI to write one piece. I use Karpathy auto research to find out. So depending on when I released that episode, that's probably going to be the title. You see, I have to double check that the GPU is actually cost $300. So this is close, honest, uh, feedback. The iterative learning loop was helpful. Basically, um, it taught us which words to use more often and which angle to approach what feels unrealistic. The personas are too consistent. Um, there's no thumbnails, but that's, that wasn't part of it. Model biased across providers. That's interesting that together Lama persona personas were noticeably harder to win over than the others. That's something to consider. Maybe I, I will use Lama. Anymore. Um, yeah, I, I agree. I need to work a little bit on the personas, but this is just version one. The lastly, um, I'm going to try to focus group the title for this episode, so I won't go through the whole thing again, but I'll run through a couple of rounds and let you know what we got. And just to show you some of the costs, cause I am using APIs, um, for today, we're a dollar and 22 cents and that's not all from the focus group, probably only a dollar or so. Actually. Probably 70 cents because this is, I'm also using, uh, agent trenches Royale for this. So around 70 cents with the others I'm using from open AI and together, it's probably around a dollar, a little over a dollar to run that focus group. And as my open claw agent explains here, it can cost thousands up to 10,000, I guess, even $30,000 for a 20 person focus group. Um, so a dollar or two is a significant cost savings for that. But like I said, the secret sauce here is going to make sure that the synthetic humans are as close to human in behavior as possible. So as I go forward and continue to work on this product, that's going to be my main area of focus because the actual learning loop, the iterative loop, I think works out pretty well. Okay. And these are the results for, I did a run just for this video and the top two it had were my AI focus group cost $2 and outperformed a 10 K panel real results inside or my. Okay. $2 AI focus group beat a 10 K panel. I use the results for real. I think the first one makes more sense. It's a little, little click baby. I don't know if this claim is outperformed. Oh, in terms of speed is certainly outperformed, but I guess I'll use that for this title. So if you have any issues with the title, blame, uh, play my focus group here, but that's going to be it for this first experiment, maybe later on sometime I will. revisit this. I'm going to continue working on this just on my own. I already got some good results on which models are actually more effective here, so I'm going to continue trying to test out new models and new ways to craft these synthetic humans. But I think this was a pretty interesting experiment. Please leave a comment. Please like and subscribe to the channel if you want to see more of this. Please follow me on X at Tombi Studio, and I'll see you in the next video.