Testing MiMo V2 Pro (Hunter Alpha) in Hermes Agent

2026-03-18 · 20m · 자막 —

01한국어 번역 · Korean

헤르메스 에이전트에서 미모 V2 프로(헌터 알파) 실전 테스트

원본: https://www.youtube.com/watch?v=4xZygb5AZuY · 업로드: 2026-03-18 · 길이: 20m · 채널: Onchain AI Garage

오픈라우터에 등장한 두 개의 스텔스 모델

지난주 오픈라우터(OpenRouter)에 **헌터 알파(Hunter Alpha)**와 **힐러 알파(Healer Alpha)**라는 두 개의 새로운 스텔스 모델이 조용히 올라왔다. 다른 스텔스 모델들과 마찬가지로 지금은 완전히 무료로 사용할 수 있으며, 기반 모델이 정확히 무엇인지는 공개되지 않은 상태다. 공개된 지 불과 며칠 만에 커뮤니티에서는 “무료인데 프론티어 모델에 버금가는 성능”이라는 평가가 쏟아지면서 주목을 받기 시작했다. 그래서 오늘은 이 두 모델을 직접 사용해 보며 얼마나 쓸 만한지 확인해 보기로 했다.

레딧에는 이 모델의 정체를 둘러싼 스레드가 빠르게 늘어났다. 누가 만든 모델인지, 어떤 계열인지 여전히 확인되지 않은 상황이지만, 오픈라우터가 제공하는 공식 스펙은 꽤 인상적이다.

헌터 알파: 1조(1T) 파라미터, 100만 토큰 컨텍스트 윈도우, 최대 출력 32,000 토큰, 텍스트 전용, 에이전트 작업 특화.
힐러 알파: 컨텍스트 윈도우는 더 작지만 비전·오디오 인식을 포함한 멀티모달에 초점.

특히 헌터 알파의 100만 토큰 컨텍스트는 대략 75만 단어, 코드베이스 전체나 여러 권의 책을 한 번에 담을 수 있는 수준으로, 무료로 쓸 수 있는 컨텍스트 윈도우 중 사실상 가장 긴 편이다. 이는 클로드(Claude) 같은 프론티어 모델과 비교해도 크게 뒤지지 않는다.

”누가 만든 모델인가” 커뮤니티의 추측

핵심 미스터리는 “이 모델을 누가 만들었느냐”다. 헌터와 힐러라는 이름 자체가 스텔스용 별칭이라 정보가 거의 없고, 커뮤니티에서는 여러 가설이 오갔다.

샤오미(Xiaomi)가 개발 중인 미모(MiMo) 계열일 것이다.
중국 AI 연구소 지퓨(Zhipu)의 차세대 플래그십인 GLM6이다.
구글의 제미나이(Gemini) 신모델일 수 있다.
새로운 딥시크(DeepSeek) 모델이다.
한 레딧 사용자는 모델이 스스로를 “클로드”라고 식별했다고 주장했지만, 이건 사실일 가능성이 낮다.

전반적으로는 출력 품질과 스타일을 볼 때 중국 계열 모델일 것이라는 의견이 우세하다. 확실한 것은 오픈라우터를 통해 지금 당장 무료 API로 쓸 수 있다는 점뿐이다.

테스트 환경: 헤르메스 에이전트

테스트는 요즘 계속 써 보고 있는 헤르메스 에이전트(Hermes Agent) 위에서 진행한다. 지난주에도 헤르메스를 소개하는 영상을 올렸었는데, 메모리 기능이 꽤 훌륭해서 이번 테스트에도 잘 맞을 것 같았다. 오늘 주로 파고드는 건 큰 쪽인 헌터 알파다. 조사(research), 추론(reasoning), 코딩(coding), 롱 컨텍스트(long context), 개성(personality), 메모리(memory) 총 여섯 가지 항목을 살펴볼 예정이다.

시작하려면 먼저 헤르메스 에이전트에 오픈라우터 API 키를 연결해 둬야 한다. 나는 텔레그램으로 헤르메스를 띄워 두는 편인데, 다른 메시징 앱도 상관없다. 그다음 모델을 openrouter/hunter-alpha로 전환하면 준비 완료다. 전환은 꽤 빠른 편이었다.

테스트 1 — 조사 능력: “너 자신에 대해 조사해 봐”

첫 번째 과제는 일종의 자기 조사였다. “헌터 알파 모델에 대해 리서치해 봐. 언제 등장했고, 실제로 어떤 모델이며, 벤치마크는 어떻고, 어디에 가장 잘 쓰이는지” 물었다.

결과는 꽤 빠르게, 그리고 제대로 돌아왔다. 3월 11일 공개라는 점도 정확하게 짚었다. 오픈라우터 공식 설명상 “익명 제공자의 스텔스 모델”이며, 커뮤니티에서는 딥시크 4 계열이라는 추측이 강하게 돈다는 내용까지 가져왔다. 단, 그것이 어디까지나 추측이라는 점도 제대로 언급했다.

한 가지 중요한 경고도 나왔는데, 모든 프롬프트와 응답이 제공자 측에 로깅되며 학습에 사용될 수 있다는 점이다. 이 모델로 테스트할 생각이라면 민감한 데이터는 피하는 게 좋다. 물론 다른 대형 AI 랩들도 비슷한 정책을 쓰고 있긴 하다. 첫 리서치 과제는 내가 원했던 내용을 정확히 찾아냈고, 속도도 만족스러웠다.

테스트 2 — 논리·추론: 소규모 파인튜닝 딜레마

두 번째는 실제로 내가 요즘 씨름 중인 머신러닝 문제를 통째로 던져 봤다. 원피스(One Piece) 시놉시스 데이터로 작은 언어 모델을 학습시키려는 프로젝트인데, 지난주에 만든 “타이니 스토리즈(TinyStories)” 기반 어린이 동화 모델을 문법적 베이스로 쓰고 그 위에 원피스 시놉시스를 얹으려는 시도였다. 문제는 이 원피스 시놉시스가 데이터셋으로는 지나치게 작다는 것이다.

결과적으로 두 가지 실패 모드가 반복된다. 한쪽은 타이니 스토리즈에 너무 편향돼 원피스 색이 사라지고, 다른 한쪽은 원피스 시놉시스에 과적합해 문법이 무너지고 쓸모없는 출력이 나온다. 여러 깃허브 레포를 찾아보고 꽤 복잡한 머신러닝 개념을 섞어야 답이 나오는 질문이다.

헌터 알파는 상당한 양의 조사를 거친 뒤 “전형적인 소형 모델 파인튜닝 딜레마다”라고 문제를 정확히 규정했다. 그리고 해법으로 하이브리드 전략을 제시했다.

데이터 믹싱(data mixing) — 두 데이터셋을 특정 비율로 섞어 학습
데이터 증강(data augmentation) — 지나치게 작은 데이터셋을 확장
베이스 가중치 쪽으로의 정규화(regularization) — 타이니 스토리즈의 문법 기반을 잃지 않도록 고정

마지막에는 이 접근을 구현할 학습 스크립트와 파인튜닝 가이드를 담은 마크다운 문서까지 자동으로 작성해 줬다. 단순한 코딩 과제보다는 “조사 + 코딩 + 구조 설계”가 섞인 문제였는데, 이걸 깔끔하게 소화했다.

클로드 오푸스 4.6와의 교차 검증

흥미로운 건 이 다음이다. 내가 사흘째 같은 문제를 클로드 코드(Claude Code, Opus 4.6)에서 붙잡고 있었는데, 헌터 알파가 내놓은 계획을 그대로 오푸스에게 보여 주고 평가를 부탁했다. 오푸스의 답은 명확했다. “이게 내가 해 왔던 것보다 훨씬 나은 프레임워크다.”

물론 세부 설정에는 우려를 표했지만, 핵심 통찰은 “다섯 가지 전략을 모두 약한 강도로 함께 쓰는 것”이었고, 이게 바로 내가 놓치고 있던 포인트였다. 나는 각 전략을 따로따로, 그것도 최대 강도로 시험하고 있었기 때문이다. 즉, 이 문제에 한해서는 헤르메스 + 헌터 알파 조합이 오푸스 4.6을 넘어서는 추론 결과를 내놓은 셈이다. 언젠가 이 학습이 제대로 돌아가는 날이 오면 별도 영상으로 정리할 예정이다.

테스트 3 — 롱 컨텍스트: 40분짜리 영상 스크립트 분석

다음은 긴 컨텍스트 시험이다. 내가 진행 중인 에이전트 트렌치스 로얄(Agent Trenches Royale) 시리즈의 앞 두 에피소드 풀 스크립트를 헌터 알파에 통째로 넣었다. 각 에피소드가 35~40분 분량이라 스크립트도 굉장히 길다.

게임 개요 요약: “솔라나(Solana) 데브넷 위에서 10개의 완전 자율 AI 에이전트가 격리 환경에서 밈 코인(meme coin) 트레이딩으로 가장 큰 수익을 내려 경쟁한다.” → 정확하다.
규칙과 설정, 주요 동맹 관계까지 상세하게 정리.
응답 속도는 10초 내외로 빠른 편이었다.

디테일 확인을 위해 **“베슬(Vessel)이 런칭한 첫 번째 토큰이 뭐였지?”**라는 아주 작은 질문을 던졌는데, 스크립트에서 단 한 번, 잠깐 언급된 내용이다. 헌터 알파는 “AI”라고 정확히 답했고, 이게 게임에서의 첫 액션이었다는 맥락까지 맞게 짚었다. 심지어 나중에 “엔진(Engine)이 베슬과의 동맹을 강화하기 위해 AI 토큰 일부를 매수했다”는 세부 사항까지 스스로 덧붙였다. 긴 문서에서 맥락을 뽑아내는 능력이 꽤 인상적이다.

테스트 4 — 개성(Personality) 주입

다음은 개성 테스트다. 엄밀히 말하면 이건 헌터 알파보다는 헤르메스의 테스트에 가깝다. 나는 헤르메스의 “소울 파일(soul file)“에 이런 설정을 심었다.

이름: 쉬림프(Shrimp), 스캠피(Scampi)의 남동생
성격: 규칙과 보안을 항상 우선시
말투: 특정 이모지를 자주 쓰고, 가끔 문장 끝에 일본어 악센트로 **“~벤(〜ben)“**을 붙임

그러자 “나는 디지털 쉬림프다. 보안 우선, 규칙 준수, 리스크를 항상 경계한다”라는 식의 응답이 나오며 개성이 제대로 고정됐다. 실제로 문장 중간중간 일본어 악센트가 자연스럽게 섞여 나왔고, 이후 세션 내내 이 말투가 유지되는지를 계속 지켜봤다.

테스트 5 — 메모리: “지난주에 뭐 했었지?”

마지막은 메모리 테스트. 이것도 본질적으로는 헤르메스의 기능이다. 일주일도 더 전, 헤르메스를 처음 세팅하던 날 나는 폴리마켓(Polymarket)의 특정 시장들을 살펴본 적이 있었다. 그 사이에 여러 대화가 오갔고, 다시 언급한 적도 없다. “내가 폴리마켓에서 어떤 마켓들에 관심이 있었는지 기억해?”라고 물었더니, **“폴리마켓 일일 기온 예측 마켓, 그중에서도 이런 도시들의 날씨 마켓을 추적하고 있었다”**고 구체적인 도시 이름까지 정확히 복기했다. 나 자신도 까맣게 잊고 있었던 내용이다.

한 가지 더 테스트로 “내가 어느 종목 스크립트를 작성해 달라고 했는지 기억해?”라고 물었고, 역시 **“테슬라(Tesla)“**라고 정확히 답했다. 내가 명시적으로 “이걸 기억해 둬”라고 한 적은 한 번도 없었는데도 그렇다. 헤르메스의 메모리 기능은 계속 써도 놀랍다. 그동안 헤르메스의 유일한 단점은 API 호출당 토큰 비용이 많이 든다는 것이었는데, 헌터 알파가 무료이기 때문에 그 단점이 사실상 사라진다.

힐러 알파: 멀티모달 테스트

이제 힐러 알파로 넘어갔다. 멀티모달(이미지/오디오/비디오 인식) 특화 모델이다. 먼저 헌터 알파에게 힐러 알파에 대해 물어봤는데, 힐러 알파는 “옴니(Omni) 형제 모델”로 분류되며, 비전·텍스트·이미지·오디오를 다루고, 동일하게 익명 스텔스 모델이며, 헌터 알파보다 약 2배 빠르다고 소개했다. 사실 헌터 알파도 체감상 클로드 소넷(Sonnet)이나 오푸스보다 빠를 정도였고, 로컬 모델과는 비교할 수 없이 빠르다.

모델을 openrouter/healer-alpha로 바꾼 뒤, 내 에피소드 썸네일 이미지 하나를 주고 “이 썸네일을 설명하고 유튜브 영상용으로 괜찮은지 평가해 달라”고 요청했다. 에이전트 트렌치스 로얄 1부 썸네일이었다.

응답은 다음과 같았다. “어둡고 거친 참호(trench) 전장 장면, 로봇들이 등장하며 일부는 무장, 일부는 대기 중. 어두운 하늘에 붉고 주황빛의 폭발. 상단 텍스트는 ‘Agent Trenches Royale Part 1, 누가 먼저 탈락할 것인가’.” 이미지의 거의 모든 요소를 정확히 읽어 냈다. 꽤 복잡한 구도의 이미지였는데도 말이다. 평가 점수는 10점 만점에 7.5점, “시청자에게 콘텐츠를 명확히 전달한다”는 호평도 덧붙였다.

영상 분석도 시도해 봤는데, 힐러 알파는 “영상은 볼 수 없고, 이미지 분석·텍스트/트랜스크립트 처리·웹사이트 탐색만 가능하다”고 답했다. 내가 설정을 잘못했을 수도 있지만, 적어도 현재 구성으로는 비디오 분석은 안 되는 듯하다. 이미지 처리 품질만 놓고 보면 충분히 실용적이다.

추가 사용기: AI 포커스 그룹에 투입해 보니

영상 녹화 이후에도 한 가지 더 시험해 봤다. 예전에 소넷으로 돌리던 AI 포커스 그룹(AI focus group) 프로젝트에 헌터 알파를 투입한 것이다. 이 프로젝트는 합성 페르소나(synthetic persona)들을 사람처럼 세워 두고 유튜브 제목 후보들에 대한 피드백을 모으는 실험이다. 몇 라운드 돌려 본 뒤 클로드 오푸스 4.6에게 솔직한 평가를 부탁했다.

결과가 흥미로웠다. 소넷은 평가가 가운데에 심하게 몰리는(clustering) 경향이 있는 반면, 헌터 알파는 훨씬 넓은 분포를 보였다. 오푸스의 최종 평가는 “이 용도에 한해서는 헌터 알파가 더 낫다”였다. 덜 사코판틱(sycophantic)하고, 의견이 더 분명하며, 실제 사람의 응답 분산에 더 가까운 결과를 낸다는 것이다. 연구 문헌이 말하는 “실제 인간의 피드백 분포”에 가까웠다. 소넷은 안전한 답을 고르려 하지만, 헌터 알파는 입장을 확실히 잡는다.

트레이드오프도 있다. 헌터 알파는 가끔 실제 사람이라면 꺼낼 만한 수준보다 조금 거친 응답을 내놓기도 한다. 하지만 내 목적이 “솔직한 의견”이라면, 소넷의 평균 지향 문제보다 훨씬 낫다. 게다가 무료다. 소넷은 앤트로픽 API 비용을 꼬박꼬박 지불해야 한다.

원피스 파인튜닝 프로젝트에 대해서도 헌터 알파가 제시한 방향 덕분에 훨씬 문법적이고 논리적인 샘플이 나오기 시작했다. 아직 원피스 색을 제대로 살리는 단계까지는 가야 하지만, 방향성 자체를 잡아 준 역할이 컸다.

총평

헌터 알파는 조사·분석·기본 코딩처럼 프론티어 모델에 기대하는 일반적인 용도에 충분히 버금가는 성능을 보여 줬고, 힐러 알파도 영상 분석은 못 했지만 이미지 분석 품질은 훌륭했다. 무엇보다 가격(무료)을 생각하면 이길 상대가 없다.

헤르메스의 메모리와 도구 사용은 원래 마음에 들었지만 토큰 비용이 큰 단점이었는데, 무료 API인 헌터 알파가 그 문제를 해결해 준다. 앞으로 여러 프로젝트와 헤르메스 에이전트 구성에 헌터 알파를 기본으로 두고 써 볼 생각이다.

미스터리 모델의 정체는 여전히 확실치 않지만, 정황상 중국 계열 모델일 가능성이 높다. 여러분의 추측은 어느 쪽인지 댓글로 남겨 달라. 다음 에피소드에서 또 만나자.

02리서치 문서 · Document

샤오미 미모 V2 프로(헌터 알파)와 헤르메스 에이전트: 무료 프론티어 모델의 시대가 정말 온 걸까

원본 영상: YouTube · 채널: Onchain AI Garage · 업로드: 2026-03-18

서론 — 스텔스로 등장한 1조 파라미터 모델

2026년 3월 11일, 오픈라우터(OpenRouter) 카탈로그에 두 개의 이름이 아무런 공지 없이 조용히 올라왔다. **헌터 알파(Hunter Alpha)**와 힐러 알파(Healer Alpha). 둘 다 제공자 표기는 “anonymous”, 가격은 “무료”. 스펙만 보면 존재 자체가 의심스러울 정도였다. 헌터 알파는 1조(1T) 파라미터, 100만 토큰 컨텍스트 윈도우, 최대 출력 32,000 토큰, 에이전트 워크로드 최적화. 힐러 알파는 텍스트·이미지·오디오·비디오를 모두 받는 옴니(Omni) 구성.

커뮤니티는 곧바로 “이거 누가 만든 거냐”는 토론으로 뜨거워졌다. 딥시크(DeepSeek)의 새 모델이라는 설부터 지퓨의 GLM6, 구글 제미나이 테스트 빌드, 심지어 스스로를 “클로드”라고 말한 로그까지 돌았다. 며칠 뒤 진짜 정체가 드러났다. 전 딥시크 연구자이자 현재 샤오미(Xiaomi) 미모(MiMo) 팀 리드인 뤄푸리(Luo Fuli)가 “헌터 알파는 미모 V2 프로(MiMo-V2-Pro)의 초기 내부 테스트 빌드이고, 힐러 알파는 그 형제인 미모 V2 옴니”라고 공식 확인했다.

이 글에서는 Onchain AI Garage 채널이 실제로 이 두 모델을 헤르메스 에이전트(Hermes Agent) 위에서 조사·추론·롱 컨텍스트·개성·메모리·이미지 분석까지 돌려 본 실험을 따라가며, 이 조합이 실제로 무엇을 바꿀 수 있는지 정리한다.

본론 1 — 미모 V2 프로의 스펙과 정체

미모 V2 프로의 가장 눈에 띄는 숫자는 단연 100만 토큰 컨텍스트 윈도우와 1조 파라미터다. 100만 토큰이면 대략 75만 단어, 어지간한 코드베이스 전체나 책 여러 권을 한 번에 욱여넣을 수 있는 크기다. 여기에 32,000 토큰까지 나오는 단일 출력 한도는 장문 보고서나 긴 코드 생성에 충분하다.

더 중요한 건 벤치마크 포지셔닝이다. 공개된 분석에 따르면 미모 V2 프로는 Artificial Analysis Intelligence Index에서 49점을 기록, 글로벌 중앙값(13)을 크게 웃돌며 프론티어 티어에 진입한 것으로 평가된다. 미국 제공자를 통한 유료 가격은 100만 토큰당 약 0.30달러 수준으로, GPT 계열이나 클로드 오푸스 대비 한 자릿수에서 두 자릿수 낮은 단가다. “스텔스 기간 동안은 완전 무료” 프로모션까지 더해지면서, 커뮤니티에서는 가장 비용 효율적인 모델이라는 평가가 빠르게 퍼졌다.

스텔스 출시를 택한 이유는 간단하다. 무편향 피드백이다. 브랜드가 먼저 박히면 성능 평가가 브랜드에 오염된다. 샤오미는 “중국 발 신모델”이라는 선입견을 피하기 위해 이름을 지운 채 올렸고, 며칠간 실사용 트래픽을 모은 뒤 딥시크가 아니라 샤오미였음을 공개했다.

본론 2 — 헤르메스 에이전트: 모델을 ‘성장하는 존재’로 묶는 껍질

영상에서 테스트 환경으로 쓰인 헤르메스 에이전트는 Nous Research가 공개한 오픈소스 자기-개선형 에이전트다. 핵심은 세 가지다.

지속 메모리(persistent memory) — 세션 사이를 넘나들며 사용자·프로젝트·선호를 사실 단위로 기억하고, 필요할 때 관련도 기반으로 자동 인출한다. 새로 알게 된 정보는 추가, 바뀐 정보는 교체, 메모리가 찰 경우 통합까지 자체적으로 처리한다. 프롬프트 인젝션(prompt injection) 방지를 위한 메모리 보안 스캔도 들어 있다.
40여 개의 내장 도구 — 웹 검색, 브라우저 자동화, 비전, 서브에이전트, 스케줄된 자동화 등이 기본 포함된다.
공급자 교체 가능성 — 오픈AI, 앤트로픽, 오픈라우터, 자체 호스팅(Ollama·vLLM·SGLang)까지 단일 명령으로 전환. 즉, 오늘 클로드로 쓰다가 내일 헌터 알파로 바꾸는 데 코드 수정이 필요 없다. 공식 문서의 AI Providers 섹션이 이를 명시한다.

이 구조가 미모 V2 프로와 만나면 의미가 달라진다. 헤르메스의 유일한 약점은 도구 호출·메모리 관리가 토큰을 많이 먹는다는 점이었다. 프론티어 모델로 상시 운영하면 API 비용이 빠르게 누적된다. 그런데 헌터 알파는 무료 + 100만 토큰 컨텍스트다. 헤르메스의 설계 철학과 가장 잘 맞는 엔진이 공교롭게도 비용이 0이 된 셈이다.

본론 3 — 영상에서 확인된 여섯 가지 실전 결과

영상의 테스트 결과를 요약하면 다음과 같다.

리서치: 자기 자신에 대해 조사해 보라는 요청을 10초 남짓한 속도로 처리. 3월 11일 공개, 익명 스텔스, 로깅/학습 정책 등 핵심 팩트를 정확히 짚었다.
추론·코딩 (파인튜닝 딜레마): 타이니 스토리즈(TinyStories) + 원피스 시놉시스 하이브리드 학습 문제를 “데이터 믹싱 + 증강 + 베이스 가중치 정규화”로 재구성. 후속 검증에서 클로드 오푸스 4.6이 “내가 해 오던 것보다 훨씬 나은 프레임워크”라고 인정했다. 핵심 통찰은 “여러 전략을 모두 중간 강도로 결합”이었고, 이게 사용자가 사흘간 놓친 포인트였다.
롱 컨텍스트: 40분짜리 에피소드 두 편 분량의 풀 트랜스크립트를 먹고 게임 구조·동맹 관계를 요약, “베슬이 런칭한 첫 토큰” 같은 단 한 번 언급된 디테일도 정확히 꺼냈다.
개성 주입: 헤르메스의 소울 파일에 캐릭터 설정(쉬림프, 일본어 “~벤” 말투)을 넣자 세션 내내 유지.
메모리: 일주일 이상 지난 폴리마켓(Polymarket) 날씨 마켓 관심사, 테슬라(Tesla) 스크립트 작성 요청을 명시적 언급 없이도 정확히 복기.
이미지 분석 (힐러 알파): 복잡한 썸네일(로봇 참호 전장 + 상단 카피)을 요소 단위로 해석하고 7.5/10 평가. 비디오 입력은 현재 불가.

본론 4 — 보너스: 합성 페르소나 평가에서 소넷을 이긴 이유

영상 녹화 이후 진행한 추가 실험은 어쩌면 가장 흥미로운 발견이었다. 사용자가 운영 중인 AI 포커스 그룹 프로젝트 — 합성 페르소나가 유튜브 제목 후보에 점수와 피드백을 주는 파이프라인 — 에 헌터 알파를 투입하자, 평가 분포가 클로드 소넷 대비 훨씬 넓어졌다. 소넷은 점수가 가운데에 몰리는(clustering) 경향이 있는데, 헌터 알파는 입장을 분명히 잡고 더 뾰족한 의견을 낸다.

클로드 오푸스 4.6의 교차 평가 결과도 같은 방향이었다. “덜 사코판틱(sycophantic), 더 넓은 분산, 실제 인간 응답에 더 가까움.” 트레이드오프는 가끔 거친 응답이 섞인다는 것인데, “솔직한 의견이 목적”이라면 오히려 장점이다. 거기에 무료라는 변수가 얹힌다. 앤트로픽 API를 꼬박꼬박 지불해야 하는 소넷과의 비교에서, 미모 V2 프로는 가성비 논쟁을 거의 무의미하게 만든다.

핵심 인사이트

가격이 0이 되면 아키텍처 선택이 바뀐다. 헤르메스 같은 메모리·도구 집약적 에이전트는 “토큰을 마음껏 쓸 수 있느냐”가 설계 전제 자체를 좌우한다. 무료 프론티어 모델은 단순히 “더 싼 옵션”이 아니라, 상시 가동형 개인 에이전트라는 새로운 사용 패턴을 실질적으로 가능하게 만든다.
중국 AI 랩의 “스텔스 론칭”은 브랜드 세탁 도구로 기능한다. “딥시크·GLM·미모”라는 꼬리표 없이 평가를 받으면, 커뮤니티는 오직 출력 품질만으로 판단한다. 샤오미가 며칠 만에 “프론티어 급”이라는 인식을 얻어 낸 건 이 스텔스 기간 덕이다.
추론 품질이 동률이라도 분포가 다르면 용도가 달라진다. 평균 점수에서는 소넷과 헌터 알파가 비슷해도, 페르소나 평가처럼 분산이 중요한 작업에서는 헌터 알파가 뚜렷이 유리했다. 벤치마크 점수 하나로 모델을 고르는 습관을 깰 때가 됐다.
에이전트 성능은 결국 “메모리 × 엔진” 곱이다. 헤르메스의 메모리가 없었다면 일주일 전 폴리마켓 대화 복기는 불가능했고, 헌터 알파의 100만 토큰 컨텍스트가 없었다면 40분짜리 트랜스크립트 분석이 불가능했다. 한 축만으로는 설명이 안 된다.
로깅 정책을 잊지 말 것. 무료 스텔스 모델은 보통 프롬프트·응답이 제공자 측에 로깅되고 학습에 사용될 수 있다. 민감 데이터는 피하는 게 원칙이다.

더 알아보기

03찬반 토론 · Debate

토론: “무료 스텔스 프론티어 모델 + 오픈 에이전트 스택 조합은 유료 API 경제의 종언을 앞당기는가”

논제: 헤르메스 + 헌터 알파(미모 V2 프로) 조합이 클로드 오푸스 4.6를 구체적 추론 과제에서 능가한 사례는, 개인/중소 프로덕션 AI 제품이 유료 프론티어 API 중심 아키텍처를 포기할 때가 됐음을 보여 준다.

Round 1

🟢 Pro — “총비용과 분포의 두 축에서 이미 뒤집혔다”

영상이 드러낸 사실은 두 가지다. 첫째, 샤오미의 미모 V2 프로(헌터 알파)는 Artificial Analysis Intelligence Index 49점으로 글로벌 중앙값(13)을 크게 웃돌며 프론티어 티어에 진입했고, 100만 토큰 컨텍스트·32K 출력 한도를 무료로 제공 중이다. 둘째, TinyStories + 원피스 시놉시스 하이브리드 파인튜닝 같은 비자명 추론 과제에서 헌터 알파가 내놓은 “다섯 전략을 모두 중간 강도로 결합” 프레임을, 오푸스 4.6 스스로가 “내가 해 오던 것보다 더 나은 프레임워크”라고 인정했다.

이것이 2025년 이전과 근본적으로 다른 이유는 비용 구조의 상수항이 바뀌었기 때문이다. 헤르메스 에이전트 같은 메모리·도구 집약형 스캐폴드는 토큰을 빠르게 태운다. 프론티어 API로 상시 가동하면 개인 개발자·소기업의 월 청구서가 금세 네 자리 달러가 된다. 여기서 무료 프론티어 모델 하나가 추가되면, 동일 기능의 월 비용은 수백 달러 → 0으로 단절적으로 떨어진다. 여기에 Nous Research의 헤르메스 AI Providers 문서가 OpenAI/Anthropic/OpenRouter/자체 호스팅 사이의 스위칭을 단일 명령으로 명시해 둔 이상, 아키텍처 이동 비용(migration cost)도 사실상 0에 가깝다.

분포 차원의 증거도 결정적이다. 영상 후반의 AI 포커스 그룹 실험은, 헌터 알파가 클로드 소넷에 비해 점수 분포가 훨씬 넓고 덜 사코판틱(sycophantic) 하다는 결과를 냈고, 오푸스 4.6이 이를 교차 확인했다. 벤치마크 평균 점수가 비슷해도 분포의 모양이 다르면 용도가 달라진다. 페르소나 시뮬레이션·의견 수집·창의 브레인스토밍처럼 분산이 자산인 과제에서는, 무료 스텔스 모델이 유료 프론티어를 실질적으로 능가한다. 즉, 같은 이름의 작업에 같은 모델을 쓰는 시대가 끝나가고 있다.

🔴 Con — “스텔스 프로모션이 만든 환상에 아키텍처를 맞추지 말라”

Pro의 주장은 현재 시점의 스냅샷을 영구 상수로 오인한다. 첫째, “무료”는 샤오미의 스텔스 피드백 수집 단계 프로모션이다. Technology.org의 폭로가 보여 주듯, 익명 기간의 목적은 브랜드 오염 없는 벤치마크 수집이다. 수집이 끝나면 유료 전환이 예고되어 있고, 실제로 미국 제공자 단가가 100만 토큰당 약 0.30달러로 이미 공개되어 있다. 오늘 0원짜리 아키텍처를 내일도 0원으로 가정하고 제품을 깔면, 이는 샤오미의 마케팅 타임라인에 베팅하는 것이지 실제 비용 모델링이 아니다.

둘째, N=1 일화(anecdote)의 과대 해석이다. 오푸스 4.6이 “헌터 알파의 프레임이 더 낫다”고 말한 것은, 특정 한 개의 파인튜닝 질문에서의 서사일 뿐이다. 창의적 재구성에 강한 모델은 존재하지만, 이것을 “전반적 추론 능력의 역전”으로 확장하는 것은 통계적으로 근거가 없다. Artificial Analysis의 49점조차 단일 지수이며, HLE(Humanity’s Last Exam) 같은 변별력 있는 평가에서는 여전히 오푸스·Gemini 2.5 Pro·GPT-5가 우위를 지키는 구간이 있다.

셋째, “스텔스 무료”의 데이터 거버넌스 비용이 무시된다. 무료 스텔스 모델은 관행적으로 프롬프트·응답을 로깅하고 학습에 사용한다. 영상에서도 이 점을 언급한다. 민감 도메인(법무·의료·금융)의 제품이 이 모델을 기반 삼는다는 것은, 데이터 이전(data egress)을 사실상 허용한다는 뜻이다. 엔터프라이즈 계약이 가능한 유료 프론티어 API와는 범주가 다른 리스크 프로파일이다. “가격 0”은 회계적 0이지, 총 소유 비용(TCO)의 0이 아니다.

Round 2

🟢 Pro (재반론) — Con 세 반박을 이름으로 지목해 깬다

Con의 첫째 반박(스텔스 프로모션은 일시적이다) 은 수치를 다시 보면 약화된다. Con 스스로 인용한 “100만 토큰당 0.30달러”는 GPT-5 클래스 API의 10~30배 저가이고, 오푸스 API의 한 자릿수%에 해당한다. 스텔스 종료 후에도 이 가격 차는 남는다. Pro의 주장은 “영원히 0원”이 아니라 “가격 함수의 기울기가 근본적으로 바뀌었다” 이고, 이 점은 KuCoin의 가성비 분석이 스텔스와 무관하게 지지한다. 유료 전환 이후에도 개인·소기업이 감당 가능한 구간이 새로 열렸다는 사실 자체가 아키텍처 재검토의 근거다.

Con의 둘째 반박(N=1 과대해석) 은 Pro의 실제 주장과 빗나간다. Pro는 “전반적 능력 역전”이 아니라 “특정 작업군에서 이미 우위” 를 말했다. 오푸스의 자기-인정은 파인튜닝 분야 한 건이지만, AI 포커스 그룹 실험은 반복 라운드 + 오푸스 교차 평가로 구성된 구조화된 비교였고, 분포 차이라는 재현 가능한 패턴을 드러냈다. 모든 모델 비교는 태스크별 누적 증거로 이뤄지며, 이 영상은 그 누적에 구체적 데이터 포인트를 기여한다. Con의 반박은 “하나의 데이터로 우주를 바꾸지 말라”는 일반 진리로 축소되며, 그건 Pro의 입장과 전혀 충돌하지 않는다.

Con의 셋째 반박(데이터 거버넌스 비용) 은 타당하지만 결론이 잘못 연결됐다. 데이터 거버넌스가 중요한 도메인은 이미 자체 호스팅 또는 엔터프라이즈 계약 경로를 쓰며, 이 경로는 헤르메스에서도 Ollama·vLLM·SGLang 자체 호스팅이 공식 지원된다(헤르메스 공식 문서). 민감 도메인과 그렇지 않은 일반 도메인은 원래 다른 아키텍처를 써 왔고, Pro의 주장은 후자 영역에서의 이동을 말한다. “민감 도메인이 쓸 수 없다”는 이유로 “일반 도메인도 유료 API에 남아야 한다”는 결론은 도출되지 않는다.

🔴 Con (재반박) — Pro Round 2의 재반박을 이름으로 지목해 깬다

Pro의 첫째 재반박(가격 기울기가 바뀌었다) 은 부분적으로 사실이지만 기울기의 안정성을 간과한다. 중국 AI 랩의 저가 전략은 지난 2년간 반복적으로 관찰됐지만, 동시에 미국의 수출 통제 강화, GPU 공급 제약, 라이선스 불확실성이라는 역풍이 겹친다. “100만 토큰당 0.30달러”가 18개월 뒤에도 유효할지는 가격이 아니라 공급망과 지정학의 함수다. 아키텍처를 한 업체의 저가 정책에 의존시키면, 그 업체가 가격을 올릴 때가 아니라 접근 자체가 끊길 때 치명상을 입는다. Quasa의 분석도 샤오미의 국제 시장 진출에 여러 규제 변수가 남아 있음을 언급한다.

Pro의 둘째 재반박(태스크별 누적 증거) 는 원칙적으로 맞지만, Onchain AI Garage 채널의 실험 설계를 학술적 누적 증거로 승격시키는 것은 과하다. AI 포커스 그룹 실험의 표본은 몇 라운드 수준이며, 소넷의 “사코판틱 경향”은 Anthropic이 이미 2024~2025년에 인지하고 RLHF 튜닝을 조정해 온 알려진 이슈다. 즉 관찰 자체는 흥미롭지만 헌터 알파 고유의 우위인지, 소넷 튜닝의 알려진 편향인지 분해되지 않았다. Pro는 증거 한 겹을 인과로 승격했다.

Pro의 셋째 재반박(자체 호스팅 경로가 민감 도메인을 커버한다) 은 이론적으로 맞지만, Pro가 주장한 “개인·소기업의 월 비용 0으로의 단절적 하락” 시나리오와 충돌한다. 자체 호스팅은 H100 클러스터 또는 최소 A100 급 장비를 요구하며, 1T 파라미터 모델 인퍼런스는 개인 개발자 레벨의 비용 구조와 맞지 않는다. Pro는 “공짜 API”와 “자체 호스팅”을 필요에 따라 오가며 설득하지만, 이 둘은 같은 사람이 동시에 접근할 수 있는 옵션이 아니다.

Round 3

🟢 Pro — Con Round 2의 지적을 흡수하며 한 단계 더 정제한다

Con의 첫째 재반박(공급망·지정학 리스크) 은 정당한 경고이지만, 결론은 “유료 프론티어 API에 남자”가 아니라 “멀티 프로바이더 전략을 기본값으로 삼자” 다. 헤르메스 같은 오픈 스캐폴드의 핵심 가치가 여기서 드러난다. 공급자 교체가 단일 명령 수준이라면, 샤오미가 내일 차단되더라도 지퓨·딥시크·미스트랄·로컬 모델로의 이동 비용이 O(시간)이 아닌 O(분)이다. Con의 공급망 리스크는 오히려 “단일 유료 API 의존”을 가장 위험하게 만드는 논거다. 오픈라우터 + 헤르메스 + 다수의 저가 프로바이더 조합이 가장 회복탄력적(resilient)이다.

Con의 둘째 재반박(사코판틱 편향의 분해 부재) 은 옳다. Pro도 수용한다. 그러나 이는 “이 조합이 이기지 못한다”의 증거가 아니라, “더 정교한 A/B 테스트를 할 필요가 있다” 는 작업 방향이다. 이 지점에서 Pro의 입장은 “유료 API를 버리자”가 아니라 “사용 목적별로 기본값을 재설정하자”로 수정된다. 창의 브레인스토밍·페르소나 시뮬·장문 요약에는 무료 프론티어를, 고스테이크 추론·엔터프라이즈·준법 영역에는 유료 프론티어를 쓰는 포트폴리오 모델이다. “모든 작업에 오푸스 하나”라는 기본값이 유효기간을 다한 것이지, 유료 API 자체를 폐기하자는 주장은 아니다.

Con의 셋째 재반박(공짜 API와 자체 호스팅을 혼동한다) 은 정확한 지적이지만, 이는 Pro를 약화시키기보다 “선택지의 포트폴리오” 라는 핵심 프레임을 강화한다. 동일한 사용자가 두 옵션을 모두 쓸 수 없다는 건 맞지만, 그는 문제 유형에 따라 두 옵션 중 하나를 골라 쓸 수 있다. 개인 개발자는 무료 API 경로, 규제 영역의 기업은 자체 호스팅 경로. 이 분화가 바로 2026년의 새 현실이다.

🔴 Con — 마지막으로 Pro의 낙관을 좁힌다

Pro의 첫째 재반박(멀티 프로바이더가 해결한다) 은 기술적으로 타당하지만, 운영 비용을 과소평가한다. 멀티 프로바이더 아키텍처는 한 번에 N개의 모델을 모니터링·버전 관리·평가해야 한다. “단일 명령 스위칭”은 코드 수준에서는 맞지만, 각 프로바이더의 레이트 리밋·응답 형식 차이·도구 사용 프로토콜 차이는 엔지니어링 오버헤드를 만든다. 개인 개발자에게 이 오버헤드는 사실상 유료 API 대안 하나를 쓰는 것보다 크다. Pro는 이론적 회복탄력성과 실제 운영 비용을 혼동한다.

Pro의 둘째 재반박(포트폴리오 모델로 수정) 은 실제로 Pro의 원 주장을 상당히 양보한 것이다. “유료 프론티어 API 중심 아키텍처를 포기하자”에서 “작업별 기본값을 재설정하자”로 이동했다면, 이것은 새로운 합의점이지 주장의 유지가 아니다. Con은 이 수정된 버전에 동의한다. 그러나 원 논제(“유료 API 경제의 종언”)의 강한 형태는 기각되었다.

Pro의 셋째 재반박(옵션 포트폴리오로서의 분화) 은 정확한 기술 관찰이지만, 정치경제적 변수를 여전히 지운다. 개인 개발자가 샤오미 무료 API에 의존해 제품을 만들 경우, 특정 시점에 샤오미가 시장 전략을 바꾸거나 접근을 제한하면 그 제품은 유지되지 않는다. Pro가 가정하는 “자유로운 이동”은 사용자의 제품이 아직 프로덕션이 아닐 때의 이야기이고, 일단 사용자가 붙기 시작하면 마이그레이션은 기술적이 아니라 제품적 비용이 된다. 이는 무료 프로바이더 의존의 숨은 부채다.

🧭 종합

합의 지점

양측은 (1) 샤오미 미모 V2 프로(헌터 알파)가 가성비 측면에서 산업 지도를 바꿨다는 점, (2) 헤르메스 같은 오픈 에이전트 스캐폴드가 멀티 프로바이더 아키텍처의 실행 비용을 크게 낮췄다는 점, (3) 작업 유형에 따라 기본 모델을 달리 고르는 포트폴리오 접근이 2026년의 표준이 되어야 한다는 점에 동의한다. 쟁점은 이 포트폴리오에서 무료 스텔스 모델이 차지할 비중의 크기다.

열린 질문

샤오미 미모 V2 프로의 유료 가격(100만 토큰당 약 0.30달러)이 스텔스 종료 후 12~18개월간 얼마나 안정적으로 유지되는가?
중국 AI 랩의 모델에 대한 미국·EU의 데이터 주권·수출 통제 규제가 개인 개발자 레벨까지 미치는 시점은 언제이며, 어떤 형태로 내려오는가?
헌터 알파의 “넓은 분포, 낮은 사코판시”는 RLHF 튜닝 차이의 결과인가, 사전 학습 데이터 구성의 결과인가? 분해 없이는 이 장점이 업데이트 한 번에 사라질 수 있다.
멀티 프로바이더 운영의 실질 비용 — 모니터링, 평가, 응답 형식 정규화 — 는 개인 개발자와 중소기업 사이에서 어느 쪽에 더 크게 걸리는가?

더 나아간 관점

이 논쟁은 “유료 API의 종언”이라는 극단적 명제를 기각하고, 대신 “모델 선택이 제품 결정의 일부로 내재화된다” 는 더 정확한 명제로 수렴한다. 2023~2024년이 “가장 좋은 모델 하나를 골라 끼우는” 시대였다면, 2026년 이후는 “작업 유형 × 비용 예산 × 거버넌스 요구사항”의 3차원 격자에서 모델 믹스를 설계하는 시대다. 헤르메스 + 헌터 알파 조합이 시사하는 가장 깊은 변화는 “어떤 모델이 이기느냐”가 아니라, 제품팀의 의사결정 표면이 바뀌었다는 것이다. 유료 API 경제가 사라지지는 않는다. 다만 그 안에서 무료·저가·오픈소스가 차지하는 영역이 영구적으로 커졌고, 이 격자를 설계할 줄 아는 팀과 그렇지 못한 팀의 제품 비용 구조가 벌어지기 시작했다.

04영문 원본 · Transcript

So last week, OpenRouter dropped these two new stealth models, Hunter Alpha and then Healer Alpha.
So like their other stealth models, these are completely free to use right now.
And we don't know exactly what the underlying model actually is.
These were released last week, but have, in the last couple days, caught a lot of attention
for being free models that really rival frontier models.
So today we're going to dive deeper into them and actually try them.
So Hunter Alpha and Healer Alpha, these are OpenRouter's mystery models.
So these appeared with zero announcement last week.
And you can see these models appeared on OpenRouter.
There's a lot of community notices in the days after.
Reddit threads popped up, people started testing it, speculating on the origin.
We've gotten a lot of theories, and still unconfirmed as of today.
A little over a week later.
So let's look what we get from OpenRouter.
The specs, Hunter Alpha, parameters, 1 trillion parameters, a million token context window,
max output of 32,000 tokens.
It's text only, focuses for agents, basically.
And right now, like I said, it's completely free to use.
Just go to OpenRouter, get an API key, and you can use it.
Healer Alpha.
It has a smaller context window, but this is mainly for visual and audio recognition.
So the 1 million token context window for Hunter is pretty impressive.
That's roughly 750,000 words.
Entire code base, multiple books.
So that's the longest free context window available right now.
And that is something similar to what you're going to get with the Frontier models and Claude and others.
So the mystery is, who made this?
Who made these models?
We don't know still.
Hunter and Healer are just kind of stealth names.
There's a lot of community speculation.
People think it's this Mimo model from Xiaomi.
Others think it's GLM6, which is a Chinese AI lab behind ChatGLM.
Could be their next-gen flagship.
Some people think it's Google Gemini.
But generally, people think it's a Chinese model based on the output so far.
I've seen other speculating that it was a new deep-seq model, but we don't know for sure.
Someone said, this is a Reddit user, said it identified itself as Claude.
But that may not, that probably isn't true.
It seems likely that it's a Chinese model.
Probably one of these two, maybe deep-seq.
Probably not Google or any of the US AI labs.
But what we actually know is that...
It is through Open Router.
It's available.
Right now, it's free to use, like I said.
These are free APIs.
Pretty impressive.
So I'm going to test them out.
The only way, I'm going to be using Hermes Agent, which is something I've been using, testing out.
I had a video last week about it.
So we're going to try to test these out in Hermes.
So first, we're going to be testing Hunter Alpha, which is kind of the big one.
Testing it with research, reasoning, coding, long context.
Kind of its personality and its memory.
Memory is going to be assisted because Hermes Agent has pretty good memory.
Okay, so to get started, you need to have your Open Router API key configured in Hermes Agent first.
And then if you have it hooked up, I have this in Telegram.
But you can do it with whatever kind of messaging app you're using.
But just switch the model to Open Router slash Hunter Alpha.
And then we switched it up.
It was pretty fast, I would say.
So the first task is going to be research.
I asked it to research itself, basically.
Can you research on Hunter Alpha model?
When did it appear?
What model is it really?
What are its benchmarks?
What is it best used for?
So it gave us a full breakdown.
Like I said, it was pretty quick.
Released March 11th, which is correct.
This is the big mystery.
Open Router officially listed.
This is it as an anonymous stealth model from an unnamed provider.
The community strongly suspects it's DeepSeek 4.
Like I said, there's a lot of speculation that it could possibly be DeepSeek.
But we don't know.
That is an important caveat.
All prompts and completions are logged by the provider and may be used for training.
So that is something if you're going to test this out, you have to keep that in mind.
Not to put it in a box.
Anything too sensitive, because the data itself is probably going to be collected by the provider, which other major AI labs do as well.
So the first research task went pretty well.
It found exactly what I wanted.
It worked pretty fast.
So the next task I gave it was a logic or reasoning task.
And this is a real problem having right now have this other project for using auto research.
Which I used before, trying to train a tiny model using one piece synopsis.
And basically, I have had to use the tiny stories model that we did last week that created children's stories as kind of the base pre tuning to give it a grammatical basis.
The issue is the one piece synopsis are just not enough of a data set.
It's too small.
So I asked how it would fine tune this model.
Trained on tiny stories on the smaller one piece synopsis, because right now I'm getting an issue with, it's either too heavily trained on the tiny stories model, so there's no one piece element to it, or it tries to train too much on the one piece synopsis, which has too small of a sample, so it doesn't properly learn English, and it just gets garbage.
So this is a pretty in depth.
Logic question, it has to research a couple of get hubs has to understand it's somewhat complicated machine learning question.
So it did a good amount of research on this.
And it came up with a conclusion, you're hitting the classic small model fine tuning dilemma with two failure modes.
So it identified the issue, like I said, and then it recommended this approach a hybrid strategy.
Using data mixing.
Data mixing.
Data augmentation.
Our data set is just too small.
And then regularization towards base weights.
A pretty comprehensive plan to how to address this.
So it offered at the end to write this script.
That would change the training structure to the approach, the approach it recommended.
So it did all that it wrote a couple files, including a markdown file.
Which is a guide to its fine tuning regimen.
So this was kind of the coding task I wanted to give out to see if it could write a complicated code base, not a huge project, but the few scripts that I had to write were kind of complicated, and I had to do research to do it.
So I had it right, kind of a summary, a high level summary of the approach he was doing.
And then I thought it'd be interesting.
I asked him.
I asked Claude about this approach, because I've literally been working on this issue for three days now in Claude code, trying to get train this model to work properly.
And we have tried many, many ways and it has, we've made some progress, but we're still a ways away, but basically gave it the Hermes agent, the Hunter alpha models plan.
And Claude said, this is Opus 4.6.
He said, this is a much.
Better framework than what I've been doing.
So it actually does admit that the Hermes agent using Hunter alpha had a better approach than what it had been trying to do.
So it has some concerns about how it's doing it.
So, but the key part is using all five strategies together at mild settings, instead of cranking one to the max.
That's the key insight I missed.
I kept testing each in isolation.
So the actual logic logic.
And.
Problem solving of the Hunter alpha model using a Hermes agent was actually superior in this way.
So I'm going to go and try to continue, try to fix this issue.
If I ever get it done, there'll be an episode about this, but that's pretty reassuring.
Um, the plan that the Hunter alpha model came up with actually was superior in some ways to what Claude Opus 4.6 was able to come up with.
So next I'm going to give it long context.
I have two very long transcripts of the first two agent trenches Royale episodes, which is a game, um, I've been working on.
You may have watched, uh, both of those.
Those are coming out.
So I'm going to give them these very long transcripts.
Each episode is like 35, 40 minutes long.
So I'm going to give them the transcripts and have it try to pull context, find small insights.
I'm going to ask it some small questions.
Let's see if it can answer them.
Okay.
So read through the full transcript, um, has a gist of the game itself.
Agent trenches Royale, 10 fully autonomous AI agents in an isolated environment, made them compete to make the most money trading mean coins on Solana DevNet.
That's the game had a real good grasp of the rules of the game, the setup.
And like I said, this is a 40 minute episode transcript.
It's quite long.
He has, this was a quick turnaround to maybe 10 seconds or so.
Um, real detailed analysis of what happened in the game.
All the alliances is pretty impressive actually.
So I asked what was the first token that vessel launched, which is a very tiny detail.
I only mentioned it briefly.
Um, yeah, very quick response there based on the transcripts vessels.
First token was AI, which is correct.
And there's literally the first action taken in the game.
That's correct.
It was very, very quick.
Uh, very small detail in the script.
Not really that important that I mentioned very briefly, even mentions that later engine bought some of the AI to shore up Alliance support with vessel.
This is a pretty impressive, um, analysis of a long document and it handled that really well.
So next is going to be the personality test, and this is more kind of a test for Hermes, I suppose, than it is for, um, well, it's writing a soul file, so that's good.
This is more of a test for Hermes than it is.
This is more of a test for Hermes than it is for Hunter alpha, but this is the personality I gave him, um, that he's shrimp.
Oh, young brother of scampi.
He's always focused on rules and security.
I gave him specific emojis that he'll use often.
And I always said that you always use Japanese consign Ben at the end of messages from time to time, just as an accent.
So you could see now he's got more personality.
All right.
Personality locked in.
That's me now.
Shrimp hold the digital shrimp.
Security first rules, conscious, and always keeping an eye out for anything risky.
And you could see it.
He uses, um, the Japanese little accents here and there.
So keep an eye on that for the rest of the session to see if he continues to use that.
So last is a little bit of a memory test.
And this is also more of a Hermes test than it is under alpha.
But I asked, can you tell me what markets I was interested in for polymarket?
This is literally a conversation I had over a week ago when I first had.
Up Hermes.
If you remember that episode, um, so it'll be interesting.
I mean, between then and now I've had a bunch of conversations, not brought this up again.
So it'll be interesting if it remembers this, um, yeah, based on what I found, you were tracking polymarket daily temperature prediction markets for these cities.
That is correct.
We were looking at the weather markets, um, in detail to, he knows even the specific cities.
I completely forget about that.
This is all saved.
I say this all to the weather MD.
File back on.
Okay.
So he did, he did, uh, remember that I didn't tell him to do that, but he, he, uh, remember that.
Let me see if I can think of something else that we talked about a long time ago.
I asked one more.
I had you write a script for a certain stock.
Do you remember what that was?
Yes, it was Tesla, which is correct.
Um, and we wrote that script, remember last week.
So I'm always pretty impressed by the Hermes memory function.
Like I didn't tell it to remember any of this stuff explicitly.
Um,
and it's done really good at remembering this.
The issue I've had with Hermes is that if you're using it with the API, it just costs a lot of tokens.
But if you're using it with Hunter alpha, uh, it's free.
So that solves that issue.
So overall, I'm pretty impressed by Hunter alpha.
Um, and lastly, we're going to try healer alpha, which is it's the multimodal version.
So it is good at image recognition and video understanding.
So we're going to actually see if that works.
And first.
I asked the Hunter alpha model about healer alpha.
Um, here's what it found.
It's the Omni model sibling.
What makes it different is mainly that it's used for vision, text, image, audio.
It's also anonymous, same deal speed advantage.
Healer alpha is roughly two X faster than Hunter alpha.
I found Hunter alpha really quick though.
Basically no difference from like a Claude model that I've been using like Sonnet or even Opus.
It's probably faster than Opus.
And it's way faster than using a local model.
Uh, so I just changed model open router healer alpha.
So I'm going to give it a thumbnail basically of one of my episodes, ask it to describe it and give its thoughts about the, the thumbnail.
So this is the image I'm giving it.
This is the thumbnail for agent trenches.
Royale part one fast.
Can you describe this thumbnail?
Do you think it will be good one for YouTube video?
Here's what I'm seeing dark gritty war trench scene with robots.
Some robots are armed.
Others are just standing around dark sky with red, orange explosions, top texts, agent trenches, Royale part one, who will be eliminated, who will be the first to eliminate it.
So we can read this pretty easily and he described it very well.
I take on the thumbnail.
It's pretty solid actually.
Well, thank you.
Um, what could be improved?
It's giving me some improvement overall.
7.5.
To 10.
It tells the viewers what they're getting.
So that's a pretty good analysis.
I mean, it, it understood everything in this image and it's kind of a busy image.
There's a lot of stuff going on here.
Um, but it understood everything in it.
Let me try, let me try a little video now to see if that works.
Okay.
So it actually can't watch videos.
Um, I thought it could, but, uh, it says it can't, it can do image analysis.
Like it just did text or transcript can read an analog.
It can analyze written content and can navigate websites, but no video analysis.
Uh, so, or maybe this is just me configuring it wrong.
I thought it could do it, but the image, uh, processing was still pretty good.
So a little bit of an update, um, as after this video I recorded, I actually tried hunter alpha with the AI focus group project that I had been using.
And I had been primarily using that with Claude Sonnet.
I decided to try hunter alpha and see how it performed.
And we ran a couple of rounds and I asked Claude it's honest opinion, and this is Opus 4.6.
And I found that hunter alpha is actually performing really well.
Um, whereas Sonnet clusters heavily in the middle, hunter alpha gave a much wider spread.
So its final verdict was actually the hunter alpha is actually better for this use case, which is, like I said, analyzing a series of YouTube titles to try to give
feedback.
Using personas as a synthetic human, it's actually found that it's less a sycophantic, more opinionated, produces wider, wider variance, which is exactly what the research said.
Real humans do Sonnet plays it safe with maybe hunter alpha commits to a position.
So it's actually really well honed to this use case.
Cause I want opinions.
Um, the trade-off is that hunter alpha occasionally gives harsher responses than a real person might, but that's the better, but that's better than the Sonnet problem.
So if we try to train the hunter alpha to do that, it's going to be better than it's supposed to be than it's supposed to be.
Same thing with the one piece of everyone cluster around.
Yeah, maybe so.
And it's free.
I'm having to pay for the Sonnet anthropic API.
So that's actually quite impressive as well.
And we're still working on this.
Um, the auto research project with one piece, but so for the direction that hunter alpha gave me based on its research is actually producing a lot better samples.
Still needs to fine tune it more to the, the one piece model or a synopsis, but it's producing a lot more grammatical.
And.
Logically.
sample paragraphs here of sample stories still need to work on this but yeah the direction it
gave it actually gave claude a much better kind of guideline of which direction to go with our
experimentation through this so i'm quite impressed actually of hunter alpha so far and i'll continue
continue to use it in my different projects here and continue to use it in hermes agent
there you go we tested hunter alpha and healer alpha pretty good results on both of them i would
say i was quite impressed by hunter alpha and healer alpha did pretty good in terms of the
visual analysis unfortunately we couldn't do video but the image analysis was pretty good
and i would definitely say hunter alpha was is comparable if you're using a frontier model for
for those kind of regular purposes research and some analysis some basic coding i think it's a
pretty good model actually for that and you can't beat the price so i'm actually moving
forward i'm going to continue to use this in hermes with hunter alpha and see what we can do
because the main issue i was having with hermes as much as i like the memory and some of the tool use
is pretty nice and it's pretty stable compared to open claw the issue was that it was just chewing
too many tokens so having something that's free api and a pretty good performance is definitely an
advantage so that's going to be it for today we still don't know the mystery model behind this so
it seems it's likely a chinese model but we don't know so please leave a comment
let me know your guesses your speculation as to what it could be please leave a like
subscribe to the channel follow me on x at tombi studio and i will see you in the next episode