First Look at GLM-5V-Turbo: Coding from Screenshots!
▶ YouTube 원본01한국어 번역 · Korean
GLM-5V-Turbo 첫인상: 스크린샷만 보고 코드를 만들어내는 비전 에이전트
원본: https://www.youtube.com/watch?v=VkMQ3LrMvcU · 업로드: 2026-04-01 · 길이: 11m · 채널: Onchain AI Garage
들어가며: Z.AI의 새 모델, GLM-5V-Turbo
중국 최초의 상장 AI 기업인 Z.AI(Jipu AI/지푸 AI)가 새로운 모델 GLM-5V-Turbo를 공개했습니다. GLM 계열은 이미 꽤 인기 있는 오픈 모델군이고, GLM-5는 범용 플래그십(flagship) 역할을 하고 있지만, 이번 5V-Turbo는 그와 결이 조금 다릅니다. 가장 큰 특징은 에이전트 우선 설계(agent-first design) 라는 점입니다. 채팅 모델 위에 도구 사용을 억지로 붙인 형태가 아니라, 처음부터 자율 에이전트(autonomous agent) 워크플로를 위해 학습된 모델입니다. 특히 OpenClaw나 Hermes Agent 같은 에이전트 프레임워크에 최적화되어 있습니다.
또 다른 핵심은 비전(vision)과 에이전트가 하나로 통합되어 있다는 점입니다. 이미지를 네이티브(native)로 처리하기 때문에 스크린샷, 다이어그램, 차트, 손글씨까지 읽고 추론(reason)해서 거기에 근거해 실제 행동(action)까지 이어갈 수 있습니다.
가격과 포지셔닝
가격도 흥미롭습니다. 공개된 벤치마크(benchmark)를 보면 GLM-5V-Turbo는 대부분의 멀티모달(multimodal) 과제에서 Claude Opus 4.6을 앞섭니다. 순수 코딩 벤치마크 몇 개에서는 여전히 Opus가 우세하지만, 전반적으로 경쟁력이 있고 무엇보다 훨씬 쌉니다. 발표자가 사용하는 OpenRouter 기준으로 약 50~60% 저렴하며, GPT-4o보다도 50~60% 싸고, Claude Opus 대비로는 거의 90% 이상 저렴한 수준이라고 합니다.
이 정도 가성비라면 어떤 용도에 적합할까요? 발표자는 다음 같은 사용 사례를 꼽습니다.
- 스크린샷(screenshot)을 받아서 거기서 코드 생성
- 모바일/안드로이드 자동화(automation)
- 웹 브라우징 에이전트(web browsing agent)
- 비주얼 검색(visual search)과 도구 사용(tool use)
- 요컨대 에이전트가 “보고” 동시에 “행동”해야 하는 모든 워크플로
그동안 OpenClaw 같은 에이전트를 써서 코드를 짜게 할 때 가장 큰 한계는 “에이전트가 화면을 제대로 못 본다”는 점이었는데, 바로 그 틈을 노린 모델입니다.
테스트 환경: Hermes Agent + OpenRouter
발표자는 텔레그램(Telegram)에서 돌리는 자신의 Hermes Agent, 이름하여 “Shrimple”을 통해 테스트를 진행합니다. 모델은 OpenRouter에서 Z.AI GLM-5V-Turbo로 교체했습니다. 인사를 건네자 에이전트는 평소 성격 그대로 일본어 표현과 특유의 이모지를 섞어 응답합니다. 모델 교체 후에도 에이전트의 “캐릭터성”을 잘 유지한다는 점이 먼저 눈에 들어옵니다.
테스트 1: 벤치마크 스크린샷 요약
첫 번째 과제는 앞서 보여준 Z.AI 공식 벤치마크 표 스크린샷을 그대로 던져주고 요약을 부탁하는 것입니다. 응답은 꽤 빠릅니다. 모델은 “이건 멀티모달 벤치마크 비교 표다. 강조 표시된 GLM-5V-Turbo가 15개 중 11개 벤치마크에서 압도적으로 이기고 있고, 대부분 편안한 격차로 승리한다”고 정리합니다.
마지막에 스스로 짧은 TL;DR까지 덧붙입니다. 요지는 “GLM-5V-Turbo는 멀티모달 도구 사용 과제에서 확실한 경쟁자지만, 순수 코딩 품질에서는 Claude Opus 4.6이 아직 버티고 있다”는 것입니다. 스크린샷 안 표 구조를 별 문제 없이 읽어낸다는 것이 확인됩니다.
테스트 2: UI 스크린샷을 코드로 복원하기
이번엔 본격적인 비주얼 코딩 과제입니다. 발표자 본인의 포트폴리오 사이트(Tombi Studio) 랜딩 페이지를 스크린샷으로 찍어, “이걸 그대로 다시 만들어 달라”고 지시합니다. 에셋(asset) 이미지가 없으니 완벽히 같을 수는 없겠지만, 순수 비주얼만 보고 얼마나 재현하는지가 관건입니다.
결과는 불과 1~2분 만에 나옵니다. 모델은 파일 하나를 작성해 “Tombi Studio 랜딩 페이지를 재현했고, 반응형(responsive) 레이아웃으로 접기도 된다”고 응답합니다. 이미지 자리에는 원본 에셋이 없어 임시 결과물이 들어가지만, 놀라운 것은 디테일입니다.
- 매우 작은 텍스트까지 정확히 읽어서 프로젝트 이름을 제대로 복원
- 서식과 레이아웃 구조를 거의 그대로 가져옴
- 색상 팔레트(color palette)도 원본과 거의 일치
- 대표 이미지(게/로봇/코인이 섞인 이미지)는 복원할 수 없어도 “거기에 게, 로봇, 코인이 있다”는 걸 설명까지 하며 최선을 다해 재현
- 링크(link)는 실제 URL을 알려주지 않았음에도 적당한 대체 링크를 채워 넣음
실무에서 실제로 쓸 때는 적절한 에셋을 따로 제공해야 하겠지만, “한 번에(one-shot) 1~2분 만에 이 정도 결과” 라는 점은 확실히 인상적입니다.
테스트 3: 아키텍처 다이어그램에서 코드베이스 스캐폴딩
다음은 실제 진행 중인 프로젝트에서 쓰던 아키텍처 다이어그램(architecture diagram)입니다. 발표자는 “이 아키텍처를 바탕으로 코드베이스(codebase) 구조를 스케치해 달라”고 요청합니다. 당연히 프로젝트 전체를 만들어 달라는 건 아니고, 다이어그램을 제대로 읽고 구조로 옮길 수 있느냐가 초점입니다.
모델은 약 1분 만에 결과를 파일로 작성해 텔레그램에 올려줍니다. 핵심 흐름(flow)과 함께 필요한 스캐폴딩(scaffolding)이 한번에 구성됩니다. 재미있는 건, 이 에이전트의 시스템 프롬프트 격인 sold.md 파일이 보안(security)에 강하게 치우쳐 있었는데, 그 맥락까지 반영해 “Security Critical Bit” 섹션을 스펙 파일 안에 따로 만들어 둡니다. 다이어그램 독해력뿐 아니라, 기존 에이전트 컨텍스트의 지시 사항까지 일관되게 통합하는 모습이 인상적입니다.
테스트 4: 형편없는 손글씨 읽기(OCR)
네 번째 과제는 악필(惡筆) OCR입니다. 발표자가 직접 빠르게 휘갈겨 쓴 할 일 메모를 핸드폰 카메라로 찍어 전송합니다. 내용은 대략 다음과 같습니다.
- 마트 가기: 우유, 달걀, 과자, 맥주
- 영상 편집
- 세금 정산 마무리
- MoE 프로젝트 작업
“이걸 할 일 목록으로 정리해 줘”라는 지시에, 모델은 거의 즉시 모든 항목을 완벽히 인식합니다. 특히 마지막 “beer”는 글씨가 흐릿해서 ‘R’인지 ‘N’인지 애매한데도 맥락을 보고 정확히 “beer”로 읽어냅니다. 이 정도라면 손글씨 메모를 바로 캘린더(calendar)에 넣는 워크플로가 충분히 가능하다는 평가입니다.
테스트 5: 비트코인 차트 분석
마지막 과제는 트레이딩뷰(TradingView)에서 캡처한 비트코인(Bitcoin) 일봉 차트입니다. 기존에 쓰던 지지/저항 라인, 보조 지표가 잔뜩 올라가 있어 사람이 봐도 복잡한 차트입니다. 발표자는 “최근 가격 흐름을 설명하고, 이미지의 지표들을 근거로 앞으로를 예측해 달라”고 요청합니다.
모델은 먼저 비트코인 차트임을 올바르게 식별한 뒤, 최근 흐름을 이렇게 정리합니다. “낙폭 이후 현재는 통합(consolidation) 국면이다.” 이어서 차트에 직접 그어진 핵심 레벨과 지지/저항(support/resistance) 선을 읽어내고, 표시된 지표들을 근거로 “데스 크로스(death cross)가 진행 중” 이라는 관찰을 덧붙입니다.
예측도 구체적입니다.
- 단기: 69~69.3K 구간 재테스트 가능성
- 중기: 현재는 누적·통합 구간으로 보이며, 거래량을 동반해 74K를 돌파하면 80K 회복 시나리오가 다시 열림
- 종합 톤: 단기적으로는 조심스럽게 약세(cautiously bearish)
복잡한 차트를 읽고, 그 안의 사용자 주석까지 활용해 나름의 논리를 세워 분석하는 모습이 확실히 인상적입니다.
정리하며: 가격을 감안하면 “꽤 괜찮은 선택지”
발표자의 최종 평가는 호의적입니다. Anthropic API 기준 Opus 대비 약 90% 이상 저렴한 가격을 생각하면 성능은 상당히 좋습니다. 몇 차례의 비주얼 테스트에서 단 한 번도 크게 미끄러지지 않았고, 속도도 빠릅니다. 일상적으로 쓰는 Claude 기반 워크플로와 비교해도 큰 위화감 없이 대체 가능한 수준입니다.
- 장점: 저렴한 가격, 빠른 응답, 비주얼이 무거운 과제(스크린샷→코드, 차트 해석, 손글씨 OCR)에 강함
- 약점: 순수 코딩 깊이에서는 아직 Opus 4.6이 앞설 때가 있음
- 어울리는 용도: 에이전트 기반 브라우징·모바일 자동화, UI 프로토타이핑, 시각 자료 분석
오늘 영상은 가벼운 첫인상 테스트에 가깝고, 발표자는 Hermes Agent와 함께 더 본격적인 코딩 과제로 이어지는 심층 리뷰를 다음 영상에서 해 볼 의향을 내비칩니다. 비주얼 위주 작업이 많은 개발자라면 한 번은 시도해 볼 가치가 있는 모델이라는 것이 결론입니다.
02리서치 문서 · Document
GLM-5V-Turbo, “보고 코딩하는 에이전트”는 어디까지 왔나
참고 영상: YouTube · Onchain AI Garage · 2026-04-01 주제: 스크린샷·다이어그램·손글씨를 바로 코드/액션으로 옮기는 네이티브 멀티모달 에이전트 모델
서론: “볼 수 있는” 에이전트가 필요한 이유
LLM 기반 코딩 에이전트(agent)가 빠르게 퍼지면서 개발자들의 작업 흐름이 바뀌고 있지만, 오랫동안 공통으로 지적되어 온 한계가 하나 있습니다. 바로 에이전트가 “화면”을 제대로 보지 못한다는 점입니다. 디자인 시안 스크린샷을 주면 텍스트만 뽑아내거나, 아키텍처 다이어그램(diagram)을 주면 구조를 제대로 해석하지 못하고, 터미널 에러 메시지 캡처를 주면 엉뚱한 방향으로 디버깅을 시도합니다. 코드(code)는 잘 쓰지만 시각 컨텍스트(visual context) 가 빠지면 힘을 못 쓰는 것입니다.
이번에 Z.AI(Zhipu AI, 지푸 AI)가 공개한 GLM-5V-Turbo는 바로 이 지점을 정면으로 겨눈 모델입니다. 이름에서 알 수 있듯 GLM-5 계열의 비전(Vision) 변형인데, 단순히 기존 LLM에 이미지 입력을 덧붙인 게 아니라, 처음부터 “네이티브 멀티모달(native multimodal) 에이전트” 로 설계되었다는 점이 핵심입니다. Onchain AI Garage의 첫인상 리뷰 영상은 이 모델을 Hermes Agent와 OpenRouter를 통해 붙여 보고, 스크린샷→코드, 다이어그램→스캐폴딩, 손글씨→할 일 목록, 차트→시장 분석까지 5가지 시나리오로 가볍게 검증합니다.
이 글에서는 영상의 테스트 내용을 실제 모델 스펙과 업계 맥락에 포개어, GLM-5V-Turbo가 “보는 에이전트” 트렌드 안에서 어떤 위치에 있는지 정리합니다.
1. GLM-5V-Turbo, 무엇이 다른가
Z.AI는 원래 GLM-4.5V에서부터 비전-언어 모델(Vision-Language Model, VLM) 라인을 본격화했습니다. GLM-4.5V는 100B 스케일의 MoE(Mixture-of-Experts) 아키텍처(총 106B 파라미터, 활성 12B)를 기반으로 영상 이해, 이미지 Q&A, OCR, 문서 파싱에서 최상위권 성적을 냈고, 웹 프론트엔드 코딩과 시각적 그라운딩(visual grounding)에서도 두각을 보였습니다(Z.ai Launches GLM-4.5V, HuggingFace: zai-org/GLM-4.5V).
GLM-5V-Turbo는 이 라인의 다음 세대로, MarkTechPost는 이를 “OpenClaw와 고용량 에이전트 엔지니어링 워크플로에 최적화된 네이티브 멀티모달 비전 코딩 모델” 이라고 소개합니다(MarkTechPost 커버리지). 주요 특징을 정리하면 다음과 같습니다.
- 네이티브 멀티모달 설계: 이미지·영상·텍스트를 처음부터 하나의 입력으로 다루도록 학습됨. 비전이 “애드온(add-on)“이 아니라 아키텍처의 일부.
- 128K 컨텍스트(context) 창: 긴 입력과 복잡한 멀티모달 태스크 처리에 유리(WaveSpeedAI 개발자 가이드).
- 30+ 태스크 Joint RL: 30개 이상의 과제를 동시에 최적화하는 강화학습(reinforcement learning) 기반 학습법으로, 플래닝(planning)/코딩(coding)/액션 실행 능력을 함께 끌어올림.
- 에이전트 우선: 채팅 모델에 도구 사용을 얹은 것이 아니라, 처음부터 자율 에이전트 워크플로를 전제로 함.
포지셔닝 측면에서 특히 눈여겨볼 부분은 가격입니다. 영상 발표자의 OpenRouter 사용 경험에 따르면 GLM-5V-Turbo는 GPT-4o 대비 50~60% 저렴하고, Claude Opus 4.6 API와 비교하면 약 90% 이상 저렴합니다. Z.ai 모델들은 OpenRouter에서도 바로 선택해 쓸 수 있어 진입 장벽이 낮습니다(OpenRouter: Z.ai Models).
2. “스크린샷에서 코드로” 트렌드 속 위치
GLM-5V-Turbo가 주장하는 강점은 “스크린샷 → 코드”, “다이어그램 → 스캐폴딩”, “GUI → 에이전트 액션” 같은 시각 기반 코딩/행동 능력입니다. 사실 이 트렌드 자체는 최근 1~2년 사이 업계 전반의 방향입니다.
DataCamp의 2026년 비전 언어 모델 총정리는 Gemini 2.5 Pro가 LMArena와 WebDevArena(웹 개발 아레나)에서 비전·코딩 과제의 리더보드를 이끌고 있다고 정리하고, Claude 4 Opus/Sonnet 또한 이미지를 이해하고 그로부터 코드를 생성하는 역량을 끌어올렸다고 평가합니다(DataCamp: Top VLMs in 2026).
Z.AI의 상위 라인인 GLM-4.6V 역시 프론트엔드 작업에 특화되어 UI 스크린샷을 픽셀 수준 정확도로 HTML/CSS/JS로 변환하는 것을 목표로 한다고 공개 문서에서 밝히고 있습니다(GLM-4.6V 공식 블로그). GLM-5V-Turbo는 그 철학을 에이전트 지향으로 한 단계 확장한 셈입니다.
업계 연구 흐름을 보면 이 분야는 빠르게 벤치마크(benchmark)와 데이터셋(dataset)이 축적되고 있습니다. UI-Vision Suite 는 3.5M개 UI 요소를 담은 대규모 GUI 그라운딩 데이터셋과 OS-World-G 같은 벤치마크를 제공하며(UI-Vision Suite), CVPR 2025에서 공개된 ShowUI 는 HTML 메타데이터에 의존하지 않고 순수 시각 인식만으로 GUI를 조작하는 VLA(Vision-Language-Action) 모델을 제안합니다(ShowUI 논문 PDF). GLM-5V-Turbo가 Hermes/OpenClaw 같은 에이전트와 묶일 때 기대되는 동작은 정확히 이 계열과 같은 선상에 있습니다.
3. 영상 속 테스트가 보여주는 것
영상에서 발표자는 5가지 현실적인 과제로 모델을 압박합니다. 각 테스트는 단순한 “예쁜 데모”가 아니라, 기존 코딩 에이전트가 자주 막히던 지점을 그대로 찌릅니다.
- 벤치마크 표 읽기 – 복잡한 표 스크린샷을 정확히 읽고, 승패 개수까지 세어 자연어 요약과 TL;DR을 생성합니다.
- Tombi Studio 랜딩 페이지 재현 – 이미지 에셋 없이 단일 스크린샷에서 레이아웃, 색상, 작은 글자까지 복원. “한 번에 1~2분” 출력의 품질이 인상적입니다.
- 아키텍처 다이어그램 → 코드베이스 스캐폴딩 – 그림을 읽고 폴더 구조와 핵심 플로를 뽑아낼 뿐 아니라, 에이전트의 기존
sold.md(보안 중심) 컨텍스트를 반영해 “Security Critical Bit” 섹션을 따로 만듭니다. - 악필 OCR – 휘갈겨 쓴 할 일 메모를 한 장 촬영한 이미지에서 항목을 정확히 뽑아냅니다. 애매한 글자(“beer” vs “bean”)까지 맥락으로 해석.
- 비트코인 차트 분석 – 지지/저항 라인과 지표가 가득 찬 차트에서 “데스 크로스 진행 중”, “69~69.3K 재테스트”, “74K 돌파 시 80K 재개” 등 구체적 시나리오를 이끌어 냅니다.
공통적으로 드러나는 강점은 “텍스트가 아닌 입력”에서 의미를 안정적으로 뽑아낸다는 것입니다. 기존 LLM 에이전트가 흔히 흔들리던 지점—작은 글씨, 복잡한 차트, 손글씨, 다이어그램의 화살표—에서 큰 미끄러짐 없이 추론을 이어 간다는 점이 이번 첫인상 테스트의 핵심입니다.
4. 한계와 주의할 점
물론 단 11분짜리 첫인상 리뷰에서 결론을 내리기에는 이르다는 점은 발표자 본인도 분명히 합니다. 몇 가지 주의할 지점을 짚어 두겠습니다.
- 순수 코딩 깊이: 발표자의 경험과 모델 벤치마크 모두 “순수 코딩 품질에서는 Claude Opus 4.6 쪽이 여전히 우위”라고 말합니다. 대형 리팩터링(refactoring)이나 복잡한 타입 시스템(type system) 추론은 다른 이야기입니다.
- 실제 에셋 부재: UI 재현 테스트는 인상적이지만, 이미지 에셋이 없으면 실제 프로덕션에 쓸 수 있는 결과가 아니라는 점은 영상에서도 강조됩니다.
- 차트 분석의 책임: 비트코인 차트 예측은 기술적으로 흥미롭지만, 실제 투자 판단에 그대로 쓰는 것은 위험합니다. 모델의 “분석”은 화면 위 지표를 해석한 것이지, 시장 데이터에 기반한 예측이 아닙니다.
- 에이전트 프레임워크 의존성: GLM-5V-Turbo의 체감 성능은 Hermes, OpenClaw 같은 에이전트 구현 품질에 크게 좌우됩니다. 스토리는 “모델 + 에이전트”의 팀 경기입니다.
핵심 인사이트
- 비전은 더 이상 부가 기능이 아니다. “네이티브 멀티모달”이라는 말의 무게는 생각보다 큽니다. 스크린샷·차트·손글씨를 다루는 흐름이 전부 1급 시민(first-class citizen)이 되면, 에이전트 워크플로는 질적으로 달라집니다.
- 가격은 개발자의 실험량을 바꾼다. Opus 대비 90%에 가까운 비용 절감은 “이걸 일단 에이전트에 던져 보자”는 시도 횟수를 기하급수적으로 늘립니다. 첫인상 리뷰가 활발해지는 이유도 이것입니다.
- 에이전트+VLM은 UI 자동화 레이어를 다시 정의하고 있다. UI-Vision, ShowUI, GLM-4.6V, GLM-5V-Turbo가 모두 “메타데이터 없이 화면만 보고 행동하는 에이전트”로 수렴하고 있습니다. 전통적 RPA(Robotic Process Automation) 시장은 재편 압박을 받을 가능성이 큽니다.
- “1인 개발자용 스캐폴딩 기계” 로서의 가치가 큽니다. 디자인 시안 한 장, 다이어그램 한 장을 코드베이스 초안으로 바꾸는 흐름은, 특히 빠른 MVP를 만드는 소규모 팀에 직접적인 생산성 이득을 줍니다.
- “보는 에이전트”의 평가 기준이 바뀐다. 단일 작업 정확도보다 “긴 시각 컨텍스트를 얼마나 길게, 일관되게 유지하는가”가 새로운 축으로 떠오르고 있습니다. 128K 컨텍스트와 Joint RL은 이 흐름에 부합합니다.
더 알아보기
- Onchain AI Garage 원본 영상 — First Look at GLM-5V-Turbo
- MarkTechPost — Z.ai Launches GLM-5V-Turbo
- WaveSpeedAI — GLM-5V-Turbo: What Developers Should Know in 2026
- Z.ai 공식 블로그 — GLM-4.6V
- HuggingFace — zai-org/GLM-4.5V 모델 카드
- UI-Vision Suite — GUI 그라운딩 데이터셋과 벤치마크
- DataCamp — Top 10 Vision Language Models in 2026
03찬반 토론 · Debate
토론: “GLM-5V-Turbo 같은 ‘보는 에이전트’가 프런티어 코딩 모델의 실용적 대체재가 될 수 있는가?”
논제: 네이티브 멀티모달(multimodal)과 공격적 가격을 무기로 한 GLM-5V-Turbo 계열 모델이, 일상적 개발 워크플로에서 Claude Opus·GPT-4o 같은 프런티어(frontier) 코딩 모델을 실용적으로 대체할 수 있는가?
Round 1
🟢 Pro — “가격·속도·네이티브 비전의 삼박자로 대부분의 실무를 대체할 수 있다”
GLM-5V-Turbo의 가장 큰 매력은 현실 개발자들이 실제로 매일 부딪히는 작업 대부분에 “충분히 좋은” 수준이라는 점입니다. Onchain AI Garage의 영상이 보여준 5개 테스트(벤치마크 표 요약, UI 스크린샷→코드 재현, 아키텍처 다이어그램→스캐폴딩, 손글씨 OCR, 비트코인 차트 분석)는 모두 “프런티어 모델이어야만 가능한 마법”이 아니라 “평범한 개발자가 하루에 10번 부딪히는 반복 작업” 들이고, 거기서 GLM-5V-Turbo는 사실상 미끄러짐 없이 작동했습니다. 중요한 것은 완벽한 코딩 벤치마크 1위가 아니라 “현장의 80% 과제를 안정적으로 해결하는 모델”이고, 이것은 이미 달성된 기준선입니다.
두 번째로 가격이 이 논의의 판을 바꿔 버립니다. OpenRouter 기준 Claude Opus 대비 약 90%에 가까운 절감은 단순한 비용 이야기가 아닙니다. 실험 횟수 자체가 달라집니다. 개발자가 “이걸 한번 에이전트에 던져 볼까?”라고 주저하지 않게 되면, 하루에 처리하는 반복 작업의 양이 배로 늘고, 그만큼 경험적 튜닝도 빨라집니다. 프런티어 모델은 여전히 존재 가치가 있지만, 일상적 루프 안에서는 저렴하고 빠른 모델을 돌리는 쪽이 ROI가 훨씬 큽니다.
마지막으로 “네이티브 멀티모달” 이라는 설계 결정은 단순 스펙이 아니라 생산성의 근본을 바꿉니다. 디자인 시안 스크린샷, 에러 화면 캡처, 손으로 그린 다이어그램, 복잡한 차트—이 모든 시각 자료를 “텍스트로 옮기는 중간 단계” 없이 바로 추론에 쓸 수 있다는 것은, 실무에서 가장 많이 시간을 잡아먹던 단계를 삭제하는 것과 같습니다. 프런티어 모델도 비전을 지원하지만, 처음부터 비전 기반 에이전트로 훈련된 모델의 체감 품질은 다릅니다.
🔴 Con — “첫인상 데모는 실무가 아니다. 깊이·신뢰성·에코시스템에서 대체 불가능”
한 편의 11분짜리 호의적 첫인상 리뷰를 근거로 “대체 가능”을 말하는 것은 지나친 비약입니다. 영상 속 테스트는 의도적으로 모두 “한 장짜리 짧은 태스크” 입니다. 단일 스크린샷 요약, 단일 페이지 복원, 단일 이미지 OCR. 실무의 본 과제는 긴 코드베이스, 누적된 컨텍스트, 수백 개의 파일 사이 일관성 유지이고, 이 영역에서는 영상도 발표자 본인도 명시적으로 “순수 코딩 품질은 Claude Opus 4.6이 여전히 앞선다”고 인정합니다. 즉 논의의 출발점부터가 “일부 과제에서 경쟁력 있다” 수준이지 “대체 가능”이 아닙니다.
두 번째로, 싼 가격은 마법이 아닙니다. 모델이 한 번에 잘못 추론해 생긴 디버깅 비용, 조직이 평가 파이프라인과 보안 감사를 새로 구축하는 비용, SLA가 보장되지 않는 신규 벤더(vendor)에 운영을 맡기는 리스크 는 토큰 가격표에 잡히지 않습니다. 기업 환경에서 프런티어 모델을 쓰는 이유의 절반은 성능이 아니라 “실패 확률의 분산 구조”입니다. 이를 90% 싼 모델로 바꾸는 순간 분포 꼬리(tail) 리스크가 증폭됩니다.
세 번째로 에코시스템(ecosystem) 격차가 큽니다. Claude·GPT 계열은 IDE 플러그인, 테스트 자동화, 정책 필터링, 멀티 에이전트 오케스트레이션(orchestration) 등 주변 도구가 이미 성숙되어 있습니다. GLM-5V-Turbo는 아직 Hermes/OpenClaw 같은 실험적 에이전트 프레임워크에 의존합니다. “한 장의 데모가 잘 되는 것”과 “팀이 일상적으로 의존하는 것”은 완전히 다른 이야기입니다.
Round 2
🟢 Pro (재반론) — Con의 반대에 답함
Con의 첫째 논점(첫인상 데모는 실무가 아니다) 부터 짚겠습니다. 이 반대는 전통적으로 모든 신모델에 쓰일 수 있는 만능 방어입니다. 그러나 영상 속 다섯 개 과제는 “한 장짜리 장난감”이 아니라, 실제로 개발자의 루틴에서 가장 자주 튀어나오는 마이크로 태스크(micro-task)의 집합입니다. 현실 개발의 본질은 “긴 대서사적 작업 1개”가 아니라 “짧은 작업 수백 개의 이어 붙이기”이고, 이 반복 구간에서의 속도·안정성이 전체 생산성을 결정합니다. Con이 상정한 “본 과제 = 초대형 코드베이스”는 특정 시니어 엔지니어의 특정 업무이지, 개발자 일반의 현실이 아닙니다.
Con의 둘째 논점(싼 가격이 숨은 비용을 낳는다) 도 일면 맞지만, 방향이 거꾸로입니다. 신모델의 실패 확률을 걱정해서 “일단 비싼 모델만 쓰자”는 태도는 학습 곡선을 스스로 포기하는 선택입니다. 조직이 저렴한 모델을 병렬로 돌리면서 데이터를 축적하면, 장기적으로는 자체 평가 파이프라인과 폴백(fallback) 전략이 만들어집니다. 반대로 비싼 모델에만 의존하는 조직은 벤더 락인(vendor lock-in)과 가격 협상력 상실이라는 더 큰 꼬리 리스크를 안게 됩니다.
Con의 셋째 논점(에코시스템 격차) 은 시간의 문제로 환원됩니다. OpenRouter 같은 메타 게이트웨이, Hermes·OpenClaw 같은 오픈 에이전트, GLM-4.6V에서 이어지는 오픈소스 VLM 라인(Z.ai 공식 GLM-4.6V)은 전부 지난 1~2년 사이 만들어진 흐름입니다. “지금은 부족하지만 내일은 아니다”라고 말할 수 있는 속도로 달리고 있다는 뜻입니다.
🔴 Con (재반박) — Pro의 반대에 답함
Pro의 첫째 논점(실무 80%는 충분히 좋다) 에 반박합니다. “충분히 좋다”는 표현은 측정된 숫자가 아니라 한 명의 유튜버의 체감일 뿐입니다. 발표자 스스로 “미끄러짐이 없었다”고 말한 구간도, 실은 코딩 결과물의 “올바름”을 엄밀히 검증하지 않은 채 넘어갑니다. UI 재현은 링크가 전혀 다른 곳을 가리켰고, 차트 분석은 단순히 “그럴듯해 보였을 뿐” 검증된 예측이 아닙니다. 엄밀한 A/B 테스트 없이 “충분히 좋다”를 선언하는 것은 시각적 설득력과 정확성을 혼동하는 고전적 오류입니다.
Pro의 둘째 논점(가격이 실험 횟수를 늘려 ROI를 바꾼다) 은 매력적이지만, 가격 대비 효용을 따질 때 “성공했을 때의 이득”만 세고 “실패했을 때의 손실”을 빠뜨리는 편향입니다. 저렴하다는 이유로 더 많이 쓰면, 잘못된 출력도 더 많이 쓰게 됩니다. 특히 비전 입력이 끼는 순간—손글씨, 차트, 스크린샷—오류의 근원을 역추적하기가 훨씬 어렵습니다. 쌀수록 더 엄격한 검증 레이어가 필요한데, 조직은 보통 가격이 싸다는 이유로 오히려 검증을 느슨하게 합니다.
Pro의 셋째 논점(네이티브 멀티모달이 근본을 바꾼다) 도 “처음부터 비전으로 훈련되었다”는 수사와 실제 성능을 분리해야 합니다. 실제 벤치마크에서 DataCamp의 2026년 정리는 여전히 Gemini 2.5 Pro가 비전·코딩 복합 리더보드에서 선두라고 보고합니다(DataCamp Top VLMs 2026). “네이티브”는 마케팅 언어이고, 현실의 상위 성능은 여전히 대형 프런티어 모델 쪽에 있습니다.
Round 3
🟢 Pro — Con의 Round 2 주장에 답함
Con의 첫째 재반박(엄밀한 검증 없이 “충분히 좋다”는 선언은 오류) 은 이론적으로 옳지만, 실무의 의사결정 기준과는 다릅니다. 개발자들은 A/B 벤치마크 논문을 읽고 도구를 바꾸지 않습니다. 스스로 하루 동안 돌려 보고, 그 느낌이 일관되면 채택합니다. 영상의 5개 태스크가 “한 유튜버의 체감”이라는 Con의 지적은 맞지만, 바로 그 체감의 축적이 실제 시장에서 모델의 운명을 결정합니다. 그리고 GLM-5V-Turbo의 체감이 호의적이라는 사실 자체가 이미 “첫 번째 관문 통과”라는 신호입니다. 진짜 프런티어 모델의 왕좌는 벤치마크가 아니라 “매일 돌리고 싶은가?”라는 질문으로 결정됩니다.
Con의 둘째 재반박(싸서 더 많이 쓰면 실패도 더 많이 쓴다) 은 검증 문화가 부재한 조직에만 해당합니다. 오히려 저비용 모델은 “자동 폴백 체인” 과 결합될 때 가장 강력해집니다. GLM-5V-Turbo가 1차 시도를 하고, 신뢰도가 낮으면 자동으로 Opus에 에스컬레이션(escalation)하는 구조를 만들면, 품질을 유지한 채 평균 비용을 극단적으로 낮출 수 있습니다. 싼 모델은 비싼 모델의 대체재가 아니라 “비싼 모델의 앞단 필터” 로 쓸 때 가장 무섭습니다.
Con의 셋째 재반박(Gemini 2.5 Pro가 여전히 리더보드 선두) 은 오히려 Pro의 논점을 강화합니다. 1등 자리를 지키는 모델이 “프런티어”라면, GLM-5V-Turbo는 “프런티어와의 격차를 의미 있게 좁힌 추격자”입니다. 리더보드 1등을 해야만 쓸 가치가 있다는 논리는 성립하지 않습니다. 실제 채택은 리더와의 격차가 내 유스케이스(use case)에서 수용 가능한 수준인지가 기준입니다.
🔴 Con — Pro의 Round 2 주장에 답함
Pro의 첫째 재반론(실무는 짧은 마이크로 태스크의 집합) 에 반박합니다. 실제 소프트웨어 엔지니어링의 본질은 “마이크로 태스크 수백 개의 독립된 완수”가 아니라 “컨텍스트의 누적” 입니다. 개발자가 오후 3시에 해결하는 버그는 오전 10시에 읽은 설계 문서와 연결되어 있고, 그 연결을 모델이 잃는 순간 생산성은 급락합니다. Pro의 “짧은 작업의 이어 붙이기” 모델은 컨텍스트가 낮은 주니어급 반복 작업의 세계관일 뿐, 고연봉 엔지니어의 실제 업무 구조가 아닙니다. 바로 그 지점에서 프런티어 모델의 깊이가 요구됩니다.
Pro의 둘째 재반론(신모델을 써야 조직이 학습한다) 에도 동의하기 어렵습니다. 학습 가치를 인정하더라도, 그 학습을 프로덕션(production)에 직접 결합하는 것은 완전히 다른 문제입니다. 조직은 신모델을 탐색 환경에서 병렬 평가해야지, 사용자 대면 경로에 바로 투입하는 것은 학습이 아니라 도박입니다. Pro가 말한 “폴백 체인”은 훌륭한 아이디어이지만, 그걸 제대로 만들려면 결국 프런티어 모델을 기준선(baseline)으로 유지해야 합니다. 즉 대체가 아니라 보조입니다.
Pro의 셋째 재반론(에코시스템 격차는 시간 문제) 은 가장 위험한 말입니다. “내일은 아니다”라는 약속만으로 오늘의 운영 결정을 내릴 수는 없습니다. 엔터프라이즈 환경에서는 감사 추적(audit trail), 데이터 거주성(data residency), 법무 승인, 모델 리스크 관리가 요구됩니다. 오늘 존재하지 않는 도구를 전제로 한 대체 논증은 공허합니다. GLM-5V-Turbo는 “오늘의 실험 도구” 로서는 훌륭할 수 있지만, “오늘의 대체재” 로는 아직 입증이 부족합니다.
🧭 종합
합의 지점
양측 모두 두 가지에 동의합니다. 첫째, GLM-5V-Turbo는 가격 대비 체감 성능이 매우 우수하며, 시각 기반 태스크의 많은 부분에서 의미 있는 품질에 도달했다는 것입니다. Pro는 이것을 대체 가능성의 근거로, Con은 경쟁력 있는 추격자의 근거로 해석할 뿐, 모델 자체의 실력은 인정합니다. 둘째, 네이티브 멀티모달 설계가 기존 텍스트 중심 LLM의 한계를 실제로 건드리고 있다는 점입니다. 비전을 1급 시민으로 취급하는 방향은 산업 전체의 흐름이며, GLM-5V-Turbo는 그 흐름의 가시적 사례입니다.
열린 질문
- 검증 체계: 저비용 모델이 늘어나는 시대에 “신뢰도를 측정하는 공통 벤치마크”는 아직 부족합니다. 시각 과제에서 “그럴듯함”과 “올바름”을 분리하는 평가 프레임워크는 누가 만들까요?
- 에이전트 조합의 책임 소재: Hermes/OpenClaw 같은 오픈 에이전트 + 저비용 VLM의 조합이 오작동했을 때, 오류의 책임은 모델에 있는지, 에이전트에 있는지, 통합자에 있는지 아직 명확하지 않습니다.
- 엔터프라이즈 도입 경로: 감사·보안·데이터 거주성 요구를 충족하는 형태로 Z.AI 계열 모델을 배포할 수 있는 경로가 얼마나 빨리 마련될지는 여전히 불확실합니다.
- “프런티어”의 재정의: 벤치마크 1등이 아닌 “가격 대비 최적점”에 있는 모델을 프런티어라 부를 수 있는가? 시장은 리더보드와 실전 채택률 사이의 간극을 어떻게 메울까요?
더 나아간 관점
이 논쟁의 진짜 결론은 “대체 vs 보완”이라는 이분법 자체를 넘어섭니다. 현실적으로 가장 유력한 구도는 “계층화된 모델 스택(layered model stack)” 입니다. GLM-5V-Turbo 같은 저비용 네이티브 멀티모달 모델이 “1차 시도·시각 인지·루틴 에이전트” 레이어를 담당하고, Claude Opus·Gemini 2.5 Pro 같은 프런티어 모델이 “심층 코딩·복잡 설계·크리티컬 패스” 레이어를 맡는 식입니다. 이 구조에서 핵심 경쟁은 “어느 모델이 1등이냐”가 아니라 “어느 팀이 라우팅(routing) 전략을 가장 잘 설계하느냐” 로 옮겨 갑니다.
그 관점에서 보면 Pro의 “대체 가능”은 라우터(router)의 관점에서, Con의 “대체 불가”는 상위 레이어의 관점에서 각각 맞습니다. 2026년의 개발자 생산성은 단일 모델의 승리가 아니라, 이 스택을 얼마나 정교하게 조율하느냐에 달려 있습니다. GLM-5V-Turbo의 진짜 의미는 “Opus를 쓰러뜨린 모델”이 아니라, “그런 스택을 만들 가치가 있을 만큼 아래 레이어의 품질이 올라왔다” 는 신호입니다. 이 시점부터 논의는 “무엇을 쓸 것인가”에서 “어떻게 조합할 것인가”로 넘어가야 합니다.
04영문 원본 · Transcript
So Z.AI, which is China's first publicly traded AI company, Jipu AI, just released this new model, GLM5V Turbo. And this is the company behind the GLM models, which is a very popular one. GLM5 is their base flagship for general purpose, but this model is pretty interesting. So the main purpose is agent-first design. It's not a chat model with tools bolted on. It's trained from scratch for autonomous agent workflows, specifically OpenClaw or Hermes agent, those type of agents. It's a vision and agent combo, so it processes images natively. It can reason from screenshots, diagrams, charts, handwriting, and it can take actions based on what it does. The pricing is pretty interesting. You can see the benchmarks here. It beats Cloud Opus 4.6 in most of the multimodal tools. Cloud Opus 4.6 still wins on some coding benchmarks, but it is competitive, certainly, and it is a lot cheaper. It's roughly 50% to 60% cheaper right now, based on the open router pricing that I'm going to be using it with. It's around 50% to 60% cheaper than GBT 4.0 and significantly cheaper than Cloud Opus if you were going to use the API. So the best use cases for something like this, this type of model, would be to take a screen. And generate code from it, because it can read the screenshot. It's good at mobile and Android automation, web browsing agents, visual search and tool use tasks, and kind of any workflow where an agent needs to see and act. And that was always kind of an issue I've had trying to use an OpenClaw agent to actually build and code, is that it's hard for it to see. So in today's video, we're going to test out this GX. GLM 5V Turbo, and we're going to test it out in Hermes Agent. It should be fairly quick, we're just going to give it some tasks to see how well it performs here. So here I am, I'm in Telegram, using Hermes Shrimple is the name of my agent that I use with Hermes Agent. And the model, you can see I changed to ZAI GLM 5V Turbo. And like I said, I'm using OpenRouter for this. I just said hello, he said hello again, good to see you back. What can I help you with today? So a good job capturing the personality quirks of the agent. Some of the quirks of Shrimple are he uses Japanese a little bit and uses these kind of emojis. So the first simple task I gave it was just I gave it this screenshot, which you saw from the tweet earlier with the benchmarks. So it was able to do it fairly quickly. It says this is a summary of the multi-modal benchmark showdown. GLM 5V Turbo. The highlighted one is absolutely dominating this table. It wins 11 out of 15 benchmarks, mostly by comfortable margins. So it has a pretty good breakdown here. Of what it so was able to see everything without any issues. TDLR, DLDR, GLM 5V Turbo looks like a serious contender for multimodal tool use tasks, especially, but Clued Opus 4.6 still holds its own on pure code coding quality. So that was. Our first little test. It was able to read this screenshot and make a summary for us. So the next thing I'm going to do is I'm going to give it a coding task. I'm going to give it this simple UI. This is my my portfolio page for Tombi Studio. Check it out if you have a chance. It has all of my different projects. So I'm just going to give it the screenshot of this and see if it can recreate this landing page. So I just took a screenshot of this and recreate. Can you read it? Yeah. It's going to recreate this landing page for me, so let's see how well it's probably not going to be perfect because it doesn't have these images and stuff, but we'll see how well this is a coding task from a visual UI. Okay, it only took like a minute or two, but it wrote this file. You can see it's done. It recreated the Tombi Studio landing page and all the main features responsive to it collapses. So this is the file it gave me. This is. You see the original obviously doesn't have all the it doesn't have these screenshots and stuff. But it was able to read like it read all the details from like this. It read the names and stuff from this, which is pretty impressive, actually, because it's very small text. And it was able to. Recreate that there. But it got the formatting right. Obviously, it got the colors right to pretty much. Obviously. You would have to give it like these the actual assets to have the same thing. It just kind of recreated it here, but it got all the text right. It got all the formatting, right? Um, this little image is funny. It actually read it like it got the key parts of it. It's kind of cute, but it got it was able to read that, you know, there's crabs and robots and some coins and stuff in the image and tried its best to recreate it. Obviously, if you're doing this for real, you would need to give it the proper assets, but it was pretty impressive how it. In just like two minutes, literally, it was able to recreate this and these are proper links. Actually, I didn't tell it what the links are, so it just goes to random places, but I got all the text, right? That's pretty impressive, actually, so you'd have to tweak it if you're using it, but for like a one shotting it in a minute or two, that's not bad. So the next test I want to give it is a I'm giving it this architectural design, and this was kind of based on a real project. I. I'm working on right now, but this is something that previously I've been working on, which is a simple architecture, and I'm going to give this to Hermes or give it to the this model, and I'm just telling it, can you sketch a code base structure for this architecture model, so I'm not going to expect it to actually build this right now because it would take a lot of work, but just to test, can it read this this diagram and properly format this as a code base. Here we go, it took around a minute, it wrote the file to a file, and then it's posting it here in telegram, so I can see this is the code base layout. It already had everything set up the scaffolding that we would need based on that little architecture diagram. I gave it, it has all the key flows, security, critical bit, which is interesting. This is part of this agent's sold that MD file, it's very focused on security, so it actually incorporated incorporated. That. In its response. So it created the spec file there for the architecture. That's pretty impressive. It was very quick and it seems pretty thorough. And then you could go on and actually start building out the project using this. So next, I wanted to see how well it could read terrible handwriting, so I just wrote this very quick note and took a picture of it on my phone. They could see with my terrible handwriting, go to supermarket, milk, egg, snack, beer, edit video, finish tax prep, work on MOE project. And then I said, list these tasks for me and it very quickly. You could see just basically in the same minute it was able to read this even with my bad handwriting and it had everything, you know, as the task got everything, it read everything. Even like some of my writing, this beer, the last thing, it doesn't really look like an R. It could be just an N or anything. It was able to read it perfectly. That's pretty good. So it read the handwriting perfectly. So you can write this, you can add this to a calendar. If you have important notes that are all handwritten, this would be a really actually useful function for it. Pretty impressive. So lastly, I took this screenshot of a daily chart from Bitcoin and just sent it to the agent and said, can you analyze? This chart for me, describe the recent price action and try to predict what will happen in the future based on indicators in this image. So this is trying to analyze. Oops. Here we go. So this is trying to analyze how it can read charts specifically and then make reasoning based on this. So it did find it was a Bitcoin chart. Recent price action. Bitcoin had made a drop consolidation phase where we are now. So it's able to read. Even with my like, this is my trading view with all my different levels mapped out. It's kind of a messy chart. Actually, it was able to read everything perfectly fine. Key levels to watch. So it was able to read my lines in here. See the resistance and sport support. It was able to read what indicators I had and give pretty good insight here. The death cross set up in progress prediction based on what I see. Short term price. Bitcoin is likely to test 69 to 69.3 K. Midterm. This looks like accumulation consolidation zone. If we break above 74 K with volume recovery toward 80 K. It's back on the table. Hopefully. So honest take the chart looks cautiously bearish short term. So very good analysis just from one little screenshot here. Pretty impressive. So for something that's like over 90% cheaper than Opus, if you're using it. If you're using the API from Anthropic, this is pretty great performance. We've seen we did a couple of visual tests here. It was able to read everything. It hasn't slipped up. It's very fast. Most of these are similar to what I'm using with Claude, which is what I use on the day to day basis. So this is a pretty good for agent performance. Obviously, there's a lot more features that they were talked about. And I'd like to test this out later doing like a more in-depth coding task. We just did some simple stuff for today because I just wanted to test it out. But I'm pretty impressed for the price. Much cheaper than a lot of the Frontier models. I performed really well, especially if you're trying to do stuff that's heavily visual. I'll definitely give this one a shot. And it worked really great with Hermes agent as well. So that's it for today. I hope you enjoyed the video. I just wanted to put this out. I saw this model came out. Just a couple hours ago. It looked really interesting. So I want to test it out myself. If you like the video, please subscribe. Please leave a comment. Let me know if you want me to try to test out more stuff with this and Hermes agent. Do a deeper dive. Certainly be interested in doing that. And yeah, I'll see you in the next video. Thank you.