First Look at Qwen3.6-Plus: Can It Really Beat Opus?

2026-04-03 · 16m · 자막 —

01한국어 번역 · Korean

퀀(Qwen) 3.6 플러스 첫인상: 정말 오퍼스(Opus)를 이길 수 있을까?

원본: https://www.youtube.com/watch?v=LQnoFIKJP3Q · 업로드: 2026-04-03 · 길이: 16m · 채널: Onchain AI Garage

새 모델, 그리고 오늘의 목표

오늘 퀀(Qwen) 팀이 신작 모델인 퀀 3.6 플러스(Qwen 3.6+)를 공개했다. 팀 자체적으로 “주요 마일스톤(major milestone)“이라고 부를 만큼 큰 업데이트라고 밝혔고, 그래서 나 역시 출시 당일 바로 실전 테스트를 해보기로 했다. 테스트는 크게 두 가지 경로로 진행한다. 하나는 내가 쓰는 에이전트 프레임워크인 허미스 에이전트(Hermes agent)이고, 다른 하나는 퀀 팀이 자체 제공하는 터미널 코딩 도구인 퀀 코드(Qwen Code)다. 이 두 환경에서 퀀이 내세우는 주요 기능을 하나씩 확인해볼 생각이다.

퀀 팀이 벤치마크 표에서 특히 강조한 부분은 명확했다. 첫째, 에이전트형 코딩(agentic coding) 영역에서 클로드(Claude)를 앞섰다는 주장이다. 특히 터미널 기반 코딩 작업에서 우위를 보였다고 한다. 둘째, 프런트엔드(front-end) 품질, 그중에서도 3D 장면(3D scene) 생성 능력이 크게 좋아졌다고 대대적으로 홍보했다. 셋째, 100만 토큰(1M tokens)에 달하는 초대형 컨텍스트 윈도(context window)다. 넷째, 멀티모달 비전(multimodal vision)으로 이미지에서 더 섬세한 인식과 추론이 가능하다는 점이다. 이번 영상에서는 이 네 가지를 전부 짚어볼 예정이다.

한 가지 짚어둘 점은, 퀀 3.6 플러스는 현재 플래그십 모델이고 지금 시점에는 클로즈드 소스(closed source)라는 사실이다. 퀀은 원래 오픈소스(open source) 커뮤니티에서 매우 인기가 높은 브랜드다. 로컬 LLM을 돌리는 많은 워크로드가 퀀 계열에 의존하고 있기 때문이다. 그래서 플래그십이 당장 클로즈드로 나온 것은 다소 의외지만, 팀은 작은 변형 모델들은 오픈소스로 풀겠다고 암시했다. 현재로서는 오픈루터(OpenRouter) API 키만 있으면 출시 기념으로 공짜로 돌려볼 수 있다. 이 무료 기간이 오래 가지는 않을 테지만, 적어도 오늘은 “Qwen 3.6+ Free”라는 이름으로 바로 호출할 수 있다. 공식 가격은 아직이지만, 클로드 수준보다는 훨씬 저렴할 것으로 예상된다.

테스트 1: 허미스 에이전트에서 벤치마크 이미지 읽기

첫 번째 실험은 내 허미스 에이전트인 “쉬림플(Shrimple)“에서 진행했다. 쉬림플은 텔레그램(Telegram) 인터페이스를 통해 쓰고 있는데, 모델만 퀀 3.6 플러스 프리로 교체했다. 먼저 퀀 팀이 공개한 벤치마크 이미지를 그대로 넣고, 결과를 요약해달라고 요청했다.

응답은 꽤 빨랐다. 모델은 비교 대상 모델들을 항목별로 정리하면서도, 전반적인 실제 소프트웨어 엔지니어링 작업에서의 “에이전트 코딩 왕좌”는 여전히 클로드 4.5 오퍼스(Claude 4.5 Opus)에게 돌렸다. 대신 근소한 2위로 퀀 3.6 플러스를 꼽으면서, 이를 “올라운더 터미널 스페셜리스트(all-rounder terminal specialist)“라고 불렀다. 터미널 셸 코딩, 문서 이해, 범용 작업에 특히 강하고, 모든 카테고리를 가장 균형 있게 처리한다는 평이다.

두 모델을 직접 비교한 단락에서는, 장기 호흡(long-horizon) 프로젝트나 다국어 코딩 같은 특정 영역에서는 클로드 오퍼스가 여전히 우세하다고 봤다. 반면 영상, 이미지, 멀티모달 추론에서는 퀀 3.6 플러스가 낫다고 평가했다. 방금 이미지를 깔끔하게 읽어 요약해낸 것 자체가 이미 그 증거였다. 요약하면, 클로드는 순수 코딩 벤치에서 여전히 우위이고, 퀀 3.6 플러스는 멀티모달에서 우위다. 그 외에는 꽤 박빙이며, 가격 차를 감안하면 퀀 쪽 결과는 상당히 인상적이다.

테스트 2: 퀀 코드에서 3.js 3D 장면 만들기

이제 자리를 옮겨 퀀 코드(Qwen Code)로 간다. 퀀 코드는 클로드 코드(Claude Code)와 비슷한 개념의 터미널 코딩 에이전트다. 가장 먼저 테스트하고 싶었던 것은 퀀 팀이 크게 자랑한 3D 프런트엔드 생성 기능이었다.

프롬프트는 이렇게 줬다. 3.js(3.js, Three.js)를 써서 인터랙티브한 3D 장면을 하나 만들되, 화면 위쪽 절반에는 애니메이션이 들어간 태양계(solar system)를, 아래쪽 절반에는 포켓몬(Pokemon) 스타일의 로우폴리(low-poly) 섬을 배치하라고. 지형은 삼각 분할된 로우폴리 느낌이어야 하고, 기술 요구사항도 함께 명시했다. 즉 태양계와 섬, 두 가지 서브 태스크가 한 프롬프트 안에 들어 있는 셈이다. 공정한 비교를 위해 같은 프롬프트를 오퍼스(Opus) 4.6에도 그대로 넣었다.

퀀 3.6 플러스는 단 1분 만에 결과를 뽑아냈다. 위쪽에는 태양계가 놓여 있고, 확대해 보면 행성들이 천천히 궤도를 돌며 마우스를 올리면 이름과 간단한 정보가 떠오른다. 배경에는 별도 깔려 있어 그럴듯했다. 아래쪽 로우폴리 섬도 스크롤로 확대해 보면 확실히 로우폴리 느낌의 지형이 나타났다. 디테일이 풍부하다고 말하긴 어렵지만, 1분 만에 나온 결과치고는 나쁘지 않았고 프롬프트가 요구한 두 영역을 모두 채웠다.

반면 클로드 오퍼스 4.6은 결과를 내는 데 약 5분이 걸렸다. 태양계 파트는 화면을 거의 전부 점유했고, 확대/축소와 궤도 애니메이션, 행성 호버(hover)도 잘 동작했다. 문제는 섬이었다. 오퍼스는 섬을 아예 우주 공간 안에 띄워 버렸다. 원래 프롬프트가 “위쪽 = 태양계, 아래쪽 = 섬”이라는 상하 배치였는데, 이 구조를 지키지 않았다. 아래로 스크롤해 보면 나무 같은 오브젝트와 호수로 추정되는 영역은 있었지만, 통째로 하나의 씬으로 합쳐져 있어 구분이 되지 않았다. 솔라 시스템 자체는 오퍼스 쪽이 더 정돈돼 보였지만, 섬 부분에서 프롬프트 해석을 놓쳤다는 점이 결정적인 감점 요인이었다. 퀀 3.6 플러스는 덜 정교해 보여도 요청 구조를 충실히 따랐다.

테스트 3: 대형 코드베이스 감사와 개선 제안

두 번째 코딩 테스트는 대형 코드베이스(code base) 감사였다. 내가 이전에 작업했던 터보퀀트(TurboQuant) 구현체를 사용했다. 규모 자체는 아주 거대하지 않지만, 고급 수학이 많이 들어가 있고 논문 속에만 존재하던 방법을 스크립트로 재현한 복잡한 코드다.

프롬프트는 단순하다. “이 코드베이스를 감사(audit)하고, 버그를 찾아내고, 당신의 리서치를 바탕으로 이 구현을 어떻게 개선할 수 있을지 아이디어를 달라.” 이것을 퀀 3.6 플러스와 오퍼스에 똑같이 넣었다. 에이전트형 코딩과 추론을 동시에 시험하는 과제다.

결과를 먼저 요약하면 이렇다. 오퍼스는 총 8개의 버그를 찾아냈다. (해당 버그들은 지금은 전부 수정된 상태다.) 퀀 3.6 플러스는 5개의 버그를 찾아냈는데, 이 중 상당수가 오퍼스가 찾은 것과 겹쳤다. 한 가지 차이는 오퍼스가 특정 컴프레서(compressor) 관련 버그들을 더 세분화해 여러 건으로 보고했다는 점이다. 즉, 총량만 보면 오퍼스 쪽이 조금 더 꼼꼼했다.

개선 제안에서는 흐름이 뒤집혔다. 오퍼스는 패키지 구조 개선, 패딩/트렁케이션(padding/truncation) 처리, 레이어 단위 비트 할당(layer adaptive bit allocation) 같은 7개의 개선 아이디어를 냈다. 퀀 3.6 플러스는 13개의 아이디어를 성능, 코드 품질, 기능 추가 세 범주로 나눠 제시했다. 기존 문제를 고치는 수준을 넘어서, 시각화 대시보드나 동적 재압축(dynamic recompression) 같은 신규 기능까지 제안했다. 요약하면, 오퍼스는 더 철저한 감사, 퀀은 더 풍부한 개선 아이디어를 낸 셈이다. 벤치마크 결과와 체감이 일치한다. 소프트웨어 엔지니어링에서는 오퍼스가 여전히 약간 앞서지만, 복잡한 코드에서 버그 위치를 정확히 집어내고 다양한 개선안을 낸 퀀 3.6 플러스의 성과는 무시할 수 없는 수준이다.

테스트 4: 손글씨 메모가 포함된 랜딩 페이지 재현

마지막은 멀티모달 능력 시험이다. 테스트 소재는 기존 랜딩 페이지 스크린숏에 내가 페인트(Paint)로 직접 그어놓은 빨간 펜 메모다. “이 부분 지워라”, “여기를 파란색으로 바꿔라”, “유튜브 배너를 이 위로 올려라”, “이걸 두 줄로 만들어라”, “이 요소 크기를 키워라” 같은 지시가 적혀 있었다. 문제는 내 손글씨가 거의 판독 불가 수준이라는 점이었다. 게다가 작은 숫자들도 그대로 재현해야 한다.

프롬프트는 “이 이미지를 읽고, 빨간 펜으로 적어둔 변경사항까지 반영해 랜딩 페이지를 재현해달라”였다. 이번에는 허미스 에이전트(퀀 3.6 플러스)와 오픈클로(OpenClaw) 에이전트(오퍼스 4.5)에 동시에 넣었다.

오퍼스 결과부터 보자. 유튜브 배너를 원하는 위치로 옮겼고, 특정 요소의 크기도 키웠다. 상단 로고 제거, 특정 텍스트를 두 줄로 나누는 것도 해냈다. 문제는 색상이었다. 나는 메인 타이틀 하나만 파란색으로 바꾸라고 했는데, 오퍼스는 페이지 전체 텍스트를 파랗게 칠해 버렸다. 다른 지시는 대부분 맞게 수행했지만, 이 색상 오인은 꽤 큰 실수였다.

퀀 3.6 플러스의 결과는 달랐다. 유튜브 배너를 정확한 위치로 옮겼고, 오퍼스처럼 엉뚱한 곳에 유튜브 로고가 남지도 않았다. 카드 두 개의 원래 색상은 그대로 유지하면서, 위쪽 타이틀만 파란색으로 바꿨다. 이는 내가 원한 바로 그 동작이다. 제거 요청한 로고도 정확히 지웠다. 두 줄로 만들라는 지시에는 여전히 세 줄로 남아 있었는데, 이건 확대 비율 문제일 수도 있다. 본문에 있던 숫자들은 두 모델 모두 정확하게 복제했다. 종합적으로 이 과제의 승자는 퀀 3.6 플러스다. 지시 사항을 훨씬 충실하게 따랐기 때문이다.

덧붙이자면, 이 실험은 프런트엔드 작업 방식에 대한 힌트이기도 하다. 지금 작업 중인 화면을 스크린숏 찍고 펜으로 메모만 갈겨넣어도 모델이 이 정도로 이해한다면, 아이패드(iPad)처럼 펜 입력이 가능한 장치와 결합했을 때 반복 디자인(iteration)의 생산성이 크게 올라갈 수 있다는 뜻이다.

마무리 소감

세 가지 작은 과제를 통해 클로드 오퍼스와 퀀 3.6 플러스를 비교해 봤다. 결론은 단순하지 않다. 순수 소프트웨어 엔지니어링 감사 같은 영역에서는 클로드가 여전히 미세한 우위를 유지한다. 반면 프롬프트 구조를 충실히 따르는 능력과 시각 기반 과제(3D 씬 배치, 스크린숏 해석)에서는 퀀 3.6 플러스가 뚜렷하게 앞섰다. 가격 차이까지 감안하면, 이 모델은 충분히 주력 도구로 고려할 만하다.

나 역시 앞으로 허미스 에이전트의 기본 모델로 퀀 3.6 플러스를 더 자주 쓸 생각이고, 추가적인 코딩 기능 테스트도 퀀 코드에서 계속 돌려볼 계획이다. 많은 사람들이 기다리고 있는 건 오픈소스 변형 모델들인데, 나 역시 마찬가지다. 이번 플러스 버전 근처의 품질만 유지된다면, 작은 오픈 변형들도 엄청난 영향력을 가질 것이다. 오늘은 여기까지다. 새 퀀 코드와 퀀 3.6 플러스를 직접 써봤다면 댓글로 경험을 공유해주시길. 다음 영상에서 또 만나자.

02리서치 문서 · Document

퀀(Qwen) 3.6 플러스는 정말 오퍼스(Opus)의 아성을 흔들 수 있을까

원본 영상: YouTube · 채널: Onchain AI Garage (@OnchainAIGarage) · 업로드: 2026-04-03

서론: “오픈소스 맹주”의 플래그십 실험

2026년 봄, 알리바바(Alibaba)의 퀀(Qwen) 팀은 퀀 3.6 플러스(Qwen 3.6+)라는 새 플래그십 모델을 전격 공개했다. 지금까지 퀀이 오픈소스 LLM 생태계의 기반이 되어온 브랜드였다는 점을 생각하면, 이번 공개는 여러모로 이례적이다. 첫째, 플래그십이 일단은 클로즈드 소스(closed source)로 공개되었다. 둘째, 100만 토큰(1M) 컨텍스트 윈도와 상시 켜진 체인 오브 쏘트(chain-of-thought) 추론을 전면에 내세우며 에이전트형 코딩을 핵심 셀링 포인트로 삼았다. 셋째, 출시 직후 오픈루터(OpenRouter)를 통해 프리뷰로 무료 배포되어, 커뮤니티가 하루 만에 직접 비교 테스트에 돌입할 수 있었다.

Onchain AI Garage의 영상은 바로 그 첫날 “현장 리포트”다. 이 글은 영상 내용을 한국어 독자 관점에서 재구성하고, 커뮤니티와 언론 보도에서 나온 벤치마크·가격·아키텍처 정보를 덧붙여, 퀀 3.6 플러스가 실제로 클로드 오퍼스(Claude Opus)의 대안이 될 수 있는지 가늠해본다.

본론 1: 퀀 3.6 플러스가 내세우는 핵심 스펙

퀀 3.6 플러스는 단일 기능이 아니라 “번들 마케팅”에 가까운 방식으로 포지셔닝된다. 팀이 가장 먼저 강조하는 것은 에이전트형 코딩(agentic coding), 그중에서도 터미널 환경에서의 셸 코딩 능력이다. 이와 함께 1M 토큰의 초대형 컨텍스트 윈도, 멀티모달 비전(multimodal vision), 프런트엔드 3D 생성 능력, 문서 이해 성능이 한 묶음으로 선전된다.

벤치마크 쪽 흐름을 정리하면 이렇다. 퀀 3.6 플러스는 터미널-벤치 2.0(Terminal-Bench 2.0) 기준으로 클로드 4.5 오퍼스(Claude 4.5 Opus)를 61.6 대 59.3으로 앞서지만, 가장 최신인 클로드 4.6 오퍼스(Claude 4.6 Opus)에는 65.4 대 61.6으로 여전히 뒤처진다는 분석이 있다 (MindStudio 비교). SWE-벤치(SWE-bench Verified)와 SWE-벤치 프로(SWE-bench Pro)에서는 각각 80.9 대 78.8, 57.1 대 56.6으로 오퍼스가 근소하게 앞선 것으로 보고됐다 (Best AI for Coding 2026). 즉, 벤치마크 상 “퀀이 클로드를 이겼다”는 선언은 비교 대상에 따라 참과 거짓이 갈린다.

속도와 가격은 다른 이야기다. 커뮤니티 측정에서는 퀀 3.6 플러스 프리뷰의 토큰당 출력 속도가 오퍼스 4.6보다 약 2~3배 빠른 것으로 나타났다 (Qwen3.6-Plus API 분석). 가격은 아직 공식 확정 전이지만, 프리뷰 기간에는 오픈루터에서 무료로 호출 가능한 상태다 (Build Fast With AI 리뷰).

본론 2: 영상의 네 가지 실전 테스트

Onchain AI Garage는 공식 벤치마크 대신 네 가지 현장형 과제를 돌렸다.

벤치마크 이미지 요약: 허미스 에이전트(Hermes agent)에 퀀 3.6 플러스를 붙여 벤치마크 스크린숏을 요약시킨다. 모델은 스스로 클로드 오퍼스가 종합 소프트웨어 엔지니어링에서 여전히 앞선다고 평가하면서도, 자신을 “올라운더 터미널 스페셜리스트”라고 소개했다. 자기 자랑이 담긴 평가라기보다 시각 인식과 표 구조 이해를 확인하는 과제였고, 이 부분은 매끄럽게 통과했다.
3.js 기반 3D 장면 생성: 상단 절반에 태양계, 하단 절반에 포켓몬 스타일 로우폴리 섬을 동시에 구현하라는 2중 과제다. 퀀 3.6 플러스는 약 1분 만에 둘을 분리된 상하 레이아웃으로 구현했다. 오퍼스 4.6은 5분을 쓰고도 섬을 우주 공간에 띄워버려 레이아웃 요구를 지키지 못했다. 결과물 디테일은 오퍼스의 태양계 쪽이 더 깔끔했지만, “프롬프트 구조 준수”에서 퀀이 확실한 승을 챙겼다.
터보퀀트(TurboQuant) 코드베이스 감사: 고급 수학 구현이 포함된 복잡한 파이썬 프로젝트의 버그를 찾고 개선안을 제시하는 과제다. 오퍼스는 8개의 버그를, 퀀은 5개의 버그를 보고했다. 오퍼스가 더 꼼꼼했지만, 개선 아이디어는 퀀이 13개(성능, 코드 품질, 기능 추가 3범주) 대 오퍼스 7개로 더 풍부했다.
손글씨 메모가 포함된 랜딩 페이지 재현: 페인트로 휘갈긴 빨간 펜 지시사항을 그대로 해석해야 하는 가장 까다로운 멀티모달 과제다. 퀀 3.6 플러스는 유튜브 배너 이동, 로고 제거, 특정 색상만 파란색으로 교체 같은 지시를 정확히 반영했다. 반면 오퍼스는 “메인 타이틀만 파랗게”라는 지시를 “전체 텍스트를 파랗게”로 오해하는 결정적인 실수를 했다. 시각 기반 지시 준수에서도 퀀의 우세가 드러났다.

종합하면 영상에서의 판정은 이렇다. 순수 감사 능력 = 오퍼스, 프롬프트 구조/시각 추론 = 퀀. 가격 차까지 감안하면 퀀이 “가성비 관점에서 명백히 매력적”이라는 것이 리뷰어의 결론이다.

본론 3: 퀀 3.6 플러스와 퀀 3-VL 계열의 관계

영상에서는 다뤄지지 않았지만, 퀀 3.6 플러스의 멀티모달 능력은 퀀 팀이 같은 시기에 공개해온 퀀 3-VL(Qwen3-VL) 계열과 긴밀하게 연결돼 있다. 퀀 3-VL은 네이티브 256K 컨텍스트를 1M까지 확장할 수 있고, 장편 영상·책·다국어 OCR을 포괄적으로 다루도록 설계되어 있다 (Qwen3-VL GitHub). 플래그십인 Qwen3-VL-235B-A22B는 아파치(Apache) 2.0 라이선스로 오픈소스화되어, 연구·상업 양쪽 모두에서 자유롭게 파생이 가능하다 (Kanaries 기술 해설).

퀀 3.6 플러스의 “이미지 속 손글씨 해독” 같은 퍼포먼스는 이 VL 계열에서 쌓아온 비전 기반 인식·OCR 역량이 플래그십에 응축되어 드러난 결과로 읽는 게 자연스럽다. 달리 말하면, 퀀 3.6 플러스의 일부 기능들은 가까운 미래에 더 작은 오픈 변형 모델들로 되돌아올 가능성이 크다.

본론 4: “터미널 벤치” 같은 단일 지표의 위험

이번 출시 사이클에서 눈여겨볼 또 다른 지점은 “단일 벤치마크 서사”의 한계다. 퀀 3.6 플러스는 터미널-벤치 2.0에서 오퍼스 4.5를 넘었다는 점 덕분에 “처음으로 진짜 에이전트형 LLM”이라는 식의 강한 서사로 홍보되었다 (Mehul Gupta 분석). 그러나 같은 기간 클로드 쪽에는 오퍼스 4.6이 등장했고, 이 최신 버전과 비교하면 퀀이 다시 뒤지는 양상이 된다. 벤치마크는 고정된 진리가 아니라, “어느 버전 대 어느 버전”이라는 전제에 매우 민감한 상대적 지표다.

실제 의사결정에서 더 중요한 것은 과제별 적합성(task fit)이다. 영상이 잘 보여줬듯, 같은 가족의 모델도 “구조화된 프롬프트 준수”, “장기 호흡 리팩토링”, “비전 기반 지시 해석” 같은 축마다 강점이 다르다. 두 모델을 같은 파이프라인에서 병렬로 호출하고 투표하는 형태의 “멀티 모델 에이전트”가 단기적으로는 더 현실적인 해답일 수 있다.

본론 5: 오픈소스 파생 모델에 대한 전망

퀀 팀이 이번 플래그십을 클로즈드로 출발시킨 배경에는 상용 API 수익화와 경쟁 방어의 동기가 있지만, 커뮤니티는 결국 작은 오픈 변형이 풀릴 가능성에 주목하고 있다 (Geeky Gadgets 리포트). 과거 퀀 3.5 계열이 다양한 크기(9B/27B/35B 등)로 허깅페이스(Hugging Face)에 풀렸던 전례를 보면, 플러스의 일부 능력은 7~30B 급 오픈 변형으로 증류되어 로컬 LLM 사용자에게 돌아올 가능성이 높다. 그 시점이 오면, 개인 개발자 레벨에서도 1M 근접 컨텍스트와 고품질 비전 추론을 함께 쓰는 실험이 가능해진다.

핵심 인사이트

“누가 이겼나”는 비교 버전에 따라 뒤집힌다. 터미널-벤치 2.0 기준 퀀은 오퍼스 4.5를 이기지만, 오퍼스 4.6에는 진다. 벤치마크 인용 시에는 반드시 상대 버전을 확인해야 한다.
가격·속도 요인은 벤치마크 이상으로 결정적이다. 퀀 3.6 플러스의 2~3배 출력 속도와 프리뷰 무료 정책은, 정확도 몇 % 차이를 상쇄하고도 남는다.
프롬프트 구조 준수는 새로운 벤치마크 축이다. 3D 씬 배치와 손글씨 해석에서 드러난 퀀의 강점은, 에이전트형 환경에서 가장 귀한 속성인 “지시 충실도”를 겨냥한다.
오픈소스 생태계의 파급력은 플래그십 너머에 있다. 퀀 3-VL의 아파치 2.0 공개와 과거 퀀 3.5 계열의 오픈 관행은, 플러스 능력의 일부가 머지않아 로컬에서 재현될 것이라는 신호다.

더 알아보기

03찬반 토론 · Debate

토론: “퀀(Qwen) 3.6 플러스는 클로드 오퍼스(Claude Opus)를 대체할 만한 에이전트형 코딩 모델인가”

논제: 퀀 3.6 플러스는 가격·속도·지시 준수의 장점을 앞세워, 이제 실무 에이전트 워크플로에서 클로드 오퍼스를 대체할 만한 수준에 도달했다.

Round 1

🟢 Pro — “퀀 3.6 플러스는 이미 실무 대체재다”

퀀 3.6 플러스는 단순한 “추격자”가 아니라 포지션 자체가 다른 모델이다. 영상 속 네 가지 테스트 중 세 가지에서 의미 있는 우위를 보였고, 특히 3.js(Three.js) 3D 씬 과제에서는 상하 분할이라는 프롬프트 구조를 1분 만에 정확히 반영했다. 오퍼스 4.6은 5분이라는 긴 시간을 쓰고도 섬을 우주 공간에 띄워 구조 요구를 놓쳤다. 에이전트 파이프라인에서 가장 비싼 것은 “잘못된 결과물을 고치는 재시도 비용”인데, 바로 이 지점에서 퀀이 우위를 갖는다.

가격·속도도 결정적이다. 커뮤니티 측정에 따르면 퀀 3.6 플러스는 오퍼스 4.6 대비 23배 빠른 토큰 출력을 보이고, 현재는 오픈루터에서 무료로 호출되고 있다. 장기적으로도 오퍼스보다 훨씬 저렴하게 책정될 것으로 예상된다. 자동화된 에이전트가 하루에 수천 회 호출을 돌리는 환경에서, 정확도 23%의 차이는 속도 2~3배 차이 앞에서 금세 무의미해진다.

무엇보다 멀티모달 처리에서 드러난 능력이 핵심이다. 손글씨 메모가 섞인 랜딩 페이지 과제에서 퀀은 “메인 타이틀만 파란색”이라는 세부 지시를 정확히 해석했지만, 오퍼스는 페이지 전체 텍스트를 파랗게 바꾸는 엉뚱한 결과를 냈다. 이는 단순한 코딩 문제가 아니라, 시각 기반 지시 해석이 필요한 현대적 에이전트 워크플로의 핵심 능력이다. 퀀은 이 축에서 명확히 앞선다.

🔴 Con — “여전히 오퍼스가 실무의 기준이다”

벤치마크의 그림을 있는 그대로 보자. 터미널-벤치 2.0에서 퀀이 이겼다는 주장은 클로드 4.5 오퍼스 기준이고, 같은 벤치의 클로드 4.6 오퍼스는 65.4 대 61.6으로 다시 앞선다. SWE-벤치 베리파이드(Verified)와 SWE-벤치 프로(Pro)에서도 오퍼스가 여전히 리드 중이다. “이긴다”는 서사는 비교 대상 버전에 따라 뒤집히는 수사(修辭)에 가깝다.

영상의 감사 테스트도 이를 뒷받침한다. 복잡한 터보퀀트(TurboQuant) 코드베이스에서 오퍼스는 8개의 버그를, 퀀은 5개의 버그를 찾아냈다. 장기 호흡 리팩토링과 논리적 꼼꼼함이 필요한 실제 소프트웨어 엔지니어링에서, 놓친 버그 3개의 비용은 “13개 개선 아이디어”로 상쇄되지 않는다. 제안 아이디어가 많은 것은 감사가 아니라 브레인스토밍의 영역이다.

또한 “가격이 싸다”는 주장은 지금의 프리뷰 상태에만 해당한다. 플래그십 퀀 3.6 플러스는 현재 클로즈드 소스이며, 무료 기간은 오픈루터의 프로모션일 뿐이다. 정식 가격이 책정되고 나면 비용 우위는 상당 부분 축소될 가능성이 높다. 그 시점에 남는 것은 “실제 엔지니어링 신뢰도”이고, 거기서는 오퍼스가 여전히 업계 표준이다.

Round 2

🟢 Pro (재반론) — Con의 주장 하나하나를 짚어본다

Con의 첫째 논점, “벤치마크 서사는 버전에 따라 뒤집힌다”는 반쪽짜리 주장이다. 물론 클로드 4.6 오퍼스는 일부 벤치에서 다시 앞선다. 그러나 이는 정확히 Pro의 논점을 강화한다. 오퍼스가 최신 버전을 내놓아야 간신히 따라잡을 수 있는 격차까지 퀀이 올라왔다는 뜻이기 때문이다. 출시 사이클이 거의 비슷한 두 조직 중 하나는 클로즈드 프리미엄, 다른 하나는 오픈 생태계를 끼고 있다는 점을 감안하면, 이 “근소한 2위”는 전략적으로는 승리에 가깝다.

Con의 둘째 논점, “오퍼스가 버그 8개, 퀀이 5개를 찾았으니 감사 능력이 우세하다”는 주장은 테스트 하나의 단면을 과잉 일반화한 것이다. 영상 속 리뷰어조차 “오퍼스가 특정 컴프레서 버그를 여러 건으로 쪼개서 셌다”고 분명히 짚었다. 즉, 버그 개수 차이의 상당 부분은 분류 방식의 차이지 누락의 차이가 아니다. 실제 리팩토링 사이클에서 중요한 것은 “놓치지 않은 핵심 이슈”인데, 퀀이 찾은 항목들은 오퍼스와 상당 부분 겹쳤다.

Con의 셋째 논점, “가격 우위는 프로모션에 불과하다”는 가정에도 문제가 있다. 알리바바의 과거 퀀 3.5 계열은 대부분 저렴한 가격 정책과 오픈소스 병행 전략을 택했다. 같은 패턴이 이어진다면 정식 가격이 책정되어도 오퍼스보다 훨씬 낮은 수준일 가능성이 높다. “지금의 무료 가격만 기준으로 판단하지 말라”는 반론은, 반대로 “과거 알리바바 전략을 무시하지 말라”는 재반박을 받을 수밖에 없다.

🔴 Con (재반박) — Pro의 주장을 하나씩 되짚는다

Pro의 첫째 논점, “네 가지 테스트 중 셋에서 퀀이 이겼다”는 표현은 통계적으로 설득력이 없다. 사례 n=4, 그것도 한 리뷰어의 주관적 판정이다. 이 중 하나는 “벤치마크 이미지 요약”이라는 지극히 단순한 태스크이고, 다른 하나는 손글씨 해석인데, “메인 타이틀 하나만 파랗게”라는 지시는 현실 서비스에서 거의 등장하지 않는 예외적 케이스다. 이 정도 샘플로 “실무 대체재”라는 일반화를 하는 것은 무리다.

Pro의 둘째 논점, “속도가 2~~3배 빠르므로 정확도 2~~3% 차이는 상쇄된다”는 계산은 현실 에이전트 운영에서 위험한 단순화다. 에이전트 파이프라인에서 잘못된 결과는 다음 단계의 전체 체인을 오염시키고, 롤백 비용은 정확도 차이에 비선형적으로 비례한다. 특히 오퍼스가 앞서는 장기 호흡 코드 수정, 다국어 코딩, 시스템 수준 리팩토링 작업은 한 번의 실수가 하루 작업 분량을 삼킨다. “빠른 실패는 괜찮다”는 관점은 개인 사이드 프로젝트에는 맞지만 실무 기준이라 부르기 어렵다.

Pro의 셋째 논점, “3D 씬 프롬프트 준수”는 프런트엔드 실무 기준으로 보면 매우 좁은 사례다. 실제 프로덕션 프런트엔드는 라우팅, 상태 관리, 접근성, 테스트 코드까지 함께 다루는데, 1분짜리 원샷 3D 씬 생성의 우수성은 이 복합 능력을 대표하지 못한다. 퀀의 승리를 “실무 대체”로 확장하려면 장기 호흡 과제에서의 성과가 함께 나와야 한다.

Round 3

🟢 Pro — Con의 Round 2 반박을 정면으로 논박한다

Con의 첫째 반박, “n=4의 주관적 판정”이라는 지적은 타당하지만 방향이 잘못됐다. 실무 의사결정은 벤치마크 숫자뿐 아니라 체감 품질로 구성된다. 영상은 단 하나의 사례가 아니라, 공개 벤치마크, 커뮤니티 속도 측정, 가격 구조, 프롬프트 준수 사례까지 여러 축의 증거 중 하나일 뿐이다. 여러 축의 증거가 같은 방향을 가리킨다면, 단순히 “n이 작다”는 이유로 기각할 수 없다.

Con의 둘째 반박, “에이전트 체인 오염”이라는 개념은 중요하지만, 그 결론은 정반대다. 체인 오염이 정말 걱정된다면, 더 저렴하고 빠른 모델로 병렬 실행하며 중간 검증(evaluator) 패턴을 붙이는 것이 현대적 해법이다. 퀀 3.6 플러스의 속도와 가격은 바로 이 멀티 에이전트/검증자 패턴을 가능하게 하는 실질적 전제조건이다. 오퍼스의 “단일 호출 고정확도”는 한 세대 이전의 모놀리식 가정이다.

Con의 셋째 반박, “프런트엔드는 라우팅·상태·테스트까지 본다”는 지적은 옳지만, 이는 오퍼스의 우위를 증명하지 않는다. 두 모델 모두 이런 시스템 수준 작업에서 여전히 사람 리뷰를 필요로 하며, 퀀 3.6 플러스는 여기에 더해 1M 토큰 컨텍스트로 대형 코드베이스를 한 번에 읽을 수 있다. 장기 호흡 작업에서조차 퀀 3.6 플러스는 “열세”가 아니라 “대안”이다.

🔴 Con — Pro의 Round 2 재반론을 뒤집는다

Pro의 첫째 재반론, “오퍼스가 간신히 따라잡을 정도면 전략적 승리”라는 해석은 프레임 왜곡이다. 기술 리더십 경쟁에서 “더 큰 노력을 들여 더 앞선다”는 것은 정확히 리더십의 정의다. 오퍼스 4.6이 나오는 동안 퀀도 놀지 않았고, 그럼에도 결과는 오퍼스의 재승리로 끝났다. “턴을 많이 썼으니 실제로는 퀀이 이긴 것”이라는 논리는 경기의 규칙을 무시한다.

Pro의 둘째 재반론, “버그 개수 차이는 분류 방식의 차이”라는 해석은 영상이 실제로 전달한 내용을 부분적으로만 인용한다. 리뷰어는 “오퍼스가 더 철저했다(more thorough)“고 명시적으로 결론 내렸다. 컴프레서 버그 분류 차이라는 디테일이 있기는 하지만, 전체 결론은 Pro의 방향이 아니다. 인용을 골라 쓰는 것으로 결론을 뒤집을 수는 없다.

Pro의 셋째 재반론, “알리바바의 과거 가격 전략을 보면 저렴할 것”이라는 추정은 합리적이지만, 그것은 “대체재가 될 것이다”라는 미래 추론이지 “이미 대체재다”라는 논제의 근거가 되지 못한다. 논제는 현재 시제로 서 있다. 클로즈드 플래그십이 정식 가격도 없이 프리뷰인 상태에서 “이미 실무 대체재”라고 선언하는 것은, 검증 기준으로 보아 성급하다.

🧭 종합

합의 지점

두 진영은 몇 가지 사실에 명확히 동의한다. 첫째, 퀀 3.6 플러스는 과거 퀀 시리즈와 비교해 극적인 도약이며, 특히 멀티모달 비전과 프롬프트 구조 준수에서 뚜렷한 강점을 보인다. 둘째, 클로드 오퍼스 4.6은 여전히 순수 소프트웨어 엔지니어링 감사와 장기 호흡 작업에서 미세한 우위를 유지한다. 셋째, 두 모델의 격차는 버전 사이클 안에서 빠르게 좁혀지고 있으며, 단일 벤치마크로 “최강”을 확정하는 것은 이제 무의미에 가깝다. 넷째, 가격·속도·컨텍스트 크기는 에이전트 운영 관점에서 정확도 못지않게 중요한 축이다.

열린 질문

정식 가격이 확정된 이후에도 퀀 3.6 플러스의 비용 우위는 유지될 것인가. 프리뷰 무료 정책이 끝난 뒤의 토큰당 단가가 이 논쟁의 상당 부분을 재설정할 것이다.
오픈 변형 모델의 품질이 플러스에 얼마나 근접할 것인가. 7~30B 급 오픈 변형이 플러스의 비전·코딩 능력을 어느 정도 이어받느냐에 따라 “로컬 실무 대체재”라는 논의가 새로 열린다.
장기 호흡 코드 리팩토링 벤치마크에서의 진짜 성능은 무엇인가. 현재의 영상 테스트들은 몇 분~한 시간 단위의 과제였다. 며칠 단위의 리팩토링에서 두 모델이 어떻게 버티는지는 아직 공개 데이터가 부족하다.
멀티 에이전트·검증자 패턴이 일반화될 때, “단일 모델 왕좌” 논쟁 자체가 의미를 유지할 수 있는가. 속도가 빠른 모델과 정확도가 높은 모델을 조합하는 파이프라인이 표준이 되면, 두 모델은 경쟁자가 아니라 역할 분담의 대상이 된다.

더 나아간 관점

이 토론의 진짜 교훈은 “퀀 대 오퍼스”라는 이항 대립에서 벗어나는 데 있다. 지금 실무에서 가장 합리적인 자세는 두 모델을 배타적 대체재가 아니라 보완재로 쓰는 것이다. 시각 기반 지시 해석, 1M 컨텍스트 스캔, 빠른 프로토타이핑 같은 작업에는 퀀 3.6 플러스를 기본 엔진으로 두고, 장기 호흡 리팩토링과 시스템 수준 감사에는 오퍼스 4.6을 평가자(evaluator)로 배치하는 “퀀 드래프트 + 오퍼스 리뷰” 파이프라인이 그 예다. 이 구조에서는 “누가 대체하느냐”라는 질문이 “누가 어느 단계에서 더 저렴한 가치를 내느냐”로 교체된다.

또한 이번 사이클은 오픈소스 생태계가 상용 프런티어 모델에 “시간”이라는 압력을 가하기 시작했음을 보여준다. 퀀 팀이 플래그십을 클로즈드로 출발시켰다는 사실 자체가 이를 역설적으로 증명한다. 오퍼스가 반년마다 마이너 버전을 올리지 않으면, 오픈 계열이 곧 따라잡는다. 사용자 입장에서 이는 “어떤 모델을 선택하느냐”보다 “어떤 속도로 모델을 교체하는 파이프라인을 설계하느냐”가 더 중요한 질문이 되었다는 뜻이다. 퀀 3.6 플러스의 등장은 승패의 문제가 아니라, LLM 소비 방식의 전환점으로 읽는 것이 더 생산적이다.

한 걸음 더 들어가면, 이 논쟁은 결국 “벤치마크의 수명”에 대한 질문이기도 하다. 터미널-벤치(Terminal-Bench), SWE-벤치(SWE-bench) 같은 지표들은 설계 당시 “충분히 어려운” 기준으로 만들어졌지만, 두 세대 모델 사이에서 수 개월 만에 포화(saturation) 구간에 진입하고 있다. 상위권 모델들의 점수가 60~80% 구간에 몰리기 시작하면, 절대 점수보다 “어떤 실패 유형을 피하는가”가 더 중요한 평가축이 된다. 퀀 3.6 플러스가 상하 레이아웃 같은 구조 지시에서 더 낫고, 오퍼스가 세밀한 논리 버그 탐지에서 더 낫다면, 두 모델은 “같은 벤치의 숫자”가 아니라 “실패 모드의 지형”으로 비교되어야 한다.

이 관점을 받아들이면 최종 판정은 더 실용적인 색채를 띤다. Pro가 주장한 “실무 대체재”라는 표현은 단일 모델 기준으로는 과장이지만, 파이프라인 기준으로는 이미 사실에 근접한다. Con이 주장한 “여전히 오퍼스가 기준”이라는 표현은 단일 호출 정확도 기준으로는 유효하지만, 총소유비용(TCO)과 반복 속도를 포함한 실제 운영 지표에서는 점점 설득력을 잃고 있다. 두 진영 모두 틀리지 않았고, 틀린 것은 “둘 중 하나를 골라야 한다”는 전제다. 진짜 승자는 이 전제를 가장 먼저 버리고 조합으로 옮겨간 팀일 것이다.

04영문 원본 · Transcript

So, Quen just dropped the new model today, which is Quen 3.6+, and they're saying this is a major milestone, a major drop.
So, I wanted to test it out today. So, today we're going to be testing this out. It just came out today.
We're going to be testing it out in Hermes agent and as well as Quen code to test the different functions it claims it has.
So, they really highlight here the benchmarks. You can see them as well.
They really claim strength in agentic coding, actually beating Claude in agentic terminal coding.
So, we're going to test that as well, see how well it codes.
They really strongly hyped up their front-end skills, saying that they can build front-ends with better 3D generation.
So, we're going to test that as well.
It's highlighted the very large context window, 1 million tokens in this version.
So, we're going to be testing that.
With some very large code bases and also the multimodal vision, it has sharper perception and reasoning from visuals.
So, we'll be testing that all. This won't take too long, but this just came out today, so I just wanted to test it.
And this is going to be their flagship for Quen 3.6+, but I'm sure they'll have smaller versions.
Right now, this is closed source.
Quen is obviously known and very popular for its open source models.
A lot of the open source workloads.
Worker, local LLMs use Quen models.
This one is closed source right now, but they've kind of hinted that some of the smaller variants should be open source.
But we'll see about that.
Nothing right now, because this just launched.
So, you can get this right now for free on OpenRouter, if you have their API key.
This probably won't last too long.
But you can see here, Quen 3.6+, free.
So, if you use that through OpenRouter, for today at least, you can run it for free.
You don't know the exact pricing yet, but expect it to be a lot cheaper than Claude or something like that.
So, first, I'm going to start in Hermes Agent, because it kind of highlighted their agent performance.
So, here we are back in Shrimple, who is my Hermes agent.
He's in Telegram here.
You can see we switched to the Quen 3.6+, free, in OpenRouter.
So, the first thing I asked it to do, I gave it the benchmark image, and I asked it to summarize these results.
It was fairly quick.
It broke down the different models that were being compared.
It still gave Claude 4.5 Opus the agentic coding king.
Best for overall real-world software engineering tasks.
But a close two was Quen 3.6+, which it called the all-rounder terminal specialist.
So, best for terminal shell coding, document understanding, and general purpose use.
Most balanced across all categories.
And then, specifically...
Comparing these two, Quen 3.6+, and Claude Opus, it still gave Claude slight improvement.
Slight edge in terms of coding, software engineering tasks, specifically long horizon projects and multilingual coding.
So, Claude Opus is still better at that, but it gave Quen the better performance when it comes to multimodal.
Issues with video, image, and multimodal reasoning.
And you already saw how well it processed that image right there.
So, basically Claude dominated the software engineering task in these benchmarks.
Quen 3.6 plus dominated multimodal.
And there was a lot of close races.
And considering the difference in price makes you have to be impressed by the benchmarks that Quen 3.6 plus got there.
Okay, so now I'm in QuenCode, and this is the terminal coding agent, like ClawCode.
I wanted to test out, I thought kind of the coolest thing was that 3D front-end features,
so I wanted to test that out first.
So this, in order to test it, I wanted to test the front-end kind of 3D scene work that they hyped up.
So this is the prompt I just gave it in QuenCode.
Build an interactive 3D scene with 3.js featuring an animated solar system on the top half,
and then the bottom half is going to be this low-poly island.
Pokemon game aesthetic, triangulated low-poly terrain, and they gave it the technical requirements.
So this is kind of two tasks, right?
This animated solar system and this low-poly island.
So let's see how it can generate these kind of 3D scenes.
And I'm also going to do this in Opus 4.6, just so we can see a comparison.
Gave it the same prompt here.
So we'll see what we get for these two.
Okay.
So that only took a minute, but we got something here.
This is the Quen 3.6 Plus version.
You can see on the top it has the solar system.
You can zoom in here, see all the planets.
They are orbiting slowly.
If you go over them, you can see their names, little facts about them.
Nice stars in the background.
Looks pretty good.
It's what we asked for.
And not bad for a minute.
In the bottom, the low-poly island here.
Let's see.
We can scroll in.
Oh, there we go.
Scroll in.
We got this island.
It is very low-poly.
Interesting interpretation.
But, yeah.
It's kind of what we asked for.
Not super detailed, but you could go on and tweak it here.
But not bad for just like a minute it took to do this.
Okay, and this is Claude Opus 4.6's version.
And I will say it took longer.
It took like five minutes for it to produce this.
The solar screen, the solar system part has kind of taken over everything.
But it also has, you can also scroll in like the one we had for the Claude one.
You can scroll in and out.
You can see everything's orbiting the sun.
You scroll over it.
You have hover.
See the names.
And then let's look.
They put the island in the space, which is an interesting move.
They were supposed to be kind of separate.
Kind of hard to see.
Go this way.
If I scroll down, that's about as best as I can do.
It has trees and stuff.
It has, I guess that's supposed to be a lake.
But this is going to be, I don't know why I put it all together.
Whereas this one is obviously clearly separated.
And the prompt did have them as like a top view and bottom view.
They were kind of supposed to be separate.
So that was the front end.
Kind of 3D task.
Obviously, this is just one shot at it in a minute or two.
You can do better if you tweak it from here.
I think the solar system from Opus looks pretty good.
But they kind of botched the island thing.
Whereas with Quen 3.6 Plus, they kind of did both as the prompt properly asked them to do it.
Even if it's a little bit less refined, maybe.
But still, they got all the features.
It looks pretty decent.
The island would need a little.
A little bit of work.
Not sure why they made it a sphere.
But at least it's a separate feature.
So the next test I'm going to give them is I'm going to give them this large code base.
And this was one from my TurboQuant implementation.
It's quite a large, or at least complicated, code base.
It's not that huge, actually.
But it includes a lot of advanced math.
Kind of a difficult implementation.
Using different scripts in order to...
Recreate something that was only existing in papers.
But I'm going to give this to both Claude Opus and Quen 3.6.
And let's see, I'm going to basically ask them to audit the code base, try to identify any bugs, and then ask their thoughts about how to improve upon this implementation.
So that will require some research and a lot of reasoning.
So let's see what we get for that.
So this is the, this is the prompt I'm going to give to Quen and Claude.
Please audit this code base.
Identify.
Any bugs.
And come up with any ideas to improve upon this implementation based on your research.
So that is what I'm going to give it.
I'm also going to give that to Opus.
See what we get.
And this is really testing the agentic coding that they, they hyped up.
Okay, so starting with Opus, it finished it, the audit.
It found eight bugs altogether.
And this is from a previous version.
Don't worry, I fixed all these bugs later.
And, and when 3.6 plus found five bugs, some of them are the same, you could see the compressors, bugs in this script, I think Opus actually split the compressors, bugs into separate ones.
So Opus was a little bit more thorough, found more bugs that are valid.
Now, in terms of improvement ideas, Opus gave me seven.
Seven ideas to improve upon this code base.
Proper package structure, handling of padding truncation, layer adaptive bit allocation.
Let's see what Quen did.
Had some issues.
It pointed out improvement ideas.
It also had actually a lot, 13 different ideas it gave me.
And split them into performance, quality.
And then.
Code quality, giving me ways to upgrade the code base.
And feature additions.
So this is not just fixing up what we have, but actually adding new features, visualization, dash dashboard, dynamic recompression.
So and it gave me a nice little summary at the end.
So Opus did a more thorough audit.
And the benchmarks themselves show that Opus still does have a slight edge in terms of software.
But this is a pretty good job by the Quen model, finding a lot of the bugs, very specifically noting where they are.
And this is on a fairly complex code base.
So that was pretty impressive.
So the last task I'm going to give it is also going to test the multimodal skills.
This is a landing page.
And I just put this in paint, added little notes, you know, remove this, change this to blue, move the YouTube banner up here, make this two lines.
And I'm going to do that.
And I'm going to say increase the size of this one.
So I'm going to ask, I'm going to give this kind of sketch with very unreadable handwriting that I did in paint and see if it can not only recreate this landing page, which shouldn't be too difficult, but there's some small numbers and stuff.
They'll have to read.
It will also have to read this handwritten notes and try to make those changes in the code.
So we'll see.
See, I'm going to do this with Hermes agent and in OpenClaw.
With my OpenClaw.
OpenClaw agent will have Opus 4.5 and the Hermes agent will have the new Quen 3.6.
So I'll see how it can manage it.
I'll be pretty impressed if it's able to make any of these changes because this is kind of unreadable.
So this is the prompt I'm going to give it.
Read this image and recreate this landing page with the changes I added in red pen.
So I'm going to give this to my Opus agent.
The OpenClaw agent.
And I'm also going to do this in Hermes.
In Hermes agent, who has Quen 3.6.
Okay, so I'm curious to see how they'll handle this.
Okay, so I got the two sketches.
So remember, this is the original page as is.
This is my notes on it.
Terrible handwritten notes.
The YouTube banner.
Remove this.
Make this two lines.
Change this color to blue.
Increase the size of this.
And move the YouTube banner up here.
So let's see.
First to give us an idea of what Opus did.
This is Opus's result.
It moved the YouTube thing up here.
It did increase the size.
It changed all of the colors to blue.
Where I only really asked it to change this color to blue.
It did remove the logo up there.
It did turn this into two lines.
It did split it into two lines.
Just it doesn't fit on the same thing.
But that was from Opus.
It didn't...
It kept this.
But it did most of what I was looking for.
Right?
Yeah.
The only kind of big mistake is that it changed everything to blue.
All the text.
Whereas I only asked it to do it in the main title.
And then let's see what we get from Quen.
This is Quen.
We have the watch on YouTube banner in this area.
And this one properly moved everything here.
It doesn't have this random YouTube up here.
Like in Opus.
It maintained the colors.
Which is good.
It kept the colors of these two cards the same.
And just changed the color up here to blue.
Which is what I wanted.
It removed that logo.
This is not two lines.
Still three lines.
But that might just be a zoom issue.
So it wasn't able to do...
It wasn't able to fit it in two lines.
But it maintained the color.
The actual like numbers here are all accurate.
I don't think they screwed up any of the numbers, right?
No.
The actual text remains the same.
I'm impressed they were able to read these terrible handwritten notes so well.
And they increased the size.
So I'm going to have to give this win to Quen 3.6.
It did most of what I was looking for.
Whereas Opus kind of changing the colors there was kind of a big mistake.
So pretty impressive.
Now you could just kind of screenshot.
If you're working on a front end.
You can screenshot what you have and then just write notes.
If that's the easiest way for you.
If you have an iPad or something.
It would probably be easier.
Or something where you can use a pen on the screen.
Very impressive that both of the models I guess could read this terrible writing.
So I think that's going to be it.
Just three little tasks I gave it.
Comparing Claude with Quen 3.6+.
Some of them you could still see.
Claude had...
Still had the advantage.
But other ones Quen 3.6 were better at.
Certainly the visual ones.
I think it had an edge in both of them.
It seemed to follow directions more at least.
But yeah very nice model.
I'll probably continue to use this one more with my Hermes agent.
Or if I want to test out more of the coding functions in Quen code.
But that's going to be it for today's episode.
Please like.
Please subscribe.
Please leave a comment.
Let me know if you have had a chance to use this new Quen code.
This new Quen 3.6 plus model.
I know a lot of people are looking forward to seeing the open sourced versions of them.
And I am as well.
And if they're anything close to the full version.
The plus version.
Then they'll be pretty capable.
But we'll see.
Okay.
That's going to be it for today.
Thank you for watching.