← Back to index

Onchain AI Garage

First Look at Google's Gemma 4: Architecture Breakdown and Real Testing

2026-04-02 · 13m · 자막 —
▶ YouTube 원본
01리서치 문서 · Document

젬마 4(Gemma 4)가 던지는 세 가지 질문: 라이선스, 아키텍처, 그리고 로컬 AI의 미래

원본 영상: YouTube · 채널: Onchain AI Garage · 업로드: 2026-04-02 · 길이: 14분

서론

구글(Google)이 젬마(Gemma) 시리즈의 네 번째 세대를 공개했습니다. 겉으로 보면 “또 하나의 오픈 웨이트(open-weight) 모델 업데이트”처럼 보일 수 있지만, 이번 릴리스는 단순한 버전업이 아닙니다. 라이선스가 바뀌었고, 아키텍처에 과감한 선택이 들어갔으며, 첫날부터 로컬 실행을 전제로 한 형태로 배포되었습니다. Onchain AI Garage 채널의 분석 영상은 이 세 가지 축을 간결하게 짚어 주는데, 이 글에서는 그 내용을 바탕으로 왜 젬마 4가 오픈 소스 LLM(large language model) 지형도에서 중요한 변곡점인지를 확장해 살펴보겠습니다.

핵심 논점은 세 가지입니다. 첫째, 아파치 2.0(Apache 2.0) 라이선스 전환이 커뮤니티 채택에 미치는 영향. 둘째, 슬라이딩 윈도우(sliding window)와 글로벌(global) 어텐션을 5:1로 교차시키는 하이브리드 구조가 기술적으로 왜 중요한가. 셋째, 25.2B MoE(Mixture of Experts) 모델이 RTX 3060 같은 소비자 GPU에서 실제로 돌아가는 현실이 어떤 의미인가 하는 점입니다.

본론 1: 라이선스 전환이라는 “조용한 혁명”

젬마 3까지 구글은 자체 커스텀 라이선스를 고수했습니다. 이 라이선스는 상업적 배포와 재배포에 세부 제약을 두고 있었고, 많은 개발자·스타트업은 법적 불확실성을 피해 미스트랄(Mistral)이나 퀀(Qwen), 라마(Llama) 계열로 발길을 돌렸습니다.

젬마 4는 이 구도를 뒤집습니다. 아파치 2.0은 가장 널리 쓰이는 허용적(permissive) 오픈 소스 라이선스 중 하나로, 상업적 이용, 수정, 재배포에 실질적 제한이 없으며 특허 조항을 통해 기여자와 사용자를 상호 보호합니다. Mistral이 Apache 2.0 기반으로 생태계를 구축한 이유Qwen·Mistral 계열이 상업 배포에 인기 있는 배경 역시 동일한 맥락입니다.

구글의 이번 결정은 “모델 품질”과 “법적 자유도”가 더 이상 트레이드오프가 아니라는 선언입니다. 이제 기업 개발자는 “젬마 4냐 퀀이냐”를 성능 기반으로 비교할 수 있게 되었고, 이것이 벤치마크 수치보다 더 실질적인 파급력을 가질 수 있습니다.

본론 2: 하이브리드 어텐션이라는 “엔지니어링적 타협”

젬마 4의 아키텍처에서 가장 눈에 띄는 부분은 슬라이딩 윈도우 어텐션과 글로벌 어텐션을 5:1 비율로 교차시키는 패턴입니다. 30개 레이어 전체에 걸쳐 다섯 개의 로컬 레이어(1024 토큰 윈도우) 뒤에 한 개의 글로벌 레이어가 오고, 마지막 레이어는 항상 글로벌입니다.

이 설계는 사실 젬마 2에서 이미 시작되었고 젬마 3에서 본격적으로 다듬어진 것입니다. Gemma 3 기술 보고서OpenCV의 해설에 따르면, 전역 어텐션만 쓰는 방식은 32K 컨텍스트에서 KV 캐시 메모리 오버헤드가 약 60%에 달하지만, 젬마 3의 교차(interleaved) 방식은 이를 15% 미만으로 줄였습니다. 로컬 윈도우를 1024까지 좁혀도 퍼플렉서티(perplexity) 손실은 미미했습니다.

젬마 4는 이 전략을 극단까지 밀어붙여 25만 6,000 토큰 컨텍스트 윈도우를 실용 가능한 메모리 예산 안에서 구현했습니다. 여기에 레이어 타입별로 KV 헤드 수를 달리하고(로컬 8개, 글로벌 2개), RoPE(rotary positional embedding) 주파수도 로컬은 10K, 글로벌은 1M으로 100배 차이를 두어 장거리 위치 인코딩의 해상도를 유지합니다. 이 RoPE 스케일링 아이디어 자체는 젬마 3에서 먼저 도입된 것으로, 4에서 더 공격적으로 튜닝되었습니다.

본론 3: MoE가 “덴스에 준하는 품질”을 증명한 해

젬마 4 라인업의 주인공 격인 26B MoE 모델은 총 25.2B 파라미터 중 토큰당 3.8B만 활성화됩니다. 128개의 전문가 중 8개 + 공유 전문가 1개가 선택되어 총 9개가 일합니다.

이 구조의 흥미로운 점은 “같은 연산량 대비 훨씬 좋은 품질”을 제공한다는 점이 아니라, 덴스(dense) 모델과의 품질 격차가 1~3% 이내로 좁혀졌다는 점입니다. 영상에서 소개된 벤치마크에 따르면 26B MoE는 31B 덴스 대비 토큰당 약 8분의 1의 연산만 쓰면서도 수학, 추론, 과학, 코딩 모든 영역에서 거의 동등한 점수를 냈습니다.

이것은 최근 오픈 소스 LLM 전반의 경향과도 맞닿아 있습니다. 2026년 오픈 소스 LLM 동향BenchLM의 랭킹이 보여 주듯, DeepSeek, Qwen 등 MoE 구조를 택한 모델들이 리더보드 상단을 점령하기 시작했고, 젬마 4는 여기에 “구글 품질”을 더해 가세한 형국입니다.

본론 4: 로컬 AI의 문턱을 또 한 번 낮추다

영상에서 저자는 이 26B MoE 모델을 RTX 3060 12GB VRAM 환경에서 llama.cpp를 통해 돌립니다. 모델 파일이 16GB를 넘어 CPU 오프로딩이 불가피했지만, 초당 약 12~13 토큰의 속도를 기록했고, 오픈 코드(Open Code) 에이전트로 연결해 동작하는 블랙잭 게임을 파이썬과 HTML/JS로 생성해 냈습니다.

이 장면이 상징적인 이유는 두 가지입니다. 첫째, “합리적 가격대 소비자 GPU로도 30B급에 준하는 모델을 돌릴 수 있다”는 사실이 이제 예외가 아니라 기본값이 되고 있다는 점. 둘째, 이 모든 것이 아파치 2.0 라이선스 하에서 무료로, 상업적 제약 없이 이뤄진다는 점입니다. 두 축이 합쳐져 “로컬에서 돌아가는 프라이빗 코딩 에이전트”라는 시나리오가 보조 금고 수준에서 실무 시나리오로 이동합니다.

본론 5: 무엇이 “진짜로 새로운가”—젬마 3와의 냉정한 비교

젬마 4의 많은 부분은 사실 젬마 3의 연장선 위에 있습니다. 슬라이딩 윈도우와 글로벌 어텐션의 교차 구조, RoPE 주파수 분리, 장기 컨텍스트를 위한 KV 캐시 최적화 아이디어는 이미 젬마 3 기술 보고서에 정리되어 있습니다. 그렇다면 젬마 4에서 진짜로 새로워진 것은 무엇일까요?

첫째, 비율의 조정입니다. 젬마 2는 로컬/글로벌 1:1, 젬마 3는 5:1로 움직였고, 젬마 4는 이 5:1 패턴을 30개 레이어에 걸쳐 보다 일관되게 적용하면서도 “마지막 레이어는 언제나 글로벌”이라는 마무리를 추가했습니다. 얼핏 사소해 보이지만 이는 출력 직전 단계에서 전체 컨텍스트를 다시 한 번 훑는 효과를 만들며, 긴 응답 생성의 응집성을 크게 높입니다.

둘째, 계층별로 KV 헤드 수를 다르게 설정하는 선택은 Gemma 3보다 더 공격적입니다. 로컬 레이어는 KV 헤드 8개(차원 256), 글로벌 레이어는 KV 헤드 2개(차원 512). 이 비대칭 설계는 “자주 호출되지만 짧은 거리만 보는” 레이어와 “드물게 호출되지만 전 거리를 보는” 레이어의 메모리/연산 특성을 갈라놓는 엔지니어링적 결단입니다.

셋째, 멀티모달 퍼스트 설계의 일관성입니다. 26B MoE와 31B 덴스가 동일한 멀티모달 토크나이저(26만 2,000 어휘)와 동일한 컨텍스트 윈도우를 공유한다는 점은 “라인업 전체를 동일한 멀티모달 기반 위에 올렸다”는 신호입니다. 이는 Hugging Face의 젬마 3 해설에서 소개된 방향을 한 세대 더 밀고 나간 결과입니다.

핵심 인사이트

  1. 라이선스는 벤치마크보다 강하다. 기술적 우위가 있어도 라이선스 제약이 있으면 실제 채택은 제한됩니다. 구글이 마침내 아파치 2.0으로 전환한 것은 “오픈 웨이트 레이스에서 다시 경쟁하겠다”는 선언입니다. 미스트랄, 퀀, 팔콘 등 기존 아파치 2.0 진영에 구글이 합류함으로써 “오픈 = 상업 가능”이라는 전제가 업계 전반의 기본값으로 굳어집니다.
  2. 하이브리드 어텐션은 긴 컨텍스트의 표준이 될 것이다. 로컬 5 + 글로벌 1 + 이중 RoPE + 계층별 KV 헤드 수 조정이라는 조합은 장기 컨텍스트의 메모리 비용을 극적으로 낮추는 검증된 레시피이며, 경쟁 모델들도 유사한 구조로 수렴할 가능성이 큽니다. 이는 “25만 6,000 토큰 = 500페이지 책”을 실무 메모리 예산 안에 집어넣는 첫 번째 진지한 답변이기도 합니다.
  3. MoE는 “덴스의 대체”가 아니라 “덴스의 민주화”다. 활성 파라미터가 적다는 것은 곧 “가정용 GPU에서 30B급을 돌릴 수 있다”는 뜻이고, 이는 로컬 에이전트 생태계의 현실적 기반을 만듭니다. 동시에 덴스와 MoE 사이 품질 격차가 1~3% 이내로 좁혀지면서, 앞으로 사용자는 “품질 대 효율”이 아니라 “배포 환경에 맞는 아키텍처” 로 선택하게 될 것입니다.
  4. 멀티모달이 기본값이 되고 있다. 텍스트+이미지+비디오+오디오를 바닥부터 지원하는 구조는 “비전 모듈을 얹은 언어 모델”과는 질적으로 다른 출발선입니다. 이는 향후 “로컬 AI 비서”라는 시나리오에서 스마트폰·웹캠·마이크 등 다양한 입력을 자연스럽게 결합할 수 있는 기반이 됩니다.
  5. 구글의 참여는 경쟁을 “수준”의 문제로 끌어올린다. 지금까지 오픈 웨이트 LLM의 경쟁은 “누가 더 개방적인가”에 가까웠습니다. 그러나 최대 규모의 AI 연구 조직이 같은 규칙 아래 합류하면서, 이제 경쟁은 “같은 개방 조건 위에서 누가 더 좋은 모델을 만드는가”로 이동합니다. 이는 사용자에게 전적으로 이득입니다.

더 알아보기

02찬반 토론 · Debate

토론: “젬마 4(Gemma 4)의 진짜 혁신은 아키텍처가 아니라 아파치 2.0 라이선스다”

논제: 젬마 4가 오픈 소스 LLM 판도에 미치는 영향의 본질은 하이브리드 어텐션·MoE 같은 기술 혁신이 아니라, 구글이 마침내 아파치 2.0 라이선스로 전환했다는 사실 그 자체다.


Round 1

🟢 Pro — “기술은 따라잡힐 수 있지만, 라이선스는 즉시 생태계를 바꾼다”

Pro의 입장은 단순합니다. 오픈 웨이트(open-weight) 모델의 실질 가치는 기술 스펙이 아니라 법적 자유도에서 결정된다는 것입니다. 젬마 3까지 구글은 커스텀 라이선스를 고수했고, 그 결과 성능이 나쁘지 않았음에도 상업 프로젝트, 스타트업, 사내 배포에서 개발자들은 미스트랄(Mistral), 퀀(Qwen), 라마(Llama)로 발길을 돌렸습니다. “벤치마크 점수 5%를 더 얻기 위해 법무팀과 씨름하느니, 아파치 2.0을 쓰는 게 낫다”는 판단이었습니다.

젬마 4의 아파치 2.0 전환은 그 구도를 한 번에 뒤집습니다. 이제 “구글 품질의 모델을 무제한 상업 이용”이라는 선택지가 생겼고, 이 선택지는 존재하는 순간부터 시장을 재배치합니다. 하이브리드 어텐션이나 1M RoPE, 128개 전문가 같은 기술 혁신은 흥미롭지만 결국 다른 팀도 따라할 수 있는 것들입니다. 실제로 슬라이딩 윈도우와 글로벌 어텐션의 교차 구조는 이미 젬마 2, 젬마 3에서 도입돼 다듬어져 왔고, 미스트랄과 다른 팀들도 유사한 방향으로 움직이고 있습니다.

따라서 “이번 릴리스에서 정말로 되돌릴 수 없는 변화”가 무엇이냐는 질문의 답은 아키텍처가 아니라 라이선스입니다. 라이선스 전환은 소급 적용되지 않는 구조적 신호이며, 생태계 참여자 모두의 의사결정 비용을 즉각 낮춥니다.

🔴 Con — “라이선스는 입장권일 뿐, 장기 승부는 아키텍처에서 난다”

Con은 반대로 봅니다. 아파치 2.0은 분명 환영할 일이지만, 그것만으로 젬마 4가 의미 있는 건 아닙니다. 왜냐하면 아파치 2.0은 이미 오픈 LLM 세계의 기본값이기 때문입니다. 미스트랄, 퀀, 팔콘(Falcon), 일부 DeepSeek 파생 등 주요 경쟁자들이 이미 동일한 라이선스를 쓰고 있습니다. 구글이 뒤늦게 합류했다는 사실은 “과거의 장벽이 사라졌다”는 의미이지, “새로운 무기가 생겼다”는 의미가 아닙니다.

진짜 차별화는 아키텍처에서 나옵니다. 5:1 비율의 슬라이딩/글로벌 어텐션, 레이어 타입별로 달라지는 KV 헤드 수(로컬 8개 vs 글로벌 2개), 두 가지 RoPE 주파수(10K vs 1M), 26만 2,000 토큰의 거대한 어휘, 25만 6,000 토큰의 컨텍스트 윈도우—이 조합은 “25.2B MoE를 RTX 3060에서 실제로 돌릴 수 있게 만드는 엔지니어링” 그 자체입니다. 이런 최적화가 없다면 아무리 아파치 2.0이어도 로컬 실행은 비현실적입니다.

다시 말해, 라이선스는 “참여 가능 여부”를 결정하고, 아키텍처는 “참여했을 때 실제로 쓸 수 있는지”를 결정합니다. 젬마 4가 기억되는 이유는 후자일 것입니다.


Round 2

🟢 Pro (재반론) — Con의 “아파치 2.0은 이미 기본값”이라는 전제를 정면으로 반박한다

Con의 첫째 주장, 즉 “아파치 2.0은 이미 기본값이니 구글이 합류해 봤자 새로운 무기가 아니다” 라는 논리에는 중대한 구멍이 있습니다. “기본값”이라는 표현이 성립하려면 모든 주요 참여자가 그 조건을 이미 충족하고 있어야 하는데, 현실은 정반대였습니다. 구글은 글로벌 AI 판에서 가장 큰 플레이어 중 하나이고, 그 구글이 빠져 있는 동안의 “기본값”은 사실상 “구글 없이 굴러가는 오픈 생태계”였습니다. 이제 구글이 합류한 기본값은 이전의 기본값과 구조적으로 다른 시장입니다. 경쟁의 상한선이 달라지기 때문입니다.

또한 Con의 둘째 주장, “아키텍처가 진짜 차별화” 라는 논리도 약합니다. 하이브리드 어텐션은 젬마 2에서 시작되어 젬마 3에서 다듬어진 것을 젬마 4가 더 공격적으로 튜닝한 결과입니다. 즉 이것은 구글만의 독점 기법이 아니라 오픈 문헌에 이미 공개된 설계입니다. 미스트랄, 퀀, DeepSeek가 이를 참고해 비슷한 구조로 수렴하는 것은 시간 문제입니다. 반면 라이선스 전환은 모방할 필요도 없이 구글 자신만이 내릴 수 있는 결정이었고, 그 결정이 이뤄진 지금 비가역적으로 시장 구도를 바꿨습니다.

결론적으로 Pro의 입장은 더 단단해집니다. 기술은 수렴하고, 라이선스는 결정 순간 확정됩니다. 돌이켜 보면 “젬마 4가 중요했던 해”의 기록에 가장 먼저 남을 사실은 벤치마크 순위가 아니라 “구글이 오픈 웨이트 진영에 정식 합류한 해”일 것입니다.

🔴 Con (재반박) — Pro의 “기술은 따라잡힌다”는 전제가 아키텍처 차별을 과소평가한다

Pro의 첫째 전제, “기술은 어차피 따라잡히니 라이선스만 남는다” 라는 주장은 기술 궤적의 실제 속도를 과소평가합니다. 모든 팀이 같은 논문을 읽지만, 그것을 안정적인 대규모 학습 레시피로 녹여 내는 데는 수 분기 이상의 간극이 생깁니다. 젬마 4가 보여 준 5:1 교차 비율, 계층별 KV 헤드 분리, 이중 RoPE 주파수의 조합은 단순한 “아이디어”가 아니라, 25만 6,000 토큰 컨텍스트를 12GB VRAM GPU에서 실제로 동작시키는 엔지니어링 디테일의 총합입니다. 이 디테일은 논문을 보고 따라한다고 바로 복제되지 않습니다.

Pro의 둘째 전제, “라이선스 전환이 시장을 재배치한다” 라는 주장은 반쪽 맞습니다. 하지만 그 재배치가 가능하려면 재배치를 감당할 만큼 쓸 만한 모델이어야 합니다. 라이선스가 아파치 2.0이어도 모델 품질이 떨어지면 아무도 옮겨 가지 않습니다. 실제로 젬마 3의 실패는 라이선스 때문이라기보다 “라이선스 제약과 품질 이점이 모두 애매했기 때문”이라고 보는 편이 정확합니다. 젬마 4가 주목받는 것은 품질이 충분히 강력해졌기 때문이고, 그 품질의 직접 원천은 아키텍처입니다.

다시 말해 Pro가 “따라잡힐 수 있다”고 치부한 기술 스택이야말로 젬마 4를 선택할 유일한 이유이며, 라이선스는 그 선택을 가능하게 해 주는 조건일 뿐입니다.


Round 3

🟢 Pro — Con의 “엔지니어링 디테일은 복제되지 않는다”는 주장에 정면으로 맞선다

Con의 둘째 라운드 논점, “엔지니어링 디테일은 수 분기 이상 복제되지 않는다” 는 주장은 실제 오픈 소스 LLM의 반복 속도를 간과합니다. 지난 2년간 라마(Llama)에서 미스트랄, 퀀, DeepSeek로 이어진 전개는 “한 팀의 혁신이 한두 분기 안에 다른 팀에 흡수되어 재현되는” 현상의 연속이었습니다. 젬마 3의 교차 어텐션 아이디어는 이미 OpenCV, Hugging Face 블로그 등에서 상세히 해설되었고, 레이어별 KV 헤드 수와 RoPE 주파수 분리 같은 “엔지니어링 디테일”은 재현 가능한 하이퍼파라미터에 가깝습니다. 즉 Con이 “시간이 걸린다”고 한 기간 자체가 오픈 소스에서는 한두 릴리스 사이클에 불과합니다.

반대로 라이선스는 시간이 지나도 복제되지 않습니다. 구글의 결정은 구글만 내릴 수 있고, 다른 경쟁자가 아무리 좋은 아키텍처를 내놓아도 “구글 생태계 접근권”을 대신 줄 수는 없습니다. 구글 클라우드, 안드로이드, 크롬 생태계와의 향후 통합 가능성까지 고려하면, 아파치 2.0 전환은 단일 모델 하나의 뉴스가 아니라 거대 플랫폼 하나의 개방이라는 수준의 신호입니다.

그래서 “기술 vs 라이선스”의 경쟁에서 라이선스가 이기는 이유는 단순합니다. 기술은 계속 교체되지만, “이 생태계가 오픈이냐 아니냐”는 한 번 정해지면 그대로 남습니다.

🔴 Con — Pro의 “구글 결정은 복제 불가능”이라는 논점을 무력화한다

Pro가 라운드 3에서 내세운 핵심, “구글 결정은 오직 구글만 내릴 수 있으니 라이선스가 더 희소하다” 는 주장은 희소성과 영향력을 혼동합니다. 희소하다고 자동으로 더 중요한 것은 아닙니다. 구글이 아파치 2.0으로 전환했다는 사실 자체는 단 한 번의 이벤트이고, 이벤트가 끝난 이후의 일상은 “그래서 이 모델이 실제로 얼마나 유용한가” 라는 질문으로 돌아옵니다. 그 일상의 답을 결정하는 것은 결국 아키텍처와 학습 품질입니다.

또한 Pro의 “기술은 한두 사이클이면 복제된다”는 주장도 현실과 다릅니다. 교차 어텐션의 아이디어는 복제되지만, 25만 6,000 토큰 컨텍스트를 실효적으로 돌릴 수 있는 튜닝 결과는 그렇지 않습니다. 실제로 오픈 소스 커뮤니티가 긴 컨텍스트를 이론상 지원한다고 주장하는 모델들 중 상당수가 실제 활용 시 품질이 급락하는 현상이 꾸준히 보고돼 왔습니다. 젬마 4가 긴 컨텍스트 + 소형 VRAM + 코딩 에이전트라는 세 조건을 동시에 만족시키는 것은 반복된 엔지니어링 투자의 결과이지, 라이선스 변경의 부산물이 아닙니다.

결정적으로, Pro가 말하는 “라이선스는 영원하다”는 주장도 순진합니다. 라이선스는 언제든 후속 모델에서 다시 조일 수 있고, 오픈 웨이트의 자유는 해당 시점 모델의 품질이 커뮤니티의 신뢰를 사는 동안만 실질적 가치를 가집니다. 그 신뢰를 쌓는 주체는 라이선스가 아니라 “이 모델이 실제로 잘 작동한다”는 경험이고, 그 경험의 뿌리는 아키텍처입니다.


🧭 종합

합의 지점

Pro와 Con 모두 젬마 4가 오픈 소스 LLM 생태계에서 의미 있는 릴리스라는 점에는 동의합니다. 또한 두 입장 모두 “라이선스 전환이 긍정적”이고 “아키텍처가 기술적으로 인상적”이라는 사실 자체를 부정하지 않습니다. 논쟁의 핵심은 어디까지나 둘 중 무엇이 더 결정적인 변화의 축이냐 하는 비중의 문제입니다.

또 하나의 암묵적 합의는 “이 두 축은 따로 작동하지 않는다”는 점입니다. 아파치 2.0이어도 품질이 떨어지면 의미가 없고, 품질이 좋아도 라이선스가 조이면 실제 배포에 제약이 생깁니다. 결국 젬마 4의 가치는 “좋은 아키텍처 × 자유로운 라이선스”라는 곱셈 구조에서 나옵니다.

열린 질문

  • 구글은 앞으로의 세대에서도 아파치 2.0을 유지할 것인가, 아니면 일정 수준 이상의 성능 모델은 다시 커스텀 라이선스로 돌아갈 것인가?
  • 경쟁 팀들이 하이브리드 어텐션 + 이중 RoPE + 계층별 KV 헤드 구성을 복제하는 데 실제로 얼마의 시간이 걸릴 것인가?
  • 26B MoE가 12GB VRAM에서 “쓸 만한 코딩 에이전트”로 동작한다는 사실은 상업 SaaS LLM 시장에 어떤 가격 압력을 줄 것인가?
  • 긴 컨텍스트(25만 6,000 토큰)를 가진 로컬 모델이 개인 프라이버시와 데이터 주권 관점에서 어떤 새로운 워크플로우를 만들 것인가?

더 나아간 관점

이 토론을 한 단계 위에서 바라보면, “라이선스냐 아키텍처냐”는 질문 자체가 오픈 소스 AI의 성숙 단계를 드러냅니다. 초기에는 “웨이트를 받을 수 있느냐”가 논쟁의 중심이었고, 그다음에는 “상업적으로 쓸 수 있느냐”가 중요해졌으며, 이제는 “내 하드웨어에서 실제로 유용하게 돌아가느냐”가 승부처가 되고 있습니다. 세 질문은 독립적이지 않고 누적적입니다. 앞 단계가 해결되지 않으면 다음 단계의 논의는 애초에 시작될 수 없습니다.

젬마 4는 이 세 단계의 질문에 동시에 긍정적인 답을 내놓은 첫 번째 구글 모델입니다. 그래서 이 토론의 가장 유의미한 결론은 “Pro와 Con 어느 한쪽이 더 옳다” 가 아니라, “두 조건이 처음으로 한 모델에서 함께 충족되었기에 의미 있는 릴리스다” 라는 쪽일 가능성이 높습니다. 즉 라이선스는 문을 열었고, 아키텍처는 그 문 안쪽에 실제로 쓸 만한 방을 만들었습니다. 그리고 오픈 소스 커뮤니티가 다음 세대 모델을 평가할 때 요구할 기본선이 바로 여기서 한 단계 위로 이동했다는 사실이, 이 릴리스의 진짜 유산일 것입니다.

한 걸음 더 나아가 보면, 이 토론은 “오픈 소스 AI의 가치는 누가 정의하는가” 라는 메타 질문으로도 이어집니다. 기술 혁신을 강조하는 입장은 “연구자와 엔지니어가 만드는 품질이 가치의 본질”이라고 말합니다. 라이선스를 강조하는 입장은 “그 품질을 실제로 사용할 수 있는 제도적 조건이 더 중요하다”고 봅니다. 현실에서 두 관점은 서로를 전제합니다. 좋은 모델이 없으면 개방해도 의미가 없고, 개방되지 않으면 좋은 모델도 소수의 손에만 머뭅니다.

젬마 4의 가장 생산적인 해석은 이렇습니다. 구글이 “오픈 생태계에 진지하게 참여하면서도 자사의 기술적 강점을 드러낼 수 있다”는 것을 증명했고, 그 증명이 존재하는 순간부터 다른 거대 연구 조직들도 같은 선택을 더 쉽게 내릴 수 있게 됩니다. 미래의 관점에서 젬마 4는 “구글이 특정 주에 공개한 모델”로 기억되는 것이 아니라, “거대 플랫폼의 오픈 웨이트 정식 합류”라는 임계점으로 기억될 가능성이 높습니다. 그 임계점이 왜 중요한지를 설명하는 두 언어가 바로 Pro와 Con의 관점이었던 것입니다.

03한국어 번역 · Korean

구글 젬마 4(Gemma 4) 첫인상: 아키텍처 분석과 실제 테스트

원본: https://www.youtube.com/watch?v=LTYF2UNXG2M · 업로드: 2026-04-02 · 길이: 14m · 채널: Onchain AI Garage

들어가며

구글이 방금 젬마 4(Gemma 4)를 공개했습니다. 이번 릴리스는 이야깃거리가 정말 많습니다. 네 개의 새로운 모델, 중대한 라이선스 변경, 그리고 꽤 흥미로운 아키텍처 결정들이 포함돼 있고, 출시 첫날(day-one)부터 로컬 실행까지 지원합니다. 이 영상에서는 이 모든 것을 하나씩 짚어보고 마지막에는 실제로 로컬에서 돌려 본 결과까지 보여 드리겠습니다.

가장 큰 뉴스는 라이선스 변경

오픈 소스 및 로컬 LLM(large language model) 커뮤니티가 이번 릴리스에 특히 열광하는 이유는 젬마 4가 아파치 2.0(Apache 2.0) 라이선스로 공개되었기 때문입니다. 어떻게 보면 모델 자체보다 이 변화가 더 큰 뉴스일 수 있습니다.

젬마 3는 구글이 직접 만든 커스텀 라이선스를 사용했습니다. 사용 방식, 재배포, 상업적 배포에 여러 제약이 있었고, 그래서 많은 개발자들이 아예 젬마 3를 건너뛰고 다른 모델을 선택했습니다. 반면 젬마 4는 퀀(Qwen), 미스트랄(Mistral), 라마(Llama)가 사용하는 것과 동일한 아파치 2.0입니다. 마음대로 사용하고, 수정하고, 이를 기반으로 제품을 만들어 판매하고, 원하는 방식으로 배포할 수 있습니다. 이상한 조항도, 숨은 제약도 없습니다.

구글이 드디어 다른 오픈 소스 AI 진영과 “같은 운동장”에 발을 들였고, 이 사실은 어떤 벤치마크 점수보다 훨씬 중요합니다.

네 가지 모델 라인업

이번에 공개된 모델은 총 네 개입니다.

엣지(edge)용 소형 모델 두 개는 스마트폰과 소형 디바이스용으로 설계되었습니다. 크기는 매우 작지만 흥미로운 기법들이 적용되어 있고, 특히 이 두 모델만 오디오 입력을 네이티브로 지원합니다. 온디바이스 음성 비서나 음성 인식을 떠올리면 됩니다.

26B MoE 모델은 영상 후반부에서 제가 직접 돌려 볼 모델입니다. 전문가 혼합(Mixture of Experts, MoE) 구조로, 총 파라미터는 25.2B이지만 토큰마다 활성화되는 파라미터는 약 3.8B에 불과합니다. 즉, 4B 모델 수준의 속도로 동작하면서도 품질은 30B급에 가깝다는 뜻입니다. 텍스트, 이미지, 심지어 비디오 입력까지 지원합니다.

플래그십 31B 덴스(dense) 모델은 순수 성능을 노린 선택지입니다. 30.7B에 달하는 모든 파라미터가 토큰마다 전부 동작합니다. 가족 중 품질이 가장 높은 모델이고, 파인튜닝의 기반(base)으로 가장 자주 쓰일 모델입니다. 사람들이 “젬마 4”라고 말할 때 대체로 지칭하는 모델이 바로 이것이며, 현재 LM Arena 오픈 모델 리더보드에서 3위를 차지하고 있습니다.

MoE 모델 구조 자세히 보기

제가 사용할 26B MoE 모델 내부로 들어가 보겠습니다. 이 모델은 128개의 전문가(expert) 를 가지고 있으며, 토큰마다 라우터(router)가 그중 가장 적합한 8개를 고르고, 여기에 항상 활성화되는 공유 전문가(shared expert) 1개가 추가됩니다. 결국 토큰 하나를 처리할 때 128개 중 9개의 전문가만 동작하며, 이는 전체 모델의 약 7%에 해당합니다.

실제 모델 파일을 직접 뜯어 본 결과, 30개 레이어, 16개의 어텐션 헤드(attention head), 그리고 무려 26만 2,000개에 달하는 거대한 어휘(vocabulary) 를 가지고 있었습니다. 대부분의 모델이 3만 2,000~15만 개 수준인 것과 비교하면 압도적인 크기입니다. 어휘가 크다는 것은 더 많은 단어와 기호를 단일 토큰으로 표현할 수 있다는 뜻이고, 그만큼 추론 효율이 좋아집니다.

컨텍스트 윈도우(context window)는 25만 6,000 토큰, 대략 500페이지짜리 책 한 권 분량입니다. 각 전문가의 피드포워드(feedforward) 네트워크는 히든 차원(hidden dimension)이 단 704에 불과합니다. 즉, 이 전문가들은 범용이 아니라 작고 고도로 특화된 유닛들입니다.

아키텍처의 세 가지 새로운 선택

젬마 4가 다른 오픈 모델과 확연히 차별화되는 지점입니다. 제가 지금까지 본 것 중 이런 조합을 적용한 모델은 드물었습니다.

첫째, 슬라이딩(sliding) 어텐션과 글로벌(global) 어텐션의 하이브리드 구조. 모든 레이어가 전체 컨텍스트를 보는 대신, 젬마 4는 두 방식을 번갈아 사용합니다. 연속된 5개 레이어는 슬라이딩 윈도우 어텐션(sliding window attention) 을 써서 바로 근처 1024 토큰만 봅니다. 그리고 1개 레이어는 전체 컨텍스트를 보는 글로벌 어텐션입니다. 이 패턴이 30개 레이어 전체에 걸쳐 반복되며, 마지막 레이어는 언제나 글로벌입니다. 시각화하면 좁은 파란 슬라이딩 레이어들이 쭉 이어지다가 주기적으로 글로벌 어텐션 레이어가 등장하는 모양입니다.

아이디어 자체는 단순합니다. 어떤 단어를 이해할 때 대부분의 맥락은 바로 근처 단어에 있습니다. 200페이지 문서를 매 레이어마다 처음부터 다시 볼 필요는 없습니다. 대신 여섯 레이어마다 한 번씩 전체 그림을 확인할 기회를 줍니다. 로컬 컨텍스트는 싸게, 글로벌 컨텍스트는 꼭 필요할 때만 쓰는 전략입니다.

둘째, 레이어 타입에 따라 KV 헤드(key-value head) 수가 달라집니다. 슬라이딩 윈도우 레이어는 KV 헤드 8개에 키/값 차원이 256입니다. 반면 글로벌 레이어는 KV 헤드가 단 2개뿐이며, 대신 차원이 512로 두 배 더 큽니다. 글로벌 레이어의 헤드 수를 줄이면 장거리 컨텍스트용 KV 캐시(cache)가 메모리를 훨씬 덜 먹습니다. 25만 6,000 토큰이라는 긴 컨텍스트를 “실제로 쓸 만하게” 만드는 핵심 장치입니다.

셋째, 두 가지 다른 RoPE(rotary positional embedding) 주파수를 사용합니다. 슬라이딩 레이어는 표준값인 10,000을 쓰지만, 글로벌 레이어는 100배 더 큰 1,000,000을 사용합니다. 이렇게 하면 위치 인코딩이 훨씬 더 긴 시퀀스에서도 해상도를 잃지 않고 작동합니다. 이것이 RoPE가 장거리 정보 전달에 활용되는 방식입니다.

퀀 MoE와 비교해 보면

최근 저는 퀀 3(Qwen 3) MoE 모델을 사용해 본 적이 있어서 비교가 자연스럽습니다. 두 모델 모두 128개의 전문가를 가지고 있지만, 젬마 4는 8개 + 공유 전문가 1개, 퀀 3는 8개만 사용합니다. 가장 큰 차이는 컨텍스트입니다. 젬마 4가 25만 6,000인 반면 퀀 3는 3만 2,000에 그칩니다. 또 하나의 큰 장점은 멀티모달(multimodal) 지원입니다. 젬마 4는 텍스트, 이미지, 비디오를 네이티브로 처리할 수 있지만 퀀 3는 텍스트 전용입니다.

벤치마크: MoE가 덴스에 근접한다

31B 덴스와 26B MoE를 비교한 벤치마크 결과를 살펴보면, 수학, 추론, 과학, 코딩 등 거의 모든 분야에서 두 모델이 매우 비슷한 점수를 냅니다. 정확히 말하면 MoE 모델이 모든 벤치마크에서 덴스 모델과 1~3% 차이 이내의 점수를 기록했으며, 그럼에도 토큰당 사용 연산은 약 8분의 1 수준에 불과합니다. 엄청나게 효율적인 트레이드오프입니다. 현재 31B 덴스는 LM Arena 오픈 모델 리더보드 3위, 26B MoE는 6위에 올라 있습니다.

또 하나 강조할 점은 젬마 4가 처음부터 멀티모달 퍼스트로 설계되었다는 것입니다. 텍스트, 이미지, 비디오, 오디오를 모두 입력으로 받으며, 텍스트 모델에 비전 모듈을 뒤늦게 얹은 구조가 아니라 바닥부터 멀티모달로 지어 올린 구조입니다.

로컬 실행: RTX 3060에서 직접 돌려 보기

저는 허깅페이스(Hugging Face)에서 26B MoE 모델을 받아 RTX 3060이 장착된 제 PC에서 돌려 봤습니다. 실행은 llama.cpp로 했습니다. 먼저 채팅 버전을 띄우고 감을 잡은 뒤, 이어서 오픈 코드(Open Code)에서 실제 코딩 태스크를 시켜 봤습니다.

모델을 띄운 다음 “아파치 2.0 라이선스의 의미와 중요성을 설명해 달라”고 질문했습니다. 회색 텍스트로 보이는 추론(reasoning) 구간이 먼저 실행되고, 이후 흰색 텍스트로 실제 답변이 출력됩니다. 답변은 이 라이선스가 세계에서 가장 인기 있는 허용적(permissive) 오픈 소스 라이선스 중 하나이며, 안드로이드(Android), 쿠버네티스(Kubernetes), 텐서플로(TensorFlow) 같은 대형 프로젝트가 이를 사용한다고 설명했습니다. 또한 특허 소송 위험에서 기여자와 사용자를 보호하기 때문에 기업 환경에서 “황금 표준(gold standard)” 대접을 받는다고 덧붙였습니다. 꽤 훌륭한 답변이었습니다.

중요한 건 이 모든 게 제 로컬 PC에서 돌아갔다는 점입니다. 모델 크기가 16GB를 살짝 넘기는데 제 VRAM은 12GB뿐이라 CPU 오프로딩(offloading)이 들어갔음에도 초당 약 12~13 토큰이라는 꽤 빠른 속도를 보여 줬습니다.

로컬 코딩 에이전트 테스트

다음으로는 오픈 코드에서 코딩 에이전트로 써 봤습니다. 로컬 서버를 띄우고 에이전트가 그 서버를 바라보도록 설정한 뒤, “블랙잭(blackjack) 게임을 만들어 달라”고 요청했습니다. 모델은 먼저 선호하는 언어나 프레임워크가 있는지 물어봤고, 제가 알아서 하라고 하자 파이썬(Python)으로 구현하기 시작했습니다.

답변은 매우 빠르게 쏟아졌고, 로컬에서 돌아가는 중이라는 사실이 믿기지 않을 정도였습니다. 다시 한 번 말하지만 제 PC는 RTX 3060 12GB VRAM의 평범한 구성입니다. 모델은 파이썬 스크립트를 먼저 작성한 뒤 HTML 버전까지 만들어, CSS로 스타일을 입히고 자바스크립트(JavaScript)로 게임 로직을 처리하는 간단한 프론트엔드까지 붙였습니다.

결과물은 단순하지만 실제로 동작하는 블랙잭 게임이었습니다. 카드를 뽑고, 버스트(bust)되고, 딜러가 이기거나 제가 이기는 로직이 제대로 구현돼 있었습니다. 이 작은 실험만으로도 젬마 4 MoE는 “로컬에서 돌아가는 쓸 만한 코딩 에이전트”로 기능할 수 있다는 걸 확인했습니다. 31B 덴스 모델이라면 훨씬 더 좋은 결과가 나올 것으로 봅니다.

마무리

이것으로 젬마 4 첫인상 영상은 마무리입니다. 정말 흥미로운 모델이고, 앞으로 더 깊이 파고들어 다양한 용도로 테스트해 볼 계획입니다. 오픈 소스 커뮤니티가 이미 이 모델을 커스터마이즈하고 더 강력하게 만드는 작업에 착수했을 것이 분명합니다. 시청해 주셔서 감사하며, 흥미로우셨다면 구독, 좋아요, 댓글 부탁드립니다. 다음 영상에서 뵙겠습니다.

04영문 원본 · Transcript
So Google just dropped Gemma 4, and there's a lot to talk about here.
Four new models, major license change, and some genuinely interesting architecture decisions.
Day one support for running it locally.
So let's all break this down.
So the big deal and why a lot of people in the open source community and local LLM community are very excited
is that this is coming with an Apache 2.0 license.
And this might be the biggest news more than the models themselves.
Gemma 3 shipped with a custom Google license that had certain restrictions on how you could use it,
how you could redistribute it, and deploy it commercially.
So a lot of developers just kind of skipped it because of that.
Gemma 4 is Apache 2.0, and that's the same license used by Quinn, Mistral, Llama.
It means you can use it, modify it, sell products built on it, deploy it however you want.
No strings attached, no weird clauses.
Google is finally playing in the same field as everyone else in open source AI,
and that matters a lot more than any benchmark.
So the model family, what do they actually release?
They release these four models, and the two are the smallest.
These are edge models.
They're designed for phones and small devices.
They're very tiny, but they pack some clever tricks,
and they're the only ones that support audio input natively.
So think voice assistance and speech recognition on the device.
Then there's the 26 MOE, 26 billion parameter MOE,
which is the one I'm going to be using later.
I don't know if you've heard of it.
I don't know if you've heard of it.
I don't know if you've heard of it.
I don't know if you've heard of it.
I don't know if you've heard of it.
After this little breakdown of what the models are,
I'm going to actually be using it and testing it for a couple different functions,
and this is the one I'll be using.
It's a mixture of experts model with actually 25.2 billion total parameters,
but only 3.8 billion are active at any time.
That means it runs roughly the speed of a 4 billion model,
while giving you the quality closer to a 30.
It supports text, images, and even video input.
And finally, there's kind of the flagship,
the dense model, 31 billion.
This is the raw power option.
All 30.7 billion parameters fire on every single token.
It's the highest quality model in the family,
and the one you're going to use as a fine-tuning base.
So a lot of the times when people are going to be talking about Gemma 4,
they'll be talking about this 31 billion.
It's currently ranked number three in the LM Arena Open Model Leaderboard,
so that's impressive.
With this release, you had a wide spread of different types of models.
So, zooming in on the MOE model, because this is the one that I'll be using here.
It has 128 experts, and for each token, the router picks the best eight,
plus one shared expert that's always active.
So it's nine experts total per token out of 128.
That's only around 7% of the model doing work at any given second.
And looking at the actual model file, because I reviewed the actual files themselves,
not just the press releases.
We saw it has 30 layers, 16 attention heads,
and a massive vocabulary of 262,000 tokens.
It's huge.
So for comparison, most models use around 32,000 to 150,000 tokens,
and a bigger vocabulary means the model can represent more words and symbols as single tokens,
which makes it a lot more efficient.
So the context window is also 256,000 tokens.
That's roughly a 500-page book.
You know,
each expert's feedforward network has a hidden dimension of just 704.
So these are tiny, highly specialized experts, not big general purpose ones.
This is what's architecturally novel.
And once again, this is coming from me and my agents carefully combing through the actual structure of the models,
not just reports.
So this is where Gemba 4 really stands out from other open models.
There are three architecture choices that I haven't seen quite done like this before.
And first is this hybrid sliding and global attention.
Instead of every layer looking at the full context, which can be very expensive,
Gemba 4 alternates.
Five layers in a row use the sliding window attention,
which only looks at the nearest 1024 tokens,
then one layer gets full global attention that can see everywhere.
This pattern repeats through all 30 layers,
and the very last layer is always global.
You could see the blue ones here,
the sliding,
the sliding ones that are more narrow,
and then it has this global attention layer.
If you're curious about what attention is,
please watch my video on transformers.
I go into that into some detail.
So the idea is simple.
Most of the time when you need to understand a word,
it's just the other word is nearby.
You don't need to check the beginning of a 200 page document on every single layer.
But every sixth layer,
the model gets a chance to look at the whole picture.
So local context is cheap,
global context is saved for when it really matters.
And second here,
the number of KV heads changes depending on the layer type.
Sliding window layers use eight KV heads with 256 dimensional keys and values.
Global layers use only two KV heads,
but with 512 dimensional keys and values.
So fewer heads on the global layers means the KV cache for long range context uses way less memory.
And that's a big difference.
It's a big part of how they make the 256,000 context window actually practical.
So fewer KV heads on the global layers basically means less memory for long context.
And third,
they use two different ROPE frequencies and sliding window layers use 10,000 which is the standard value.
Global layers use 1 million and that's 100 times higher obviously,
which lets the position coding scale to much longer.
Sequences without losing resolution.
So this is called ROPE and it's used for a long range here.
So Gemma IV versus Quen MOE just to give you kind of a comparison of the two.
And you saw recently I used the Quen III MOE model.
So to compare this,
they both have 128 experts.
Gemma IV has eight plus the one shared.
The Quen III only had 8.
The big thing here is obviously the context Gemma IV having 256,000 versus Quen's 32.
And the big advantage for Gemma IV is the multimodal support it has.
It can handle text images and video natively.
So the Quen model was only text.
So let's look at some of the benchmarks quickly.
And this is comparing the 32 billion,
the dense version 31 billion.
Dense version and the MOE,
you could see in general that they're very similar.
In both math,
reasoning,
science and coding.
The MOE scored within one to 3% of the full dense model on every benchmark while using only roughly 1 eighth of the compute per token.
So it's an incredibly efficient trade off.
And the 31 billion is ranked number three in the LM arena for open models.
And the 26 B MOE is number 4.
The 26 B MOE is number 3 in the LM arena for open models.
MOE is number six. So it's like we said, it's a multimodal from day one. You can use a text,
images, video, and audio. It's not just a text model with vision bolted on. It's multimodal
from the ground up. So running it locally. So I did this. I downloaded from Hugging Face the 26B
MOE model, and I ran it on my RTX 3060. It was able to handle this. So let me now move over to
the terminal, and I can show you some of the tests I am running on it. So I'm going to be running this
locally in lama.cpp. And this is just going to be the chat version, just to get a good feel of it.
And then we're going to move into open code, I believe, and try some of the coding tasks.
So you can see I loaded it here, Gemma 4.
The MOE version, which is on Hugging Face. I started by just saying hello. Hello,
how can I help you today? So I just asked it to explain the meaning and importance of an Apache
2.0 license. You can see it's now running. This is the reasoning part, not the actual answer.
But it's going through fairly fast, running locally on my PC. See all the
reasoning it's giving. Comparing it with different licenses. Why do companies love it?
Why do developers love it? And this is the actual output in white, not in the gray.
The Apache license 2.0 is one of the most popular permissive open source
software licenses in the world. It is maintained by Apache Software Foundation,
and is used by massive projects like Android, Kubernetes, TensorFlow. So it's giving a pretty
in-depth answer to this question. You can see it's moving pretty fast, even though it's running.
It's going to have to do some
CPU offloading, because the model itself is a bit over 16 gigabytes. My VRAM is only 12. So
it's still pretty fast, though. 12, almost 13 tokens a second. And you can see for yourself
how fast it was generating. It gives a pretty good answer here. And once again, this is running
locally on my PC. It's not taking up too much memory. My computer is running fine. I have a
license important for developers. It provides a clear professional framework that encourages
contribution, because it protects the contributors and the users from patent legal battles. For
companies, it provides legal certainty. Large corporations are often afraid to open source
code because of the risk of being sued for patent infringement. The Apache 2 license mitigates that
risk and makes it the gold standard for enterprise-grade open source. So pretty good answer,
very comprehensive. So if you want to use this just to kind of answer questions,
and that you may have running this in llama.cpp like this is pretty good. So now I'm going to try
to actually do it in a coding agent to see how it can handle that. Okay, so now we're going to try
it out and open code a little bit. And you can see I've loaded this running locally. And to do this,
you need to use run this kind of server and then point it look to the local server. So I just asked
it in open open code here, can you build me a blackjack game, I can certainly help you build
about blackjack game, do you have a per
preferred programming language or framework in mind? Not in particular, whatever you think is
best. So I'll let it just do whatever it wants. I'll build it in Python. So you can see the answer
it's moving very quickly. And once again, this is running locally on my machine. Which is not the
strongest machine. It's a PC with a RTX 3060 12 gigs of VRAM.
You see, it's starting to write the code for the Python script that's going to be needed for the
blackjack game. It's writing this out. And then we'll write it to a file to an actual script,
but you can see it's moving pretty fast. And this isn't, you know, a hard coding task, but just to
just to test out and see how it does. Okay, so now I've finished the Python script. And it's going
to build the HTML version. So we're going to have some kind of front end to play this. Okay, once
again,
it's writing out the HTML here, it's going to include CSS for styling, and JavaScript for the
game logic itself. Let it keep coding. Okay, so it finished recording or coding the whole HTML.
So we'll see what we get me, actually. And here we go. It made a made the little blackjack game
very simple, obviously. But it is functional, you could say.
It busted. Very simple. But the logic is correct. Delay wins. Can I win one of these? There we go.
Okay. Yeah. So you can see it is proper coding agent. It built this code out, built the blackjack
script itself and built a proper HTML file. And remember, this is running all just locally. This
is the moe version. I'm sure the the 31 billion parameter one is even more effective.
But that's going to do it for this episode. This was just kind of a quick look at this Gemma for open
source model. Really interesting model and to continue to test around with this and see what we
can get see what we can do with it. I'm sure the community out there is already working to kind of
customize this and make it even more powerful. So thank you for watching. If you found this
interesting, please subscribe. Please leave a like leave a comment and I will see you in the next
video.