Gemini 3.1 Pro가 바꿔놓을 AI 에이전트 아키텍처의 게임
ARC-AGI-2 점수가 두 배로 뛴 Gemini 3.1 Pro, 그 숫자 뒤에 숨은 에이전트 아키텍처의 구조적 전환을 읽는다.
지난 2월 19일, Google이 Gemini 3.1 Pro를 공개했다. 발표 자체는 익숙한 풍경이다. 벤치마크 숫자를 내세우고, "더 똑똑해졌다"는 수식어를 붙이고, API와 앱에 동시 배포한다. 그런데 이번에는 하나의 숫자가 눈에 걸린다. ARC-AGI-2에서 77.1%. 직전 세대인 3 Pro 대비 두 배가 넘는 점수다. 이 숫자가 왜 중요한지, 그리고 그것이 AI 에이전트를 설계하는 엔지니어들에게 어떤 의미인지 이야기해보려 한다.
ARC-AGI는 단순한 패턴 매칭이나 언어 이해력을 측정하는 벤치마크가 아니다. 모델이 한 번도 본 적 없는 논리 패턴을 즉석에서 풀어내는 능력, 즉 "진짜 추론"을 평가한다. 기존 LLM들이 이 테스트에서 처참한 성적을 받아온 이유는 간단하다. 학습 데이터에 답이 없기 때문이다. 77.1%라는 수치는 Gemini 3.1 Pro가 단순히 더 많은 데이터를 외운 게 아니라, 구조적으로 다른 방식의 추론 엔진을 탑재했다는 뜻에 가깝다. 그리고 이 변화는 모델을 "도구"로 쓰는 에이전트 시스템의 설계 전제를 흔든다.
지금까지 AI 에이전트 아키텍처의 주류 패턴은 명확했다. LLM은 "생각하는 뇌"이고, 그 주변에 tool-use, memory, planning 같은 모듈을 scaffolding으로 감싸는 구조다. LangChain이든 AutoGen이든, 핵심 가정은 동일하다. 모델 자체의 추론 능력에는 한계가 있으니, 외부 구조로 보완하자는 것이다. ReAct 패턴이 대표적이다. "생각하고, 행동하고, 관찰하고"를 반복하면서 모델의 부족한 추론을 절차적으로 보강한다. 이 아키텍처가 작동하는 이유는 역설적으로 모델이 "충분히 똑똑하지 않기 때문"이었다.
그런데 추론 성능이 이 정도로 뛰면 이야기가 달라진다. 에이전트 프레임워크의 존재 이유였던 scaffolding 레이어가 오히려 병목이 될 수 있다. 복잡한 chain-of-thought를 외부에서 강제하는 대신, 모델 자체가 내부적으로 깊은 추론을 수행하고 한 번에 정확한 tool call을 내리는 구조가 더 효율적일 수 있다는 뜻이다. 실제로 Google이 이번 발표에서 "agentic workflow"라는 표현을 반복적으로 사용한 것은 우연이 아니다. Google AI Studio, Gemini CLI, 그리고 새로운 개발 플랫폼 Google Antigravity까지, 에이전트 개발을 위한 인프라를 동시에 밀어붙이고 있다. 모델의 추론 능력이 올라가면, 에이전트를 감싸는 프레임워크는 얇아져도 된다는 판단이 깔려 있는 셈이다.
이것은 "프레임워크 vs 모델" 논쟁이 아니다. 아키텍처의 무게중심이 이동하고 있다는 이야기다. 차량 소프트웨어 아키텍처에 비유하면 이해가 빠르다. 초기 자동차 전장 시스템은 ECU마다 독립적인 로직을 갖고, 이를 CAN 버스로 연결하는 분산 구조였다. 각 노드가 단순했기 때문에 복잡한 미들웨어와 게이트웨이가 필수였다. 그런데 중앙 컴퓨팅 유닛의 성능이 올라가면서 아키텍처가 통합으로 넘어갔다. 미들웨어 레이어가 얇아지고, 중앙의 연산 능력에 더 많은 것을 맡기는 구조다. AI 에이전트 생태계에서 지금 벌어지고 있는 일이 정확히 이 패턴이다.
물론 이 전환이 하루아침에 일어나지는 않는다. 현실의 에이전트 시스템에서 scaffolding이 사라지기 어려운 이유가 있다. 관찰 가능성(observability), 안전 가드레일, 비용 제어 같은 엔지니어링 요구사항은 모델이 아무리 똑똑해져도 외부에서 관리해야 하는 영역이다. 하지만 "추론 보조"라는 scaffolding의 핵심 역할이 모델 내부로 흡수되기 시작하면, 프레임워크의 설계 철학 자체가 바뀌어야 한다. 지금처럼 수십 개의 chain과 node를 연결하는 복잡한 그래프 대신, 모델에게 더 많은 자율성을 주고 그 위에 감시와 제어만 얹는 구조가 될 가능성이 높다.
Gemini 3.1 Pro 하나로 세상이 바뀐다고 말하는 건 과장이다. 하지만 방향은 읽을 수 있다. 추론 능력의 급격한 향상은 에이전트 아키텍처의 복잡도를 줄이는 방향으로 작용하고, 이는 다시 더 많은 실용적 에이전트가 더 빠르게 배포될 수 있는 환경을 만든다. 엔지니어에게 중요한 질문은 "어떤 프레임워크를 쓸까"가 아니라, "모델의 추론 능력이 이 정도일 때, 내 시스템의 어떤 레이어가 아직 필요하고 어떤 레이어가 과잉인가"가 되어야 한다. 그 판단을 제대로 하는 팀이 다음 세대의 에이전트 플랫폼을 만들게 될 것이다.
🔗 Sources
| # | 출처 | URL |
|---|---|---|
| 1 | Gemini 3.1 Pro 공식 발표 — Google Blog (2026) | Google의 Gemini 3.1 Pro 모델 발표 |
| 2 | ARC Prize Foundation (2024) | ARC-AGI 벤치마크 및 AGI 평가 기준 |
| 3 | ReAct: Synergizing Reasoning and Acting in Language Models — arXiv (2022) | ReAct 패턴 원논문 (Yao et al.) |
| 4 | LangChain (2023) | 에이전트 프레임워크 — scaffolding 기반 아키텍처의 대표 |
| 5 | AutoGen — Microsoft (2023) | 멀티에이전트 대화 프레임워크 |
📚 이런 칼럼은 어떠세요?
공유하기
