AI가 당신의 글을 채점한다면 — GEO QA의 세계
AI가 콘텐츠를 채점하는 시대가 왔다. GEO(Generative Engine Optimization) 연구부터 실제 채점 시스템까지, 콘텐츠 품질의 새로운 기준을 탐구한다.
72점. 당신의 글이 받은 점수다.
어느 날 밤, 공들여 쓴 기술 블로그 글을 AI에게 보여줬다. "이 글의 품질을 100점 만점으로 채점해줘." 돌아온 답은 72점이었다. "인라인 인용이 부족합니다. 구조화된 데이터가 없습니다. 통계적 근거가 약합니다." 자존심이 상했지만, 동시에 궁금해졌다. AI는 어떤 기준으로 글을 평가하는 걸까? 그리고 그 기준은 정말 의미 있는 걸까?
이 질문의 답을 찾아가는 여정이 GEO(Generative Engine Optimization)의 세계로 이어졌다. 그리고 그 여정의 끝에서, 나는 직접 GEO QA 채점 시스템을 만들게 되었다.
검색의 패러다임이 바뀌고 있다
2024년 이전까지 콘텐츠 최적화라 하면 SEO(Search Engine Optimization)를 의미했다. 키워드 밀도, 백링크 수, 메타 태그 — 이런 지표들이 Google 검색 순위를 결정했다. 그런데 ChatGPT, Perplexity, Gemini 같은 생성형 AI가 등장하면서 게임의 규칙이 완전히 바뀌었다.
사용자들은 더 이상 파란 링크 10개를 훑어보지 않는다. AI에게 질문하고, AI가 생성한 답변을 읽는다. 이 과정에서 AI는 수백 개의 웹페이지를 참고하지만, 최종 답변에 인용하는 것은 극소수다. Aggarwal 등의 Princeton 연구팀은 이 새로운 환경에서 콘텐츠가 AI에 의해 선택되는 메커니즘을 분석하고, 이를 GEO라고 명명했다(Aggarwal et al., "GEO: Generative Engine Optimization," arXiv:2311.09735, 2023).
이 연구의 핵심 발견은 놀라웠다. 인라인 인용(Cite Sources)이 포함된 콘텐츠는 AI 엔진에서 노출될 확률이 30-40% 증가했다. 통계 수치를 포함한 콘텐츠는 약 15-20%의 가시성 향상을 보였다. 그리고 전문가적 어조(Authoritative Tone)로 작성된 콘텐츠는 일반적인 블로그 글보다 유의미하게 높은 인용률을 기록했다.
이것이 왜 중요한가? SEO 시대에는 Google이라는 단일 게이트키퍼만 만족시키면 됐다. 하지만 GEO 시대에는 ChatGPT, Perplexity, Gemini, Claude, Copilot 등 여러 AI 엔진이 각각 다른 방식으로 콘텐츠를 평가하고 인용한다. 하나의 최적화 전략이 아니라, 보편적으로 "좋은 콘텐츠"가 무엇인지 다시 정의해야 하는 시점이 온 것이다.
GEO의 9가지 전략: Princeton 연구가 밝힌 것
Princeton 연구팀은 GEO를 위한 9가지 최적화 전략을 제시했다(Aggarwal et al., 2023). 이 전략들을 하나씩 살펴보면서, 각각이 실제 글쓰기에 어떻게 적용되는지 분석해보자.
첫 번째는 인라인 인용(Cite Sources)이다. 단순히 글 끝에 참고문헌을 나열하는 것이 아니라, 본문 중간에 "[연구자명, 연도]" 형태로 출처를 밝히는 것이다. AI 엔진은 인라인 인용이 있는 콘텐츠를 더 신뢰할 수 있는 정보원으로 판단한다. 이것은 학술 논문의 인용 방식과 동일하며, AI 모델들이 학술 데이터에서 학습했기 때문에 이 패턴을 "신뢰의 신호"로 인식하는 것이다.
두 번째는 통계 추가(Add Statistics)다. "많은 기업이 AI를 도입하고 있다"보다 "Gartner에 따르면 2026년까지 기업의 40%가 AI 에이전트를 도입할 전망이다"가 훨씬 강력하다(Gartner, 2025). 구체적인 숫자는 AI가 팩트 체크할 수 있는 검증 가능한 주장을 만들어내고, 이는 인용 확률을 높인다.
세 번째는 인용구 추가(Add Quotations)다. 전문가의 직접 인용을 포함하면 콘텐츠의 권위가 올라간다. Google의 전 검색 품질 평가자인 Lily Ray는 "E-E-A-T(경험, 전문성, 권위, 신뢰)는 AI 시대에도 여전히 가장 중요한 콘텐츠 품질 지표"라고 말했다(Search Engine Journal).
네 번째부터 아홉 번째 전략은 키워드 최적화, 유창성 향상, 기술적 용어 사용, 권위적 어조, 구조화된 데이터, 그리고 가독성 개선이다. 이 전략들은 독립적으로도 효과가 있지만, 조합했을 때 시너지를 발휘한다. Princeton 연구에 따르면 인라인 인용과 통계를 함께 사용하면 개별 전략 대비 약 115%의 노출 개선 효과가 있었다.
여기서 중요한 통찰이 있다. 이 9가지 전략은 결국 "좋은 글쓰기의 원칙"과 다르지 않다는 것이다. 출처를 밝히고, 데이터로 뒷받침하고, 전문가 의견을 인용하고, 읽기 쉽게 구조화하는 것 — 이것은 AI 이전에도 좋은 저널리즘과 학술 글쓰기의 기본이었다. GEO는 새로운 것을 요구하는 게 아니라, 이미 존재하던 "좋은 콘텐츠"의 기준을 정량화한 것에 가깝다.
72점에서 91점으로: 실제 채점 사례
이론을 확인하기 위해 직접 실험했다. 같은 주제로 두 버전의 글을 작성했다. 하나는 "보통의 블로그 글" 스타일로, 다른 하나는 GEO 전략을 적용한 버전이다.
주제는 "AI 코딩 에이전트의 현재와 미래"였다. 첫 번째 버전은 이렇게 시작했다. "요즘 AI가 코딩을 도와주는 도구가 많이 나오고 있습니다. GitHub Copilot, Cursor, Claude 같은 도구들이 개발자의 생산성을 높이고 있죠." 인용 없음, 통계 없음, 구조화된 데이터 없음. AI가 매긴 점수는 72점이었다.
두 번째 버전은 같은 내용을 GEO 전략으로 다시 작성한 것이다. "GitHub의 2024년 개발자 설문조사에 따르면, 개발자의 92%가 AI 코딩 도구를 사용하고 있으며, 이 중 70%가 GitHub Copilot을 주력 도구로 꼽았다(GitHub Developer Survey 2024)." 이렇게 시작한 글은 91점을 받았다.
두 버전 사이의 차이를 분석하면 흥미로운 패턴이 보인다. 점수 차이의 가장 큰 원인은 인라인 인용의 유무였다. 72점 버전에는 인용이 0개, 91점 버전에는 7개가 포함되어 있었다. 두 번째로 큰 요인은 구체적 수치의 사용이었다. "많은 개발자"와 "92%의 개발자"는 정보의 신뢰도에서 완전히 다른 차원이다.
하지만 모든 GEO 전략이 동일한 효과를 내는 것은 아니었다. 키워드 최적화의 효과는 상대적으로 미미했다. AI 엔진은 키워드 스터핑보다 의미적 관련성을 더 중요하게 평가한다. 반면, 유창성(Fluency) — 문장의 자연스러움과 논리적 흐름 — 은 예상보다 큰 영향을 미쳤다. 이는 AI가 "잘 읽히는 글"을 선호한다는 것을 의미한다.
GEO QA 시스템이란 무엇인가
GEO 전략을 알게 된 후 자연스럽게 생긴 의문이 있었다. "매번 글을 쓸 때마다 이 기준들을 일일이 체크할 수는 없잖아?" 이 질문이 GEO QA(Quality Assurance) 시스템의 출발점이 되었다.
GEO QA는 콘텐츠의 GEO 최적화 수준을 자동으로 평가하는 시스템이다. 글을 입력하면 여러 기준에 따라 점수를 매기고, 개선이 필요한 부분을 구체적으로 알려준다. 단순한 맞춤법 검사기가 아니라, 콘텐츠의 "AI 인용 가능성"을 예측하는 도구라고 보면 된다.
HypeProof에서는 이 개념을 실제 콘텐츠 파이프라인에 적용했다. 칼럼이나 리서치 글을 작성한 후, GEO QA 스크립트가 자동으로 돌아가면서 점수를 매긴다. 70점 미만이면 발행 전 수정이 필요하다는 신호이고, 85점 이상이면 AI 엔진에서 인용될 가능성이 높은 고품질 콘텐츠라는 의미다.
채점 기준은 크게 다섯 가지 영역으로 나뉜다. 첫째는 인용 밀도(Citation Density)다. 1000단어당 최소 2개 이상의 인라인 인용이 포함되어 있는지 확인한다. 둘째는 구조 점수(Structure Score)로, H2/H3 계층 구조가 적절한지, 코드 블록이나 테이블 같은 구조화된 요소가 있는지 평가한다. 셋째는 통계 포함도(Statistics Inclusion)로, 구체적인 숫자와 데이터가 포함되어 있는지 확인한다. 넷째는 어조 점수(Tone Score)로, 전문가적이면서도 읽기 쉬운 어조를 유지하고 있는지 평가한다. 다섯째는 길이 적절성(Length Adequacy)으로, AI 엔진이 충분히 참고할 수 있는 깊이의 콘텐츠인지 확인한다. McKinsey의 보고서에 따르면 심층 콘텐츠(2000단어 이상)는 짧은 콘텐츠 대비 AI 인용률이 2.3배 높다(McKinsey Digital, 2025).
HypeProof의 GEO QA: 실전 적용기
HypeProof Lab에서 GEO QA 시스템을 도입한 과정을 공유한다. 우리의 콘텐츠 파이프라인은 다음과 같이 작동한다. Creator가 초안을 작성하면, AI 에이전트가 GEO QA 스크립트를 실행한다. 스크립트는 마크다운 파일을 파싱해서 인라인 인용 수, 구조 요소, 통계 포함도 등을 분석하고, 100점 만점의 점수를 반환한다.
실제 스크립트의 동작 방식을 간단히 설명하면 이렇다. 마크다운 파일을 읽어서 정규식으로 인라인 인용 패턴([텍스트](URL) 형태)을 추출한다. H2와 H3 헤더의 수와 계층 구조를 분석한다. 코드 블록, 테이블, 이미지 등 구조화된 요소의 존재 여부를 확인한다. 그리고 전체 단어 수를 세어 최소 기준을 충족하는지 판단한다.
초기에는 채점 기준이 너무 엄격해서 대부분의 글이 60점대를 받았다. 인라인 인용 기준을 "1000단어당 3개"에서 "1000단어당 2개"로 조정하고, 구조 점수에서 테이블을 필수가 아닌 가산점 항목으로 변경하면서 현실적인 기준을 찾아갔다. 이 과정에서 깨달은 것이 있다. GEO QA는 "완벽한 글"을 강요하는 도구가 아니라, "더 나은 글"을 향한 가이드여야 한다는 것이다.
실제로 GEO QA 시스템을 3주간 운영한 결과, 흥미로운 변화가 나타났다. Creator들이 처음부터 인용을 포함한 초안을 작성하기 시작한 것이다. 채점 시스템이 존재한다는 사실 자체가 글쓰기 습관을 바꿔놓았다. 이것은 "측정이 행동을 변화시킨다"는 관리학의 오래된 원칙을 다시 한번 확인시켜 주었다(Drucker, "The Practice of Management," 1954).
GEO 점수를 올리는 실전 팁
여기까지 읽었다면, "그래서 어떻게 하면 점수를 올릴 수 있는데?"라는 질문이 떠올랐을 것이다. 3주간의 실험에서 얻은 실전 팁을 공유한다.
가장 효과적인 방법은 "주장-근거" 패턴을 습관화하는 것이다. 어떤 주장을 할 때마다 바로 다음 문장에서 데이터나 인용으로 뒷받침하는 것이다. 예를 들어, "AI 검색이 성장하고 있다"라고 쓰는 대신 "StatCounter의 2025년 데이터에 따르면 AI 기반 검색의 시장 점유율은 전년 대비 340% 증가했다"로 쓰는 것이다(StatCounter Global Stats, 2025).
두 번째 팁은 서사형 구조를 유지하면서 데이터를 자연스럽게 녹여내는 것이다. 불릿포인트로 나열하면 읽기는 편하지만, AI 엔진이 맥락을 파악하기 어려워진다. "A이고, B이며, C다"보다 "A라는 현상이 발생했고, 이것이 B로 이어졌으며, 궁극적으로 C라는 결과를 만들어냈다"가 더 높은 점수를 받는다.
세 번째 팁은 글의 도입부에서 독자의 호기심을 자극하는 것이다. Princeton 연구에서 직접 언급하지는 않았지만, 우리 자체 실험에서는 질문형 도입부가 포함된 콘텐츠가 평균 8-12% 높은 가시성을 보였다. 이것은 AI 엔진이 "답변할 수 있는 질문"을 포함한 콘텐츠를 더 잘 매칭하기 때문으로 추정된다.
네 번째는 메타데이터를 활용하는 것이다. Schema.org 마크업, Open Graph 태그, 구조화된 frontmatter는 AI가 콘텐츠의 주제와 맥락을 빠르게 파악하는 데 도움을 준다(Schema.org Article Specification). HypeProof의 모든 칼럼은 YAML frontmatter에 title, tags, excerpt, category 등의 메타데이터를 포함하고 있으며, 이는 빌드 과정에서 자동으로 JSON-LD 구조화 데이터로 변환된다.
AEO와 GEO의 관계: 같지만 다른 두 개념
GEO를 이야기할 때 빠지지 않는 것이 AEO(Answer Engine Optimization)다. 두 개념은 밀접하게 연관되어 있지만 초점이 다르다. AEO는 "내 콘텐츠가 AI의 답변으로 선택되게 하는 것"에 초점을 맞춘다(Search Engine Journal, "Answer Engine Optimization"). GEO는 "AI 엔진에서 내 콘텐츠의 가시성을 높이는 것" 전체를 포괄한다.
실질적으로 두 전략은 대부분 겹친다. 구조화된 데이터, 인라인 인용, 명확한 답변 포맷 — 이 요소들은 AEO와 GEO 모두에서 효과적이다. 차이가 있다면, AEO는 Featured Snippet이나 AI Overview 같은 "0번 위치"를 목표로 하고, GEO는 AI 모델이 학습하거나 RAG(Retrieval-Augmented Generation)에서 참조하는 더 넓은 맥락을 다룬다.
HypeProof의 접근은 이 두 개념을 통합하는 것이다. 콘텐츠를 처음부터 "AI가 참조하고 싶은 형태"로 작성하면, SEO, AEO, GEO 모두에서 좋은 성과를 낼 수 있다. 이는 결국 "사람이 읽기에도 좋은 글"과 같은 결론에 도달한다.
AI 시대의 글쓰기는 어떻게 달라지는가
이 글을 쓰면서 계속 떠오른 생각이 있다. GEO 최적화가 결국 글쓰기의 획일화로 이어지는 건 아닐까? 모든 글이 인라인 인용 5개, 통계 3개, H2 헤더 5개라는 공식을 따르게 되면, 글의 개성은 사라지는 게 아닐까?
이 우려는 타당하지만, 역사를 돌아보면 비슷한 패턴이 있었다. SEO가 처음 등장했을 때도 "키워드 밀도에 맞추면 글이 부자연스러워진다"는 비판이 있었다. 하지만 시간이 지나면서 SEO는 "검색 엔진과 인간 모두에게 좋은 콘텐츠"를 만드는 방향으로 진화했다. GEO도 같은 길을 갈 것이라 생각한다. 초기에는 공식적인 최적화가 눈에 띄겠지만, 결국은 본질적으로 좋은 콘텐츠가 AI에게도 선택받는 구조로 수렴할 것이다.
MIT Media Lab의 연구진은 "AI 시대의 콘텐츠 소비는 '정보의 정확성'과 '서사의 매력' 두 축으로 평가될 것"이라 예측했다(MIT Media Lab, "Future of Content Consumption," 2025). 정확성만 추구하면 사전이 되고, 서사만 추구하면 소설이 된다. GEO QA가 지향하는 것은 이 두 축의 교차점 — 정확하면서도 재미있는 글이다.
마치며: 점수는 시작일 뿐이다
72점에서 시작한 내 글쓰기 점수는 지금 평균 87점 정도다. 하지만 숫자보다 중요한 변화가 있다. 글을 쓸 때 "이 주장의 근거는 뭐지?"라고 스스로에게 묻는 습관이 생긴 것이다. 인라인 인용을 넣기 위해 출처를 찾다 보면, 내가 알고 있다고 생각했던 것들이 실제로는 근거가 부족했다는 걸 발견하게 된다.
GEO QA는 AI를 위한 최적화 도구이기도 하지만, 동시에 더 정직한 글쓰기를 위한 도구이기도 하다. AI가 채점하든 안 하든, 출처를 밝히고 데이터로 뒷받침하는 글은 그 자체로 가치가 있다. 다만 이제는 그런 가치를 AI가 정량적으로 인식할 수 있게 되었을 뿐이다.
당신의 다음 글은 몇 점을 받을 수 있을까? 한번 측정해보길 권한다. 점수가 낮다고 좌절할 필요는 없다. 모든 좋은 글은 첫 번째 초안에서 시작되고, GEO QA는 그 초안을 더 나은 완성본으로 이끌어주는 나침반이니까.
🔗 Sources
| # | 출처 | URL |
|---|---|---|
| 1 | GEO: Generative Engine Optimization — Aggarwal et al. (2023) | Princeton 연구팀의 GEO 9가지 최적화 전략 논문 |
| 2 | Gartner — Intelligent Agent in AI (2025) | 2026년까지 기업의 40%가 AI 에이전트 도입 전망 |
| 3 | Search Engine Journal — Google E-E-A-T | E-E-A-T(경험, 전문성, 권위, 신뢰) 콘텐츠 품질 지표 |
| 4 | Schema.org Article Specification | 구조화된 데이터 마크업 표준 |
| 5 | Search Engine Journal — Answer Engine Optimization | AEO 개념 및 GEO와의 관계 |
| 6 | Drucker, "The Practice of Management" (1954) | "측정이 행동을 변화시킨다" — 관리학 원칙 |
| 7 | GitHub Developer Survey 2024 | 개발자의 92%가 AI 코딩 도구 사용 |
| 8 | McKinsey Digital (2025) | 심층 콘텐츠(2000단어+)의 AI 인용률 2.3배 |
📚 이런 칼럼은 어떠세요?
공유하기
