기본 콘텐츠로 건너뛰기

AI 에이전트가 박사한테 졌다 — Nature가 증명한 판단력의 가치 2026

thumbnail

Photo by Alexander David on Unsplash

Nature가 보도하고 스탠퍼드가 숫자로 확인했다. 최고 성능의 AI 에이전트도 박사급 인간의 절반 수준밖에 못 한다.
그런데 같은 보고서에서 단순 작업 성공률은 77%까지 올랐다. AI가 잘하는 것과 못하는 것의 경계가 선명해지고 있다.

AI가 모든 걸 대체한다는 말을 요즘 하루에 열 번은 듣는다. 나도 매일 AI를 쓰니까 그 말이 완전히 틀렸다고는 못 하겠다. 그런데 이번에 나온 데이터를 보면서 생각이 좀 달라졌다. AI가 잘하는 영역과 못하는 영역이 생각보다 뚜렷하고, 그 경계선이 곧 사람의 가치가 되는 지점이었다.


AI 에이전트는 박사의 절반이었다 — 무슨 실험이었나?

스탠퍼드 HAI가 발행한 AI 인덱스 2026에 흥미로운 벤치마크 결과가 실렸다. 복잡한 과학적 워크플로우 — 여러 단계를 거쳐야 하고, 중간에 판단을 내려야 하는 작업 — 에서 GPT, Claude, Gemini 같은 최신 AI 에이전트를 테스트했더니, 박사 학위를 가진 전문가의 절반 수준밖에 성과를 내지 못했다.

Nature는 이 결과를 "Human scientists trounce the best AI agents"라는 제목으로 보도했다. "trounce"는 완파, 압승이라는 뜻이다. 과학 저널에서 이렇게 강한 단어를 쓴 건 그만큼 격차가 컸다는 의미다.

연구에 참여한 Gil 박사의 말이 인상적이었다. "에이전트는 훌륭하지만, 우리는 아직 그것을 효과적으로 사용하는 방법조차 이해하지 못하고 있다." AI가 못하는 게 아니라, AI를 제대로 쓰는 법을 아는 사람이 아직 부족하다는 이야기이기도 하다.


단순 작업은 77%, 그런데 판단이 필요하면?

같은 보고서에서 재밌는 대비가 나왔다. AI 에이전트의 단순 작업(하나의 프롬프트에 하나의 답을 내는 방식) 성공률은 20%에서 77.3%까지 치솟았다. 사이버보안 분류 작업에서는 93%까지 올라갔다. 1년 만에 이 정도 성장이면 무서운 속도다.

작업 유형AI 성과특징
단순 작업 (단일 프롬프트)77.3% 성공률1년 전 20%에서 급등
사이버보안 분류93% 성공률패턴 인식 중심
고객 서비스생산성 14% 향상반복 응대 자동화
소프트웨어 개발생산성 26% 향상코드 생성·리뷰
복잡한 과학 워크플로우박사의 ~50%다단계 판단 필요

패턴이 보인다. 반복적이고 규칙이 명확한 작업에서는 AI가 이미 사람을 따라잡았거나 넘어섰다. 하지만 여러 정보를 종합하고, 맥락을 읽고, 불확실한 상황에서 결정을 내려야 하는 작업에서는 아직 사람의 절반이다.


Snap이 1,000명을 자른 이유가 여기에 있다

이 데이터를 현실에 대입하면 무서운 그림이 나온다. 같은 시기에 Snap CEO는 "AI 발전으로 더 적은 인원으로 같은 성과를 낼 수 있다"며 직원 1,000명을 해고하고 채용 300건을 폐쇄했다. 스탠퍼드 보고서도 22~25세 소프트웨어 개발자 고용이 2024년 대비 20% 가까이 줄었다고 밝혔다.

잘리는 쪽의 공통점이 있다. AI가 77% 이상 성공하는 영역, 그러니까 반복적이고 패턴이 명확한 업무를 주로 하던 사람들이다. 반대로 살아남는 쪽은 판단과 실행이 업무의 핵심인 사람들이다.

AI가 코드를 생성하는 속도는 26% 빨라졌지만, 그 코드를 왜 이렇게 짜야 하는지 판단하고, 비즈니스 맥락에 맞게 조율하는 건 여전히 사람의 몫이다. 고객 서비스 응대 속도가 14% 올라갔지만, 화난 고객의 진짜 불만이 뭔지 읽어내는 건 AI가 못 한다.


그러면 뭘 키워야 하는 걸까?

Nature 보도와 스탠퍼드 데이터를 합쳐서 보면 답이 꽤 선명하다. AI가 못하는 것, 그래서 사람만이 할 수 있는 것은 결국 세 가지로 모인다.

첫째, 서로 다른 정보를 연결하는 직관이다. AI는 주어진 데이터 안에서는 빠르지만, 전혀 다른 분야의 경험을 끌어와서 "이거랑 저거, 비슷한데?"라고 느끼는 건 사람만 한다. 박사급 전문가가 AI를 두 배 이상 앞선 이유도 여기에 있을 가능성이 높다. 수년간 쌓인 경험에서 오는 직관은 아직 학습 데이터로 복제가 안 된다.

둘째, 불완전한 정보 속에서 결정을 내리는 판단력이다. 실험실에서도, 사업에서도, 모든 정보가 갖춰진 상태에서 결정을 내리는 경우는 거의 없다. 70%만 알고 있는 상태에서 "지금 가야 한다"고 결정하는 건 AI가 가장 어려워하는 영역이다.

셋째, 결정한 것을 실제로 밀어붙이는 실행력이다. AI는 계획을 세우는 건 잘하지만, 예상 밖의 장애물이 나왔을 때 방향을 틀면서도 목표를 유지하는 건 사람이 해야 한다. 130년 전 전기가 나왔을 때도 결국 승자는 기술을 이해한 사람이 아니라 기술로 실행한 사람이었다.


관점 한 스푼

솔직히 말하면 이 데이터를 보면서 좀 안심이 됐다. 나는 코드를 짤 줄 모르고, AI 모델의 구조도 설명 못 한다. 그런데 매일 AI를 써서 콘텐츠를 만들고, 고객을 관리하고, 사업 방향을 판단하는 건 꽤 잘하고 있다고 생각한다. Nature가 400페이지짜리 보고서로 증명한 건, AI 기술 전문가가 아니라 직관과 경험을 종합해서 판단을 내리고 그걸 실행하는 사람이 이 시대에 살아남는다는 거다. 정답은 아무도 모르겠지만, 적어도 AI한테 안 지는 영역은 분명히 있고, 그건 우리가 매일 하고 있는 일이다.


자주 묻는 질문 (FAQ)

Q. AI 에이전트가 박사의 절반이라는 건 구체적으로 무슨 뜻인가요?

스탠퍼드 AI 인덱스 2026 벤치마크 기준으로, 여러 단계를 거쳐야 하는 복잡한 과학 워크플로우에서 최고 성능 AI 에이전트(GPT, Claude, Gemini 등)의 점수가 박사 학위 전문가의 약 50% 수준이었습니다. 단순 작업에서는 77% 이상 성공하지만, 판단이 필요한 복합 작업에서는 아직 큰 격차가 남아 있는 상황입니다.

Q. 그러면 AI가 쓸모없다는 건가요?

전혀 그렇지 않습니다. 반복적이고 패턴이 명확한 작업에서는 AI가 이미 사람보다 빠르고 정확합니다. 핵심은 "AI가 잘하는 일은 AI한테 맡기고, 사람은 판단과 실행에 집중한다"는 역할 분담이에요. AI를 도구로 잘 활용하면서 판단력을 키우는 게 가장 현실적인 전략이라고 봅니다.

Q. 비개발자도 AI 시대에 경쟁력을 가질 수 있나요?

오히려 비개발자가 유리할 수도 있습니다. AI가 못하는 영역은 코딩 실력이 아니라 경험에서 오는 직관, 맥락을 읽는 능력, 불확실한 상황에서의 결단력이거든요. 다양한 현장 경험을 가진 사람일수록 AI와 협업했을 때 성과 차이가 크게 벌어집니다.


#멜론 AI 인사이트 #AI 인사이트 #AI활용 #생산성

참고 자료
· Nature — Human scientists trounce the best AI agents on complex tasks
· Stanford HAI — AI Index Report 2026: Technical Performance
· HumAI — AI Agents Score Half as Well as PhDs on Real Work

댓글

이 블로그의 인기 게시물

Opus 4.7 제대로 쓰는 법 — Claude Code 팀이 공유한 실전 팁 6가지 2026

Photo by Joshua Woroniecki on Unsplash Opus 4.7로 바꿨는데 "음... 좀 나아진 것 같기도?"로 끝났다면, 모델이 아니라 쓰는 방식이 문제입니다. Claude Code를 만든 팀이 직접 몇 주간 써보고 깨달은 것을 공유했습니다. 솔직히 저도 그랬습니다. Opus 4.7 나왔다길래 바로 써봤는데, 처음엔 "뭐가 달라졌지?" 싶었습니다. 그런데 Boris Cherny(Claude Code 팀)의 팁을 보고 워크플로우를 바꿨더니, 체감이 확 달라졌습니다. 매일 이 블로그를 Claude Code로 운영하면서 하나씩 적용해본 기록입니다. 광고 자리 (AdSense 승인 후 교체) 핵심 요약 — 6가지 팁 한눈에 팁 한줄 요약 적용 방법 Auto mode 권한 프롬프트 자동 판단 Shift+Tab /fewer-permission-prompts 반복 허락 묻기 제거 /fewer-permission-prompts 입력 Recaps 긴 작업 후 요약 자동 제공 자동 (Opus 4.7 기본 탑재) Focus mode 중간 과정 숨기고 결과만 /focus 입력 Effort level 생각 깊이 직접 조절 /effort 입력 검증 수단 제공 AI가 스스로 결과를 확인하게 테스트/브라우저/Computer use 연결 1. Auto mode — 옆에서 지켜보지 마세요 "이 명령어 실행해도 될까요?" — Cla...

ChatGPT 메모리가 이제 보입니다 — 환각 52% 줄인 GPT-5.5 Instant의 진짜 변화 2026

Photo by Andy Luo on Unsplash OpenAI가 ChatGPT를 조용히 바꿨습니다. 새 기본 모델 GPT-5.5 Instant가 나왔고, 환각이 절반 가까이 줄었습니다. 그런데 더 중요한 건 따로 있습니다. 이제 ChatGPT가 답을 어디서 가져왔는지 사용자에게 보여주기 시작했다는 점입니다. [AdSense 상단] 무엇이 바뀌었나 2026년 5월 5일, OpenAI는 ChatGPT의 기본 모델을 GPT-5.5 Instant로 교체했습니다. 가장 눈에 띄는 숫자는 환각률입니다. 의학·법률·금융처럼 잘못된 답이 실제로 손해로 이어지는 분야에서, 새 모델은 이전(GPT-5.3 Instant)보다 환각된 주장을 52.5% 적게 만들어냈다고 OpenAI는 자체 평가에서 밝혔습니다. 수학 추론(AIME 2025)에서는 점수가 65.4에서 81.2로 올랐고, 멀티모달 추론(MMMU-Pro)에서도 69.2에서 76으로 향상됐습니다. 속도는 이전 모델 수준을 그대로 유지했다는 게 OpenAI의 설명입니다. 그런데 진짜 변화는 모델 성능이 아니라 메모리 소스 표시 기능 입니다. ChatGPT는 이제 답변을 만들 때 참고한 과거 대화, 업로드 파일, 연결된 Gmail 정보를 사용자에게 보여줍니다. 사용자는 잘못된 출처를 삭제하거나 수정할 수 있습니다. 다른 사람과 채팅을 공유해도 메모리 소스는 본인만 볼 수 있습니다. 왜 이게 큰 변화일까요 지금까지 ChatGPT를 쓰면서 가장 답답했던 순간을 떠올려보면, 대부분 같은 종류의 답답함이었을 겁니다. "이 답이 도대체 어디서 나온 거지?" AI는 자신감 있게 답하지만, 그 자신감의 근거를 사용자가 검증할 방법이 없었습니다. 환각이라는 단어가 늘 따라다닌 이유입니다. 메모리 소스가 보이기 시작했다는 건, AI 답변에 처음으로 추적 가능한 흔적 이 생겼다는 뜻입니다. 비개발자 입장에서 이건 단순한 UI 추가가 아닙니다. 그동안 ...

Meta·Microsoft 2만명 해고 — AI에 수백조 쓰면서 사람은 자르는 빅테크의 산수 2026

Photo by Jeffrey Keenan on Unsplash Meta가 8,000명을 자른다. Microsoft도 8,750명에게 자발적 퇴직을 권고했다. 같은 주에 두 회사가 AI 인프라에 쏟겠다고 발표한 금액은 수백억 달러다. AI에 돈을 넣는 손과 사람을 빼는 손이 같은 회사에 붙어 있다. 이 소식을 듣고 "빅테크가 원래 구조조정 많이 하잖아"라고 넘길 수도 있다. 나도 처음엔 그랬다. 그런데 숫자를 모아서 보니 생각이 달라졌다. 2026년에만 테크 업계 해고가 9만 2천 명이다. 2020년부터 누적하면 90만 명에 가깝다. 광고 자리 (AdSense 승인 후 교체) 지금 무슨 일이 벌어지고 있나? Meta는 5월 20일부터 전체 인력의 10%인 8,000명을 해고한다. 거기에 채용 예정이던 6,000개 포지션도 폐지했다. 실질적으로 1만 4천 명분의 일자리가 사라진 셈이다. Microsoft는 미국 직원의 7%에게 자발적 퇴직 패키지를 제안했다. 최대 8,750명이 나갈 수 있는 규모다. Amazon도 올해 들어 역대 최대 규모의 구조조정을 발표한 바 있다. 회사 해고 규모 시점 Meta 8,000명 + 채용 6,000건 폐지 5월 20일 시작 Microsoft 최대 8,750명 (자발적 퇴직) 4월 발표 Amazon 역대 최대 (구체 수치 미공개) 2026년 초 2026년 누적 9.2만 명 (테크 업계 전체) Layoffs.fyi 기준 같은 지갑에서 나오는 돈이다 이게 단순한 구조조정이 아닌 이유가 있다. 사람을 자르는 동시에 AI에 투자하는 금액이 폭증하고 있기 때문이다. CNBC는 이걸 "급여를 AI 자본 지출로 전환하는 것" 이라고 표현했다. 직설적으로 말하면, 사람한테 주던 월급을 GPU와 데이터센터에 넣고 있다는 거다. 이건 경기 ...