AI 에이전트가 박사한테 졌다 — Nature가 증명한 판단력의 가치 2026

Nature가 보도하고 스탠퍼드가 숫자로 확인했다. 최고 성능의 AI 에이전트도 박사급 인간의 절반 수준밖에 못 한다.
그런데 같은 보고서에서 단순 작업 성공률은 77%까지 올랐다. AI가 잘하는 것과 못하는 것의 경계가 선명해지고 있다.

AI가 모든 걸 대체한다는 말을 요즘 하루에 열 번은 듣는다. 나도 매일 AI를 쓰니까 그 말이 완전히 틀렸다고는 못 하겠다. 그런데 이번에 나온 데이터를 보면서 생각이 좀 달라졌다. AI가 잘하는 영역과 못하는 영역이 생각보다 뚜렷하고, 그 경계선이 곧 사람의 가치가 되는 지점이었다.

AI 에이전트는 박사의 절반이었다 — 무슨 실험이었나?

스탠퍼드 HAI가 발행한 AI 인덱스 2026에 흥미로운 벤치마크 결과가 실렸다. 복잡한 과학적 워크플로우 — 여러 단계를 거쳐야 하고, 중간에 판단을 내려야 하는 작업 — 에서 GPT, Claude, Gemini 같은 최신 AI 에이전트를 테스트했더니, 박사 학위를 가진 전문가의 절반 수준밖에 성과를 내지 못했다.

Nature는 이 결과를 "Human scientists trounce the best AI agents"라는 제목으로 보도했다. "trounce"는 완파, 압승이라는 뜻이다. 과학 저널에서 이렇게 강한 단어를 쓴 건 그만큼 격차가 컸다는 의미다.

연구에 참여한 Gil 박사의 말이 인상적이었다. "에이전트는 훌륭하지만, 우리는 아직 그것을 효과적으로 사용하는 방법조차 이해하지 못하고 있다." AI가 못하는 게 아니라, AI를 제대로 쓰는 법을 아는 사람이 아직 부족하다는 이야기이기도 하다.

단순 작업은 77%, 그런데 판단이 필요하면?

같은 보고서에서 재밌는 대비가 나왔다. AI 에이전트의 단순 작업(하나의 프롬프트에 하나의 답을 내는 방식) 성공률은 20%에서 77.3%까지 치솟았다. 사이버보안 분류 작업에서는 93%까지 올라갔다. 1년 만에 이 정도 성장이면 무서운 속도다.

작업 유형	AI 성과	특징
단순 작업 (단일 프롬프트)	77.3% 성공률	1년 전 20%에서 급등
사이버보안 분류	93% 성공률	패턴 인식 중심
고객 서비스	생산성 14% 향상	반복 응대 자동화
소프트웨어 개발	생산성 26% 향상	코드 생성·리뷰
복잡한 과학 워크플로우	박사의 ~50%	다단계 판단 필요

패턴이 보인다. 반복적이고 규칙이 명확한 작업에서는 AI가 이미 사람을 따라잡았거나 넘어섰다. 하지만 여러 정보를 종합하고, 맥락을 읽고, 불확실한 상황에서 결정을 내려야 하는 작업에서는 아직 사람의 절반이다.

Snap이 1,000명을 자른 이유가 여기에 있다

이 데이터를 현실에 대입하면 무서운 그림이 나온다. 같은 시기에 Snap CEO는 "AI 발전으로 더 적은 인원으로 같은 성과를 낼 수 있다"며 직원 1,000명을 해고하고 채용 300건을 폐쇄했다. 스탠퍼드 보고서도 22~25세 소프트웨어 개발자 고용이 2024년 대비 20% 가까이 줄었다고 밝혔다.

잘리는 쪽의 공통점이 있다. AI가 77% 이상 성공하는 영역, 그러니까 반복적이고 패턴이 명확한 업무를 주로 하던 사람들이다. 반대로 살아남는 쪽은 판단과 실행이 업무의 핵심인 사람들이다.

AI가 코드를 생성하는 속도는 26% 빨라졌지만, 그 코드를 왜 이렇게 짜야 하는지 판단하고, 비즈니스 맥락에 맞게 조율하는 건 여전히 사람의 몫이다. 고객 서비스 응대 속도가 14% 올라갔지만, 화난 고객의 진짜 불만이 뭔지 읽어내는 건 AI가 못 한다.

그러면 뭘 키워야 하는 걸까?

Nature 보도와 스탠퍼드 데이터를 합쳐서 보면 답이 꽤 선명하다. AI가 못하는 것, 그래서 사람만이 할 수 있는 것은 결국 세 가지로 모인다.

첫째, 서로 다른 정보를 연결하는 직관이다. AI는 주어진 데이터 안에서는 빠르지만, 전혀 다른 분야의 경험을 끌어와서 "이거랑 저거, 비슷한데?"라고 느끼는 건 사람만 한다. 박사급 전문가가 AI를 두 배 이상 앞선 이유도 여기에 있을 가능성이 높다. 수년간 쌓인 경험에서 오는 직관은 아직 학습 데이터로 복제가 안 된다.

둘째, 불완전한 정보 속에서 결정을 내리는 판단력이다. 실험실에서도, 사업에서도, 모든 정보가 갖춰진 상태에서 결정을 내리는 경우는 거의 없다. 70%만 알고 있는 상태에서 "지금 가야 한다"고 결정하는 건 AI가 가장 어려워하는 영역이다.

셋째, 결정한 것을 실제로 밀어붙이는 실행력이다. AI는 계획을 세우는 건 잘하지만, 예상 밖의 장애물이 나왔을 때 방향을 틀면서도 목표를 유지하는 건 사람이 해야 한다. 130년 전 전기가 나왔을 때도 결국 승자는 기술을 이해한 사람이 아니라 기술로 실행한 사람이었다.

관점 한 스푼

솔직히 말하면 이 데이터를 보면서 좀 안심이 됐다. 나는 코드를 짤 줄 모르고, AI 모델의 구조도 설명 못 한다. 그런데 매일 AI를 써서 콘텐츠를 만들고, 고객을 관리하고, 사업 방향을 판단하는 건 꽤 잘하고 있다고 생각한다. Nature가 400페이지짜리 보고서로 증명한 건, AI 기술 전문가가 아니라 직관과 경험을 종합해서 판단을 내리고 그걸 실행하는 사람이 이 시대에 살아남는다는 거다. 정답은 아무도 모르겠지만, 적어도 AI한테 안 지는 영역은 분명히 있고, 그건 우리가 매일 하고 있는 일이다.

자주 묻는 질문 (FAQ)

Q. AI 에이전트가 박사의 절반이라는 건 구체적으로 무슨 뜻인가요?

스탠퍼드 AI 인덱스 2026 벤치마크 기준으로, 여러 단계를 거쳐야 하는 복잡한 과학 워크플로우에서 최고 성능 AI 에이전트(GPT, Claude, Gemini 등)의 점수가 박사 학위 전문가의 약 50% 수준이었습니다. 단순 작업에서는 77% 이상 성공하지만, 판단이 필요한 복합 작업에서는 아직 큰 격차가 남아 있는 상황입니다.

Q. 그러면 AI가 쓸모없다는 건가요?

전혀 그렇지 않습니다. 반복적이고 패턴이 명확한 작업에서는 AI가 이미 사람보다 빠르고 정확합니다. 핵심은 "AI가 잘하는 일은 AI한테 맡기고, 사람은 판단과 실행에 집중한다"는 역할 분담이에요. AI를 도구로 잘 활용하면서 판단력을 키우는 게 가장 현실적인 전략이라고 봅니다.

Q. 비개발자도 AI 시대에 경쟁력을 가질 수 있나요?

오히려 비개발자가 유리할 수도 있습니다. AI가 못하는 영역은 코딩 실력이 아니라 경험에서 오는 직관, 맥락을 읽는 능력, 불확실한 상황에서의 결단력이거든요. 다양한 현장 경험을 가진 사람일수록 AI와 협업했을 때 성과 차이가 크게 벌어집니다.

#멜론 AI 인사이트 #AI 인사이트 #AI활용 #생산성

AI 시대의 경쟁력이 궁금하다면 이 글도 읽어보세요

스탠퍼드 581억 달러가 가리키는 방향 — AI 전문가보다 AI로 성장하는 사람이 이긴다 →

참고 자료
· Nature — Human scientists trounce the best AI agents on complex tasks
· Stanford HAI — AI Index Report 2026: Technical Performance
· HumAI — AI Agents Score Half as Well as PhDs on Real Work

멜론 AI 인사이트 Melon AI Insight