기본 콘텐츠로 건너뛰기

AI 에이전트가 박사한테 졌다 — Nature가 증명한 판단력의 가치 2026

thumbnail

Photo by Alexander David on Unsplash

Nature가 보도하고 스탠퍼드가 숫자로 확인했다. 최고 성능의 AI 에이전트도 박사급 인간의 절반 수준밖에 못 한다.
그런데 같은 보고서에서 단순 작업 성공률은 77%까지 올랐다. AI가 잘하는 것과 못하는 것의 경계가 선명해지고 있다.

AI가 모든 걸 대체한다는 말을 요즘 하루에 열 번은 듣는다. 나도 매일 AI를 쓰니까 그 말이 완전히 틀렸다고는 못 하겠다. 그런데 이번에 나온 데이터를 보면서 생각이 좀 달라졌다. AI가 잘하는 영역과 못하는 영역이 생각보다 뚜렷하고, 그 경계선이 곧 사람의 가치가 되는 지점이었다.


AI 에이전트는 박사의 절반이었다 — 무슨 실험이었나?

스탠퍼드 HAI가 발행한 AI 인덱스 2026에 흥미로운 벤치마크 결과가 실렸다. 복잡한 과학적 워크플로우 — 여러 단계를 거쳐야 하고, 중간에 판단을 내려야 하는 작업 — 에서 GPT, Claude, Gemini 같은 최신 AI 에이전트를 테스트했더니, 박사 학위를 가진 전문가의 절반 수준밖에 성과를 내지 못했다.

Nature는 이 결과를 "Human scientists trounce the best AI agents"라는 제목으로 보도했다. "trounce"는 완파, 압승이라는 뜻이다. 과학 저널에서 이렇게 강한 단어를 쓴 건 그만큼 격차가 컸다는 의미다.

연구에 참여한 Gil 박사의 말이 인상적이었다. "에이전트는 훌륭하지만, 우리는 아직 그것을 효과적으로 사용하는 방법조차 이해하지 못하고 있다." AI가 못하는 게 아니라, AI를 제대로 쓰는 법을 아는 사람이 아직 부족하다는 이야기이기도 하다.


단순 작업은 77%, 그런데 판단이 필요하면?

같은 보고서에서 재밌는 대비가 나왔다. AI 에이전트의 단순 작업(하나의 프롬프트에 하나의 답을 내는 방식) 성공률은 20%에서 77.3%까지 치솟았다. 사이버보안 분류 작업에서는 93%까지 올라갔다. 1년 만에 이 정도 성장이면 무서운 속도다.

작업 유형AI 성과특징
단순 작업 (단일 프롬프트)77.3% 성공률1년 전 20%에서 급등
사이버보안 분류93% 성공률패턴 인식 중심
고객 서비스생산성 14% 향상반복 응대 자동화
소프트웨어 개발생산성 26% 향상코드 생성·리뷰
복잡한 과학 워크플로우박사의 ~50%다단계 판단 필요

패턴이 보인다. 반복적이고 규칙이 명확한 작업에서는 AI가 이미 사람을 따라잡았거나 넘어섰다. 하지만 여러 정보를 종합하고, 맥락을 읽고, 불확실한 상황에서 결정을 내려야 하는 작업에서는 아직 사람의 절반이다.


Snap이 1,000명을 자른 이유가 여기에 있다

이 데이터를 현실에 대입하면 무서운 그림이 나온다. 같은 시기에 Snap CEO는 "AI 발전으로 더 적은 인원으로 같은 성과를 낼 수 있다"며 직원 1,000명을 해고하고 채용 300건을 폐쇄했다. 스탠퍼드 보고서도 22~25세 소프트웨어 개발자 고용이 2024년 대비 20% 가까이 줄었다고 밝혔다.

잘리는 쪽의 공통점이 있다. AI가 77% 이상 성공하는 영역, 그러니까 반복적이고 패턴이 명확한 업무를 주로 하던 사람들이다. 반대로 살아남는 쪽은 판단과 실행이 업무의 핵심인 사람들이다.

AI가 코드를 생성하는 속도는 26% 빨라졌지만, 그 코드를 왜 이렇게 짜야 하는지 판단하고, 비즈니스 맥락에 맞게 조율하는 건 여전히 사람의 몫이다. 고객 서비스 응대 속도가 14% 올라갔지만, 화난 고객의 진짜 불만이 뭔지 읽어내는 건 AI가 못 한다.


그러면 뭘 키워야 하는 걸까?

Nature 보도와 스탠퍼드 데이터를 합쳐서 보면 답이 꽤 선명하다. AI가 못하는 것, 그래서 사람만이 할 수 있는 것은 결국 세 가지로 모인다.

첫째, 서로 다른 정보를 연결하는 직관이다. AI는 주어진 데이터 안에서는 빠르지만, 전혀 다른 분야의 경험을 끌어와서 "이거랑 저거, 비슷한데?"라고 느끼는 건 사람만 한다. 박사급 전문가가 AI를 두 배 이상 앞선 이유도 여기에 있을 가능성이 높다. 수년간 쌓인 경험에서 오는 직관은 아직 학습 데이터로 복제가 안 된다.

둘째, 불완전한 정보 속에서 결정을 내리는 판단력이다. 실험실에서도, 사업에서도, 모든 정보가 갖춰진 상태에서 결정을 내리는 경우는 거의 없다. 70%만 알고 있는 상태에서 "지금 가야 한다"고 결정하는 건 AI가 가장 어려워하는 영역이다.

셋째, 결정한 것을 실제로 밀어붙이는 실행력이다. AI는 계획을 세우는 건 잘하지만, 예상 밖의 장애물이 나왔을 때 방향을 틀면서도 목표를 유지하는 건 사람이 해야 한다. 130년 전 전기가 나왔을 때도 결국 승자는 기술을 이해한 사람이 아니라 기술로 실행한 사람이었다.


관점 한 스푼

솔직히 말하면 이 데이터를 보면서 좀 안심이 됐다. 나는 코드를 짤 줄 모르고, AI 모델의 구조도 설명 못 한다. 그런데 매일 AI를 써서 콘텐츠를 만들고, 고객을 관리하고, 사업 방향을 판단하는 건 꽤 잘하고 있다고 생각한다. Nature가 400페이지짜리 보고서로 증명한 건, AI 기술 전문가가 아니라 직관과 경험을 종합해서 판단을 내리고 그걸 실행하는 사람이 이 시대에 살아남는다는 거다. 정답은 아무도 모르겠지만, 적어도 AI한테 안 지는 영역은 분명히 있고, 그건 우리가 매일 하고 있는 일이다.


자주 묻는 질문 (FAQ)

Q. AI 에이전트가 박사의 절반이라는 건 구체적으로 무슨 뜻인가요?

스탠퍼드 AI 인덱스 2026 벤치마크 기준으로, 여러 단계를 거쳐야 하는 복잡한 과학 워크플로우에서 최고 성능 AI 에이전트(GPT, Claude, Gemini 등)의 점수가 박사 학위 전문가의 약 50% 수준이었습니다. 단순 작업에서는 77% 이상 성공하지만, 판단이 필요한 복합 작업에서는 아직 큰 격차가 남아 있는 상황입니다.

Q. 그러면 AI가 쓸모없다는 건가요?

전혀 그렇지 않습니다. 반복적이고 패턴이 명확한 작업에서는 AI가 이미 사람보다 빠르고 정확합니다. 핵심은 "AI가 잘하는 일은 AI한테 맡기고, 사람은 판단과 실행에 집중한다"는 역할 분담이에요. AI를 도구로 잘 활용하면서 판단력을 키우는 게 가장 현실적인 전략이라고 봅니다.

Q. 비개발자도 AI 시대에 경쟁력을 가질 수 있나요?

오히려 비개발자가 유리할 수도 있습니다. AI가 못하는 영역은 코딩 실력이 아니라 경험에서 오는 직관, 맥락을 읽는 능력, 불확실한 상황에서의 결단력이거든요. 다양한 현장 경험을 가진 사람일수록 AI와 협업했을 때 성과 차이가 크게 벌어집니다.


#멜론 AI 인사이트 #AI 인사이트 #AI활용 #생산성

참고 자료
· Nature — Human scientists trounce the best AI agents on complex tasks
· Stanford HAI — AI Index Report 2026: Technical Performance
· HumAI — AI Agents Score Half as Well as PhDs on Real Work

댓글

이 블로그의 인기 게시물

AI 비서로 블로그 만들었더니 5일 만에 682명 왔습니다 - 비개발자가 직접 해본 솔직 후기

Photo by Ronan Furuta on Unsplash 코딩 한 줄 못 짜는 사람이 AI 비서 하나로 블로그를 만들었습니다. 개설 5일 만에 682명 방문. 그 전 기록: 0명. 블로그 한번 해볼까 생각은 많이 했습니다. 근데 막상 시작하면 글 쓰는 게 너무 고되잖아요. 주제 잡고, 조사하고, 쓰고, 퇴고하고… 한 편에 반나절은 기본이니까요. 저도 그 이유로 몇 번을 포기했어요. 그러다 올해 3월에 AI 비서를 붙여서 다시 해봤습니다. 결과가 꽤 달랐습니다. 실제 Blogger 통계 화면 — 개설 5일 만에 전체 682명 개설 5일 성과 — 숫자부터 보여드립니다 말보다 숫자가 솔직합니다. 682 5일 총 방문자 128 하루 최고 방문자 13 발행한 글 수 블로그 개설일: 2026년 3월 26일. 5일 뒤 방문자: 682명. 글 13편으로 만들어낸 수치입니다. 일반적인 블로그는 첫 달에 수십 명도 쉽지 않다는 걸 감안하면, 5일 만에 682명은 꽤 의미 있는 숫자입니다. ❌ 혼자 블로그 할 때 글 1편에 반나절 주제 정하는 데 1시간 금방 지쳐서 포기 발행 주기 0 (결국 안 씀) 5일에 682명? 꿈도 못 꿈 ✅ AI 비서와 함께 글 1편에 1~2시간 트렌드 체크 + 주제 자동 제안 첫 달 13편 발행 하루 최고 128명 방문 5일 만에 682명 달성 무엇을 어떻게 만들었나요? 플랫폼은 구글 블로거(Blogger) 를 선택했습니다. 무료이고, 구글 생태계 안에 있어서 애드센스 연결이 가장 간단하다는 이유였습니다. AI 비서는 Claude Code + 비토 를 씁니다. 텔레그램으로 대화하...

Claude로 AI 블로그 세팅하는 법 — 비개발자 5단계 완전 가이드 2026

Photo by Bernd 📷 Dittrich on Unsplash 블로그를 세 번 시작하고 세 번 다 포기했습니다. 이번엔 Claude AI 비서를 붙였습니다. 결과는 개설 5일 만에 682명. 글 하나 쓰는 데 반나절씩 걸리다 보니 금방 지치는 게 당연했습니다. 저도 그 이유로 몇 번을 포기했어요. 이번엔 뭔가 달라야 했는데, 그게 Claude였습니다. 제가 주제 소스를 던지면 Claude가 트렌드를 확인하고 초안을 씁니다. 저는 읽고 "발행해" 한 마디. 그 흐름으로 13편을 냈더니 5일 만에 682명이 왔습니다. 성과 전체가 궁금하면 이 글을 먼저 보세요. 이 글은 그 결과를 만들기까지의 세팅 과정 입니다. 코딩 한 줄 없이, 비개발자가 Claude 비서 블로그를 어떻게 세팅했는지 단계별로 공유합니다. 준비물은 딱 3가지입니다 복잡하게 생각할 것 없습니다. 저도 처음엔 뭐가 뭔지 몰라서 한참 헤맸는데, 결국 필요한 건 이 세 가지였어요. 🤖 Claude AI 글을 써주는 AI 비서. claude.ai 계정만 있으면 됩니다. 📝 Google Blogger 블로그 플랫폼. 구글 계정만 있으면 무료로 시작 가능합니다. 💬 텔레그램 비서에게 지시를 내리는 채널. 스마트폰으로 어디서든 명령합니다. 추가로 있으면 좋은 게 Claude Code인데, 이건 처음부터 없어도 됩니다. 저도 처음엔 claude.ai 웹 버전으로만 했고, 자동화는 나중에 붙였습니다. 세팅 5단계 — 처음 하는 사람 기준으로 씁니다 제가 실제로 거친 순서입니다. 중간에 삽질도 있었지만, 이 순서대로 하면 최단 경로입니다. 1 Google Blogger 계정 만들기 blogger.com 접속 → 구글 계정으로 로그인 → 새 블로그 만들기 → 블로그 주소 설정. 10분이...

코딩 없이 나만의 AI 비서 만들기 1편 — 준비물 3가지와 Claude 계정 세팅 완전 가이드

Photo by Daniel Sturley on Unsplash AI 비서 만들기 시리즈 1편 코딩 몰라도 됩니다. 준비물 딱 3가지면 AI 비서를 만들 수 있습니다. 이 글에서 계정 세팅부터 첫 대화까지 단계별로 안내합니다. "AI 비서 만들기"라는 말을 들으면 막막하게 느껴지는 분들이 많습니다. 개발자나 할 수 있을 것 같고, 코드를 써야 할 것 같고, 어디서 시작해야 할지 모르겠다는 생각이 드는 게 당연합니다. 저도 처음엔 그랬습니다. 그런데 실제로 해보니 달랐습니다. Claude를 사용하면 코딩 경험이 전혀 없어도 나만의 AI 비서를 만들 수 있습니다. 이 시리즈는 딱 그 과정을 담습니다. 1편에서는 AI 비서가 무엇인지, 어떤 준비물이 필요한지, Claude 계정을 어떻게 세팅하는지 처음부터 안내합니다. AI 비서란 무엇인가 — 쉽게 이해하기 AI 비서를 한 문장으로 정의하면 이렇습니다. "내가 시키는 일을 대신 해주는 AI 프로그램" 입니다. 카카오톡처럼 메시지를 보내면, 반대편에서 AI가 답하거나 행동합니다. 예약을 잡아주거나, 정보를 요약해주거나, 이메일 초안을 써줍니다. 기존의 AI 서비스(ChatGPT, Claude)와 다른 점은 내 상황에 맞게 세팅된다 는 겁니다. 일반 AI 사용 (Before): 매번 새 창 열기 → 내 상황 설명 → 질문 → 답변 받기 AI 비서 (After): 텔레그램/디스코드에서 메시지 입력 → 나에 대해 이미 아는 AI가 즉시 답변 → 24시간, 폰으로도, 내 업무 맥락 기억 차이가 보이시나요? AI 비서는 매번 처음부터 설명하지 않아도 됩니다. 내 직업, 내 업무 스타일, 내가 자주 쓰는 표현을 모두 기억한 채로 대화합니다. 이 시리즈로 뭘 만들 수 있나 — 시리즈 전체 로드맵 ...