[AI 안테나] AI를 어린아이로 만든 새 벤치마크 등장

인공지능에 관심이 많다면?
매일 AI 소식들을 알차게 전해드리는
AI안테나 뉴스레터를 구독해보세요! (구독하기)

인공지능과 함께 만드는 AI 뉴스레터
2025년 3월 27일 목요일

종류가 너무 많은 인공지능, 뭐가 뭔지 모르겠다!

AI 잘 쓰고 계시나요?
저는 클로드와 챗gpt를 주로 쓰고 있어요. 만약 유료 결제를 하신 분들이라면, 질문을 할 때 '모델'을 선택할 수 있을텐데요. 종류가 꽤 많습니다. 무슨 차이가 있는지, 그리고 뭘 써야 좋을지 헷갈리기도 합니다. 그래서 정리했습니다!

오픈AI ChatGPT 모델의 간략한 역사와 특징

2022년 11월, ChatGPT가 혜성처럼 등장했습니다. ChatGPT는 GPT-3의 업그레이드 버전인 GPT-3.5를 대화형 챗봇 형태로 만든 것인데요. 이전부터 GPT 모델들이 GPT1, GPT2, GPT3 순서대로 나오고 있었습니다. 하지만 우리에게 챗지피티라는 이름으로 알려진 것이 GPT-3.5였고, 2023년 3월이 되자 GPT-4가 나왔습니다. 3.5까지는 텍스트 입력만 할 수 있었는데, 4부터는 이미지나 오디오를 넣어서 질문할 수 있게 됐죠. 그리고 성능 또한 크게 향상됐는데, 3.5는 대학교 학부생 수준, 4는 대학원생 수준이라고 흔히 비유합니다.

GPT-4가 나오고 약 1년 뒤인 2024년 5월, GPT-4o와 4o-mini가 나왔습니다. 성능도 좋아졌지만, 결정적으로 mini가 나오면서 비용이 크게 싸졌습니다. 이게 결정적이였는데, API를 호출해서 토큰을 사용하지 않는 일반적인 사용자 입장에서는 뭐가 싸졌는지 체감하기는 어려웠죠. (mini는 더 작고 싼 모델이라고 생각하시면 됩니다.

그리고 5가 나오려나 싶었는데, 2024년 12월 O1이 출시됐습니다. O1은 추론 모델에 특화된 모델입니다. 이전까지는 그냥 대답을 잘 하는 모델들이였다면, O1 모델부터는 복잡한 문제에 대해서도 논리적이고 일관된 추론이 가능하다는 것입니다. Chain of Thought라는 키워드도 이때 나왔습니다. 그래서 수학 문제나 과학적 가설 검증, 코딩 같은 능력이 향상됩니다.

가장 최근인 2025년 1월에 O3-mini 모델을 내놓은 뒤에 2월에는 GPT4.5를 내놓았습니다. 4.5는 방대한 데이터를 학습해 더 자연럽게 대화할 수 있다고 하며, 환각이 많이 줄었다고 합니다.

모델 추천 가이드

복잡한 문제 해결, 수학·과학·코딩 → O3-mini, O3-mini-high, O1 (O3-mini-high가 가장 고급)
일반 대화, 정보 검색, 보고서 작성 → GPT-4.5
전문적인 연구 및 논문 작성 → Deep Research

만약 문제가 명확히 정의되어 있고 논리적 추론을 통한 '해답'이 필요하다면, "추론 모델" 계열을 사용하시면 됩니다. O가 붙은 것들이 추론 모델입니다. (가장 성능이 좋은 것은 o3-mini-high이니 그냥 이걸 쓰는 게 좋을 듯 합니다😉

그냥 대화하고 놀고 싶거나, 일반적인 지식에 대해 묻거나, 하기 싫은 일을 시키고 싶다면 가장 최신 모델인 4.5를 사용하시면 됩니다. 거금을 결제한 pro 사용자라면 보고서를 써보게 할 수도 있겠습니다.

다음 번에는 클로드와 그 외의 모델들에 대해서 정리해서 돌아오겠습니다.

오늘은 무슨 일이?

🧩 AI를 어린아이로 만든 새 벤치마크 등장

아이들은 쉽게 맞추는 퍼즐을 AI는 못 푸는 상황이 생겼어요! 아크 프라이즈 재단이 공개한 새로운 벤치마크 'ARC-AGI-2'에서 최신 AI 모델들이 1% 정도의 점수만 받았답니다. 인간은 평균 60%를 맞추는 문제인데 말이죠. 심지어 이전 버전에서 75.7%로 인간급 성능을 보여줬던 오픈AI의 o3도 이번엔 4%에 그쳤어요.

마치 대학 입시를 잘 봤던 학생이 갑자기 초등학교 문제집에서 고전하는 것과 같죠. 이 테스트는 AI가 단순히 경우의 수를 하나씩 대입하는 방식으로는 풀 수 없게 설계됐대요. 진짜 지능을 평가하려는 벤치마크들이 계속 등장하고 있어요!

- 참고 기사 링크

🤖 MS의 새로운 AI 비서들

마이크로소프트가 오픈AI의 'o3 딥 리서치' 기반으로 두 종류의 새 AI 에이전트를 개발 중이라고 발표했어요! '리서처 에이전트'는 웹과 기업 데이터를 활용해 보고서를 만들어주고, '애널리스트 에이전트'는 복잡한 엑셀 데이터를 분석해준답니다. 마치 개인 비서가 리서치부터 데이터 분석까지 해주는 형태인데, 특별한 점은 AI가 어떻게 생각하는지 그 과정을 실시간으로 볼 수 있다는 거예요. 친구가 문제를 푸는 과정을 옆에서 지켜보는 것처럼요. 이 서비스들은 4월에 출시될 예정이니 곧 만나볼 수 있어요.

- 참고 기사 링크

💬 "AI는 인간을 도울 뿐, 최종 결정권은 인간에게"

마이크로소프트의 사티아 나델라 CEO가 한국을 방문해 AI의 미래에 대한 생각을 나눴어요.

그는 "AI 에이전트는 결국 사용자에게 돌아와 허가와 지시를 요청해야 한다"며 AI가 아무리 발전해도 최종 결정권은 인간에게 있어야 한다고 강조했습니다. 지난 주에 유발 하라리가 한국을 방문해 "AI는 도구가 아니라 스스로 학습하고 변화하는 '행위자'이기 때문에 경계해야 한다"고 경고한 것과는 반대되는 입장이죠.(관련 글)

또한 그는 AI 산업의 미래에 대해 "AI 판 전체를 뒤집을 수 있는 대규모 혁신이 또 올 수 있다"고 말했어요. 지금의 AI가 많은 컴퓨팅 자원을 필요로 하지만, 누군가 완전히 새로운 학습 방식을 개발하면 더 가볍고 효율적인 AI가 등장할 수도 있다는 전망입니다. 마치 무거운 데스크톱 컴퓨터가 작고 강력한 스마트폰으로 진화한 것처럼요!

- 참고 기사 링크

지켜보면 좋을 이벤트 👀

- 5월 14일~15일 ‘AWS 서밋 서울 2025’이 코엑스 컨벤션 센터에서 개최됩니다. (신청 링크)

- 5월 14일~16일 'AI Expo Korea 2025 국제인공지능대전'이 코엑스에서 개최됩니다.(신청 링크)

재밌게 읽으셨나요?
이 글이 도움이 되었다면,
제가 매일 만들고 있는 뉴스레터도 도움이 될 거예요!
AI 안테나 구독하기

'소식들' 카테고리의 다른 글

[AI 안테나] 머신러닝 vs 딥러닝, 무슨 차이일까?(개념정리) (1)	2025.03.31
[AI 안테나] 오픈AI 아카데미 무료로 오픈! (0)	2025.03.28
[AI 안테나] 챗gpt 이미지 그리는 능력 업! (0)	2025.03.26
[AI 안테나] 퓨리오사AI, 메타의 1조원 인수 제안 거절 (0)	2025.03.25
[AI 안테나] 세계 최초! AI가 만든 신문 등장 (0)	2025.03.24

AI로 할 수 있는 모든 일

[AI 안테나] AI를 어린아이로 만든 새 벤치마크 등장

종류가 너무 많은 인공지능, 뭐가 뭔지 모르겠다!

오늘은 무슨 일이?

지켜보면 좋을 이벤트 👀

'소식들' 카테고리의 다른 글

티스토리툴바

[AI 안테나] AI를 어린아이로 만든 새 벤치마크 등장

종류가 너무 많은 인공지능, 뭐가 뭔지 모르겠다!

오늘은 무슨 일이?

지켜보면 좋을 이벤트 👀

'소식들' 카테고리의 다른 글

'소식들' Related Articles

티스토리툴바