[AI안테나] LLM 뉴스 요약, solar pro와 gpt-4o-mini 비교

샘플로 사용했던 요약 모델 digit82/kobart-summarization로 얻은 요약문과

solar pro를 사용해서 얻은 요약문, gpt-4o-mini를 사용해서 얻은 요약문을 비교해봤다.

당연하게도 확실히 LLM 실력이 월등히 좋았고, 솔라랑 지피티를 비교했을 때에는 지피티가 좀 더 구체적으로 잘 요약해주는 것 같았다.

샘플 요약문:
미국의 인공지능업체 오픈에이아이는 지난 9월 회사가 출시한 ‘오원’(o1)의 업그레이드 버전으로, 특정 조건에서 사람을 뛰어넘는 수준의 범용인공지능(AGI)에 가까워졌다는 평가가 나오자 다음 달 말 경 경량화 모델인 오쓰리 미니(mini)를 출시하고 뒤이어 오쓰리를 내놓겠다고 밝혔다.

-> 말이 안맞음. 갈길이 멀다;

solar 요약문:
미국 인공지능 개발업체 오픈에이아이는 스스로 문제를 판단하고 해결하는 새 고급 추론 인공지능 모델 ‘오쓰리’(o3)를 공개했다. 이는 지난 9월 출시한 ‘오원’(o1)의 업그레이드 버전으로, 물리·과학·수학 분야에서 더 신뢰할 수 있는 답변을 제공한다. 오쓰리는 추론 시간을 조정할 수 있어, 시간을 길게 설정할수록 더 나은 성능을 발휘한다. 특히, 특정 조건에서 범용인공지능에 가까워졌다는 평가가 나오며, 미국초청수학시험(AIME)에서 96.7%의 정답률을 기록했다. 그러나 아직 해결하지 못하는 과제가 있어 범용인공지능이라고 보기는 어렵다는 의견도 있다.

-> 파란색 칠한 정보는 챗지피티 요약에 없음.

chatGPT 요약문:
오픈AI는 새로운 고급 추론 인공지능 모델 ‘오쓰리’(o3)를 공개하며, 다음달 출시를 예고했다. 이는 지난 9월에 출시된 ‘오원’(o1)의 업그레이드 버전으로, 특정 조건에서 범용인공지능(AGI)에 가까워졌다는 평을 받고 있다. 오쓰리는 사용자에게 인공지능의 추론 시간을 조정할 수 있는 기능을 제공하며, 물리학, 수학 등에서 높은 신뢰도를 자랑한다. AIME 시험에서는 96.7%의 정답률을 기록해, 이전 모델인 오원의 83.3%를 초월했다. 또한, 오쓰리는 벤치마크인 ARC-AGI에서 87.5%의 점수를 기록해 AGI 기준을 초과했지만, 여전히 해결하지 못한 과제가 많다는 의견도 있다. 오픈AI는 브랜드명 문제를 피하기 위해 오투를 건너뛰고 오쓰리라는 이름을 선택했다.

-> 빨간색 칠한 정보가 추가됐다.

원문의 어떤 정보들이 들어갔나?

-> 노란색 형광펜 칠한 정보들이 챗지피티나 솔라 요약문에 들어갔다.

원문: 오픈AI, 범용인공지능에 더 가까워진 ‘o3’ 새달 출시한다 (뉴스 기사 링크)

미국의 인공지능 개발업체 오픈에이아이(AI)가 스스로 문제를 판단하고 해결하는 새 고급 추론 인공지능 모델 ‘오쓰리’(o3)를 공개했다. 지난 9월 회사가 출시한 ‘오원’(o1)의 업그레이드 버전으로, 특정 조건에서 사람을 뛰어넘는 수준의 범용인공지능(AGI)에 가까워졌다는 평가가 나온다.오픈에이아이는 20일(현지시각) 경량화 모델인 오쓰리 미니(mini)를 다음달 말 출시하고, 뒤이어 오쓰리를 내놓겠다고 밝혔다. 오원의 후속 모델명으로 ‘오투’(o2)를 건너뛰고 오쓰리를 붙이게 된 건 영국 이동통신사(O2)와 브랜드명을 둘러싼 갈등을 피하려는 의도로 보인다.오쓰리는 직전 모델에 견줘 추론 능력이 향상됐다. 비추론 모델인 ‘지피티-포오’(GPT-4o) 등과 달리 추론 모델인 오쓰리는 오원과 마찬가지로 응답하는데 짧게는 몇초, 길게는 몇분 정도가 걸린다. 하지만 물리·과학·수학 등의 분야에서 더 신뢰할 수 있는 답변을 내놓는다는 게 장점이다.이전 모델 대비 가장 큰 특징은 추론 시간을 조정할 수 있다는 점이다. 오쓰리 모델은 이용자가 인공지능이 생각할 시간을 설정할 수 있는데, 이를 높게 설정할수록 시간은 오래 걸리지만 더 나은 성능을 발휘한다는 게 회사 쪽 설명이다. 오쓰리는 올해 미국초청수학시험(AIME)에서는 단 한 문제만 틀려 96.7%의 정답률을 기록했다. 앞서 이전 모델인 오원은 같은 시험에서 83.3%의 정답률을 거뒀다.오픈에이아이는 오쓰리가 특정 조건에서 범용인공지능에 가까워졌다고 설명했다. 인공지능의 추론 능력을 평가하는 벤치마크 아크-에이지아이(ARC-AGI)에서 오쓰리는 높은 컴퓨팅 설정에서 87.5%의 점수를 달성했다. 이 측정에서 인간 여부를 판단하는 기준 점수는 85%다. 다만, 프랑수아 콜레 아크 프라이즈 파운데이션 공동 창업자는 자신의 엑스(X·옛 트위터)를 통해 “오쓰리는 범용인공지능으로 가는 길에 큰 이정표가 될 수 있지만, 이것이 범용인공지능이라곤 생각하지 않는다”며 “여전히 오쓰리가 아크-에이지아이에서 해결하지 못하는 매운 쉬운 과제가 많기 때문”이라고 했다.

훌륭하다...

이렇게 약 15개의 뉴스들을 요약시키는데 솔라는 돈이 안들었고(?)

챗지피티는 0.01달러 들었다.

'공부방 > 프로젝트' 카테고리의 다른 글

[AI안테나] 세 번째 샘플 - 좀 더 읽기 쉽게 바꾸기 (0)	2025.01.10
[AI안테나] 세 번째 샘플 (0)	2025.01.09
[AI안테나] 두 번째 샘플 (0)	2025.01.08
[AI안테나] 첫 번째 샘플 (0)	2025.01.07
[AI_Antenna] 중복된 뉴스 기사 제거하기, tf-idf (2)	2024.12.12

AI로 할 수 있는 모든 일

[AI안테나] LLM 뉴스 요약, solar pro와 gpt-4o-mini 비교

'공부방 > 프로젝트' 카테고리의 다른 글

티스토리툴바

[AI안테나] LLM 뉴스 요약, solar pro와 gpt-4o-mini 비교

'공부방 > 프로젝트' 카테고리의 다른 글

'공부방/프로젝트' Related Articles

티스토리툴바