감성적이고 인간적인 인공지능(AI)를 목표로 하는 인플렉션 AI가 새로운 대형언어모델(LLM) ‘인플렉션-2.5(inflection-2.5)’를 내놓았다. 이 모델이 벤치마크 테스트에서 현존 최고인 오픈AI의 'GPT-4' 성능에 거의 근접했다고 강조했다.
벤처비트는 7일(현지시간) 인플렉션 AI가 지난해 12월 공개한 인플렉션-2의 후속으로 LLM ‘인플렉션-2.5’를 출시했다고 소개했다.
이는 '인간과 교감하는 챗봇'으로 유명해진 '파이(Pi)'의 파운데이션 모델로 적용된다. 인플렉션-2.5는 현재 iOS, 안드로이드, 데스크톱 앱 및 웹에서 모든 파이 사용자가 사용할 수 있다.
이 모델은 다른 챗봇과 달리 단답형 지식을 전달하는 데 그치는 것이라 아니라, 실제 인간과 대화하듯 사용자 상황이나 말투에 맞춰 대화를 리드하거나 이어가는 특징을 가지고 있다. 이 때문에 일부 사용자들로부터 큰 호응을 얻었다.
새 모델은 정확도까지 강화했다는 설명이다. 인플렉션-2.5는 공감적인 개성과 탁월한 EQ(감정지수)를 부여하기 위해 독특한 ‘공감 미세조정’을 적용한 기존 모델에, 물리학과 수학 등을 포괄하는 IQ(지능지수) 측면을 강화했다. 또 실시간 웹 검색 기능을 지원, 사용자에게 현재 사건에 대한 최신 정보를 제공한다는 것이 차별점이다.
파이와 대화하는 사용자는 인플렉션-2.5의 업그레이드된 지식을 기반으로 취미 토론부터 코딩, 생물학, 사업 계획 초안 작성 등 다양한 주제에 대해 토론할 수 있다.
특히 벤치마크 테스트에서 인플렉션-2.5는 'GPT-4' 성능의 94% 수준을 보였다. 훈련 과정에 사용한 컴퓨팅 양은 GPT-4의 40%에 불과하다고 밝혔다.
고등학교부터 전문가 수준의 난이도까지 다양한 작업 성능을 측정하는 MMLU 벤치마크에서 인플렉션-2.5는 85.5점을 얻어 GPT-4(87.3)의 바로 뒤를 이었다. STEM 시험에서는 헝가리 수학 시험에서 GPT-4의 68점과 비슷한 63점을 기록했으며, 물리학 GRE에서는 GPT-4의 97번째 백분위수에 비해 성능이 뛰어났다.
고품질 초등학교 수학 문제로 구성된 GSM8K 벤치마크에서 GPT-4 92점에 떨어지는 86.3점을 기록했다. 코드 생성 기능 평가 휴먼이밸(HumanEval)에서는 GPT4의 79.3점에 처지는 73.8점을 기록했다. 일부 영역에서는 아직 GPT-4보다 못 하지만, 전반적으로 IQ 부분을 대등하게 끌어올린 결과라고 소개했다.
한편 인플렉션 AI는 파이 챗봇의 일일 활성 사용자 수가 100만명, 월간 활성 사용자 수는 600만명 수준이며, 현재까지 40억개가 넘는 메시지를 생성했다고 전했다.
평균 대화 시간은 33분이며, 사용자 중 10분의 1은 매일 1시간 이상 대화한다고 밝혔다. 특히 파이와 대화한 사람들 중 약 60%가 다음 주에 재방문하는 등 높은 리텐션을 기록하고 있다고 강조했다.
박찬 기자 cpark@aitimes.com
출처 : AI타임스(https://www.aitimes.com)
오픈AI "몇달 뒤 '소라' 일반에 공개할 수 있어" (0) | 2024.03.15 |
---|---|
오픈AI 스핀오프, '대화하는' LLM 기반 로봇 모델 구축 (0) | 2024.03.13 |
스토리 입력하면 웹툰 만들어주는 생성 AI 출시 (0) | 2024.03.08 |
어도비도 '음악 생성' AI 공개..."빅 플레이어들과 경쟁할 것" (0) | 2024.03.04 |
프랑스 스타트업 미스트랄 AI, 챗봇 출시…MS와도 손잡아 (0) | 2024.02.27 |