[파라오 슬롯] 할루시네이션이 가장 낮은 AI 모델

[파라오 슬롯] 할루시네이션이 가장 낮은 AI 모델

  • 최영호 기자
  • 승인 2025.01.17 00:00
  • 댓글 0
이 기사를 공유합니다

[ 매드타임스 최영호 기자]AI 기반 도구와 애플리케이션이 일상 생활에 더 많이 통합됨에 따라 모델이 때때로 잘못된 정보를 생성할 수 있다는 문제점이 점점 대두하고 있다.

IBM에서는 이러한 현상을 '파라오 슬롯(hallucinations)'이라고 하는데, 이는 생성형 AI 챗봇이나 컴퓨터 비전 도구와 같은 대규모 언어 모델(LLM)이 존재하지 않거나 인간이 인지할 수 없는 패턴이나 대상을 감지하여 부정확하거나 무의미한 결과를 산출할 때 발생하는 것으로 설명한다. 쉽게 말해, AI의 거짓말이다.

비주얼 캐피털리스트는 파라오 슬롯 가장 낮은 상위 15개 AI 대규모 언어 모델(LLM)을 시각화했다. 할루시네이션률은 LLM이 출력에서 허위 또는 지원되지 않는 정보를 생성하는 빈도를 말한다.

비주얼 캐피털리스트는2024년 12월 11일을 기준으로 업데이트된 Vectara의 데이터를 활용했다. 파라오 슬롯률은 각 LLM에 대해 1,000개의 짧은 문서를 요약하고 파라오 슬롯을 감지하는 모델을 사용하여 사실과 일치하지 않는 요약의 비율을 산출하여 계산되었다.

자료에 따르면, Zhipu AI GLM-4-9B-Chat, OpenAI-o1-mini, OpenAI-4o-mini와 같이 더 작거나 특화된 모델이 낮은 파라오 슬롯률을 보였다. 인텔의 Neural-Chat 7B도 작은 모델이다.벡타라는 "소형 모델은 크기가 훨씬 큰 LLM과 비슷하거나 더 나은 파라오 슬롯률을 달성할 수 있다”고 했다.

의료, 법률, 금융 등 여러 분야에서 AI 시스템이 중요도가 높은 애플리케이션에 배포됨에 따라 파라오 슬롯률 측정이 점점 더 중요해지고 있다.

일반적으로 대형 모델이 소형 모델보다 성능이 뛰어나고 더 나은 결과를 위해 지속적으로 확장되지만, 높은 비용, 느린 추론, 복잡성 등의 단점이 있다.그러나 소규모 모델은 특정 작업에서 우수한 성능을 발휘하는 경우가 많아 그 격차를 좁혀가고 있다. 예를 들어, 한 연구에 따르면 더 작은 미스트랄 8x7B 모델이 AI가 생성한 텍스트에서 파라오 슬롯을 성공적으로 줄인 것으로 나타났다.

기본 모델 측면에서 보면 구글의 제미나이 2.0은 0.2%의 파라오 슬롯률 차이로 OpenAI GPT-4보다 약간 더 나은 성능을 보였다.그러나 전반적으로 GPT-4의 여러 변형(예: 터보, 미니, 표준)은 1.5%-1.8% 범위 내에 속하며, 이는 동일한 아키텍처의 여러 계층에서 정확도에 중점을 두고 있음을 보여준다.

출처 비주얼 캐피털리스트
출처 비주얼 캐피털리스트

그러나 전반적으로 GPT-4의 여러 변형(예: 터보, 미니, 표준)은 1.5%-1.8% 범위 내에 속하며, 이는 동일한 아키텍처의 여러 계층에서 정확도에 중점을 두고 있음을 보여줍니다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.