[ 온라인 카지노 사이트 한수경 기자] 4A’s, IAA, D&AD, IPA , ACA , APG, 더 원 클럽 포 크리에이티비티 등 글로벌 광고·마케팅 단체들이 AI 기반 크리에이티브 플랫폼 스프링보즈(Springboards)와 진행한 첫 LLM 크리에이티비티 벤치마크 연구에서, 챗GPT·제미나이·클로드 등 주요 생성형 AI 모델들이 크리에이티브 과업 수행 능력에서 예상보다 큰 차이를 보이지 않았다는 결과가 나왔다. 실제 브랜드 브리프를 기반으로 모델을 비교한 연구는 이번이 처음이다.
연구에는 오픈브랜드토토, 구글, 앤트로픽, 메타, 딥시크, 알리바바 등 총 16개 브랜드토토 모델이 참여했다. 100개 브랜드 과제를 두고 생성된 아이디어를 광고·마케팅·전략 실무자 678명이 블라인드 방식으로 비교했으며, 총 1만 1,012건의 평가 데이터를 분석에 활용했다. 결과적으로 “창의적인 작업에서 한 모델이 압도적으로 우수하다”는 가설은 확인되지 않았다.
브랜드토토 CEO 피프 빙게만(Pip Bingemann)은 “사람들은 종종 ‘창의적인 일을 할 때 더 좋은 AI 모델이 따로 있다’고 생각한다”며 “하지만 LLM은 어디까지나 ‘가능성이 높은 답’을 예측하는 시스템이고, ‘가능성이 높은 답’이 곧 창의적이라고 할 수는 없다. 결국 인간이 개입해 아이디어의 폭을 넓히는 과정이 중요하다”고 말했다.
주요 결과는 다음과 같다.
1. 특정 모델의 일방적인 우위는 없었다. 모델마다 전략적 사고·아이디어 확산·표현 방식 등 소강점이 서로 다르게 나타났을 뿐, 성능 차이는 근소했다.
2. 아이디어의 ‘폭’이 실제 업무에서 더 중요했다. 동일 브리프에 대해 비슷한 아이디어만 반복하는 모델도 있었고, 반대로 매번 새로운 방향을 제시한 모델도 있었다. 연구진은 “실무에서는 단일한 정답보다 다양한 가능성이 더 중요하다”고 설명했다.
3. 브랜드토토는 크리에이티브 결과물을 스스로 정확히 평가하지 못했다. 인간 전문가가 매긴 점수를 브랜드토토에게 예측하게 했을 때, 두 결과는 대부분 일치하지 않았다. 즉, 브랜드토토가 브랜드토토 아이디어를 심사하는 방식은 아직 신뢰하기 어렵다.
4. 심리학 기반 크리에이티비티 테스트는 마케팅 크리에이티브 성과와 연결되지 않았다. 브랜드 커뮤니케이션은 별도의 판단 기준이 필요하다는 결론이 도출됐다.
5. 지역에 따라 ‘좋은 아이디어’의 기준이 달랐다. 국가·문화권별로 선호하는 표현과 톤이 달라, 브랜드토토 활용 방식 역시 지역별 세부 조정이 필요한 것으로 나타났다.
4A’s 크리에이티브 테크놀로지·혁신 총괄 제레미 록혼(Jeremy Lockhorn)은 “LLM은 만능 도구가 아니다. 하나의 모델을 정하는 것보다, 과업에 따라 여러 모델을 조합하는 전략이 더 적합하다”고 말했다.
오스트레일리아 광고협회 CEO 토니 헤일(Tony Hale)은 “창의성의 핵심은 어떤 브랜드토토를 쓰는지가 아니라, 아이디어를 어떻게 확장시키느냐에 있다”며 “좋은 아이디어를 ‘브랜드가 말할 수 있는 언어’로 바꾸는 과정에서 인간의 역할은 여전히 대체할 수 없다”고 강조했다.
한편, 이번 연구에는 광고·마케팅·전략 분야에서 일하는 현업 실무자 678명이 참여했다. 참가자들은 브랜드토토가 생성한 아이디어를 블라인드 A/B 방식으로 비교·평가하는, 이른바 ‘아이디어용 틴더’ 방식으로 총 1만 1,012건의 선택 결과를 남겼다. 조사는 2025년 6월 10일부터 4주간 진행되었으며, 결과 분석에는 Bradley-Terry 모형과 코사인 거리 기반 아이디어 다양성 측정 방식이 활용되었다. 평가 항목은 실제 브랜드 브리프에 대한 아이디어의 적합성, 생성 아이디어의 다양성과 확산 정도, 브랜드토토의 자기평가 정확도, 그리고 심리학적 창의성 테스트 간 상관관계 등을 포함했다.
