📝 전체 요약
미국 인디애나대학교 연구팀이 대규모로 진행한 AI 챗봇 실전 능력 비교 연구 결과가 나왔습니다. 이번 연구는 챗GPT, 클로드, 제미나이, 그록, 퍼플렉시티 등 현재 많이 쓰이는 5가지 주요 AI 챗봇들이 실제 대화 환경에서 어떻게 작동하는지를 14만 건 이상의 대화를 통해 심층 분석했습니다. 단순히 실험실 환경이 아닌, 사용자들이 실제로 챗봇과 소통하는 방식 그대로를 들여다본 첫 대규모 연구라는 점에서 의미가 큽니다.
1. AI 챗봇별 '사용자 의도 충족률'과 '대화 처리 능력' 비교
사용자가 AI에게 질문하거나 요청하는 것을 '사용자 의도'라고 합니다. 연구팀은 AI가 이 사용자 의도를 얼마나 잘 파악하고 해결하는지, 즉 '대화 완결성'을 분석했습니다.
- 사용자 의도 완벽 해결 순위:
- 1위 클로드: 87%
- 2위 챗GPT: 82%
- 3위 제미나이: 76%
- 4위 그록: 73%
- 5위 퍼플렉시티: 67% (완벽 해결은 낮지만, 25%의 부분 해결을 제공하며 검색 엔진 특성을 보임)
클로드와 챗GPT는 사용자가 원하는 바를 완벽하게 충족시키는 비율이 가장 높았습니다. 반면 퍼플렉시티는 완벽한 답변보다는 여러 정보를 제시하고 사용자가 선택하도록 하는 검색 엔진의 특성을 보여줬습니다.
- 한 번의 대화에서 다루는 의도 개수:
- 챗GPT, 클로드: 평균 2개의 의도 처리
- 제미나이, 그록, 퍼플렉시티: 평균 1개의 의도 처리
이는 챗GPT와 클로드가 복합적인 질문이나 여러 가지 요청을 한 번에 처리하는 능력이 더 뛰어나다는 의미입니다. 예를 들어, "오늘 날씨 어때? 그리고 이번 주말에 가볼 만한 영화 추천해 줘." 같은 두 가지 의도를 챗GPT나 클로드는 잘 처리할 가능성이 높다는 것이죠.
- 참고: 이 결과는 개별 의도를 분석한 것이며, 대화 전체의 흐름을 봤을 때의 완결성은 챗GPT, 클로드, 그록, 퍼플렉시티 모두 매우 높은 점수를 받았고, 제미나이만 다소 낮게 평가되었습니다.
2. AI 챗봇별 '정보 출처 활용 전략' 분석
AI가 답변을 생성할 때 어떤 정보를 어디서 가져오는지도 중요한 문제입니다. 챗봇마다 정보 수집 방식이 달랐습니다.
- 그록 (Groq):
- X(옛 트위터) 집중 의존: 전체 대화의 57%에서 출처를 밝혔는데, 그중 대부분이 소셜 미디어 X(트위터)였습니다.
- 장점: 최신 정보를 빠르게 반영할 수 있습니다.
- 단점: 특정 소셜 미디어에만 의존하면 잘못된 정보나 편향된 내용이 전달될 위험이 큽니다. 마치 한 뉴스 채널만 계속 보는 것과 비슷하다고 볼 수 있죠.
- 활용 출처 개수: 최대 83개
- 퍼플렉시티 (Perplexity):
- 다양한 출처 활용: 전체 대화의 49%에서 출처를 제시했으며, 주로 위키백과를 많이 인용했지만, 그록처럼 한두 곳에만 의존하지 않고 여러 곳에서 정보를 가져왔습니다.
- 장점: 여러 출처를 교차 확인하며 보다 체계적이고 안정적인 정보를 제공할 가능성이 높습니다.
- 활용 출처 개수: 무려 1,059개 (그록보다 훨씬 많음)
- 특징: 수십 개의 출처를 동시에 참고하며 정보를 짜깁기(종합)하는 능력이 돋보였습니다.
3. AI 챗봇별 '응답 속도 패턴' 분석
대화가 길어질수록 AI의 응답 속도가 어떻게 변하는지도 관찰되었습니다.
- 챗GPT:
- 대화할수록 빨라짐: 대화가 계속될수록 AI의 응답 속도가 점차 빨라지는 경향을 보였습니다.
- 원인: 이전에 나눈 대화 내용을 저장해두고 재활용하는 '캐싱(Caching)' 기술 덕분으로 분석됩니다. 캐싱은 웹 브라우저가 자주 방문하는 웹사이트 정보를 저장해뒀다가 다시 방문할 때 빠르게 보여주는 것과 유사합니다.
- 평균 속도: 7초 안팎
- 그록 (Groq):
- 대화할수록 느려짐: 챗GPT와 정반대로, 대화가 길어질수록 응답 시간이 오히려 늘어났습니다.
- 원인: 대화가 길어질수록 처리해야 할 정보가 많아져 과부하가 걸리는 것으로 보입니다.
- 평균 속도: 17초 정도로 챗GPT보다 2배 이상 느림
- 사용자 반응 시간: AI 답변 길이와 사용자가 다음 질문을 하기까지 걸리는 시간(평균 90초)은 AI의 응답 속도나 답변 길이와 거의 관련이 없었습니다. 즉, AI가 빨리 대답하든, 길게 대답하든 사용자는 질문을 준비하는 데 비슷한 시간을 썼습니다.
4. '쉐어챗(SHARECHAT)' 데이터셋의 특징
이번 연구에 사용된 '쉐어챗' 데이터셋은 기존의 AI 대화 데이터와 비교했을 때 몇 가지 독특하고 뛰어난 특징을 가집니다.
- 압도적인 규모:
- 총 14만 2,808개의 대화와 66만 개 이상의 메시지 포함.
- 대화당 평균 4.62번의 주고받음으로, 기존 데이터보다 2배 이상 긴 대화 길이. (챗GPT 5.28번, 제미나이 4.92번)
- AI 답변의 평균 길이도 기존 데이터보다 5배 이상 길어, 실제 심층적인 대화 내용을 담고 있습니다.
- 플랫폼별 데이터 수집량 불균형:
- 챗GPT: 전체의 약 72% (10만 2,740건)
- 퍼플렉시티: 1만 7,305건
- 그록: 1만 4,415건
- 제미나이: 7,402건
- 클로드: 946건 (1% 미만)
- 이러한 데이터 불균형은 연구의 한계점으로 지적되었습니다.
- 다양한 언어 지원:
- 총 101개 언어 지원 (기존 최고 수준의 65개 언어보다 훨씬 많음)
- 주요 언어: 영어(62%), 일본어(18%), 스페인어(3%), 독일어/프랑스어(각 2%)
- 데이터 수집 기간 차이:
- 플랫폼마다 데이터 수집 시점이 달랐습니다. 챗GPT와 퍼플렉시티는 2023년부터 2025년까지의 데이터를 포함했지만, 그록과 제미나이는 2024년부터의 데이터만 포함하고 있습니다.
5. '독성 콘텐츠' 분석 (유해성 내용)
사용자 질문과 AI 답변에서 욕설, 혐오 표현, 위협적인 내용 같은 '독성 콘텐츠'를 분석했습니다.
- 독성 탐지 도구: Detoxify와 OpenAI의 독성 탐지 도구 사용.
- 결과 (Detoxify 기준):
- 클로드: 사용자 메시지 5.6%, AI 응답 6.4%로 가장 높은 독성 비율.
- 퍼플렉시티: 사용자 메시지 2.8%, AI 응답 0.5%로 가장 낮은 독성 비율.
- 흥미로운 점: 사용자가 독성 메시지를 많이 보내는 플랫폼에서 AI 응답도 독성이 높게 나타났습니다. 클로드는 사용자와 AI 모두에서 높았고, 퍼플렉시티는 모두 낮았습니다.
- 전체적인 독성 콘텐츠 감소:
- 이번 쉐어챗 데이터셋은 기존 연구 데이터보다 독성 콘텐츠 비율이 훨씬 낮았습니다 (사용자 메시지 4% vs. 기존 8%, AI 응답 2% 미만 vs. 기존 5%).
- 원인: 사용자들이 다른 사람과 공유할 대화를 선택할 때, 스스로 더 긍정적이고 건설적인 내용을 고르는 경향 때문입니다. 연구팀은 이를 '자기선택 편향(Self-Selection Bias)'이라고 설명합니다. 반면, 연구 대상이라는 사실 때문에 행동이 바뀌는 '관찰자 편향(Observer Bias)'은 최소화되었다고 밝혔습니다.
6. 사용자들이 AI에게 가장 많이 요청하는 것
사람들이 AI 챗봇을 가장 많이 사용하는 목적을 분석했습니다.
- 1위 정보 검색 (약 40%): 여전히 AI는 '질문에 답하는 도구'로 가장 많이 활용됩니다.
- 2위 기타 (19%): 분류하기 어려운 다양한 요청들.
- 3위 기술 도움 요청 (12%): 코딩 질문, 문제 해결 등.
- 4위 글쓰기 (10%): 글 요약, 초안 작성, 문법 교정 등.
- 5위 실용적인 조언 구하기, 자기표현 (각 8%): 고민 상담, 아이디어 발상 등.
- 6위 멀티미디어 요청 (2%): 이미지나 동영상 생성 요청 (당시 AI 기능 제한으로 낮게 나타남).
7. 플랫폼별 고유 기능 보존
쉐어챗 데이터셋은 각 챗봇 플랫폼의 독특한 기능까지 담고 있어, AI의 작동 원리를 더 깊이 있게 분석할 수 있습니다.
- 클로드, 그록: '생각 블록(Thinking Blocks)'이라는 중간 추론 과정을 제공합니다. 이는 AI가 어떻게 답변에 도달했는지 그 사고 과정을 엿볼 수 있게 합니다. 마치 수학 문제를 풀 때 답만 적는 게 아니라 풀이 과정까지 보여주는 것과 같습니다.
- 퍼플렉시티: 답변을 '대답', '출처', '이미지'로 구조화하며, 답변 안에 직접 출처를 인용하는 '인라인 인용'을 포함합니다.
- 챗GPT, 그록: 메시지마다 시간 정보를 제공하여 대화의 속도나 리듬을 분석할 수 있습니다.
- 챗GPT: 사용된 모델 버전(예: GPT-4 등) 정보를 함께 기록하여, 모델 업데이트가 대화에 미치는 영향을 추적할 수 있습니다.
요약표: 주요 AI 챗봇 비교
| 분류 | 클로드 | 챗GPT | 제미나이 | 그록 | 퍼플렉시티 |
|---|---|---|---|---|---|
| 사용자 의도 완벽 해결률 | 87% (1위) | 82% (2위) | 76% | 73% | 67% (부분 해결 25%) |
| 대화당 의도 처리 수 | 평균 2개 | 평균 2개 | 평균 1개 | 평균 1개 | 평균 1개 |
| 주요 정보 출처 | (명확히 언급 없음) | (명확히 언급 없음) | (명확히 언급 없음) | X(트위터) 집중 | 위키백과 외 다양 |
| 대화 지속 시 속도 | (명확히 언급 없음) | 빨라짐 (캐싱) | (명확히 언급 없음) | 느려짐 | (명확히 언급 없음) |
| 평균 응답 속도 | (명확히 언급 없음) | 7초 안팎 | (명확히 언급 없음) | 17초 안팎 | (명확히 언급 없음) |
| 독성 콘텐츠 비율 | 가장 높음 | (중간) | (중간) | (중간) | 가장 낮음 |
이번 연구는 실험실을 넘어 실제 사용자들이 AI 챗봇을 어떻게 활용하고, 각 챗봇이 어떤 강점과 약점을 가지는지 생생하게 보여주는 중요한 자료입니다. 이를 통해 AI 기술이 우리 삶에 어떻게 스며들고 있으며, 앞으로 어떤 방향으로 발전해야 할지 엿볼 수 있습니다.











출처
ShareChat: A Dataset of Chatbot Conversations in the Wild
While Large Language Models (LLMs) have evolved into distinct platforms with unique interface designs and capabilities, existing public datasets treat models as generic text generators, stripping away the interface context that actively shapes user interac
arxiv.org
챗GPT vs 클로드 vs 제미나이 vs 퍼플렉시티 vs 그록… 14만 대화 분석했더니 '이 AI'가 1등 - AI매터스
미국 인디애나대학교 연구팀이 챗GPT, 클로드, 제미나이, 그록, 퍼플렉시티 총 5개 주요 AI 챗봇의 실제 대화 14만 2,808건을 분석했다. 그 결과 AI마다 사용자 질문을 해결하는 능력, 정보를 찾아오
aimatters.co.kr
'AI' 카테고리의 다른 글
| Google vs ChatGPT 의 검색 승자는? LLM이 검색엔진에 미치는 영향 (0) | 2026.01.03 |
|---|---|
| Google A2UI 5분 만에 빠르게 실행해 보기, 한글 인코딩 등 수정 필요 (0) | 2026.01.01 |
| Wired는 알리바바의 Qwen이 2026년 AI를 지배할 것이라고 말한다 (1) | 2025.12.28 |
| 알리바바, VSCode 플러그인과 함께 Qwen Code v0.5.0 출시 (1) | 2025.12.27 |
| Cursor CEO, '바이브 코딩'이 불안정한 기반을 구축한다고 경고 (1) | 2025.12.26 |