AI

MiniMax, Claude 비용의 10%로 M2.1 AI 모델 출시

_노른자_ 2025. 12. 25. 07:12
728x90

출처 - perplexity

 

중국 AI 스타트업 MiniMax는 12월 23일 M2.1 오픈소스 모델을 출시했으며, 이는 독점 모델 비용의 일부만으로 다국어 프로그래밍 지원에서 상당한 진전을 이룬 것입니다. 이 모델은 SWE-Bench 다국어 벤치마크에서 72.5%, 새로 도입된 VIBE 벤치마크에서 88.6%를 달성하여 여러 코딩 작업에서 Anthropic의 Claude Sonnet 4.5를 능가하면서도 비용은 약 8-10%에 불과합니다.

지난 주말 홍콩 증권거래소 상장 심사를 통과한 상하이 기반 회사는 경쟁사 Zhipu AI가 GLM-4.7 모델을 출시한 지 불과 몇 시간 만에 M2.1을 공개했으며, 이는 중국 AI 기업들 간의 치열해지는 경쟁을 보여줍니다. MiniMax는 1월 예정된 IPO에서 40억 달러를 초과하는 기업가치를 목표로 하고 있으며, Alibaba와 Tencent를 포함한 투자자들로부터 8억 5천만 달러 이상을 유치했습니다.

 

 

벤치마크 성능 및 비용 효율성

 

M2.1은 Rust, Java, Golang, C++, Kotlin, Objective-C, TypeScript, JavaScript를 포함한 여러 프로그래밍 언어에서 업계 최고 수준의 성능을 보여줍니다. 이 모델은 SWE-Bench Verified에서 74.0%를 기록하여 DeepSeek V3.2의 73.1%를 근소하게 앞섰으며, Claude Opus 4.5의 80.9%에 근접했습니다. 다국어 역량을 측정하는 Multi-SWE-Bench 테스트에서 M2.1은 49.4%를 달성하여 경쟁 모델들을 크게 앞섰습니다.

오픈소스 에이전틱 AI 코딩 에이전트인 Kilo Code의 공동 창립자이자 CEO인 Scott Breitenother는 "우리 사용자들은 훨씬 저렴한 비용으로 최첨단 수준의 코딩 지원을 제공하는 MiniMax를 신뢰하게 되었습니다"라고 말했습니다. 이 모델은 입력 토큰 백만 개당 약 $0.30에 작동하는데, 이는 Claude Sonnet 4.5의 백만 개당 $3.00와 비교하여 10분의 1 수준의 비용 절감을 의미합니다.

 

 

VIBE 벤치마크 소개
 

MiniMax는 고립된 코드 완성 작업이 아닌 풀스택 개발 역량을 평가하도록 설계된 새로운 벤치마크인 VIBE(Visual and Interactive Benchmark for Execution)를 도입했습니다. VIBE는 "agent-as-a-verifier" 방법론을 사용하여 웹, Android, iOS, 시뮬레이션 및 백엔드 개발 전반에 걸쳐 생성된 애플리케이션의 대화형 로직과 시각적 미학을 평가합니다.

M2.1은 VIBE-Web에서 91.5%, VIBE-Android에서 89.7%를 기록하여 Claude Sonnet 4.5의 각각 87.3%와 87.5%를 능가했습니다. MiniMax에 따르면, 이 벤치마크는 기존의 텍스트 전용 벤치마크가 포착하지 못하는 모바일 개발 및 디자인 이해에 있어 업계의 광범위한 약점을 해결합니다.

​​

이 모델은 100억 개의 활성 파라미터를 가진 희소 Mixture-of-Experts 아키텍처를 활용하여 소비자용 GPU에서 효율적인 추론을 가능하게 하면서 훨씬 더 큰 독점 시스템과 비교할 만한 성능을 유지합니다. MiniMax는 API를 통해 M2.1을 제공하고 있으며, 이번 주 후반에 HuggingFace에 오픈 웨이트를 공개할 계획입니다.

728x90
반응형