본문으로 건너뛰기

LongCat 2.0과 Owl Alpha 정리 - 1.6조 파라미터 중국 AI 모델은 왜 화제일까

목차

처음에는 그냥 “중국에서 또 새 AI 모델이 나왔나 보다” 정도로 봤어요. 이름도 LongCat. 뭔가 귀엽잖아요. 그런데 이야기를 조금 더 파보니, 이건 단순히 새 언어모델 하나가 나온 사건이라기보다는 중국 AI 업계가 꽤 의도적으로 던진 메시지에 가까웠습니다.

LongCat 2.0 공식 로고
LongCat 2.0 공식 로고. 출처: 미투안 LongCat 허깅페이스 모델 카드

핵심은 세 가지예요.

  1. LongCat 2.0은 공식 자료 기준 총 1.6조 파라미터짜리 MoE 모델입니다.
  2. 정식 공개 전에는 Owl Alpha라는 이름으로 익명 운영됐다는 이야기가 있습니다.
  3. 미투안은 이 모델을 엔비디아 GPU가 아닌 AI ASIC 슈퍼팟 위에서 학습하고 배포했다고 말합니다.

화제의 중심은 세 번째입니다. 다만 제가 흥미롭게 본 건 두 번째가 그 서사를 키우는 방식이었어요. OpenRouter 쪽에서 Owl Alpha라는 이름으로 한동안 보이던 모델이 있었고, OpenClaw로 살짝 찍먹했을 때도 “와 미쳤다"까지는 아니지만 “나쁘지 않은데?” 정도의 느낌은 있었거든요. 알고 보니 그게 LongCat 2.0이었다는 식으로 이야기가 이어진 겁니다.

다만 여기서 바로 흥분하면 안 됩니다. LongCat이라는 이름 아래에 여러 모델이 있고, 공식 기술 리포트로 확인되는 내용과 보도·마케팅 자료에 가까운 내용이 섞여 있어요. 그래서 이번 글은 일부러 신뢰도를 나눠서 정리해 보겠습니다.

먼저 LongCat 모델을 둘로 나눠야 합니다
#

LongCat 이야기를 볼 때 제일 헷갈리는 지점은 LongCat-Flash와 LongCat 2.0을 섞어 말하는 경우입니다.

LongCat-Flash는 2025년 9월에 공개된 모델이고, 공식 기술 리포트가 있습니다. arXiv에 올라온 LongCat-Flash Technical Report 기준으로는 560B 파라미터 MoE 모델이에요. 토큰마다 전체 560B가 도는 건 아니고, 상황에 따라 18.6B에서 31.3B 정도가 활성화됩니다. 평균은 27B라고 설명합니다.

이쪽은 비교적 단단합니다. 기술 리포트도 있고, GitHub 저장소도 있고, 숫자도 명확하게 적혀 있어요.

반면 이번에 화제가 된 모델은 LongCat 2.0입니다. 이쪽은 공식 블로그와 허깅페이스 모델 카드 기준으로 총 1.6조 파라미터, 토큰당 약 480억 파라미터 활성, 100만 토큰 문맥을 전면에 내세웁니다.

정리하면 이렇습니다.

모델공개 시점총 파라미터토큰당 활성 파라미터근거 신뢰도
LongCat-Flash2025년 9월560B평균 27B공식 기술 리포트
LongCat 2.02026년 6월1.6T약 48B공식 블로그·모델 카드

그러니까 “LongCat이 560B라며?“도 맞고, “LongCat 2.0은 1.6조라며?“도 맞습니다. 서로 다른 세대 모델인 거죠.

1.6조 파라미터지만 매번 1.6조를 다 쓰는 건 아닙니다
#

LongCat 2.0은 MoE 구조입니다. 혼합 전문가 구조라고 부르는데, 아주 단순하게 말하면 모델 안에 여러 전문가 블록이 있고, 입력 토큰마다 필요한 일부만 켜는 방식이에요.

공식 모델 카드 기준 LongCat 2.0은 총 파라미터가 1.6조입니다. 하지만 토큰 하나를 처리할 때 활성화되는 파라미터는 약 480억입니다. 보도와 모델 카드에 나오는 범위는 대략 330억에서 560억 사이로 보입니다.

이 차이가 중요합니다.

“1.6조 파라미터"라는 숫자는 모델 저장 규모와 잠재 용량을 보여주는 숫자고, “480억 활성"은 실제 추론 비용과 지연시간에 더 가까운 숫자입니다. 그러니까 이 모델을 1.6조짜리 dense 모델처럼 매번 전부 돌린다고 보면 안 됩니다.

오히려 LongCat 2.0의 메시지는 이쪽에 가까워 보여요.

엄청 큰 모델을 만들되, 매 토큰마다 일부만 켜서 코딩 에이전트 작업을 싸고 빠르게 처리하겠다.

이건 요즘 대형 모델들이 가는 방향과도 맞습니다. 모델 전체 용량은 키우고, 실제 연산은 희소하게 만들고, 긴 문맥과 에이전트 작업에 맞춰 효율을 끌어올리는 쪽이죠.

LongCat 2.0은 먼저 Owl Alpha로 알려졌습니다
#

스펙 이야기에서 잠깐 벗어나 공개 순서를 보면, LongCat 2.0은 공식 이름보다 Owl Alpha라는 임시 이름으로 먼저 주목을 받았습니다.

공식 블로그는 2026년 6월에 Owl Alpha라는 미스터리 모델을 글로벌 AI 모델 집계 플랫폼에 올렸고, 월 10조 토큰 이상 사용량으로 전 세계 3위까지 올라갔다고 설명합니다. 보도 쪽에서는 이 플랫폼을 OpenRouter로 특정하고, Owl Alpha가 약 한 달에서 두 달 정도 익명으로 운영됐다고 말합니다.

여기서 중요한 건, 이 방식이 완전히 새로운 건 아니라는 점이에요. OpenRouter에는 예전부터 모델 제작사를 숨긴 cloaked 모델, 그러니까 익명 프리뷰 모델이 종종 올라왔습니다.

비슷한 사례는 이미 꽤 있습니다.

OpenRouter 이름공개 시점당시 설명나중에 확인된 내용
Quasar Alpha2025년 4월cloaked 모델, 100만 토큰 문맥GPT-4.1 계열 프리뷰로 해석되는 대표 사례
Optimus Alpha2025년 4월cloaked 모델, 프로그래밍 포함 실사용 지향GPT-4.1 계열 프리뷰로 함께 언급됨
Horizon Alpha2025년 7월cloaked 모델, 25만 6천 토큰 문맥이후 Horizon Beta로 교체됨
Horizon Beta2025년 8월Horizon Alpha 개선판동일한 익명 피드백 수집 흐름
Sonoma Sky Alpha2025년 9월cloaked 모델, 200만 토큰 문맥보도 기준 Grok 4 Fast 초기 테스트 버전
Sonoma Dusk Alpha2025년 9월cloaked 모델, 200만 토큰 문맥보도 기준 Grok 4 Fast 초기 테스트 버전
Polaris Alpha2025년 11월cloaked 모델OpenRouter 페이지 기준 GPT-5.1 초기 스냅샷

그래서 Owl Alpha를 볼 때는 “미투안이 기발한 새 마케팅을 했다"라기보다, OpenRouter에서 이미 굳어진 익명 모델 테스트 문법을 미투안도 잘 활용했다고 보는 게 맞아 보입니다.

이 방식의 장점은 분명합니다. 보통 모델을 공개하면 사람들은 이름과 회사부터 보고 판단합니다. “중국 모델이네”, “미투안이 음식 배달 회사 아닌가?”, “벤치마크 믿어도 되나?” 같은 선입견이 먼저 들어오죠.

그런데 Owl Alpha처럼 이름을 숨기고 먼저 올리면, 사용자는 모델 출신보다 체감 성능을 먼저 보게 됩니다. 어느 정도 사용량과 평판이 쌓인 다음에 “사실 이게 LongCat 2.0이었습니다"라고 공개하면, 런칭 서사가 훨씬 강해져요. 다만 이건 Owl Alpha만의 독특한 사건은 아니고, Quasar Alpha나 Horizon Alpha 같은 선례가 있는 흐름입니다.

저도 이 대목은 좀 재미있게 봤습니다. OpenClaw로 살짝 찍먹했을 때 인상은 “압도적이다"라기보다는 “어? 생각보다 나쁘지 않은데?“에 가까웠거든요. 그 정도 체감이 있었던 모델이 뒤늦게 1.6조 파라미터와 중국산 ASIC 학습 서사를 달고 나오니, 사람들이 떠드는 이유는 이해가 됩니다.

다만 여기서 구분할 게 있습니다. 제가 확인한 현재 OpenRouter의 meituan/longcat-2.0 페이지는 사용 가능 상태가 아니었습니다. 그래서 이 글에서는 “지금 OpenRouter에서 정식 LongCat 2.0을 바로 쓸 수 있다"가 아니라, “Owl Alpha라는 익명 모델로 운영됐다는 보도가 있었고 이후 LongCat 2.0으로 공개됐다"는 수준으로만 정리하겠습니다.

진짜 화제는 중국산 칩 이야기입니다
#

솔직히 파라미터 숫자만 놓고 보면 1.6조 자체가 완전히 처음 보는 숫자는 아닙니다. 요즘은 큰 모델들이 다들 조 단위 숫자를 들고 나오니까요.

LongCat 2.0이 더 크게 화제가 된 이유는 하드웨어 쪽입니다.

공식 블로그와 허깅페이스 모델 카드는 LongCat 2.0의 학습과 대규모 배포가 AI ASIC 슈퍼팟 위에서 이뤄졌다고 설명합니다. 공식 블로그에는 중국 국내 칩 제조사의 AI ASIC 수만 개로 구성된 이기종 클러스터에서 개발이 완료됐다는 표현도 나옵니다.

이건 중국 입장에서 굉장히 중요한 메시지입니다. 미국의 수출통제 때문에 고급 엔비디아 GPU를 마음대로 쓰기 어려운 상황에서, “우리는 엔비디아 없이도 조 단위 모델을 끝까지 학습하고 추론까지 돌렸다"고 말하는 셈이니까요.

다만 여기서 조심할 부분이 있습니다.

보도에는 “5만 장 중국산 칩"이라는 표현이 많이 나옵니다. 그런데 제가 공식 블로그 본문에서 직접 확인한 표현은 더 넓게 “수만 개 AI ASIC” 쪽이었습니다. 허깅페이스 모델 카드도 “AI ASIC superpods"와 “alternative hardware platforms"라고 표현합니다.

그래서 저는 이렇게 신뢰도를 나눠 봅니다.

표현신뢰도이유
1.6조 총 파라미터높음공식 모델 카드에 명시
약 480억 활성 파라미터높음공식 모델 카드에 명시
AI ASIC 슈퍼팟 기반 학습·배포중상공식 모델 카드에 명시
중국 국내 칩 기반 전체 과정 완료중상공식 블로그에 명시
5만 장 중국산 칩중간보도 기준 표현, 공식 본문은 수만 개 쪽
어떤 회사 칩인지낮음공식 자료에서 구체 제조사명은 명확하지 않음

그러니까 “중국산 칩만 썼다더라"는 큰 방향에서는 공식 발표와 맞지만, “정확히 5만 장이고 어떤 칩이다"까지는 아직 보도 기준으로 봐야 합니다.

성능은 어느 정도일까
#

허깅페이스 모델 카드에 나온 LongCat 2.0의 대표 점수는 꽤 좋습니다.

벤치마크LongCat 2.0 점수
SWE-bench Pro59.5
Terminal-Bench 2.170.8
SWE-bench Multilingual77.3
FORTE73.2
BrowseComp79.9
IFEval90.0

특히 소프트웨어 엔지니어링과 터미널 작업 쪽을 강하게 밀고 있습니다. 공식 블로그도 LongCat 2.0이 Claude Code, OpenClaw, Hermes 같은 코딩 에이전트 플랫폼과 통합됐고, 이런 환경에서 성능 향상이 있었다고 설명합니다.

그런데 여기서도 한 번 숨을 골라야 합니다.

공식 모델 카드의 벤치마크 표는 일부 비교 점수에 별표가 붙어 있고, 자체 통합 하네스에서 측정한 점수라는 설명이 있습니다. 이런 점수는 방향을 보는 데는 좋지만, 독립적인 외부 평가처럼 받아들이면 안 됩니다.

실사용에서는 다른 문제가 더 중요합니다.

  • 도구 호출을 얼마나 안정적으로 하는가
  • 긴 작업 중에 목표를 잃지 않는가
  • 파일 수정 후 검증 루프를 잘 도는가
  • 실패했을 때 이상한 우회를 하지 않는가
  • 한국어와 영어가 섞인 작업에서 품질이 유지되는가
  • OpenClaw 같은 실제 에이전트 환경에서 지연시간과 비용이 괜찮은가

이런 건 벤치마크 하나로 다 설명되지 않습니다.

그래서 제 감상은 이렇습니다.

LongCat 2.0은 분명히 코딩 에이전트 시장을 정면으로 보고 만든 모델입니다. 그런데 지금 단계에서 “클로드 대체재 끝판왕"이라고 보기보다는, “가격과 긴 문맥, 에이전트 작업을 무기로 치고 들어오는 꽤 진지한 중국 모델” 정도로 보는 게 맞아 보여요.

LongCat 2.0이 중요한 이유
#

저는 LongCat 2.0의 의미를 성능 하나로만 보진 않습니다.

오히려 더 중요한 건 세 가지라고 봐요.

1. 중국산 AI 인프라의 실전 테스트
#

미투안의 주장이 맞다면, LongCat 2.0은 중국 국내 AI ASIC 클러스터가 조 단위 모델 학습과 추론을 감당할 수 있다는 데모입니다.

이건 단순 모델 발표보다 더 큰 이야기예요. 모델 하나가 좋고 나쁨을 떠나, 중국이 엔비디아 의존도를 줄이는 방향으로 실제 대형 학습을 밀어붙이고 있다는 신호니까요.

물론 아직 외부에서 학습 로그와 하드웨어 구성을 완전히 검증한 건 아닙니다. 그래서 저는 이걸 “증명 완료"라기보다 “강한 공식 선언"으로 봅니다.

2. 코딩 에이전트가 주전장이 됐다는 신호
#

LongCat 2.0은 일반 챗봇보다 코딩 에이전트 쪽을 훨씬 강하게 말합니다. Claude Code, OpenClaw, Hermes 같은 이름이 공식 자료에 직접 나오는 것도 이 때문이에요.

이제 모델 회사들이 단순히 “질문에 답 잘해요"를 넘어, “저장소를 읽고, 셸을 실행하고, 파일을 고치고, 테스트까지 도는 에이전트 작업을 잘해요"를 경쟁 포인트로 삼고 있습니다.

이건 개발자 입장에서는 반가운 변화입니다. 벤치마크가 완벽하진 않아도, 최소한 모델들이 실제 개발 흐름을 더 진지하게 보고 있다는 뜻이니까요.

3. 익명 모델 테스트는 이미 하나의 출시 전 루틴입니다
#

Owl Alpha 방식은 갑자기 튀어나온 예외라기보다, OpenRouter에서 반복되어 온 cloaked 모델 테스트 흐름에 가깝습니다. 모델 제작사를 숨긴 채 먼저 쓰게 하고, 나중에 정체를 공개하는 방식이죠.

핵심은 “미투안이 이름을 숨겼다” 자체가 아니라, 익명 상태에서 이미 사용량과 평판을 만든 뒤 공개했다는 점입니다. 모델 공개가 단순 보도자료가 아니라, 어느 정도 검증된 사용 사례와 함께 시작되는 셈이에요.

다만 단점도 분명합니다. 익명 모델은 출처와 데이터 처리 정책이 불명확할 수 있어요. 실제로 OpenRouter의 cloaked 모델 페이지들은 프롬프트와 완성이 제공자에게 로깅될 수 있다고 경고합니다. 코딩 에이전트는 저장소 코드와 작업 맥락을 많이 보내기 때문에, 익명 모델을 실무 코드에 쓰는 건 조심해야 합니다.

그래서 써볼 만한가
#

개인적으로는 “테스트해 볼 가치는 있다” 쪽입니다.

특히 이런 경우라면 관심 가져볼 만합니다.

  • OpenClaw나 Claude Code류 코딩 에이전트를 자주 쓰는 경우
  • 긴 저장소 문맥을 넣고 작업하는 경우
  • 클로드나 GPT 계열 비용이 부담되는 경우
  • 중국 모델의 코드 작업 품질이 어디까지 왔는지 보고 싶은 경우
  • 모델 성능보다 가격 대비 처리량이 중요한 경우

반대로 이런 기대라면 아직은 조심해야 합니다.

  • 클로드 오퍼스급 품질을 당장 완전히 대체하길 기대하는 경우
  • 검증된 상용 안정성이 필요한 실무 코드베이스에 바로 넣으려는 경우
  • 익명 모델 운영 이력이나 데이터 처리 정책에 민감한 경우
  • 벤치마크 점수만 보고 모델 품질을 판단하려는 경우

저라면 중요한 프로덕션 코드를 바로 맡기기보다는, 개인 프로젝트나 읽기 중심 작업, 작은 수정 작업, 비교 테스트부터 해볼 것 같습니다. 특히 OpenClaw 쪽에서는 한 번쯤 다시 붙여보고 싶은 모델이에요.

정리하면
#

LongCat 2.0은 그냥 “중국에서 나온 새 AI 모델” 정도로 넘기기엔 꽤 흥미로운 사건입니다.

공식 자료 기준으로는 1.6조 파라미터 MoE 모델이고, 토큰당 약 480억 파라미터만 활성화하는 구조입니다. 100만 토큰 문맥과 코딩 에이전트 작업을 내세우고, 미투안은 AI ASIC 슈퍼팟 기반으로 학습과 배포를 완료했다고 말합니다.

하지만 모든 주장을 같은 무게로 받아들이면 안 됩니다.

  • LongCat-Flash의 560B 스펙은 공식 기술 리포트로 단단합니다.
  • LongCat 2.0의 1.6조와 480억 활성 파라미터는 공식 모델 카드 기준으로 확인됩니다.
  • 중국산 칩 기반 학습·배포는 공식 주장입니다.
  • 5만 장 중국산 칩이라는 정확한 숫자는 보도 기준으로만 봐야 합니다.
  • Owl Alpha가 OpenRouter에서 익명 운영됐다는 이야기도 보도와 사용자 체감이 맞물린 흥미로운 지점이지만, 현재 정식 OpenRouter 사용 가능 여부와는 분리해서 봐야 합니다.

제 한 줄 평은 이렇습니다.

LongCat 2.0은 성능보다도 중국이 엔비디아가 아닌 AI 인프라로 조 단위 코딩 에이전트 모델을 밀어붙이고 있다는 점에서 중요한 모델입니다.

써보면 “와, 세상이 바뀐다"까지는 아닐 수 있습니다. 저도 처음 찍먹했을 때는 딱 “나쁘지 않네” 정도였으니까요. 그런데 그 나쁘지 않은 모델이 1.6조 파라미터, 중국산 ASIC, Owl Alpha 서사를 달고 나오면 이야기가 조금 달라집니다.

앞으로 볼 포인트는 명확합니다.

  1. 실제 가중치와 추론 환경이 얼마나 안정적으로 공개되는가
  2. OpenClaw나 Claude Code류 에이전트에서 장기 작업 품질이 어떤가
  3. 중국산 ASIC 학습 주장이 외부 검증이나 후속 기술 리포트로 얼마나 보강되는가
  4. 가격이 서구권 최상위 모델 대비 얼마나 공격적으로 유지되는가

이 네 가지가 확인되면 LongCat 2.0은 단순 화제성 모델이 아니라, 코딩 에이전트 시장에서 꽤 중요한 선택지가 될 수도 있습니다.

혹시 Owl Alpha 시절에 써보신 분 있나요? OpenRouter나 OpenClaw에서 체감이 어땠는지 댓글로 알려주세요. 저는 조만간 다시 한 번 코딩 작업에 붙여보고, 진짜로 “나쁘지 않다"에서 한 단계 올라갈 수 있는지 확인해보고 싶네요.

참고 자료
#

본 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.


💬 댓글