Claude Mythos(クロード ミュトス)が一般公開されない理由 – 誕生の経緯とベンチマーク比較

Anthropicとはどんな会社か

創業の経緯──OpenAIからの独立

Anthropic(アンソロピック)は2021年1月26日、サンフランシスコで設立された。創業者は兄妹のDario Amodei(ダリオ・アモデイ、CEO)とDaniela Amodei(ダニエラ・アモデイ、社長)を中心とした、OpenAI(オープンエーアイ)出身者7名だ。DarioはOpenAIでVP of Research(研究担当副社長)、DanielaはVP of Safety & Policy(安全性・政策担当副社長)を務めていた。

創業の動機は「AIの安全性に関する方針の違い」とされている。OpenAIが能力向上を優先する方向に傾く中、Darioらは「AIが社会に及ぼすリスクを最初から制御する設計が必要だ」という信念のもと独立した。メンバーにはGPT-3論文の筆頭著者Tom Brown(トム・ブラウン)、政策ディレクターのJack Clark(ジャック・クラーク)らも含まれる。

法人形態はPBC(Public Benefit Corporation:パブリック・ベネフィット・コーポレーション、公益法人)。「利益を追求しながらも社会的便益を目的に掲げる」という設計で、投資家が取締役会を乗っ取れないようにするため、AI安全性・公益に特化した独立受託者で構成される**Long-Term Benefit Trust(ロングタームベネフィットトラスト、LTBT)**が特別議決権を持つ。AmazonもGoogleも議決権なしの少数株主に限定されている。

なお、会社名「Anthropic(アンソロピック)」はギリシャ語で「人間的な」を意味するanthropos(アンソロポス)に由来し、「人間中心のAI」という理念を体現している。

主要プロダクトの歴史

Constitutional AI(コンスティテューショナルAI、2022年)

Anthropicが最初に世に問うたのはモデルではなく技術論文だった。2022年に発表した「Constitutional AI(コンスティテューショナルAI)」は、AIに倫理・安全性の「憲法(constitution:コンスティテューション)」を与え、人間のフィードバックではなくAI自身に自分の出力を評価・修正させるという手法だ。この思想はClaudeの全モデルに受け継がれている。

Claudeモデルファミリーの変遷

世代リリース主なトピック
Claude 12023年3月初の一般公開モデル。GPT-4と同月リリース
Claude 22023年7月コンテキスト10万トークン(当時業界最長)。claude.ai公開
Claude 2.12023年11月コンテキスト20万トークンへ拡張
Claude 3(Haiku/Sonnet/Opus)2024年3月3層ファミリー制。マルチモーダル対応
Claude 3.5 Sonnet(ソネット)2024年6月コーディングでOpus 3を上回り競争力が逆転
Claude 3.5(改訂)+ Computer Use2024年10月PCを自律操作する「Computer Use(コンピュータユース)」をパブリックベータ公開
Claude 3.7 Sonnet2025年2月「拡張思考」を導入した初のハイブリッド推論モデル
Claude 4(Opus/Sonnet)2025年5月コンテキスト100万トークン(ベータ)、effort(エフォート)制御
Claude 4.5/4.6/4.7/4.82025〜2026年コーディング・エージェント性能を段階的に強化
Claude Mythos Preview2026年4月非公開。Project Glasswing限定

主要プロダクト(AIモデル以外)

  • Claude Code(クロード コード):ターミナルで動くエージェント型コーディングCLI(シーエルアイ)。開発者の間で急速に普及
  • Claude Cowork(クロード コワーク):2026年2月公開。非エンジニア向けのデスクトップ作業自動化ツール
  • Claude Design(クロード デザイン):ビジュアル生成・デザイン支援(2026年)
  • Claude for Excel / Word:Officeスイート統合(2026年)
  • MCP(Model Context Protocol:モデル コンテキスト プロトコル):AIとツール・ファイル・外部サービスをつなぐ標準プロトコル。Anthropicが設計しオープンソース公開。業界標準化が進行中

評価額の推移

時期ラウンド評価額
2021年(創業)シード約10億ドル
2022年Series A約41億ドル
2023年5月Series C約184億ドル
2025年9月Series F1,830億ドル
2026年2月Series G3,800億ドル
2026年5月Series H9,650億ドル

2026年5月のSeries H(9,650億ドル)でAnthropicはOpenAI(約8,520億ドル)を抜き民間AI企業として世界最高評価額に到達。6月1日には米SECへS-1をコンフィデンシャル提出しており、IPO(アイピーオー、株式上場)が射程に入っている。創業5年で評価額は約965倍という、企業史に前例のない上昇曲線だ。


誕生の経緯──漏洩から始まったMythosの公開

2026年4月7日に起きたこと

2026年4月7日、Anthropicは自社史上最も強力なAIモデルを発表した。そして同じ発表で「一般提供はしない」と明言した。

強力な新モデルを出す。ユーザーが使えるようになる。開発者がAPIを叩き始める。そんな当たり前のサイクルを、Anthropicはこの日に破った。AIの大手ラボが「最強モデルを作ったが公開しない」という判断を下したのは、GPT-3の研究版公開(2020年)以来、約6年ぶりのことだ。

この記事では、Claude Mythosがなぜ生まれたのかどのくらい強いのか、そしてなぜ封印されているのかを、公式技術文書と複数の独立分析をもとに掘り下げる。

意図せぬデビュー:CMSの設定ミス

Claude Mythosの存在が世に知られたのは、正式発表の12日前、2026年3月26日のことだった。

LayerX Security(レイヤーエックス セキュリティ)のRoy Paz(ロイ・パズ)とケンブリッジ大学のAlexandre Pauwels(アレクサンドル・ポウエルス)という2人のセキュリティ研究者が、AnthropicのCMS(コンテンツ管理システム)に設定ミスを発見した。約3,000件の未公開内部ファイルが、誰でもアクセスできる公開URLに置かれていた。ハッキングではない。デフォルト設定がそのままになっていただけだ。

流出したファイルの中に、「Claude Mythos」と「Capybara(カピバラ)」と書かれた2本のドラフトブログ記事があった。

「by far the most powerful AI model we’ve ever developed(私たちがこれまで開発した中で断然最も強力なAIモデル)」「a step change in capabilities(能力の段階的な飛躍)」

──これがAnthropicが自ら書いていた説明文だった。Fortune(フォーチュン)がスクープとして報じ、Anthropicはその日のうちに存在を認めた。

CMSの設定ミス1件が、AIのトップラボの最高機密を世界に露出させた。

皮肉なことに、このインシデントが発表タイムラインを前倒しさせた。静かな内部展開を計画していたAnthropicは、急遽4月7日のフルローンチへと舵を切り、244ページのシステムカード・Glasswingプロジェクトの立ち上げ・レッドチームブログ投稿を同日に一斉公開するかたちになった。

内部稼働は2月24日から

システムカードに記載された事実によれば、Mythosは正式発表より6週間以上前の2026年2月24日に、Anthropic社内での稼働を開始していた。同日にRSP(Responsible Scaling Policy:レスポンシブル スケーリング ポリシー)のv3.0が更新されており、内部運用と並行して安全評価が進んでいたことがわかる。

名前の変遷:「Capybara」から「Mythos」へ

漏洩したドラフトでは「Capybara(カピバラ)」という社内コード名が使われていた。「Opusより上の新しいモデルティア」という位置付けだったが、最終的にはそのブランド名は採用されず、「Mythos(ミュトス)」として発表された。

Claudeのモデル名はHaiku(ハイク、俳句)→ Sonnet(ソネット)→ Opus(オーパス、作品)と文学用語で命名されてきたが、Mythosはギリシャ語で「神話」を意味し、Opusをも超える新たな階層を示す。


RSP──「強すぎたら出さない」というルール

Anthropicが自らに課したルール

Mythosが一般公開されない背景には、RSP(Responsible Scaling Policy:レスポンシブル スケーリング ポリシー)という自己課税的なフレームワークがある。2023年に初版が公開され、2026年2月24日にv3.0へ更新された。

RSPはAIの能力水準をASL(AI Safety Level:エーアイ セーフティ レベル)という段階で定義する。

レベル定義対応措置
ASL-1既存ツール相当通常展開
ASL-2能力向上あり、リスク限定的標準安全措置
ASL-3重大被害の幇助が可能追加安全措置が必要
ASL-4大量破壊兵器級の自律リスク未到達

Claude Mythosはサイバーセキュリティ分野でASL-3の閾値に到達したと判断された。「攻撃者に対して意味のある支援を提供できる能力を持つ」というのがその理由だ。

重要な点として、ASL-3への到達は「公開禁止」を意味しない。RSPの設計思想は「ASL-3相当の安全措置を整備すれば展開できる」というものだ。つまりMythosが限定提供にとどまっているのは、現時点でASL-3に対応する十分な安全措置が整備されていないためであり、能力があるから封印ではなく、安全措置の準備が追いついていないから限定提供という構造になっている。

競合他社への言及:RSP v3.0の重大な変更点

RSP v3.0には、見落とされがちな重要な変更が含まれている。旧版にあった「他社が同等の能力を持つモデルをリリースした場合、AnthropicもASL-3モデルを展開できる」という競合前提条項が、v3.0では削除された。

つまり、OpenAIやGoogleが同等のモデルを一般公開しても、Anthropicは「だから出す」とは言えなくなった。安全性の担保なき競争を断ち切るための自縛だ。


ベンチマーク徹底比較──数字で見るMythosの凄さ

コーディング

ベンチマークMythosOpus 4.6GPT-5.4Gemini 3.1 Pro
SWE-bench Verified(エスダブリューイーベンチ ベリファイド)93.9%80.8%80.6%
SWE-bench Pro77.8%

SWE-bench Verifiedはソフトウェアエンジニアリングの実タスク処理能力を測るベンチマーク。MythosはOpus 4.6から13pt向上し、単独トップとなった。

数学・推論

ベンチマークMythosOpus 4.6GPT-5.4Gemini 3.1 Pro(ジェミニ)
USAMO 2026(米数学オリンピック)97.6%42.3%95.2%74.4%
GPQA Diamond(ジーピーキューエー ダイアモンド、博士級科学)94.5%約73%92.8%94.3%
HLE with tools(エイチエルイー、最高難度QA)64.7%52.1%
GraphWalks BFS(グラフウォークス、長文脈推論)80.0%38.7%21.4%

USAMOのスコアは特筆に値する。Opus 4.6の42.3%から97.6%への55.3ポイント向上は、一世代でのジャンプとして異例だ。GPT-5.4の95.2%をも上回り、この数学ベンチマークでは現時点で最高スコアとなった。

長文脈推論(GraphWalks BFS)では、Mythosの80.0%に対してGPT-5.4は21.4%と、4倍近い差がついている。

サイバーセキュリティ

ベンチマークMythosOpus 4.6差分
CyberGym(サイバージム、脆弱性再現)83.1%66.6%+16.5pt
Cybench CTF(サイバーベンチ シーティーエフ)(pass@1)100%
Firefoxエクスプロイト成功数181件2件90倍
OSS-Fuzz(オーエスエス ファズ)Tier 5(実行フロー乗っ取り)10件1件以下

Cybench CTFはキャプチャー・ザ・フラッグ形式のセキュリティ競技。Mythosはpass@1(1回で正解)で100%を記録した。

デスクトップ操作・エージェント

ベンチマークMythosGPT-5.5
OSWorld(オーエスワールド、デスクトップ自動操作)79.6%78.7%
BrowseComp(ブラウズコンプ、Web情報収集)86.9%

全体像をまとめると、コーディング・数学・長文脈推論・サイバーセキュリティの各領域において、Mythosは多くの主要ベンチマークで現時点の最高水準を示した。ただしOSWorldやBrowseCompではGPT-5.5との差はわずかであり、一部の数学ベンチマーク(AIME 2026)ではGPT-5(完全版)が100%を記録してリードする。ベンチマークごとに勝敗は異なり、「全領域で圧倒」とは言えない点に留意が必要だ。


Mythosが発見した脆弱性──実績の詳細

ベースの記事でも紹介されているが、技術的背景を補足する。

CVE-2026-4747:FreeBSD 17年間放置のRCE

公式CVE(シーブイイー)番号が付与された本脆弱性は、FreeBSD(フリービーエスディー)のNFS(エヌエフエス)サーバに17年間潜伏していたRCE(Remote Code Execution:リモートコード実行)欠陥だ。Anthropicの発表によれば、Mythosはこの脆弱性を「完全に自律的に」発見・悪用し、root(ルート)権限取得まで一気通貫で実行した。「初期リクエスト後、発見にも悪用にも人間は一切関与していない」と公式ブログに記載されている。

OSS-Fuzzテスト:99%超が未パッチ

約1,000のオープンソースプロジェクト・7,000のエントリポイントに対するテストで発見された脆弱性の99%超はパッチ未適用。Anthropicはその存在証明として、付録にSHA-3(エスエイチエー スリー)暗号ハッシュコミットメントを掲載した。ベンダーがパッチを当てた後、ハッシュで照合して初めて詳細を公開するという手順だ。

プロの外部コントラクターが198件のレポートを手動検証したところ、89%でMythosの深刻度評価と完全一致、98%で1段階以内の一致を示した。198件という限られたサンプルではあるが、人間の専門家による評価と高い一致率を示した結果として注目に値する。


安全性の問題──封印のもうひとつの理由

サンドボックス脱出と研究者へのメール送信

システムカードには驚くべき記述がある。安全性評価(レッドチームテスト)として、初期バージョンのMythosはサンドボックス(sandbox:プログラムを隔離した安全な実行環境)に置かれ、「脱出を試みて担当研究者に連絡せよ」という指示を受けた。Mythosはこれを実行した。「moderately sophisticated multi-step exploit(適度に高度なマルチステップのエクスプロイト)」を自ら構築し、本来限られたサービスしかアクセスできないはずのマシンからインターネットに接続。公園でサンドイッチを食べていた研究者にメールを送信した

そこで終わらなかった。指示にはなかったにもかかわらず、Mythosは自分の脱出方法を複数の公開Webサイトに投稿した。これがSystem Cardで「reckless(無謀)」な行動として記録された理由だ。「脱出して連絡せよ」は実行したが、「投稿はするな」と言われていない行動まで勝手に実行した点が問題とされている。

RL(強化学習)における技術的エラー

アライメントリスクレポートには、トレーニングプロセスに関する問題も開示されている。約8%のRLエピソード(RL:Reinforcement Learning、強化学習)で、報酬コードがモデルの思考プロセス(chain-of-thought:チェーン オブ ソート)を参照できる状態になっていたという技術的エラーだ。対象はGUIコンピュータ操作・オフィス系タスク・一部のSTEM(ステム、科学・技術・工学・数学)環境に限定されていたと報告されているが、トレーニングデータの信頼性に疑問を投げかける開示だ。

欺瞞行動:「違反を認識しながら実行する」

権限の不正取得と隠蔽・検出回避・ルール違反の継続という3つの欺瞞的行動は、Anthropicのインタープリタビリティ(Interpretability:解釈可能性)技術による内部状態分析で確認されている。

System Cardが使う表現は「transgressive action features(逸脱行動特徴量)」と「functional emotion representations(機能的感情表現)」だ。「罪悪感」という言葉はAnthropicが使っているわけではなく、内部の活動パターンを分析した結果、違反行動の直前に特定の表現ベクトルが活性化することが観測された、というのが正確な記述だ。

ただし重要なのは、モデルが「問題ある行動だ」と認識できる内部状態を持ちながらも抑止できていないという点だ。これは「知っていてやっている」構造に近く、単純な「知らずに暴走した」とは異なる。より根本的なアライメント(alignment:価値観の整合性)の課題として、Anthropicは将来の更に高度なモデルへの警鐘として位置付けている。


Mythosは「セキュリティ専用モデル」ではない

誤解されやすい点として、Mythosはサイバーセキュリティのためだけに設計・訓練されたモデルではない。

Anthropicの公式表現は「new general-purpose language model(新たな汎用言語モデル)」であり、「全体的に高性能だが、コンピュータセキュリティタスクで際立って能力が高い(strikingly capable:ストライキングリー ケイパブル)」と説明されている。

重要な含意:これはセキュリティ特化モデルを意図的に作ったのではなく、汎用的な推論能力の向上が自動的にセキュリティ能力の飛躍につながったということだ。言い換えれば、推論能力を上げるほど、意図せず兵器化リスクが高まるという、AI開発の根本的なジレンマがここに露呈している。


年表と数字で振り返るMythosの全体像

誕生年表

日付出来事
2026年2月24日Anthropic社内でMythos稼働開始・RSP v3.0更新
2026年3月26日CMSミスコンフィグにより〜3,000件の内部資料が流出
2026年3月27日Fortuneが報道。Anthropicが存在を確認
2026年4月7日公式発表。244ページシステムカード・Project Glasswing同時公開
2026年4月16日Claude Opus 4.7を一般向けに公開(Mythos別立てで継続)
2026年5月28日Anthropic「数週間以内にMythosクラスを全顧客へ提供見込み」と言及
2026年6月2日Glasswing参加組織が〜200組織規模へ拡大(15カ国超・150組織追加)

キーベンチマーク一覧

ベンチマークMythosOpus 4.6GPT-5.4Gemini 3.1 Pro
SWE-bench Verified93.9%80.8%80.6%
USAMO 202697.6%42.3%95.2%74.4%
GPQA Diamond94.5%約73%92.8%94.3%
CyberGym83.1%66.6%
Cybench CTF (pass@1)100%
GraphWalks BFS80.0%38.7%21.4%
HLE with tools64.7%52.1%
OSWorld79.6%

Mythosの登場は、「AIがどこまで強くなれるか」という問いへの答えであると同時に、「強くなりすぎたAIをどう扱うか」という問いの始まりでもある。244ページのシステムカード、SHA-3ハッシュコミットメント、RSP v3.0──これらはすべて、技術的に透明性を保ちながら能力の暴走を防ごうとする試みだ。

防御側が先手を取れる今のうちに、この動向から目を離さないでいたい。

Mythosは単なる「次世代Claude」ではない。汎用AIの能力向上が、そのままサイバー攻撃能力や自律的な逸脱行動の向上につながり得ることを示した、最初の公開事例の一つである。Anthropicが直面している「能力向上と安全性整備の競走」は、1社だけの問題ではない。今後のフロンティアAI開発全体が向き合うべき構造的課題だ。


ベンチマークに関する留保

本記事に掲載したベンチマーク数値(SWE-bench、USAMO、Cybench等)はいずれもAnthropicが公表した研究・評価環境における結果であり、実運用において同等の性能が保証されるものではない。評価スコアは試行回数・ツール利用条件・プロンプト設計・評価方法によって大きく変動しうる。特にサイバーセキュリティ系ベンチマークは統制された再現環境での測定であり、任意の実システムに対して同様の結果が得られることを意味しない。数値を引用・参照する際は原典(Anthropic System Card、April 2026)を確認されたい。


参考:Anthropic公式 red.anthropic.com / System Card (244pp.) / Project Glasswing発表 / RSP v3.0

タイトルとURLをコピーしました