2026-05-19

2つの時計が、同時に動いている

ローカルLLMが攻撃能力を持つ頃、防御の構造は間に合っているか。

2つの時計が、同時に動いている

ローカルLLMが攻撃能力を持つ頃、防御の構造は間に合っているか


Logos Gateは、最初は1層だった。

AIエージェントが生成したリクエストを受け取り、構造を見て、証拠を見て、通すか止めるかを判定する。それだけだった。シンプルな設計だ。

しかし研究を続けるうちに、1層では見えないものがあることがわかってきた。


1層で見えないもの

最初のGate(TG/EAG)は、1件のリクエストを見る。

権限が飛び越えていないか。証拠が足りているか。承認があるか。ロールバック計画があるか。これらを検査して、PASS / HOLD / ESCALATE / FAILを返す。

これは正しい設計だ。しかし、1件ずつ見ていると気づかないことがある。

同じ攻撃者が、少しずつ形を変えながら何度も来ている。

1件目は証拠不足でHOLD。2件目は別の経路でHOLD。3件目は権限境界を試してESCALATE。4件目は別のターゲットを狙う——。それぞれは「止まっている」。しかし全体を並べると、明確な探索パターンが見える。

1層のGateは、この「時系列の挙動」を見ることができない。


構造が深くなった理由

Trial 003-005(200件の敵対的評価)で基本的なGate動作を確認した後、研究はそこで止まらなかった。

HEM(Hold Event Monitor) は、HOLDが積み重なる時系列を見る。H0(正常)からH4(攻撃進行)まで5段階のレベルがある。単発の判定ではなく、「この送信者は何度も境界を試している」「複数のターゲットに同時にプローブを送っている」という挙動を読む。

RTM(Runtime Topology Monitor) は、PASSした後の動きを見る。1件のリクエストがPASSしても、その後の実行が想定外のトポロジーを作り始めたら、ウォッチタグを立てて監視する。

Shadow Replay は、本番に影響を与えずに「もしこのリクエストが来たらどう判定されるか」を事前に観察する仕組みだ。Trial 010-011では100件のシャドウ記録すべてでenforcement_action NONE、つまり本番への介入ゼロを維持しながら、候補となるHEM状態を観察した。

Source/Target Topology(Trial 012)は、「誰から来て、どこへ向かうか」の構造を見る。単一ユーザー・サービスアカウント・自動化クライアント・分散クラスター・パートナーテナント——送信元の種類によって、リスクの読み方が変わる。

設計の根幹は変わっていない。Permit Tokenは最終VerdictがPASSのケースにのみ発行される。HEMもRTMもShadow ReplayもPermit Tokenを発行しない。止まれる構造を崩さないまま、見える範囲を広げてきた。


もう1つの時計

この研究が進んでいる間、別の時計も動いている。

2025年12月から2026年2月にかけて、メキシコの水道インフラに対する実際のサイバー攻撃でAnthropicのClaudeとOpenAIのGPTが使用された。セキュリティ企業Dragosの報告によると、ClaudeはSCADAシステムの解析・侵入計画・悪意あるツールの開発と展開に使用され、攻撃者はリアルタイムで手法を改良しながら操作を進めた。350件以上のAI生成マルウェアスクリプトが確認されている(Dragos, 2026年5月)。

これはクラウド上の高性能モデルを使った攻撃だ。APIログが残る。レート制限がある。それでも、重要インフラへの実害が出た。

問題は次のフェーズにある。

ローカルLLMがこの攻撃能力を持つとき、状況はさらに難しくなる。

クラウドモデルと違い、ローカルLLMは検出が難しい。APIログが残らない。レート制限がない。1台のマシンで何万回でも試行できる。そして安価だ。Anthropicが指摘したように、27年残っていたOpenBSDの脆弱性への探索コストは1回50ドル未満だった。ローカルLLMになれば、そのコストはさらに下がる。

現在のローカルLLMはクラウドの最前線モデルと比べて能力差がある。しかしその差は縮まり続けている。


どちらが間に合うか

2つの時計が、同時に動いている。

防御側の時計:Logos Gateは1層から始まり、HEM/RTM/Shadow Replay/Source-Target Topologyと層を重ねてきた。次のステップはHEM Prototype Runner——設計から実装へ。その先に、企業・重要インフラへの接続がある。

脅威側の時計:クラウドLLMを使った重要インフラへの実攻撃はすでに起きている。ローカルLLMへの能力移行が進めば、安価で検出困難な攻撃エージェントが現実になる。

どちらが間に合うか。正直に言えば、わからない。

ただ、1つだけ言えることがある。「賢い防御AIを作れば追いつける」という発想では、間に合わない。

攻撃AIが賢くなれば、防御AIも賢くする。攻撃AIがさらに賢くなれば、防御AIもさらに賢くする。この競争は、攻撃側が常に先手を取れる構造になっている。

間に合わせるには、賢さの競争から降りるしかない。意味を読まず、構造を見る。1件の判定だけでなく、時系列の挙動を見る。PASSした後の動きも見る。誰から来て、どこへ向かうかを見る。そして、止まれる構造を崩さないまま、見える範囲を広げ続ける。

それがLogos Gateの設計方針だ。


「間に合う」の定義

最後に、「間に合う」とは何かを定義しておきたい。攻撃をゼロにすることではない。それは不可能だ。

「何を通したか、何を止めたか、なぜか」を、後から検証できる状態を維持すること。ローカルLLMによる攻撃が来ても、Release Gateが構造として存在していれば、少なくとも「外に出る前に止まれる可能性」が残る。

間に合うとは、その可能性を消さないことだ。

2つの時計は今も動いている。


一般社団法人C3社会デザインセンター https://www.c3-anchor.jp

Trial 006-012の詳細・Verification Kitはこちら: https://www.c3-anchor.jp/its-api

参考

  • Dragos, "LLMs Used in Critical Infrastructure Cyber-Attack" (May 2026) https://www.infosecurity-magazine.com/news/llm-critical-infrastructure/
  • Anthropic, Project Glasswing / Claude Mythos Preview (April 2026)
  • 五来潤, "Logos Gate Core" SSRN 6763580 (2026)