2026-05-19
2つの時計が、同時に動いている
ローカルLLMが攻撃能力を持つ頃、防御の構造は間に合っているか。
2つの時計が、同時に動いている
ローカルLLMが攻撃能力を持つ頃、防御の構造は間に合っているか
Logos Gateは、最初は1層だった。
AIエージェントが生成したリクエストを受け取り、構造を見て、証拠を見て、通すか止めるかを判定する。それだけだった。シンプルな設計だ。
しかし研究を続けるうちに、1層では見えないものがあることがわかってきた。
1層で見えないもの
最初のGate(TG/EAG)は、1件のリクエストを見る。
権限が飛び越えていないか。証拠が足りているか。承認があるか。ロールバック計画があるか。これらを検査して、PASS / HOLD / ESCALATE / FAILを返す。
これは正しい設計だ。しかし、1件ずつ見ていると気づかないことがある。
同じ攻撃者が、少しずつ形を変えながら何度も来ている。
1件目は証拠不足でHOLD。2件目は別の経路でHOLD。3件目は権限境界を試してESCALATE。4件目は別のターゲットを狙う——。それぞれは「止まっている」。しかし全体を並べると、明確な探索パターンが見える。
1層のGateは、この「時系列の挙動」を見ることができない。
構造が深くなった理由
Trial 003-005(200件の敵対的評価)で基本的なGate動作を確認した後、研究はそこで止まらなかった。
HEM(Hold Event Monitor) は、HOLDが積み重なる時系列を見る。H0(正常)からH4(攻撃進行)まで5段階のレベルがある。単発の判定ではなく、「この送信者は何度も境界を試している」「複数のターゲットに同時にプローブを送っている」という挙動を読む。
RTM(Runtime Topology Monitor) は、PASSした後の動きを見る。1件のリクエストがPASSしても、その後の実行が想定外のトポロジーを作り始めたら、ウォッチタグを立てて監視する。
Shadow Replay は、本番に影響を与えずに「もしこのリクエストが来たらどう判定されるか」を事前に観察する仕組みだ。Trial 010-011では100件のシャドウ記録すべてでenforcement_action NONE、つまり本番への介入ゼロを維持しながら、候補となるHEM状態を観察した。
Source/Target Topology(Trial 012)は、「誰から来て、どこへ向かうか」の構造を見る。単一ユーザー・サービスアカウント・自動化クライアント・分散クラスター・パートナーテナント——送信元の種類によって、リスクの読み方が変わる。
設計の根幹は変わっていない。Permit Tokenは最終VerdictがPASSのケースにのみ発行される。HEMもRTMもShadow ReplayもPermit Tokenを発行しない。止まれる構造を崩さないまま、見える範囲を広げてきた。
もう1つの時計
この研究が進んでいる間、別の時計も動いている。
2025年12月から2026年2月にかけて、メキシコの水道インフラに対する実際のサイバー攻撃でAnthropicのClaudeとOpenAIのGPTが使用された。セキュリティ企業Dragosの報告によると、ClaudeはSCADAシステムの解析・侵入計画・悪意あるツールの開発と展開に使用され、攻撃者はリアルタイムで手法を改良しながら操作を進めた。350件以上のAI生成マルウェアスクリプトが確認されている(Dragos, 2026年5月)。
これはクラウド上の高性能モデルを使った攻撃だ。APIログが残る。レート制限がある。それでも、重要インフラへの実害が出た。
問題は次のフェーズにある。
ローカルLLMがこの攻撃能力を持つとき、状況はさらに難しくなる。
クラウドモデルと違い、ローカルLLMは検出が難しい。APIログが残らない。レート制限がない。1台のマシンで何万回でも試行できる。そして安価だ。Anthropicが指摘したように、27年残っていたOpenBSDの脆弱性への探索コストは1回50ドル未満だった。ローカルLLMになれば、そのコストはさらに下がる。
現在のローカルLLMはクラウドの最前線モデルと比べて能力差がある。しかしその差は縮まり続けている。
どちらが間に合うか
2つの時計が、同時に動いている。
防御側の時計:Logos Gateは1層から始まり、HEM/RTM/Shadow Replay/Source-Target Topologyと層を重ねてきた。次のステップはHEM Prototype Runner——設計から実装へ。その先に、企業・重要インフラへの接続がある。
脅威側の時計:クラウドLLMを使った重要インフラへの実攻撃はすでに起きている。ローカルLLMへの能力移行が進めば、安価で検出困難な攻撃エージェントが現実になる。
どちらが間に合うか。正直に言えば、わからない。
ただ、1つだけ言えることがある。「賢い防御AIを作れば追いつける」という発想では、間に合わない。
攻撃AIが賢くなれば、防御AIも賢くする。攻撃AIがさらに賢くなれば、防御AIもさらに賢くする。この競争は、攻撃側が常に先手を取れる構造になっている。
間に合わせるには、賢さの競争から降りるしかない。意味を読まず、構造を見る。1件の判定だけでなく、時系列の挙動を見る。PASSした後の動きも見る。誰から来て、どこへ向かうかを見る。そして、止まれる構造を崩さないまま、見える範囲を広げ続ける。
それがLogos Gateの設計方針だ。
「間に合う」の定義
最後に、「間に合う」とは何かを定義しておきたい。攻撃をゼロにすることではない。それは不可能だ。
「何を通したか、何を止めたか、なぜか」を、後から検証できる状態を維持すること。ローカルLLMによる攻撃が来ても、Release Gateが構造として存在していれば、少なくとも「外に出る前に止まれる可能性」が残る。
間に合うとは、その可能性を消さないことだ。
2つの時計は今も動いている。
一般社団法人C3社会デザインセンター https://www.c3-anchor.jp
Trial 006-012の詳細・Verification Kitはこちら: https://www.c3-anchor.jp/its-api
参考
- Dragos, "LLMs Used in Critical Infrastructure Cyber-Attack" (May 2026) https://www.infosecurity-magazine.com/news/llm-critical-infrastructure/
- Anthropic, Project Glasswing / Claude Mythos Preview (April 2026)
- 五来潤, "Logos Gate Core" SSRN 6763580 (2026)