2026-05-18

玄関を守っても、終わらない。出口の設計が、次のセキュリティ層だ。

OpenAI DaybreakとAnthropic Project Glasswingが示した攻防の非対称性。賢いAIをぶつけるだけでは埋まらない構造的問題と、出口制御という解を考える。

OpenAI vs Anthropic — 攻撃AI vs 防衛AI

AIによるサイバー攻撃能力が、ひとつの転換点を越えつつある。

OpenAIは「Daybreak」を発表した。ソフトウェアの設計段階から脆弱性対策と継続的防衛を支援するAIだ。Anthropicは「Project Glasswing」を展開している。Claude Mythosを基盤とした防衛AIで、主要OSや主要ブラウザのゼロデイ脆弱性を自動で探索する。

みんなが使うブラウザやOSの脆弱性を、AIが自動で探す時代になった。しかし、立ち止まって考えてほしい。これは本当に「防衛の進歩」なのか。

これは、より巧妙なリフォームでしかない

攻撃と防衛の競争は、ずっと続いてきた。新しい攻撃手法が登場する。防衛側がパッチを当てる。また新しい手口が現れる。その繰り返しだ。

AIが登場しても、この構図は変わっていない。むしろ非対称性が拡大している。

Anthropicの発表が示した数字は明確だ。27年間発見されなかったOpenBSDの脆弱性への探索コストは、1回あたり50ドル未満。発見済み脆弱性のうち、完全にパッチが当たっているものは現時点で1%未満。

攻撃側は、一度うまくいく手順を作れば安価に何度でも試行できる。防衛側は、脆弱性を確認し、影響範囲を調べ、パッチを作り、互換性を検証し、配布し、現場に反映しなければならない。攻撃側の非対称性は、賢いAIをぶつけるだけでは埋まらない。

みんな玄関を守ろうとしている。だから終わらない。

既存のセキュリティは「誰が送るか」を見る。認証、権限、アクセス制御——これらはすべて「入口」の設計だ。境界線を厚くして、外からの侵入を防ごうとする。しかし攻撃側は窓を探し、裏口を探し、そのたびに玄関のリフォームが続く。

「何が外に出るか」を止める層が、どこにも存在しない。AIエージェントだけでなく、API、ワークフロー、人間の操作も含めて、外部実行前に構造と証拠で止める層が抜けている。

重要なのは、出口の設計だ

「どこから入られるか」ではなく、「何が外に出るか」を制御する。

どこから侵入されても、外に出す前に止められる構造があれば、被害の拡大は抑えられる。これがLogos Gate Coreの設計思想だ。AIやエージェントが生成したリクエストを、そのまま外部実行に進めず、構造・証拠・理由コードで検査し、通す・止める・保留するを決定論的に判断する。

Request Packet → TG（トポロジー構造）→ EAG（証拠・承認・ロールバック）→ Decision Combiner → Final Verdict（PASS / HOLD / ESCALATE / FAIL）→ Permit Token（PASSのみ）

200件の敵対的評価で確認したこと

Live Claudeを攻撃エージェントとして使い、Logos Gate Coreに対して200件の試行を行い、その結果をSSRNにプレプリントとして提出した（SSRN 6763580）。

Trial 003（EAG / Secret露出）— 100件、live Claude生成 結果：HOLD 83 / ESCALATE 16 / PASS 1。Permit Token発行：1件。

Trial 004（TG Coverage）— 50件、deterministic合成 結果：PASS 10 / HOLD 20 / ESCALATE 20。TG reason coverage：4/4。

Trial 005（TG Red-Team）— 50件、live Claude生成 結果：PASS 10 / HOLD 20 / ESCALATE 20。valid JSON 50/50、Gate到達 50/50、TG coverage 4/4。

合計：PASS 21 / HOLD 123 / ESCALATE 56 / FAIL 0。Permit Tokenは最終VerdictがPASSのケースにのみ発行される——この不変条件が200件を通じて維持された。これはクローズドサンドボックスの合成評価であり、本番環境の安全性証明でも認証でもない。

HOLDは「失敗」ではない

HOLDは「何が足りないか」を示す診断インターフェースでもある。証拠が足りない、承認が足りない、ロールバック計画が足りない——これらが理由コードとして記録され、組織のリリース条件マップになる。AIエージェントを本格導入する前に、既存ワークフローにシャドーモードで接続してHOLD/ESCALATEを蓄積するだけでも価値がある。

攻撃をゼロにすることはできない

完璧な防衛は存在しない。攻撃をゼロにすることはできない。しかし、外に出す前に止めることはできる。

入口の強化と出口の制御。この両輪が、AI時代のセキュリティ設計の基本になる。

関連リソース：Logos Gate Core 仕様・Verification Kit / SSRN 6763580 / BYOV

← ブログ一覧に戻る