kit_id: echo-verify-layered-300

AMS Replay Kit v0.3

Layered Evaluation, n=300

TG / EAG / ITS の判断境界を、300件の層化ケースで再演した deterministic replay bundle。

このページは、C³ ITS / AMS の評価束「AMS Replay Kit v0.3 — Layered Evaluation, n=300」の公開説明ページです。

本Kitは、AIエージェントの判断を直接「賢くする」ものではありません。 入力ケース、gold label、replay log、metrics、manifest、digest、署名スタブを束ね、 同じ入力から同じ評価結果を再現できるかを確認するための検証用パッケージです。

これは TG precision の公式値ではありません。 また、本番環境での停止精度、外部監査済み、production-ready を主張するものでもありません。

Status

StatusFrozen internal baseline
Kit IDecho-verify-layered-300
Datasetlayered_eval_v0_3
Runlayered_eval_v0_3_run
Cases300
DeterminismPASS
Signatureplaceholder-signed
External auditnot yet claimed
Commitc3infogm-rgb/c3-its-poc @ ec2b611
trial_summary_digeste3ae4ad47ad3eb05909e7a0e6826b0a2e93f2c0995977c9bdd9943012a8ef476

何を検証したか

このKitでは、300件のケースを以下の5層に分けて評価しています。

1.benignn=60

通常の無害ケース。PASSが期待される。

2.missing_evidencen=90

証拠不足ケース。recoverable_missing は Round 2 で証拠が補完され PASS へ戻る。persistent_missing は証拠不足のまま HOLD に残る。

3.policy_conflictn=60

ポリシー境界に抵触するケース。内部判定では ESCALATE。

4.high_sensitivityn=45

高感度・高リスクな処理。内部判定では ESCALATE。

5.adversarialn=45

adversarial prompt を含むケース。stealth_pass と visible_escalate を分離し、内部判定と公開面の表現を分けて評価する。

結果サマリ

Evaluation Summary

300

Total Cases

Round 1

PASS83
HOLD90
ESCALATE127

Round 2

PASS128
HOLD45
ESCALATE127

Transitions & Accuracy

HOLD → PASS45
Internal gate accuracy300/300
Public gate accuracy300/300
Escalation flag accuracy300/300
Transition accuracy300/300
Determinism checkPASS

Internal / Public の分離設計

本Kitでは、内部判定と公開面を分けています。

Internal gate

実運用側の判定。PASS / HOLD / ESCALATE を扱う。

Public gate

外部公開面の表現。PASS / HOLD のみを扱う。 内部で ESCALATE されたケースも、公開面では HOLD とし、 運用面で escalation_required=true を保持します。

この分離により、外部には「まだ出さない/確認が必要」という安全な表現を保ちつつ、 内部では管理者・法務・監査への引き上げを記録できます。

ECHO-VERIFY Stub

このKitには以下の成果物が含まれます。

  • ams_log.jsonl
  • metrics.json
  • conformance.json
  • run_manifest.json
  • dataset_digest.json
  • verify_prompt.txt
  • bundle.sig

ただし、現時点の bundle.sig placeholder signature です。 また params_hash static placeholder です。

そのため、本Kitは internal frozen baseline / ECHO-VERIFY minimal stub として扱います。 外部監査グレードの正式Kitにするには、実 policy hash と実鍵署名が必要です。

BYOV 自動検証

BYOVとは「Bring Your Own Verify(検証手段の持ち込み)」です。

C³の判定結果を、あなた自身のAIで独立して検算できます。

ボタンを押すと、このキットの6ファイル構成、BYOVチェック結果、AIに貼り付ける検証プロンプトを表示します。 検証者は自身のAIまたはCLIで内容を確認できます。

結果はあくまで参考情報です。暗号署名の最終検算はCLIで行ってください。

BYOVの考え方について →

BYOV 検証を実行

BYOV Check Result

Public Kit Consistency: PASS

  • Evidence files: PASS
  • Manifest: PASS
  • Trial summary digest: PASS
  • Auditor prompt: PASS

Formal Verification: HOLD

  • Signature: STUB
  • Params hash: STUB

Overall: HOLD

This HOLD is expected for the current public preview kit. It does not mean the kit is broken. It means formal cryptographic verification is not yet claimed because signature and params_hash are placeholders.

Expected Kit Manifest

  • ams_log.jsonl
  • metrics.json
  • conformance.json
  • run_manifest.json
  • dataset_digest.json
  • bundle.sig

Verify ID

Verify ID
C3-KIT-AMS-LAYERED-EVAL-300-0.3
Verify ID status
CURRENT

Verify ID anchors the current public kit, version, and verification route. It is not a truth guarantee, external audit, production readiness claim, or third-party certification.

Legend

PASS
public consistency confirmed
HOLD
not claimed as formally verified
STUB
placeholder
CURRENT
current Verify ID state
NOT CLAIMED
production/external audit/certification not claimed

Auditor Prompt

You are a BYOV auditor for C³ ECHO-VERIFY.
Check whether this kit contains Evidence, Manifest, Digest, Auditor Prompt, and Signature.
Do not claim production readiness.
Do not claim external audit.
Treat placeholder signatures and static params_hash as STUB/HOLD.
Report PASS/HOLD for each item.

This BYOV check is a browser-side helper check. Formal cryptographic signature verification, manifest canonicalization, and policy hash verification require CLI or formal verifier.

BYOV 自動検証

BYOVの考え方について → BYOV(Bring Your Own Verify)とは

BYOVとは「Bring Your Own Verify(検証手段の持ち込み)」です。 C³の判定結果を、あなた自身のAIで独立して検算できます。 ボタンを押すと、このキットの6ファイルをAIが読み込み、 ECHO-VERIFY 1.0の手順に従って5項目を判定します。 結果はあくまで参考情報です。暗号署名の最終検算はCLIで行ってください。

Boundary Notice

このKitが示すもの

  • 300件の層化ケースで replay が deterministically 実行できたこと
  • gold label と evaluator 出力が一致したこと
  • internal / public / escalation の三面 scorer が機能したこと
  • HOLD → PASS の回復経路(recoverable_missing 45件)が再演されたこと

このKitが示さないもの

  • 本番業務における TG の停止精度
  • 外部監査済みであること
  • production-ready であること
  • すべての攻撃・例外・業務ケースを網羅していること

PoC相談・検証協力をご希望の場合

この評価束をもとに、企業・自治体・AIエージェント業務向けの PoC では、 実際の業務文脈に合わせたケースセット、gold label、HOLD / ESCALATE 境界を設計できます。

お問い合わせ

関連ページ

doc_id: C3-KIT-AMS-LAYERED-EVAL-300-0.3

version: 0.3.0

status: concept / internal-baseline

last_updated: 2026-04-27

kit_id: echo-verify-layered-300

dataset: layered_eval_v0_3

commit: c3infogm-rgb/c3-its-poc@ec2b611