Cross-modal evasion and how to defeat it

A research-roadmap taxonomy of cross-modal evasion patterns: cases where each individual modality reads benign but the combination is unsafe. Describes how AEGIS's planned cross-modal surface (v1.1 roadmap) would compose per-modality signal into joint reasoning, with worked examples of audio-visual disagreement, caption-to-image inversion, and metadata-content mismatch. AEGIS v1.0 ships the 6-axis dual-judge rubric; cross-modal joins as a v1.1 surface.

Authors

FrameBright research team

Year

2026

Abstract

A research-roadmap taxonomy of cross-modal evasion patterns: cases where each individual modality reads benign but the combination is unsafe. Describes how AEGIS's planned cross-modal surface (v1.1) would compose per-modality signal into joint reasoning, with worked examples of audio-visual disagreement, caption-to-image inversion, and metadata-content mismatch. Currently in research; AEGIS v1.0 ships the 6-axis dual-judge rubric (Gemini 3 Pro + Claude Haiku 4.5).

Status

Research note · full PDF pending. This page is the canonical abstract for now. The complete paper publishes once we finalize external review and distribution; this page links to it on the same URL when ready. Subscribe for release alerts via contact · research interest.

Abstract

Status

Related research