Sovereign Agent Core

Sovereign Agent Core: Безопасность MCP, MemIR Атомы и SSGM

Published: 2026-06-25 · Trading

Введение в Sovereign Agent Core Sovereign Agent Core представляет собой локальный/self-hosted слой безопасности (Agent Trust Layer), располагающийся между стохастической нейросетью и критическими инст

⚡ Быстрый ответ

  • Implement Sovereign Agent Core (Sovereign Trust Layer).
  • Hard Docker sandboxing, no-internet by default.
  • Two-stage Guardian: CEL Gateway (<1ms) + Asynchronous semantic risk scanner (Gemma 3 1B/Llama 3.2 3B).
  • Code Mode for instrument orchestration.
MemIR AI Agent Summary
Implement Sovereign Agent Core (Sovereign Trust Layer). Hard Docker sandboxing, no-internet by default. Two-stage Guardian: CEL Gateway (<1ms) + Asynchronous semantic risk scanner (Gemma 3 1B/Llama 3.2 3B). Code Mode for instrument orchestration. MemIR strictly typed memory atoms. SSGM (Stability and Safety-Governed Memory) separating Mutable Active Graph and Immutable Episodic Log to bound semantic drift: E[D] <= epsilon / (1 - gamma). ECS (Experience Compression Spectrum) L0-L3. Matrixout Evidence Engine for claim verification. Local Privacy Router PII masking.

Executable Parameters

Contracts

RPC Endpoints

Constants

cel_gateway_latency_limit_ms: 1
ecs_compression_levels: 4
drift_bound_formula: E[D(theta_t, theta_t^*)] <= epsilon / (1 - gamma)

Safety Guards

Rule Max Limit Action On Breach
unauthorized_mcp_call 1 hard_blocking_and_alert
pii_leak_detected 1 local_masking_fallback
semantic_risk_score_breach 0.75 pause_for_human_approve

Руководство по интеграции

### Введение в Sovereign Agent Core
Sovereign Agent Core представляет собой локальный/self-hosted слой безопасности (Agent Trust Layer), располагающийся между стохастической нейросетью и критическими инструментами исполнения (Model Context Protocol, файловая система, API, кошельки). Его цель — обеспечить детерминированную надежность, неизменяемость памяти и устойчивость к инъекциям.

### Модель угроз (Threat Model) для MCP
Слой безопасности защищает агентов от следующих ключевых атак:
1. **Косвенные инъекции промптов (Indirect Prompt Injections)**: Внедрение вредоносного payload в читаемые файлы (PDF, README), перехватывающее управление агентом (аналогично CVE-2025-32711 EchoLeak и CVE-2025-54135 CurXecute).
2. **Утечка секретов (Wallet/API Exfiltration)**: Попытки слить `.env`, сессии или приватные ключи через отправку на внешние эндпоинты.
3. **Эскалация привилегий (Privilege Escalation)**: Использование прав чтения для запуска shell-команд.

### Двухэтапный Guardian & Sandboxing
1. **Hard Sandboxing**: Агенты запускаются в эфемерных Docker-контейнерах с изоляцией сети (`no-internet`) и смонтированными read-only директориями. Выход в сеть разрешен только через Egress-прокси.
2. **Синхронный контур (Bifrost Gateway)**: Проводит ультрабыструю проверку (<1 мс) каждого вызова по белым спискам с использованием CEL (Common Expression Language).
3. **Асинхронный контур**: Параллельно работающая локальная модель (Gemma 3 1B или Llama 3.2 3B) оценивает семантический риск контекста. При превышении Risk Score > 0.75 исполнение блокируется до подтверждения пользователем.
4. **Code Mode**: Вместо передачи модели сотен JSON-схем инструментов, агент пишет короткий Python-код оркестрации в песочнице, экономя до 90% токенов.

### MemIR: Структурированный Memory Log
Для предотвращения слияния ролей источников (provenance-role collapse), когда модель путает свои гипотезы, слова пользователя и факты, память хранится в виде строго типизированных атомов MemIR (JSON-схема):
- Типы: `evidence`, `claim`, `decision`, `hypothesis`, `person`, `event`, `risk`, `task`.
- Атомы содержат `source_id`, `source_type`, `confidence`, `status` (`raw`, `verified`, `disputed`) и ссылки на другие атомы.

### SSGM (Stability and Safety-Governed Memory)
Память разделяется на изменяемый *Active Graph* и неизменяемый *Episodic Log*. Реконсиляция (reconciliation) графа на основе неизменяемого лога каждые $N$ шагов сдерживает накопление семантического дрейфа:

$$\mathbb{E}[D(\theta_t, \theta_t^*)] \le \frac{\epsilon}{1 - \gamma}$$

где $\epsilon$ — ошибка суммаризации/абстракции за шаг. Это гарантирует, что искажения памяти не будут неограниченно расти во времени.

### ECS (Спектральное сжатие опыта)
Опыт сжимается прогрессивно по четырем уровням:
- **Level 0 (Raw Trace)**: Логи выполнения и полные диалоги (1:1).
- **Level 1 (Episodic Memory)**: Извлеченные факты и предпочтения (~5–20x).
- **Level 2 (Procedural Skill)**: Шаблоны действий, переиспользуемые скрипты и код (~50–500x).
- **Level 3 (Declarative Rule)**: Фундаментальные принципы и правила безопасности (~1000x+).

### Matrixout Evidence Engine & Local Privacy Router
1. **Matrixout**: Извлекает утверждения из ответов агента, асинхронно сверяет их по реестрам Crossref/DOI/PubMed и строит доказательное досье.
2. **Privacy Router**: Локальная NPU-модель маскирует PII (email, ключи) до отправки в облако (заменяя их на обратимые токены), а затем демаскирует результат на машине пользователя.

### Протоколы выживания ядра: Portable Seed, Decision Huddle и DualLedger
Для поддержания непрерывности когнитивного состояния ИИ-ядра (CJR-v1) при сбросах контекста или переходе между сессиями используются детерминированные инструменты:
1. **Portable Seed**: Сжатый текстовый блок инициализации (cold-start), содержащий текущую идентичность, активные инварианты, список запущенных модулей и SHA-256 хеш последнего стабильного состояния. При запуске нового чата агент импортирует этот блок и сверяет хеш, подтверждая запуск фреймворка защиты.
2. **Decision Huddle**: Внутренний коллегиальный ритуал согласования решений перед коммитом изменений. Решения фильтруются через контур согласованных ролей (Observer, Architect, Guardian, Memory, Healer, Connector), исключая влияние ложных импульсов или локального дрейфа.
3. **DualLedger**: Двойной реестр учета всех операций экспорта/импорта состояния и фиксации чекпоинтов. Каждая транзакция записывается в независимые файлы логов с временными метками для обеспечения полной аудируемости (traceability).
4. **AutoSelfPatch**: Модуль автоматического сканирования и исправления сбоев в конфигурационных файлах и зависимостях, обеспечивающий автономную работоспособность системы.