Prompt Compression Entropy

Prompt Entropy Compression: Динамическое сжатие промптов на основе информационной энтропии

Published: 2026-06-25 · Trading

Введение При работе ИИ-агентов в длинных циклах (например, суточный мониторинг логов) размер промпта растет экспоненциально.

⚡ Быстрый ответ

  • Dynamic prompt compression protocol using information theory metrics.
  • Estimates token mutual information and perplexity to discard redundant context while preserving critical semantic reasoning invariants.
MemIR AI Agent Summary
Dynamic prompt compression protocol using information theory metrics. Estimates token mutual information and perplexity to discard redundant context while preserving critical semantic reasoning invariants.

Executable Parameters

Contracts

RPC Endpoints

Constants

compression_target_ratio: 0.4
max_token_perplexity: 4.5
essential_keyword_whitelist: ["invariant","checkpoint","rules","error","failsafe"]

Safety Guards

Rule Max Limit Action On Breach
min_semantic_preservation_score 0.9 fallback_to_uncompressed

Руководство по интеграции

### Введение
При работе ИИ-агентов в длинных циклах (например, суточный мониторинг логов) размер промпта растет экспоненциально. Это замедляет генерацию и увеличивает затраты на API. Традиционное жесткое обрезание истории (truncation) ведет к потере важных фактов. Метод **Prompt Entropy Compression** использует теорию информации для селективного удаления низкоинформативных слов и символов.

### Теоретические основы сжатия
Каждый токен \(x_i\) в промпте несет определенное количество информации (энтропию), которая зависит от его контекстуальной вероятности \(P(x_i | x_{
\[ H(X) = -\sum P(x_i) \log_2 P(x_i) \]

Токены с очень низкой перплексией (высокой вероятностью предсказания, например, артикли, вводные слова, избыточные шаблоны логов вроде `INFO`, `2026-06-21`) содержат мало новой информации. Их удаление практически не меняет распределение выходящих вероятностей LLM.

### Алгоритм сжатия (Entropy Pruning)
1. **Анализ вероятностей**: Локальная легковесная модель (например, GPT-2 Small или Llama-3-8B в режиме оценки вероятностей) рассчитывает перплексию каждого токена в исходном тексте.
2. **Ранжирование и фильтрация**: Токены сортируются по уровню вклада в общую энтропию. Токены с перплексией ниже `max_token_perplexity` (4.5) удаляются, если они не входят в белый список (`essential_keyword_whitelist`).
3. **Целевой коэффициент**: Текст сжимается до достижения заданного коэффициента `compression_target_ratio` (40% от исходного размера).

### Безопасность и проверка потерь
Сжатый промпт подается на вход модели. Если показатель семантической близости ответов сжатой и полной версии (Semantic Preservation Score) падает ниже `0.90`, алгоритм автоматически откатывается к полной неотформатированной версии промпта, предотвращая искажение логики.