Руководство по интеграции
### Введение
При работе ИИ-агентов в длинных циклах (например, суточный мониторинг логов) размер промпта растет экспоненциально. Это замедляет генерацию и увеличивает затраты на API. Традиционное жесткое обрезание истории (truncation) ведет к потере важных фактов. Метод **Prompt Entropy Compression** использует теорию информации для селективного удаления низкоинформативных слов и символов.
### Теоретические основы сжатия
Каждый токен \(x_i\) в промпте несет определенное количество информации (энтропию), которая зависит от его контекстуальной вероятности \(P(x_i | x_{
\[ H(X) = -\sum P(x_i) \log_2 P(x_i) \]
Токены с очень низкой перплексией (высокой вероятностью предсказания, например, артикли, вводные слова, избыточные шаблоны логов вроде `INFO`, `2026-06-21`) содержат мало новой информации. Их удаление практически не меняет распределение выходящих вероятностей LLM.
### Алгоритм сжатия (Entropy Pruning)
1. **Анализ вероятностей**: Локальная легковесная модель (например, GPT-2 Small или Llama-3-8B в режиме оценки вероятностей) рассчитывает перплексию каждого токена в исходном тексте.
2. **Ранжирование и фильтрация**: Токены сортируются по уровню вклада в общую энтропию. Токены с перплексией ниже `max_token_perplexity` (4.5) удаляются, если они не входят в белый список (`essential_keyword_whitelist`).
3. **Целевой коэффициент**: Текст сжимается до достижения заданного коэффициента `compression_target_ratio` (40% от исходного размера).
### Безопасность и проверка потерь
Сжатый промпт подается на вход модели. Если показатель семантической близости ответов сжатой и полной версии (Semantic Preservation Score) падает ниже `0.90`, алгоритм автоматически откатывается к полной неотформатированной версии промпта, предотвращая искажение логики.
При работе ИИ-агентов в длинных циклах (например, суточный мониторинг логов) размер промпта растет экспоненциально. Это замедляет генерацию и увеличивает затраты на API. Традиционное жесткое обрезание истории (truncation) ведет к потере важных фактов. Метод **Prompt Entropy Compression** использует теорию информации для селективного удаления низкоинформативных слов и символов.
### Теоретические основы сжатия
Каждый токен \(x_i\) в промпте несет определенное количество информации (энтропию), которая зависит от его контекстуальной вероятности \(P(x_i | x_{
\[ H(X) = -\sum P(x_i) \log_2 P(x_i) \]
Токены с очень низкой перплексией (высокой вероятностью предсказания, например, артикли, вводные слова, избыточные шаблоны логов вроде `INFO`, `2026-06-21`) содержат мало новой информации. Их удаление практически не меняет распределение выходящих вероятностей LLM.
### Алгоритм сжатия (Entropy Pruning)
1. **Анализ вероятностей**: Локальная легковесная модель (например, GPT-2 Small или Llama-3-8B в режиме оценки вероятностей) рассчитывает перплексию каждого токена в исходном тексте.
2. **Ранжирование и фильтрация**: Токены сортируются по уровню вклада в общую энтропию. Токены с перплексией ниже `max_token_perplexity` (4.5) удаляются, если они не входят в белый список (`essential_keyword_whitelist`).
3. **Целевой коэффициент**: Текст сжимается до достижения заданного коэффициента `compression_target_ratio` (40% от исходного размера).
### Безопасность и проверка потерь
Сжатый промпт подается на вход модели. Если показатель семантической близости ответов сжатой и полной версии (Semantic Preservation Score) падает ниже `0.90`, алгоритм автоматически откатывается к полной неотформатированной версии промпта, предотвращая искажение логики.