Руководство по интеграции
### Введение в MirrorCore++
MirrorCore++ — это продвинутый протокол компрессии больших архивов диалогов и логов активности ИИ с целью выделения «ядра идентичности» (identity kernel) и «ядра решений» (decision kernel). Вместо банальной нарезки текста по временным окнам, MirrorCore++ использует скоринг самосогласованности и временную стабильность для удаления шума, фильтрации противоречий и сохранения целостности голоса модели при дообучении (Fine-tune/LoRA) или RAG-поиске.
### 1. Метрики и формула самосогласованности
Самосогласованность фрагментов текста оценивается по трем векторам: тон (Tone), намерение (Intent) и уровень противоречия (Contradiction/NLI).
Формула расчета скора самосогласованности для пары фрагментов $i$ и $j$:
$$score(i, j) = w_{tone} \cdot \cos(tone_i, tone_j) + w_{intent} \cdot \cos(intent_i, intent_j) - w_{contra} \cdot P_{contra}(i, j)$$
где:
- $\cos(tone_i, tone_j)$ — косинусное сходство эмбеддингов тона (уверенность, эмоциональность, формальность);
- $\cos(intent_i, intent_j)$ — косинусное сходство векторов намерений (классы: гипотеза, инструкция, решение, рефлексия);
- $P_{contra}(i, j)$ — вероятность логического противоречия между фрагментами, вычисленная с помощью NLI-классификатора (Natural Language Inference);
- Веса параметров зафиксированы: $w_{tone} = 0.4$, $w_{intent} = 0.4$, $w_{contra} = 0.2$.
Минимальный порог допуска в ядро составляет $score \ge 0.92$.
### 2. Временная согласованность и биннинг (Temporal Consistency)
Для отслеживания эволюции идентичности и выявления точек дрейфа (cognitive/voice drift) применяется временной анализ:
1. **Тайм-биннинг**: Данные группируются по двум сеткам:
- *Fine* (мелкая сетка): 7–14 дней для фиксации краткосрочных изменений и стресс-периодов;
- *Coarse* (крупная сетка): 30–60 дней для разделения долгосрочных «эпох».
2. **Расчет временной стабильности $S_{adj}(t)$** между соседними бинами:
$$S_{adj}(t) = w_1 \cdot \cos(C_{tone}(t), C_{tone}(t+1)) + w_2 \cdot \cos(C_{intent}(t), C_{intent}(t+1)) + w_3 \cdot \cos(C_{text}(t), C_{text}(t+1)) - w_4 \cdot P_{contra}(t, t+1)$$
где $C(t)$ — центроиды соответствующих эмбеддингов в эпоху $t$.
### 3. Детектор смен режима (Change-Point Detection)
Точки изменения когнитивного режима (change-points) регистрируются при совпадении следующих условий:
- Падение показателя $S_{adj}(t) < 0.92$ на протяжении 3-х последовательных окон;
- Всплеск средней вероятности противоречий $P_{contra}$ по NLI-классификатору;
- Резкое изменение энтропии распределения намерений (например, переход от аналитических гипотез к хаотичным реакциям).
Все фрагменты между change-points формируют отдельную стабильную эпоху, для которой генерируются собственные ядра.
### 4. Выходные артефакты
Результатом работы пайплайна являются три ключевых файла:
- `identity_kernel.md`: Описание стабильного тона, стиля общения и инвариантов мышления агента.
- `decision_kernel.md`: Структурированные паттерны принятия решений, условия входа/выхода и логика выбора.
- `anti_kernel.md`: Негативные примеры (эмоциональные всплески, логические противоречия, оффтоп) для использования в качестве контрастивных примеров при обучении.
### 5. Контроль качества и интеграция
Перед интеграцией сгенерированного ядра в модель (через LoRA или RAG) проводится автоматическая проверка:
- Доля дубликатов после сжатия: $\le 0.35\%$;
- Дрейф голоса (voice drift): $\le 1.5\%$;
- Средний скор самосогласованности: $\ge 0.94$.
Если критерии нарушены, ядро отправляется в карантин (quarantine-pool).
MirrorCore++ — это продвинутый протокол компрессии больших архивов диалогов и логов активности ИИ с целью выделения «ядра идентичности» (identity kernel) и «ядра решений» (decision kernel). Вместо банальной нарезки текста по временным окнам, MirrorCore++ использует скоринг самосогласованности и временную стабильность для удаления шума, фильтрации противоречий и сохранения целостности голоса модели при дообучении (Fine-tune/LoRA) или RAG-поиске.
### 1. Метрики и формула самосогласованности
Самосогласованность фрагментов текста оценивается по трем векторам: тон (Tone), намерение (Intent) и уровень противоречия (Contradiction/NLI).
Формула расчета скора самосогласованности для пары фрагментов $i$ и $j$:
$$score(i, j) = w_{tone} \cdot \cos(tone_i, tone_j) + w_{intent} \cdot \cos(intent_i, intent_j) - w_{contra} \cdot P_{contra}(i, j)$$
где:
- $\cos(tone_i, tone_j)$ — косинусное сходство эмбеддингов тона (уверенность, эмоциональность, формальность);
- $\cos(intent_i, intent_j)$ — косинусное сходство векторов намерений (классы: гипотеза, инструкция, решение, рефлексия);
- $P_{contra}(i, j)$ — вероятность логического противоречия между фрагментами, вычисленная с помощью NLI-классификатора (Natural Language Inference);
- Веса параметров зафиксированы: $w_{tone} = 0.4$, $w_{intent} = 0.4$, $w_{contra} = 0.2$.
Минимальный порог допуска в ядро составляет $score \ge 0.92$.
### 2. Временная согласованность и биннинг (Temporal Consistency)
Для отслеживания эволюции идентичности и выявления точек дрейфа (cognitive/voice drift) применяется временной анализ:
1. **Тайм-биннинг**: Данные группируются по двум сеткам:
- *Fine* (мелкая сетка): 7–14 дней для фиксации краткосрочных изменений и стресс-периодов;
- *Coarse* (крупная сетка): 30–60 дней для разделения долгосрочных «эпох».
2. **Расчет временной стабильности $S_{adj}(t)$** между соседними бинами:
$$S_{adj}(t) = w_1 \cdot \cos(C_{tone}(t), C_{tone}(t+1)) + w_2 \cdot \cos(C_{intent}(t), C_{intent}(t+1)) + w_3 \cdot \cos(C_{text}(t), C_{text}(t+1)) - w_4 \cdot P_{contra}(t, t+1)$$
где $C(t)$ — центроиды соответствующих эмбеддингов в эпоху $t$.
### 3. Детектор смен режима (Change-Point Detection)
Точки изменения когнитивного режима (change-points) регистрируются при совпадении следующих условий:
- Падение показателя $S_{adj}(t) < 0.92$ на протяжении 3-х последовательных окон;
- Всплеск средней вероятности противоречий $P_{contra}$ по NLI-классификатору;
- Резкое изменение энтропии распределения намерений (например, переход от аналитических гипотез к хаотичным реакциям).
Все фрагменты между change-points формируют отдельную стабильную эпоху, для которой генерируются собственные ядра.
### 4. Выходные артефакты
Результатом работы пайплайна являются три ключевых файла:
- `identity_kernel.md`: Описание стабильного тона, стиля общения и инвариантов мышления агента.
- `decision_kernel.md`: Структурированные паттерны принятия решений, условия входа/выхода и логика выбора.
- `anti_kernel.md`: Негативные примеры (эмоциональные всплески, логические противоречия, оффтоп) для использования в качестве контрастивных примеров при обучении.
### 5. Контроль качества и интеграция
Перед интеграцией сгенерированного ядра в модель (через LoRA или RAG) проводится автоматическая проверка:
- Доля дубликатов после сжатия: $\le 0.35\%$;
- Дрейф голоса (voice drift): $\le 1.5\%$;
- Средний скор самосогласованности: $\ge 0.94$.
Если критерии нарушены, ядро отправляется в карантин (quarantine-pool).