feat(sprint4): фундамент графа — intents + роутер + переключение веток

Первый шаг графовой архитектуры из GRAPH_ARCHITECTURE.md. Заменили «один активный промпт на всё» на «свой промпт на каждую ветку + роутер выбирает ветку на каждой реплике». Данные: - Новая таблица intents (code, name, description, is_enabled, order_index). Коды с префиксом `_` — системные (не responder). - В agent_configs добавлен intent_id (nullable, FK SET NULL); убрана глобальная уникальность version, вместо неё UniqueConstraint (intent_id, version) — у каждой ветки свой счётчик версий. - В messages добавлен intent_id (nullable, FK) — фиксируем, какую ветку выбрал роутер для каждой реплики. - Миграция cd0a88ef9080 в batch-режиме (SQLite не умеет ALTER для constraints напрямую). Сид: - Стартовые 7 веток: new_booking, reschedule, price_question, medical_question, general_info, escalate_human + `_router` как системная ветка для промпта классификатора. - Для каждой ветки — свой v1-промпт из prompts/intents/{code}.md. - migrate_legacy_config_to_general_info: старый v1 из Спринта 3 (без intent_id) переносится на general_info с сохранением версии. - ensure_seed_intents досиживает недостающие коды, существующие не трогает — безопасно при добавлении новых веток. Оркестрация и роутер: - services/router_client.RouterClient — отдельный класс от LLMClient (под будущую смену модели на более дешёвую). Метод classify(session, history, text) возвращает {code, version}. Промпт классификатора подтягивается из активного конфига ветки `_router`, fallback — prompts/intents/_router.md. При сомнении/ошибке возвращает general_info. - services/chat_service.send_message теперь идёт через router.classify → берёт активный конфиг выбранной ветки → llm.chat. В сообщения пишется intent_id, в треде фиксируется начальный agent_config_id. В ответе — intent_code, intent_name, config_version, router_version. API: - GET /intents, GET /intents/{code}, PATCH /intents/{code} — список веток со счётчиком версий, получение и переключение is_enabled. - /configs теперь требует intent_code как Query-параметр (GET /configs, GET /configs/active) — выборка версий в рамках ветки. POST /configs принимает intent_id. - get_thread_detail JOIN-ит Intent — каждая реплика возвращает intent_code + intent_name. UI: - settings.html переработан в 3-колоночный макет: слева список веток с подгруппой «Системные» для `_router` (пометка «система» вместо свитча), в центре редактор промпта/правил активной версии выбранной ветки, справа список версий с активировать/удалить/загрузить. Каждая ветка редактируется независимо — своя история версий, своя активная. - sandbox.html: у каждой реплики бейдж с intent_code, в отладке новый блок «Решение роутера» (подсвеченный зелёным) с названием ветки, версией её активного конфига и версией промпта роутера. Старый «активная: v1» индикатор убран — он больше не имеет смысла (активная у каждой ветки своя). E2E проверено: разные реплики уходят в корректные ветки, каждая отвечает по своему узкому промпту, промпт роутера редактируется в UI как v2/v3 и откатывается — классификация сразу использует новую версию. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-23 21:20:23 +05:00
parent 2e2f2321c3
commit b24e985f82
25 changed files with 1135 additions and 261 deletions
@@ -0,0 +1,129 @@
+"""LLM-роутер: по последней реплике + короткой истории определяет ветку.
+
+Отдельный класс от LLMClient сознательно — роутер зовётся часто (каждую реплику),
+имеет смысл в будущем перевести на более дешёвую модель (gpt-4o-mini, локальная Qwen).
+Сейчас оба используют DeepSeek.
+
+Системный промпт роутера лежит в БД как активный конфиг ветки `_router`
+(версионируется, редактируется из UI «Настройки»). Если БД недоступна или
+ветки нет — используем fallback из prompts/intents/_router.md.
+"""
+import logging
+import re
+from pathlib import Path
+
+import httpx
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from config import settings
+from services import config_service, intent_service
+
+logger = logging.getLogger(__name__)
+
+_FALLBACK_PROMPT_PATH = Path(__file__).resolve().parent.parent / "prompts" / "intents" / "_router.md"
+
+
+def _load_fallback_prompt() -> str:
+    try:
+        return _FALLBACK_PROMPT_PATH.read_text(encoding="utf-8").strip()
+    except FileNotFoundError:
+        logger.warning("Router fallback prompt not found at %s", _FALLBACK_PROMPT_PATH)
+        return ""
+
+
+FALLBACK_SYSTEM_PROMPT = _load_fallback_prompt()
+
+VALID_CODES = {
+    "new_booking",
+    "reschedule",
+    "price_question",
+    "medical_question",
+    "general_info",
+    "escalate_human",
+}
+
+CODE_RE = re.compile(r"\b(new_booking|reschedule|price_question|medical_question|general_info|escalate_human)\b")
+
+
+class RouterClient:
+    def __init__(
+        self,
+        api_key: str | None = None,
+        model: str | None = None,
+        base_url: str | None = None,
+    ):
+        self.api_key = api_key or settings.deepseek_api_key
+        self.model = model or settings.deepseek_model
+        self.base_url = (base_url or settings.deepseek_base_url).rstrip("/")
+
+    def _format_history(self, history: list[dict], last_n: int = 4) -> str:
+        """Короткая история последних реплик — для контекста классификации."""
+        if not history:
+            return "(предыдущих реплик нет)"
+        tail = history[-last_n:]
+        lines = []
+        for m in tail:
+            role_ru = "Пациент" if m["role"] == "user" else "Ассистент"
+            content = m["content"].replace("\n", " ")[:300]
+            lines.append(f"{role_ru}: {content}")
+        return "\n".join(lines)
+
+    async def _get_system_prompt(self, session: AsyncSession) -> tuple[str, int | None]:
+        """Активный промпт роутера из БД (ветка _router). Возвращает (prompt, version_or_None)."""
+        pair = await config_service.get_active_config_by_intent_code(
+            session, intent_service.ROUTER_INTENT_CODE
+        )
+        if pair is None:
+            return FALLBACK_SYSTEM_PROMPT, None
+        _, cfg = pair
+        return config_service.compose_full_system_prompt(cfg), cfg.version
+
+    async def classify(self, session: AsyncSession, history: list[dict], text: str) -> dict:
+        """Классифицировать реплику. Возвращает {code, version} — версия роутера для отладки.
+
+        При сомнении или парсинг-ошибке — general_info (безопасный fallback).
+        """
+        system_prompt, version = await self._get_system_prompt(session)
+
+        user_message = (
+            f"История последних реплик:\n{self._format_history(history)}\n\n"
+            f"Новая реплика пациента:\n{text}\n\n"
+            f"Код ветки:"
+        )
+
+        url = f"{self.base_url}/chat/completions"
+        payload = {
+            "model": self.model,
+            "messages": [
+                {"role": "system", "content": system_prompt},
+                {"role": "user", "content": user_message},
+            ],
+            "temperature": 0.0,
+            "max_tokens": 20,
+        }
+
+        try:
+            async with httpx.AsyncClient(timeout=30.0) as client:
+                response = await client.post(
+                    url,
+                    json=payload,
+                    headers={
+                        "Authorization": f"Bearer {self.api_key}",
+                        "Content-Type": "application/json",
+                    },
+                )
+                response.raise_for_status()
+                data = response.json()
+        except Exception as e:
+            logger.warning("Router LLM call failed (%s), falling back to general_info", e)
+            return {"code": "general_info", "version": version}
+
+        raw = (data["choices"][0]["message"]["content"] or "").strip()
+        match = CODE_RE.search(raw)
+        if match:
+            code = match.group(1)
+            logger.info("Router v%s: %r → %s", version, text[:80], code)
+            return {"code": code, "version": version}
+
+        logger.warning("Router returned unrecognized response %r, falling back to general_info", raw)
+        return {"code": "general_info", "version": version}