feat(sprint2): диалог с памятью треда — POST /chat + CRUD тредов

Второй кусок Спринта 2: агент теперь помнит контекст. RAG-retrieval делается по последней реплике пациента, в LLM уходит системный промпт + последние 20 сообщений треда + новая реплика + найденные фрагменты. Backend: - services/chat_service: send_message — создаёт тред при необходимости (auto-имя из первой реплики + UTC-дата), сохраняет user-реплику до вызова LLM (чтобы не потерять при сбое), делает retrieval, грузит историю треда (desc/limit 20 → reversed для хронологии), зовёт llm.chat, сохраняет ответ ассистента вместе с sources_json и assembled_prompt, обновляет thread.updated_at. Плюс list_threads с JOIN-выборкой превью первой реплики и счётчика сообщений, get_thread_detail через selectinload, rename_thread, delete_thread (CASCADE на FK делает уборку сообщений автоматически, но explicit delete оставлен для подсчёта удалённых). - services/llm_client.chat: принимает history=[{role, content}, ...], собирает messages = [system, ...history, user-с-RAG]; assembled_prompt дампит всю цепочку в виде [SYSTEM]/[USER]/[ASSISTANT]-блоков для отображения в Debug UI. - routers/chat: POST /chat, обрабатывает LookupError → 404. - routers/threads: GET /threads, GET /threads/{id}, PATCH /threads/{id} (переименовать), DELETE /threads/{id}. - models: ChatRequest, ThreadRenameRequest; ChatResponse, ThreadInfo, ThreadListResponse, ThreadDetailResponse, MessageInfo, ThreadDeleteResponse. Запуск: - В lifespan main.py: автоматический alembic upgrade head через asyncio.to_thread (сам alembic делает asyncio.run внутри, его нельзя звать из уже работающего event loop). LLMClient инициализируется один раз при старте — вместо создания на каждый запрос. E2E проверено: новый тред → агент отвечает и просит представиться; вторая реплика в том же треде — агент помнит контекст; PATCH переименовывает; DELETE удаляет тред с каскадом на сообщения. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-23 10:11:59 +05:00
parent 75048bb88e
commit 3c2657ab99
7 changed files with 490 additions and 2 deletions
@@ -7,3 +7,15 @@ class QueryRequest(BaseModel):
    document_ids: list[str] | None = Field(None, description="Ограничить поиск конкретными документами")
    temperature: float | None = Field(None, ge=0.0, le=2.0)
    max_tokens: int | None = Field(None, ge=100, le=8000)
+
+
+class ChatRequest(BaseModel):
+    text: str = Field(..., description="Реплика пациента")
+    thread_id: int | None = Field(None, description="ID треда; если не передан — создаётся новый")
+    top_k: int = Field(5, ge=1, le=20)
+    temperature: float | None = Field(None, ge=0.0, le=2.0)
+    max_tokens: int | None = Field(None, ge=100, le=8000)
+
+
+class ThreadRenameRequest(BaseModel):
+    name: str = Field(..., min_length=1, max_length=200)
@@ -77,3 +77,49 @@ class HealthResponse(BaseModel):
    embedding_model: str
    documents_count: int
    chunks_count: int
+
+
+class MessageInfo(BaseModel):
+    id: int
+    role: str
+    text: str
+    created_at: str
+    sources: list[SourceInfo] = Field(default_factory=list)
+    assembled_prompt: str = ""
+
+
+class ThreadInfo(BaseModel):
+    id: int
+    name: str
+    created_at: str
+    updated_at: str
+    messages_count: int
+    first_message_preview: str = ""
+
+
+class ThreadListResponse(BaseModel):
+    threads: list[ThreadInfo]
+    total: int
+
+
+class ThreadDetailResponse(BaseModel):
+    id: int
+    name: str
+    created_at: str
+    updated_at: str
+    messages: list[MessageInfo] = Field(default_factory=list)
+
+
+class ChatResponse(BaseModel):
+    thread_id: int
+    thread_name: str
+    message_id: int
+    answer: str
+    sources: list[SourceInfo]
+    model_used: str
+    assembled_prompt: str = ""
+
+
+class ThreadDeleteResponse(BaseModel):
+    ok: bool = True
+    deleted_messages: int