3 Commits

Author SHA1 Message Date
AR 15 M4 4aac59313d feat(sprint8.5+8.6): чанкер v2 (иерархия H1/H2/H3) + регрессия 4 веток в UI
Sprint 8.5 — чанкер v2 (services/document_processor.py):
- markdown-it-py для md-входа: каждый H2 открывает свою секцию, H3 идёт в тело
- множественные H1 — штатный кейс (new_booking.md = 8 H1, шаги воронки + группы);
  H1 без H2 → секция heading=H1; преамбула H1 (тело до первого H2) игнорируется
- YAML frontmatter (--- ... ---) отрезается, в индекс не попадает
- breadcrumb «## {H2}» как первая строка каждого subchunk'а
- merge коротких хвостов и sentence-overlap — только внутри одной H2-секции
- excluded_section_headings в config.py
- 17 unit-тестов на stdlib unittest (tests/test_document_processor_v2.py),
  включая smoke по реальным general_info.md (тимпанометрия → правильная секция)
  и new_booking.md (защита от регрессии множественных H1)
- ТЗ: docs/CHUNKER_v2_TZ.md

Sprint 8.6 — регрессия остальных 4 веток (static/regression.html):
- 4 опции в селекторе режима: branch:price_question (40 кейсов),
  branch:medical_question (29), branch:escalate_human (14), branch:reschedule (16)
- бэкенд из 8b уже параметрический — правок в сервисе не потребовалось
- new_booking вне скоупа — state-machine, под него отдельный 8c (multi-turn)

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-04 09:59:12 +05:00
AR 15 M4 75048bb88e feat(sprint2): инфраструктура БД — SQLAlchemy 2.0 async + Alembic
Первый кусок Спринта 2: подключаем SQLite через SQLAlchemy 2.0 (async,
ORM-стиль) и Alembic для миграций. Схема выбрана под будущий рост —
в threads сразу заведены nullable user_id и agent_config_id, чтобы
Спринты 3+ не тащили миграции задним числом.

- requirements.txt: sqlalchemy[asyncio]==2.0.36, aiosqlite==0.20.0,
  alembic==1.14.0.
- config: database_url + sqlite_path (./data/sqlite/app.db).
- db/base.py: DeclarativeBase; db/session.py: async engine,
  async_sessionmaker, get_session — FastAPI-dependency.
- db/models/Thread: id, name, user_id?, agent_config_id?, created_at,
  updated_at; relationship messages с cascade all, delete-orphan.
- db/models/Message: id, thread_id FK CASCADE, role, text, sources_json,
  assembled_prompt, created_at.
- Alembic инициализирован через async-шаблон, env.py доработан:
  sys.path, url из settings, target_metadata = Base.metadata.
- Начальная миграция e7199587be4b применена, таблицы threads/messages
  с индексами на FK и nullable-колонки созданы в data/sqlite/app.db.
- .gitignore: исключаем data/sqlite/ (БД — артефакт, не исходник).

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-23 10:05:10 +05:00
AR 15 M4 a7f78d71b2 feat: Спринт 1 — RAG-ядро, загрузка wiki и Debug UI
FastAPI + ChromaDB + E5-large + DeepSeek по паттерну work-pcs-dr-cdss,
адаптированному под пациентский контекст:

- services: embeddings (E5-large с префиксами), vectorstore (коллекция
  operators_wiki), document_processor (PDF/DOCX/TXT/MD + чанкер с FAQ-
  паттерном под wiki), llm_client (системный промпт ассистента клиники),
  rag_pipeline (одиночный вопрос → retrieval → ответ).
- routers: /health, /documents (upload, list, chunks, delete), /query.
- static/index.html: шапка со статусом, блок базы знаний с раскрытием
  чанков по клику, блок тест-вопроса с 3-колоночным ответом
  (чанки со score / собранный промпт / ответ LLM).
- Порт 8003 (8001 занят CDSS, 8002 — voicenote).

E2E проверен: загрузка wiki_test.md → 2 чанка, вопрос «как записать
ребёнка к лору?» → top score 84.8%, корректный ответ DeepSeek.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-22 14:57:34 +05:00