RAG_helper

arazor72/RAG_helper

Fork 0

Commit Graph

Author	SHA1	Message	Date
AR 15 M4	4aac59313d	feat(sprint8.5+8.6): чанкер v2 (иерархия H1/H2/H3) + регрессия 4 веток в UI Sprint 8.5 — чанкер v2 (services/document_processor.py): - markdown-it-py для md-входа: каждый H2 открывает свою секцию, H3 идёт в тело - множественные H1 — штатный кейс (new_booking.md = 8 H1, шаги воронки + группы); H1 без H2 → секция heading=H1; преамбула H1 (тело до первого H2) игнорируется - YAML frontmatter (--- ... ---) отрезается, в индекс не попадает - breadcrumb «## {H2}» как первая строка каждого subchunk'а - merge коротких хвостов и sentence-overlap — только внутри одной H2-секции - excluded_section_headings в config.py - 17 unit-тестов на stdlib unittest (tests/test_document_processor_v2.py), включая smoke по реальным general_info.md (тимпанометрия → правильная секция) и new_booking.md (защита от регрессии множественных H1) - ТЗ: docs/CHUNKER_v2_TZ.md Sprint 8.6 — регрессия остальных 4 веток (static/regression.html): - 4 опции в селекторе режима: branch:price_question (40 кейсов), branch:medical_question (29), branch:escalate_human (14), branch:reschedule (16) - бэкенд из 8b уже параметрический — правок в сервисе не потребовалось - new_booking вне скоупа — state-machine, под него отдельный 8c (multi-turn) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 09:59:12 +05:00
AR 15 M4	e534a74460	feat(sprint2.5): чистка чанков и переиндексация Чанкер тащил в базу markdown-мусор: навигационные блоки «Вернуться на:» со списками ссылок, инлайн-ссылки [текст](url) в теле, служебные пометки _Источник: .../file.md_, лишние пустые строки. Всё это ело контекст LLM и засоряло правую панель отладки. - services/text_cleanup: clean_markdown_text — удаляет навигационные строки, строки-только-ссылки (обычно это меню), служебные _Источник:_, раскрывает инлайн-ссылки [x](url) → x, сжимает 3+ переносов до 2. - services/document_processor: process_document теперь возвращает (id, raw_text, sections, chunks); чистку применяем к заголовкам и телам секций; чанки короче 20 символов выбрасываем с пересчётом индексов. Вспомогательная rechunk_raw_text — для переиндексации. Чтобы переиндексировать без повторной загрузки файла, нужен исходный текст. Вводим отдельный слой: - новая таблица SQLite documents (id, name, file_type, raw_text, created_at, updated_at) + миграция Alembic 7ee7296ccd6d. - db/models/Document + регистрация в db.models.__init__. - services/document_service: save/get/list/delete для raw_text. - routers/documents.upload: сохраняет raw_text в SQLite перед индексацией в Chroma; delete убирает и из SQLite, и из Chroma. - Новые эндпоинты POST /documents/{id}/reindex и POST /documents/reindex-all — берут raw_text из SQLite, пропускают через rechunk_raw_text, заменяют чанки в Chroma. Существующие 4 документа были перезалиты вручную (решение: не делать одноразовый backfill, проще залить заново). Старая Chroma очищена, новые чанки прошли через чистку — мусор ушёл. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-23 11:15:08 +05:00
AR 15 M4	a7f78d71b2	feat: Спринт 1 — RAG-ядро, загрузка wiki и Debug UI FastAPI + ChromaDB + E5-large + DeepSeek по паттерну work-pcs-dr-cdss, адаптированному под пациентский контекст: - services: embeddings (E5-large с префиксами), vectorstore (коллекция operators_wiki), document_processor (PDF/DOCX/TXT/MD + чанкер с FAQ- паттерном под wiki), llm_client (системный промпт ассистента клиники), rag_pipeline (одиночный вопрос → retrieval → ответ). - routers: /health, /documents (upload, list, chunks, delete), /query. - static/index.html: шапка со статусом, блок базы знаний с раскрытием чанков по клику, блок тест-вопроса с 3-колоночным ответом (чанки со score / собранный промпт / ответ LLM). - Порт 8003 (8001 занят CDSS, 8002 — voicenote). E2E проверен: загрузка wiki_test.md → 2 чанка, вопрос «как записать ребёнка к лору?» → top score 84.8%, корректный ответ DeepSeek. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 14:57:34 +05:00

Author

SHA1

Message

Date

AR 15 M4

4aac59313d

feat(sprint8.5+8.6): чанкер v2 (иерархия H1/H2/H3) + регрессия 4 веток в UI

Sprint 8.5 — чанкер v2 (services/document_processor.py):
- markdown-it-py для md-входа: каждый H2 открывает свою секцию, H3 идёт в тело
- множественные H1 — штатный кейс (new_booking.md = 8 H1, шаги воронки + группы);
  H1 без H2 → секция heading=H1; преамбула H1 (тело до первого H2) игнорируется
- YAML frontmatter (--- ... ---) отрезается, в индекс не попадает
- breadcrumb «## {H2}» как первая строка каждого subchunk'а
- merge коротких хвостов и sentence-overlap — только внутри одной H2-секции
- excluded_section_headings в config.py
- 17 unit-тестов на stdlib unittest (tests/test_document_processor_v2.py),
  включая smoke по реальным general_info.md (тимпанометрия → правильная секция)
  и new_booking.md (защита от регрессии множественных H1)
- ТЗ: docs/CHUNKER_v2_TZ.md

Sprint 8.6 — регрессия остальных 4 веток (static/regression.html):
- 4 опции в селекторе режима: branch:price_question (40 кейсов),
  branch:medical_question (29), branch:escalate_human (14), branch:reschedule (16)
- бэкенд из 8b уже параметрический — правок в сервисе не потребовалось
- new_booking вне скоупа — state-machine, под него отдельный 8c (multi-turn)

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-05-04 09:59:12 +05:00

AR 15 M4

e534a74460

feat(sprint2.5): чистка чанков и переиндексация

Чанкер тащил в базу markdown-мусор: навигационные блоки «Вернуться на:»
со списками ссылок, инлайн-ссылки [текст](url) в теле, служебные
пометки _Источник: .../file.md_, лишние пустые строки. Всё это ело
контекст LLM и засоряло правую панель отладки.

- services/text_cleanup: clean_markdown_text — удаляет навигационные
  строки, строки-только-ссылки (обычно это меню), служебные _Источник:_,
  раскрывает инлайн-ссылки [x](url) → x, сжимает 3+ переносов до 2.
- services/document_processor: process_document теперь возвращает
  (id, raw_text, sections, chunks); чистку применяем к заголовкам и
  телам секций; чанки короче 20 символов выбрасываем с пересчётом
  индексов. Вспомогательная rechunk_raw_text — для переиндексации.

Чтобы переиндексировать без повторной загрузки файла, нужен исходный
текст. Вводим отдельный слой:
- новая таблица SQLite documents (id, name, file_type, raw_text,
  created_at, updated_at) + миграция Alembic 7ee7296ccd6d.
- db/models/Document + регистрация в db.models.__init__.
- services/document_service: save/get/list/delete для raw_text.
- routers/documents.upload: сохраняет raw_text в SQLite перед
  индексацией в Chroma; delete убирает и из SQLite, и из Chroma.
- Новые эндпоинты POST /documents/{id}/reindex и
  POST /documents/reindex-all — берут raw_text из SQLite, пропускают
  через rechunk_raw_text, заменяют чанки в Chroma.

Существующие 4 документа были перезалиты вручную (решение: не делать
одноразовый backfill, проще залить заново). Старая Chroma очищена,
новые чанки прошли через чистку — мусор ушёл.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-04-23 11:15:08 +05:00

AR 15 M4

a7f78d71b2

feat: Спринт 1 — RAG-ядро, загрузка wiki и Debug UI

FastAPI + ChromaDB + E5-large + DeepSeek по паттерну work-pcs-dr-cdss,
адаптированному под пациентский контекст:

- services: embeddings (E5-large с префиксами), vectorstore (коллекция
  operators_wiki), document_processor (PDF/DOCX/TXT/MD + чанкер с FAQ-
  паттерном под wiki), llm_client (системный промпт ассистента клиники),
  rag_pipeline (одиночный вопрос → retrieval → ответ).
- routers: /health, /documents (upload, list, chunks, delete), /query.
- static/index.html: шапка со статусом, блок базы знаний с раскрытием
  чанков по клику, блок тест-вопроса с 3-колоночным ответом
  (чанки со score / собранный промпт / ответ LLM).
- Порт 8003 (8001 занят CDSS, 8002 — voicenote).

E2E проверен: загрузка wiki_test.md → 2 чанка, вопрос «как записать
ребёнка к лору?» → top score 84.8%, корректный ответ DeepSeek.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-04-22 14:57:34 +05:00

3 Commits