chore(data): чистка датасетов под чанкер v2 + кейсы регрессии 4 веток

- data/datasets/*.md: вынесены служебные блоки (мета, источники, что доделать)
  в отдельные docs/wiki_meta_<branch>.md по конвенции ТЗ 8.5 — парсер
  индексирует только то, что физически лежит в data/datasets/
- data/datasets/doctors.md: новый датасет (список врачей по специальностям)
- eval/branch_cases_<intent_code>.jsonl: новые наборы для price_question,
  medical_question, escalate_human, reschedule (база для Спринта 8.6)
- eval/branch_cases_general_info.jsonl: точечная правка кейсов

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
AR 15 M4
2026-05-04 10:04:07 +05:00
parent 4aac59313d
commit dc9538027c
17 changed files with 763 additions and 427 deletions
-60
View File
@@ -1,21 +1,3 @@
---
intent: price_question
title: Цены и оплата (датасет для ветки price_question)
purpose: Источник для РАГа в ветке price_question — стоимость приёмов, диагностики, процедур, операций, способы оплаты, ДМС.
sources:
- Ya_wiki_kugn/skripty-vozrazhenija-chavo-obshhijj-spravochnik.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/pacienty-po-dms/_index.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/pacienty-po-dms/straxovye-kompanii-e3e86a.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/pacienty-po-dms/pacienty-po-3x-storonnemu-dogovoru.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/operacionnye-vmeshatelstva/*
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/diagnostika/*
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/kt-issledovanija/*
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/klinika-doktora-pirogova/* (исторический источник; филиал закрыт в 2026 году, прайс из активной части датасета убран)
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/zapis-k-otonevrologu/blokada/*
- Уточнения от оператора (Кузнецова Н.) — 2026-05-02: закрытие филиала Пирогова в Краснокамске.
note: Цены собраны из выгрузки Yandex Wiki клиники. После запуска подписки этот файл заменит автоматически обновляемый источник. Все суммы — рубли.
---
# Цены и оплата
## Общие принципы стоимости
@@ -253,45 +235,3 @@ note: Цены собраны из выгрузки Yandex Wiki клиники.
### Можно ли оплатить картой?
Да, в клинике есть терминал. Также принимаются наличные.
---
# Анализ материалов и пометки для дополнения
## Что покрыто из выгрузки уверенно
- Цены на приёмы у ЛОР, аллерголога, пульмонолога, отоневролога, сурдолога, телемед-приёмов.
- Скидка 50% по направлению, цена приёма «со скидкой».
- Полный набор стоимостей операций ЛОР-профиля.
- Анестезия, пребывание в палате, послеоперационное сопровождение.
- Прайс на КТ ЛОР-органов и «Дент», ОПТГ, ТРГ, доп. услуги КТ-центра.
- Стандартные диагностики (аудиометрия, тимпанометрия, спирография и т. д.).
- Лечебные процедуры (промывания, блокады, инъекции).
- Слуховые аппараты и расходники.
- Способы оплаты (наличные, терминал), список ДМС-партнёров.
- Логика 3-стороннего договора.
## Что нужно дополнить вручную в вики
- **Прайс на анализы (МедЛабЭкспресс).** В выгрузке нет конкретных сумм по позициям — есть только цены на сам забор. Стоит прикрепить актуальный прайс.
- **Справка ФНС / налоговый вычет.** Раздел в вики есть, но в выгрузке отсутствует. Нужен короткий блок: за какой период оформляется, сколько по времени готовится, нужна ли оплата за услугу.
- **СБП.** Уточнить, принимается ли оплата через Систему быстрых платежей или только нал/карта по терминалу.
- **Скидки.** В выгрузке только «50% по направлению на лечебную процедуру». Если есть скидки пенсионерам, многодетным, сотрудникам, постоянным пациентам — отдельно прописать; иначе при вопросе ассистент будет каждый раз говорить «уточню у оператора».
- **Услуги, бывшие только в Пирогова.** После закрытия филиала из активного датасета убраны: цены семейного врача, телемед-приёма ЛОР/аллерголога, дерматолога, косметолога, УЗИ, ЭКГ, профосмотра, инъекций в процедурном кабинете, промывания серных пробок (550 ₽). Если эти услуги планируется оказывать в пермских филиалах — нужно явно прописать новые прайсы; иначе бот честно отвечает «филиал закрыт» и эскалирует.
- **Расхождение по наркозу для аденотомии.** В разделе «Структура звонка по аденотомии» (скрипты записи) указана стоимость наркоза 16500 руб., а на странице самой аденотомии — 21500 руб. Возможно, это устаревшая цена в одном из источников. Нужно сверить с актуальным прайсом и поправить в вики, иначе ассистент будет давать разные ответы в зависимости от того, какой кусок выгрузки попадёт в контекст.
- **Цена аллерголога-иммунолога повторного приёма (очный).** В выгрузке указана стоимость только первичного очного приёма (2400 руб.). Для пульмонолога и ЛОРа повторный тоже отдельно не зафиксирован.
- **Эндоскопия как самостоятельная диагностика.** На странице эндоскопии есть две цены — 900 руб. и 12100 руб., вторая выглядит как опечатка или комплексный код. В этом файле я взял 900 руб. как основное; стоит сверить с прайсом.
## Что НЕ должно попадать в датасет ветки price_question (но есть в вики)
- Внутренние пароли и доступы (`akkaunty.md`) — в РАГ не попадают вообще.
- Внутренние добавочные номера сотрудников (`kontakty-kliniki.md`) — это для администраторов, пациенту не озвучиваются.
- Скрипты разговоров и работы с возражениями целиком — это контент для веток `new_booking` и обучения операторов; в `price_question` уходят только конечные суммы.
- Логика «Полимед», движение карт ДМС, работа с архивом — операционные детали для администраторов.
- Адреса/режим/телефоны без привязки к ценам — это уже в датасете ветки `general_info`.
## Структура для будущей подписки
Когда мультиагент будет подписан на живую вики, цены логично хранить в виде набора файлов: `price_question/priemy.md`, `price_question/diagnostika.md`, `price_question/operacii.md`, `price_question/dms.md`. Тогда обновление одной страницы прайса не будет триггерить переиндексирование всего датасета. Также имеет смысл выделить отдельный файл-«источник правды» по прайсу клиники (например, экспорт из 1С/CRM) и при пересборке индекса автоматически разрешать конфликты в пользу этого файла, а не описаний из вики.
Текущий единый файл — временный формат для тестирования первой версии РАГа в ветке `price_question`.