chore(data): чистка датасетов под чанкер v2 + кейсы регрессии 4 веток

- data/datasets/*.md: вынесены служебные блоки (мета, источники, что доделать)
  в отдельные docs/wiki_meta_<branch>.md по конвенции ТЗ 8.5 — парсер
  индексирует только то, что физически лежит в data/datasets/
- data/datasets/doctors.md: новый датасет (список врачей по специальностям)
- eval/branch_cases_<intent_code>.jsonl: новые наборы для price_question,
  medical_question, escalate_human, reschedule (база для Спринта 8.6)
- eval/branch_cases_general_info.jsonl: точечная правка кейсов

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
AR 15 M4
2026-05-04 10:04:07 +05:00
parent 4aac59313d
commit dc9538027c
17 changed files with 763 additions and 427 deletions
+81
View File
@@ -0,0 +1,81 @@
---
purpose: Рабочие пометки редактора по содержимому датасета общей ветки. НЕ для индексации в РАГ.
moved_from: data/datasets/general_info.md (раздел вынесен 2026-05-03 после фейла регрессии — мета-секции попадали в retrieved топ-5 и вытесняли реальный контент).
audience: Аксей (разработка), Наталья (наполнение вики).
---
# Источники и история файла general_info.md
Раньше эта информация лежала в YAML-frontmatter самого `general_info.md`. Парсер её не отрезал, и она попадала в индекс как два пустых-section мусорных чанка. Перенесена сюда 2026-05-03.
## Источники выгрузки
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/obshhaja-informacija/kak-dobratsja-do-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/obshhaja-informacija/istorija-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/rekvizity-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/obshhaja-informacija/kontakty-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/obshhaja-informacija/preimushhestva-nashejj-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/klinika-doktora-pirogova/obshhaja-informacija-klinika-doktora-pirogova.md
- Ya_wiki_kugn/vrachi-kliniki-svodnyj-spisok.md
- Ya_wiki_kugn/skripty-vozrazhenija-chavo-obshhijj-spravochnik.md
## История изменений
- **2026-05-02** (Н. Кузнецова): режим работы всех филиалов, ТГ-бот, мобильное приложение, актуальный e-mail, закрытие филиала в Краснокамске (окончательно, не временно).
- **2026-05-03** (правка после фейла регрессии): вынесен мета-блок «Анализ материалов вики» сюда; раздел «Направления приёма» расширен FAQ-формулировками для процедур (тимпанометрия, эндоскопия, спирография и т.д.); список «способов получения справки 3-НДФЛ» переведён с нумерованного на маркированный, чтобы парсер не делал из «1. Лично», «3. Клиника отправляет…» отдельные секции.
# Анализ материалов вики и предложения по дополнению
Раздел носит технический характер — это рабочие пометки для последующего наполнения. В РАГ-ответы пациенту он не должен попадать. Хранится отдельно от `data/datasets/`, чтобы не индексироваться.
## Что уверенно покрыто из выгрузки
- Адреса двух действующих филиалов (Цеткин и Газеты Звезда). Краснокамск (Пирогова) закрыт — упоминается одной строкой как закрытый, без активных контактов.
- Телефонные линии для пациентов.
- Транспорт и пеший маршрут до Цеткин и Газеты Звезда.
- Парковка в Перми.
- **Режим работы всех филиалов** (добавлено вручную 2026-05-02 со слов оператора).
- Список врачей по специальностям (из сводного файла `vrachi-kliniki-svodnyj-spisok.md`).
- **Способы записи** — телефон, Telegram-бот, мобильное приложение «Ухо Горло Нос» (RuStore).
- **Справка для налогового вычета** — процедура заказа, состав заявки, сроки, способы получения.
- История клиники, имени Оленевой.
- Юридические реквизиты.
- Список процедур, которые в клинике не проводятся.
- **Диагностика и процедуры на приёме** (добавлено 2026-05-03 в ответ на фейлы регрессии): эндоскопия ЛОР-органов, тимпанометрия, спирография, промывание носа, удаление серных пробок, ЛОР-операции — оформлены как FAQ-абзацы внутри раздела «Направления приёма».
## Что в выгрузке отсутствует или скудно — стоит дополнить вручную в вики
- **Wi-Fi.** Системный промпт ветки явно ожидает ответ на вопрос «есть ли Wi-Fi». В вики этого нет.
- **Доступная среда / маломобильные пациенты.** В выгрузке есть алгоритм действий администратора при обращении маломобильных, но нет короткой пациент-ориентированной заметки: есть ли пандус, лифт, как лучше подъехать.
- **Детский приём.** Понятно, что детей принимают, но нет короткой страницы «детский ЛОР»: с какого возраста, кто из врачей принимает детей, что взять с собой кроме базовых документов.
- **Подготовка к приёму по специальностям.** Для аллерголога, отоневролога, сурдолога есть нюансы (отмена антигистаминных перед аллерго-тестом и т. п.). Сейчас всё разбросано по скриптам записи — стоит свести в одну страницу «Подготовка к приёму».
- **Ориентиры и фото входа.** Для Цеткин и Газеты Звезда нет фотографий входа и подробных ориентиров. Для патчат-сценария «не могу найти вход» это полезно.
- **Платежи и ДМС в общем виде.** Какие способы оплаты принимаются (карта, наличные, СБП), кратко про ДМС-партнёров. Детально это уйдёт в ветку `price_question`, но в общей справке нужна одна-две фразы.
- **Время приёма по умолчанию.** Сколько обычно длится первичный приём ЛОРа, аллерголога. Пациенты часто спрашивают «во сколько успею».
- **Отмена и перенос.** Короткое правило «как отменить запись» (полноценно — в ветке `reschedule`, но ссылка-минимум полезна и в общей).
- **Прочие документы по итогам приёма.** Заключение, выписка, больничный — что выдают и в какой форме (справка ФНС теперь покрыта отдельным разделом).
- **Праздничные дни.** Режим работы 1 января, 8 марта, 9 мая и т. д. — пациенты регулярно спрашивают, в датасете явно не указано.
- **КТ височных костей** — фейл в регрессии 2026-05-02. Сейчас не понятно: делаем ли, и если нет — куда направляем.
- **Кожные аллергопробы** (на животных, бытовые аллергены) — фейл в регрессии. Нужно явное «да/нет» и список доступных аллергенов либо границы.
- **Услуга по настройке слухового аппарата** — фейл в регрессии. Сурдоакустик в направлениях есть, но прямого ответа «настраиваем уже купленный аппарат» / «только подбираем новый» в датасете нет.
- **Поиск назначений врача в приложении** — пациент спросил «есть ли приложение, где можно посмотреть назначение врача». В описании приложения сейчас нет пункта про назначения; либо подтвердить, что это запланировано, либо отрицать явно.
- **График врачей** (например, «график у Терво С. О.»). В общем датасете список врачей есть, графиков работы по конкретному специалисту — нет. Нужно решить: либо добавлять, либо явно роутить такие вопросы на оператора.
## Что НЕ должно попадать в датасет общей ветки (но есть в вики)
При следующих итерациях нужно явно отфильтровать при автообновлении:
- Внутренние добавочные номера сотрудников и врачей (из `kontakty-kliniki.md`) — это служебная информация для администраторов, пациенту озвучивать нельзя.
- Логины и пароли почтовых ящиков и сервисов (из `akkaunty.md`) — это явная утечка, такие страницы вообще не должны попадать в РАГ.
- Цены, скидки, ДМС — отдельная ветка `price_question`, в общей не должны звучать.
- Скрипты записи и работы с возражениями — это контент для веток `new_booking` и `escalate_human`.
## Предложение по структуре подписки
Когда мультиагент будет подписан на живую вики, имеет смысл хранить датасеты не одним файлом, а блоком файлов под каждую ветку, например: `data/datasets/general_info/*.md`. Тогда:
- Каждый файл = одна страница вики (адрес, режим, врачи, преимущества и т. д.).
- При обновлении страницы в вики обновляется ровно один файл, индекс пересобирается локально.
- Чувствительные страницы (пароли, добавочные) можно явно занести в чёрный список фильтра подписки.
Текущий единый файл — временный формат для тестирования первой версии РАГа в ветке `general_info`.