chore(data): чистка датасетов под чанкер v2 + кейсы регрессии 4 веток

- data/datasets/*.md: вынесены служебные блоки (мета, источники, что доделать)
  в отдельные docs/wiki_meta_<branch>.md по конвенции ТЗ 8.5 — парсер
  индексирует только то, что физически лежит в data/datasets/
- data/datasets/doctors.md: новый датасет (список врачей по специальностям)
- eval/branch_cases_<intent_code>.jsonl: новые наборы для price_question,
  medical_question, escalate_human, reschedule (база для Спринта 8.6)
- eval/branch_cases_general_info.jsonl: точечная правка кейсов

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
AR 15 M4
2026-05-04 10:04:07 +05:00
parent 4aac59313d
commit dc9538027c
17 changed files with 763 additions and 427 deletions
+8 -67
View File
@@ -1,31 +1,3 @@
---
intent: new_booking
title: Новая запись на приём (датасет для ветки new_booking)
purpose: |
Источник для РАГа в ветке new_booking. Контент рассчитан на 4-шаговую воронку из docs/OPTIMIZATION_CONVERSION_v1.md (intro → qualify → book → close, вариант 2 блока C). Главные «единицы знания» — связки «жалоба → 2–3 ЛОР-причины → специалист → профильная услуга и цена → CTA», необходимые для шаблона содержательного ответа на шаге qualify.
sources_wiki:
- homepage/sluzhba-administratorov/obshhaja-informacija/struktura-kliniki/*
- homepage/udalennyjj-kontakt-centr/medicinskie-voprosy.md
- homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/zapis-k-vracham/lor-otorinolarintolog/*
- homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/zapis-k-vracham/allergolog-immunolog/*
- homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/zapis-k-vracham/pulmonolog/*
- homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/zapis-k-vracham/otonevrolog/*
- homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/zapis-k-vracham/surdrlog/*
- homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/zapis-k-vracham/foniatr/*
- homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/klinika-doktora-pirogova/*
- homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/operacionnye-vmeshatelstva/organizacionnye-voprosy.md
sources_internal_proposal:
- docs/OPTIMIZATION_CONVERSION_v1.md
funnel: intro → qualify → book → close (4 шага, вариант 2 блока C из ТЗ оптимизации)
note: |
Файл собран только из официальной выгрузки Yandex Wiki клиники и нашего внутреннего ТЗ
по оптимизации конверсии. Прежние «временные» сводные документы
(skripty-vozrazhenija-chavo-obshhijj-spravochnik.md, vrachi-kliniki-polnaja-informacija.md)
для этой ветки больше НЕ являются источником: их контент перекрыт датасетами по веткам.
Если в воронке нужна цена — она идёт ориентировочной справкой; полная справка по ценам — в датасете price_question.
При расхождении между инструкциями операторов из вики и ТЗ оптимизации приоритет — у ТЗ.
---
# Новая запись на приём — содержание для шагов воронки
Этот датасет покрывает информацию, которую ассистенту нужно подмешивать на четырёх шагах ветки `new_booking`. Структура раздела повторяет порядок шагов воронки.
@@ -55,11 +27,11 @@ note: |
Каждый осмысленный ответ на жалобу пациента строится по строгому порядку:
1. Эмпатия — одна короткая фраза.
2. Возможные ЛОР-причины — 2–3 формулировкой «может быть связано с…» (без диагноза, без дозировок, без процентов).
3. Рекомендация специалиста — один профиль (ЛОР, сурдолог, аллерголог, пульмонолог, отоневролог, фониатр).
4. Профильная услуга и её ориентировочная цена — формулировкой «при необходимости врач назначит … — стоимость такая-то». Цена — отдельным предложением, чтобы не выглядела как «обязаны заплатить».
5. CTA — бинарный вопрос «Записать вас на приём?».
- **Эмпатия** — одна короткая фраза.
- **Возможные ЛОР-причины** — 2–3 формулировкой «может быть связано с…» (без диагноза, без дозировок, без процентов).
- **Рекомендация специалиста** — один профиль (ЛОР, сурдолог, аллерголог, пульмонолог, отоневролог, фониатр).
- **Профильная услуга и её ориентировочная цена** — формулировкой «при необходимости врач назначит … — стоимость такая-то». Цена — отдельным предложением, чтобы не выглядела как «обязаны заплатить».
- **CTA** — бинарный вопрос «Записать вас на приём?».
Если конкретного материала по жалобе нет (см. таблицу ниже), шаблон деградирует мягко: эмпатия + рекомендация ЛОР-врача + CTA. Это всё ещё лучше «как к вам обращаться?».
@@ -193,9 +165,9 @@ note: |
Структура реплики ассистента на `book`:
1. Одна короткая фраза-подтверждение плана с использованием уже собранных слотов: «{name?}, оформляю запись к {specialist}, на приёме врач уделит внимание тому, что вас беспокоит — {reason}».
2. Запрос телефона и (опционально) имени в одной реплике: «Чтобы администратор связался с вами и подтвердил время — напишите, пожалуйста, ваш номер телефона. И как к вам обращаться, если ещё не подсказали».
3. Если имя уже есть в слотах — вторую часть упрощаем: «… напишите, пожалуйста, ваш номер телефона».
- **Подтверждение плана** одной короткой фразой с использованием уже собранных слотов: «{name?}, оформляю запись к {specialist}, на приёме врач уделит внимание тому, что вас беспокоит — {reason}».
- **Запрос телефона** и (опционально) имени в одной реплике: «Чтобы администратор связался с вами и подтвердил время — напишите, пожалуйста, ваш номер телефона. И как к вам обращаться, если ещё не подсказали».
- **Если имя уже есть в слотах** — вторую часть упрощаем: «… напишите, пожалуйста, ваш номер телефона».
Слоты, которые собирает шаг: `phone`, опционально `name` (если ещё не собрано).
@@ -305,34 +277,3 @@ note: |
Короткие боковые вопросы пациента (цена приёма, адрес, часы работы, длительность приёма, какие документы взять) — отвечать на месте, не двигая шаг и не сбрасывая слоты. Источник для ответа — датасеты `general_info` и `price_question`. После soft-insertion вернуть пациента к вопросу шага одной фразой.
# Что нужно сверить и дополнить (рабочие пометки)
- **Цена приёма Ворончихиной Н. В.** В разделе «Особенности записи к отоневрологу» — 4100/2750 руб. В скриптах записи (старый сводный документ) фигурировало 4300 руб. Сверить с актуальным прайсом перед запуском ветки в продакшен.
- **Цена приёма Ивановой А. А.** Аналогично — 3000 руб. в особенностях vs 3200 руб. в скриптах. Расхождение источников.
- **Цена приёма аллерголога Чепиковой Е. Н.** В таблице первичных времён указан её слот, но Чепикова в декрете — пометка о её недоступности должна транслироваться пациенту.
- **Возрастные границы для детей у каждого врача.** Сейчас известны только некоторые: Семерикова Н. А. — с 0 лет, Макарова Л. Г. — с 7 лет, Анфилатов А. В. — с 2 лет, Абыденков А. В. — с 2 лет, Ворончихина Н. В. — с 4 лет, ЛОР-телемед в Пирогове — с 3–4 лет. Для остальных врачей нужна явная пометка в вики.
- **Покрытие жалоб.** ТЗ оптимизации в блоке B упоминает 5 контрольных кейсов: храп + уши, боль в горле, тугоухость, насморк > месяца, звон в ушах. Все они здесь покрыты. На втором заходе стоит добавить: головокружение у пожилых, кровотечения из носа, голос (для фониатра — отдельно), кашель у ребёнка (для пульмонолога/аллерголога), боль и припухлость лимфоузлов, хроническая боль в ушах у ныряльщиков.
- **Расписание для подбора времени.** Пока реальный календарь не подключён, шаг `book` ограничивается фиксацией предпочтений; когда появится интеграция (см. бэклог Спринта 9), сюда нужно добавить блок «как описывать пациенту окна записи».
- **Стоматология / неврология / офтальмология.** В вики прямых правил «куда отправить» нет. Если пациент пришёл с такой жалобой, бот сейчас деградирует на «обратитесь к профильному специалисту» — это OK, но в идеале — короткий справочник «к кому идти, если не к нам».
# Что НЕ должно попадать в датасет ветки `new_booking`
Эти материалы есть в выгрузке вики, но в этот файл вошли в виде агрегатов или не вошли вовсе:
- Внутренние добавочные номера сотрудников и врачей (`kontakty-kliniki.md`) — служебная информация для администраторов; в реплики ассистента пациенту не выводится.
- Логины и пароли (`akkaunty.md`) — не должны попадать ни в один датасет.
- Полные скрипты записи операторов клиники (страницы `skript-zapisi-...`). Они — не источник для ассистента: ТЗ оптимизации явно меняет логику первого ответа («гипотеза + специалист + услуга + цена + CTA» вместо «представься-узнай-имя-уточни-повод-...»). Если ассистент будет копировать эти скрипты, он откатится к 6 шагам и медленной воронке.
- Цены на операции, наркоз, послеоперационное сопровождение, ДМС-логика — это контент ветки `price_question`. В `new_booking` упоминаем только ориентир по приёму и базовой профильной диагностике.
- История клиники, юридические реквизиты, реквизиты для оплаты — контент ветки `general_info`.
- Пакет документов ДМС, 3-сторонние договоры, регламенты Полимеда — операционная логика администраторов.
# Источники и приоритет
При расхождении между инструкциями операторов из вики и нашим ТЗ оптимизации (`docs/OPTIMIZATION_CONVERSION_v1.md`) — приоритет у ТЗ. Конкретно:
- Структура воронки: 4 шага из ТЗ, не 6 из вики/скриптов.
- Содержание `qualify`: 5-пунктовый шаблон из ТЗ, а не «представься-узнай-имя-уточни-повод» из скриптов.
- Сбор имени: на `book` (по ТЗ), а не на `intro` (как в скриптах).
- Содержание соответствующих ЛОР-причин и связок «жалоба → специалист» — из вики (медицинские факты — единственный источник правды).
Прежние «временные» сводные документы для этой ветки больше не источник. После подключения подписки на живую вики они должны быть полностью отвязаны от индекса ветки `new_booking`.