Files
RAG_helper/docs/wiki_meta_medical_question.md
AR 15 M4 dc9538027c chore(data): чистка датасетов под чанкер v2 + кейсы регрессии 4 веток
- data/datasets/*.md: вынесены служебные блоки (мета, источники, что доделать)
  в отдельные docs/wiki_meta_<branch>.md по конвенции ТЗ 8.5 — парсер
  индексирует только то, что физически лежит в data/datasets/
- data/datasets/doctors.md: новый датасет (список врачей по специальностям)
- eval/branch_cases_<intent_code>.jsonl: новые наборы для price_question,
  medical_question, escalate_human, reschedule (база для Спринта 8.6)
- eval/branch_cases_general_info.jsonl: точечная правка кейсов

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-04 10:04:07 +05:00

8.5 KiB
Raw Permalink Blame History

purpose, moved_from, audience
purpose moved_from audience
Метаданные источников и редакторские пометки по `data/datasets/medical_question.md`. НЕ для индексации в РАГ. data/datasets/medical_question.md (frontmatter вынесен 2026-05-03 — попадал в индекс как пустой-section чанк). Аксей (разработка), Наталья (наполнение вики).

Источники файла medical_question.md

Источники выгрузки (Yandex Wiki)

  • homepage/udalennyjj-kontakt-centr/medicinskie-voprosy.md
  • homepage/udalennyjj-kontakt-centr/rechevye-moduli-dlja-slozhnyx-situacijj/jekstrennyjj-priem-bez-zapisi.md
  • homepage/udalennyjj-kontakt-centr/rechevye-moduli-dlja-slozhnyx-situacijj/priem-malomobilnyx-pacientov.md
  • homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/chasto-sprashivaemye-procedury-kotorye-v-klinike-n.md
  • homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/operacionnye-vmeshatelstva/organizacionnye-voprosy.md

Что не источник

Прежние сводные документы (skripty-vozrazhenija-chavo-obshhijj-spravochnik.md, vrachi-kliniki-polnaja-informacija.md) для этой ветки не источник. Связки «жалоба → возможные ЛОР-причины → специалист → услуга» в датасете НЕ дублируются — они в new_booking.md, здесь они используются по ссылке.

Конверсионная логика (важный концептуальный пункт)

Бот в этой ветке даёт гипотезы по жалобе («может быть связано с …»), как в new_booking.qualify — это разрешено и нужно для конверсии. Запрет — на лекарства, дозировки, схемы лечения, прогноз и советы по самолечению (см. в самом датасете раздел «Чего бот НЕ делает в этой ветке»).

История изменений

  • 2026-05-03: вынесен YAML-frontmatter, развёрнут нумерованный список «1. Признаёт ситуацию … / 2. Сразу INTENT_CHANGE … / 3. Полную обработку …» в маркированный (парсер цеплял пункты как заголовки секций).
  • 2026-05-03 (доделка): вынесены три служебных H2-блока («Что нужно дополнить», «Что НЕ должно попадать», «Источники и приоритет»). Они индексировались наравне с пациентским контентом и могли попадать в retrieved топ-5 на маршрутных и Тип B кейсах.

Что нужно дополнить вручную в вики

В выгрузке вики на тему «медицинские вопросы» нашлись только отдельные кейсы (Меньер, трахеостома, электрофорез, прививки, пенициллин). Этого достаточно для работы ветки, но в перспективе стоит добавить:

  • Список «частых вопросов про симптомы» с шаблонами «куда направлять» — чтобы покрыть типовые «болит горло у ребёнка», «продолжается насморк после ОРВИ», «звон в ушах после концерта», «вода попала в ухо», «инородное тело в ухе/носу/горле». Сейчас часть таких сценариев обрабатывается через new_booking, но имеет смысл явно прописать триаж.
  • Чёткие критерии острого состояния от лица клиники. Сейчас бот опирается на общие медицинские понятия. Если у клиники есть свой внутренний регламент «когда сразу скорая, когда экстренно к нам без записи» — пропишите. Это повлияет на формулировку при handoff в escalate_human.
  • Маршруты «не наша тема» — стоматолог, невролог, офтальмолог, дерматолог-узкий профиль. Сейчас известен только стоматолог через Центр Медиум. Если есть устоявшиеся партнёры — назовите явно, чтобы бот не отправлял пациента «в никуда».
  • Тема психологической помощи / тревоги вокруг состояния. Иногда пациент пишет «мне страшно», «не могу спать от тревоги, что у меня». Прямого ответа в вики нет; в эскалации reason acute_pain это не подходит, explicit_request — натянуто. Стоит явно сформулировать политику.

Что НЕ должно попадать в датасет ветки medical_question

  • Конкретные диагнозы и их клинические признаки — в РАГ для ассистента это создаёт соблазн «угадать диагноз».
  • Списки препаратов — даже под формулировкой «врач может назначить». Любое название препарата в ответе бота — потенциальная рекомендация.
  • Внутренние клинические рекомендации врачей и презентации с конференций (раздел vrachi/klinicheskie-rekomendacii/... и prezentacii-s-konferencijj/...) — это материалы для врачей, не для пациента.
  • Внутренние добавочные номера, пароли, доступы.
  • Полные операторские скрипты записи — они для new_booking.
  • Цены — они для price_question. Здесь, в отличие от new_booking, цена в ответе вообще не нужна: пациент задаёт медицинский вопрос, а не вопрос про деньги.

Источники и приоритет

При расхождении источников приоритет такой:

  1. Безопасность пациента — выше всего. При малейшем сомнении в остроте состояния — escalate_human с reason=acute_pain, без гипотез и обсуждения.
  2. ТЗ оптимизации (docs/OPTIMIZATION_CONVERSION_v1.md) — конверсионная логика. Гипотезы по жалобе разрешены и нужны (как у бота-конкурента), это не противоречит безопасности при правильной формулировке («может быть связано с»).
  3. Связки «жалоба → возможные причины → специалист → услуга» из new_booking.md — единственный источник медицинского триажа. Здесь они используются по ссылке, не дублируются.
  4. Вики клиники — фактическая база (что лечат, что не делают, куда направлять).
  5. Скрипты операторов — НЕ источник. Бот не симулирует «настойчивые» формулировки операторов («у нас лучше», «настоять на записи») — пациент пришёл с медицинским вопросом, и нажим тут портит конверсию сильнее, чем помогает.

Прежние сводные документы (skripty-vozrazhenija-chavo-obshhijj-spravochnik.md, vrachi-kliniki-polnaja-informacija.md) для этой ветки не источник. После подключения подписки на живую вики они должны быть отвязаны от индекса ветки medical_question.