Files
RAG_helper/docs/wiki_meta_price_question.md
AR 15 M4 dc9538027c chore(data): чистка датасетов под чанкер v2 + кейсы регрессии 4 веток
- data/datasets/*.md: вынесены служебные блоки (мета, источники, что доделать)
  в отдельные docs/wiki_meta_<branch>.md по конвенции ТЗ 8.5 — парсер
  индексирует только то, что физически лежит в data/datasets/
- data/datasets/doctors.md: новый датасет (список врачей по специальностям)
- eval/branch_cases_<intent_code>.jsonl: новые наборы для price_question,
  medical_question, escalate_human, reschedule (база для Спринта 8.6)
- eval/branch_cases_general_info.jsonl: точечная правка кейсов

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-04 10:04:07 +05:00

9.2 KiB

purpose, moved_from, audience
purpose moved_from audience
Рабочие пометки редактора по содержимому датасета ценовой ветки. НЕ для индексации в РАГ. data/datasets/price_question.md (раздел вынесен 2026-05-03 — мета-секции попадали в индекс наравне с прайсом и засоряли retrieved топ-5). Аксей (разработка), Наталья (наполнение вики).

Источники и история файла price_question.md

Раньше эта информация лежала в YAML-frontmatter самого price_question.md. Парсер её не отрезал, и она попадала в индекс как чанк с пустым section. Перенесена сюда 2026-05-03.

Источники выгрузки

  • Ya_wiki_kugn/skripty-vozrazhenija-chavo-obshhijj-spravochnik.md
  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/pacienty-po-dms/_index.md
  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/pacienty-po-dms/straxovye-kompanii-e3e86a.md
  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/pacienty-po-dms/pacienty-po-3x-storonnemu-dogovoru.md
  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/operacionnye-vmeshatelstva/*
  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/diagnostika/*
  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/kt-issledovanija/*
  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/klinika-doktora-pirogova/* (исторический источник; филиал закрыт в 2026 году, прайс убран из активной части датасета)
  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/zapis-k-otonevrologu/blokada/*

История изменений

  • 2026-05-02 (Н. Кузнецова): закрытие филиала Пирогова в Краснокамске; прайс этого филиала убран из активной части.
  • 2026-05-03: вынесен мета-блок «Анализ материалов и пометки для дополнения» сюда; вынесен YAML-frontmatter (он попадал в индекс как пустой-section чанк).

Анализ материалов и пометки для дополнения

Что покрыто из выгрузки уверенно

  • Цены на приёмы у ЛОР, аллерголога, пульмонолога, отоневролога, сурдолога, телемед-приёмов.
  • Скидка 50% по направлению, цена приёма «со скидкой».
  • Полный набор стоимостей операций ЛОР-профиля.
  • Анестезия, пребывание в палате, послеоперационное сопровождение.
  • Прайс на КТ ЛОР-органов и «Дент», ОПТГ, ТРГ, доп. услуги КТ-центра.
  • Стандартные диагностики (аудиометрия, тимпанометрия, спирография и т. д.).
  • Лечебные процедуры (промывания, блокады, инъекции).
  • Слуховые аппараты и расходники.
  • Способы оплаты (наличные, терминал), список ДМС-партнёров.
  • Логика 3-стороннего договора.

Что нужно дополнить вручную в вики

  • Прайс на анализы (МедЛабЭкспресс). В выгрузке нет конкретных сумм по позициям — есть только цены на сам забор. Стоит прикрепить актуальный прайс.
  • Справка ФНС / налоговый вычет. Раздел в вики есть, но в выгрузке отсутствует. Нужен короткий блок: за какой период оформляется, сколько по времени готовится, нужна ли оплата за услугу.
  • СБП. Уточнить, принимается ли оплата через Систему быстрых платежей или только нал/карта по терминалу.
  • Скидки. В выгрузке только «50% по направлению на лечебную процедуру». Если есть скидки пенсионерам, многодетным, сотрудникам, постоянным пациентам — отдельно прописать; иначе при вопросе ассистент будет каждый раз говорить «уточню у оператора».
  • Услуги, бывшие только в Пирогова. После закрытия филиала из активного датасета убраны: цены семейного врача, телемед-приёма ЛОР/аллерголога, дерматолога, косметолога, УЗИ, ЭКГ, профосмотра, инъекций в процедурном кабинете, промывания серных пробок (550 ₽). Если эти услуги планируется оказывать в пермских филиалах — нужно явно прописать новые прайсы; иначе бот честно отвечает «филиал закрыт» и эскалирует.
  • Расхождение по наркозу для аденотомии. В разделе «Структура звонка по аденотомии» (скрипты записи) указана стоимость наркоза 16500 руб., а на странице самой аденотомии — 21500 руб. Возможно, это устаревшая цена в одном из источников. Нужно сверить с актуальным прайсом и поправить в вики, иначе ассистент будет давать разные ответы в зависимости от того, какой кусок выгрузки попадёт в контекст.
  • Цена аллерголога-иммунолога повторного приёма (очный). В выгрузке указана стоимость только первичного очного приёма (2400 руб.). Для пульмонолога и ЛОРа повторный тоже отдельно не зафиксирован.
  • Эндоскопия как самостоятельная диагностика. На странице эндоскопии есть две цены — 900 руб. и 12100 руб., вторая выглядит как опечатка или комплексный код. В этом файле я взял 900 руб. как основное; стоит сверить с прайсом.

Что НЕ должно попадать в датасет ветки price_question (но есть в вики)

  • Внутренние пароли и доступы (akkaunty.md) — в РАГ не попадают вообще.
  • Внутренние добавочные номера сотрудников (kontakty-kliniki.md) — это для администраторов, пациенту не озвучиваются.
  • Скрипты разговоров и работы с возражениями целиком — это контент для веток new_booking и обучения операторов; в price_question уходят только конечные суммы.
  • Логика «Полимед», движение карт ДМС, работа с архивом — операционные детали для администраторов.
  • Адреса/режим/телефоны без привязки к ценам — это уже в датасете ветки general_info.

Структура для будущей подписки

Когда мультиагент будет подписан на живую вики, цены логично хранить в виде набора файлов: price_question/priemy.md, price_question/diagnostika.md, price_question/operacii.md, price_question/dms.md. Тогда обновление одной страницы прайса не будет триггерить переиндексирование всего датасета. Также имеет смысл выделить отдельный файл-«источник правды» по прайсу клиники (например, экспорт из 1С/CRM) и при пересборке индекса автоматически разрешать конфликты в пользу этого файла, а не описаний из вики.

Текущий единый файл — временный формат для тестирования первой версии РАГа в ветке price_question.