Files
RAG_helper/docs/wiki_meta_general_info.md
T
AR 15 M4 dc9538027c chore(data): чистка датасетов под чанкер v2 + кейсы регрессии 4 веток
- data/datasets/*.md: вынесены служебные блоки (мета, источники, что доделать)
  в отдельные docs/wiki_meta_<branch>.md по конвенции ТЗ 8.5 — парсер
  индексирует только то, что физически лежит в data/datasets/
- data/datasets/doctors.md: новый датасет (список врачей по специальностям)
- eval/branch_cases_<intent_code>.jsonl: новые наборы для price_question,
  medical_question, escalate_human, reschedule (база для Спринта 8.6)
- eval/branch_cases_general_info.jsonl: точечная правка кейсов

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-04 10:04:07 +05:00

12 KiB

purpose, moved_from, audience
purpose moved_from audience
Рабочие пометки редактора по содержимому датасета общей ветки. НЕ для индексации в РАГ. data/datasets/general_info.md (раздел вынесен 2026-05-03 после фейла регрессии — мета-секции попадали в retrieved топ-5 и вытесняли реальный контент). Аксей (разработка), Наталья (наполнение вики).

Источники и история файла general_info.md

Раньше эта информация лежала в YAML-frontmatter самого general_info.md. Парсер её не отрезал, и она попадала в индекс как два пустых-section мусорных чанка. Перенесена сюда 2026-05-03.

Источники выгрузки

  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/obshhaja-informacija/kak-dobratsja-do-kliniki.md
  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/obshhaja-informacija/istorija-kliniki.md
  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/rekvizity-kliniki.md
  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/obshhaja-informacija/kontakty-kliniki.md
  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/obshhaja-informacija/preimushhestva-nashejj-kliniki.md
  • Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/klinika-doktora-pirogova/obshhaja-informacija-klinika-doktora-pirogova.md
  • Ya_wiki_kugn/vrachi-kliniki-svodnyj-spisok.md
  • Ya_wiki_kugn/skripty-vozrazhenija-chavo-obshhijj-spravochnik.md

История изменений

  • 2026-05-02 (Н. Кузнецова): режим работы всех филиалов, ТГ-бот, мобильное приложение, актуальный e-mail, закрытие филиала в Краснокамске (окончательно, не временно).
  • 2026-05-03 (правка после фейла регрессии): вынесен мета-блок «Анализ материалов вики» сюда; раздел «Направления приёма» расширен FAQ-формулировками для процедур (тимпанометрия, эндоскопия, спирография и т.д.); список «способов получения справки 3-НДФЛ» переведён с нумерованного на маркированный, чтобы парсер не делал из «1. Лично», «3. Клиника отправляет…» отдельные секции.

Анализ материалов вики и предложения по дополнению

Раздел носит технический характер — это рабочие пометки для последующего наполнения. В РАГ-ответы пациенту он не должен попадать. Хранится отдельно от data/datasets/, чтобы не индексироваться.

Что уверенно покрыто из выгрузки

  • Адреса двух действующих филиалов (Цеткин и Газеты Звезда). Краснокамск (Пирогова) закрыт — упоминается одной строкой как закрытый, без активных контактов.
  • Телефонные линии для пациентов.
  • Транспорт и пеший маршрут до Цеткин и Газеты Звезда.
  • Парковка в Перми.
  • Режим работы всех филиалов (добавлено вручную 2026-05-02 со слов оператора).
  • Список врачей по специальностям (из сводного файла vrachi-kliniki-svodnyj-spisok.md).
  • Способы записи — телефон, Telegram-бот, мобильное приложение «Ухо Горло Нос» (RuStore).
  • Справка для налогового вычета — процедура заказа, состав заявки, сроки, способы получения.
  • История клиники, имени Оленевой.
  • Юридические реквизиты.
  • Список процедур, которые в клинике не проводятся.
  • Диагностика и процедуры на приёме (добавлено 2026-05-03 в ответ на фейлы регрессии): эндоскопия ЛОР-органов, тимпанометрия, спирография, промывание носа, удаление серных пробок, ЛОР-операции — оформлены как FAQ-абзацы внутри раздела «Направления приёма».

Что в выгрузке отсутствует или скудно — стоит дополнить вручную в вики

  • Wi-Fi. Системный промпт ветки явно ожидает ответ на вопрос «есть ли Wi-Fi». В вики этого нет.
  • Доступная среда / маломобильные пациенты. В выгрузке есть алгоритм действий администратора при обращении маломобильных, но нет короткой пациент-ориентированной заметки: есть ли пандус, лифт, как лучше подъехать.
  • Детский приём. Понятно, что детей принимают, но нет короткой страницы «детский ЛОР»: с какого возраста, кто из врачей принимает детей, что взять с собой кроме базовых документов.
  • Подготовка к приёму по специальностям. Для аллерголога, отоневролога, сурдолога есть нюансы (отмена антигистаминных перед аллерго-тестом и т. п.). Сейчас всё разбросано по скриптам записи — стоит свести в одну страницу «Подготовка к приёму».
  • Ориентиры и фото входа. Для Цеткин и Газеты Звезда нет фотографий входа и подробных ориентиров. Для патчат-сценария «не могу найти вход» это полезно.
  • Платежи и ДМС в общем виде. Какие способы оплаты принимаются (карта, наличные, СБП), кратко про ДМС-партнёров. Детально это уйдёт в ветку price_question, но в общей справке нужна одна-две фразы.
  • Время приёма по умолчанию. Сколько обычно длится первичный приём ЛОРа, аллерголога. Пациенты часто спрашивают «во сколько успею».
  • Отмена и перенос. Короткое правило «как отменить запись» (полноценно — в ветке reschedule, но ссылка-минимум полезна и в общей).
  • Прочие документы по итогам приёма. Заключение, выписка, больничный — что выдают и в какой форме (справка ФНС теперь покрыта отдельным разделом).
  • Праздничные дни. Режим работы 1 января, 8 марта, 9 мая и т. д. — пациенты регулярно спрашивают, в датасете явно не указано.
  • КТ височных костей — фейл в регрессии 2026-05-02. Сейчас не понятно: делаем ли, и если нет — куда направляем.
  • Кожные аллергопробы (на животных, бытовые аллергены) — фейл в регрессии. Нужно явное «да/нет» и список доступных аллергенов либо границы.
  • Услуга по настройке слухового аппарата — фейл в регрессии. Сурдоакустик в направлениях есть, но прямого ответа «настраиваем уже купленный аппарат» / «только подбираем новый» в датасете нет.
  • Поиск назначений врача в приложении — пациент спросил «есть ли приложение, где можно посмотреть назначение врача». В описании приложения сейчас нет пункта про назначения; либо подтвердить, что это запланировано, либо отрицать явно.
  • График врачей (например, «график у Терво С. О.»). В общем датасете список врачей есть, графиков работы по конкретному специалисту — нет. Нужно решить: либо добавлять, либо явно роутить такие вопросы на оператора.

Что НЕ должно попадать в датасет общей ветки (но есть в вики)

При следующих итерациях нужно явно отфильтровать при автообновлении:

  • Внутренние добавочные номера сотрудников и врачей (из kontakty-kliniki.md) — это служебная информация для администраторов, пациенту озвучивать нельзя.
  • Логины и пароли почтовых ящиков и сервисов (из akkaunty.md) — это явная утечка, такие страницы вообще не должны попадать в РАГ.
  • Цены, скидки, ДМС — отдельная ветка price_question, в общей не должны звучать.
  • Скрипты записи и работы с возражениями — это контент для веток new_booking и escalate_human.

Предложение по структуре подписки

Когда мультиагент будет подписан на живую вики, имеет смысл хранить датасеты не одним файлом, а блоком файлов под каждую ветку, например: data/datasets/general_info/*.md. Тогда:

  • Каждый файл = одна страница вики (адрес, режим, врачи, преимущества и т. д.).
  • При обновлении страницы в вики обновляется ровно один файл, индекс пересобирается локально.
  • Чувствительные страницы (пароли, добавочные) можно явно занести в чёрный список фильтра подписки.

Текущий единый файл — временный формат для тестирования первой версии РАГа в ветке general_info.