dc9538027c
- data/datasets/*.md: вынесены служебные блоки (мета, источники, что доделать) в отдельные docs/wiki_meta_<branch>.md по конвенции ТЗ 8.5 — парсер индексирует только то, что физически лежит в data/datasets/ - data/datasets/doctors.md: новый датасет (список врачей по специальностям) - eval/branch_cases_<intent_code>.jsonl: новые наборы для price_question, medical_question, escalate_human, reschedule (база для Спринта 8.6) - eval/branch_cases_general_info.jsonl: точечная правка кейсов Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
12 KiB
12 KiB
purpose, moved_from, audience
| purpose | moved_from | audience |
|---|---|---|
| Рабочие пометки редактора по содержимому датасета общей ветки. НЕ для индексации в РАГ. | data/datasets/general_info.md (раздел вынесен 2026-05-03 после фейла регрессии — мета-секции попадали в retrieved топ-5 и вытесняли реальный контент). | Аксей (разработка), Наталья (наполнение вики). |
Источники и история файла general_info.md
Раньше эта информация лежала в YAML-frontmatter самого general_info.md. Парсер её не отрезал, и она попадала в индекс как два пустых-section мусорных чанка. Перенесена сюда 2026-05-03.
Источники выгрузки
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/obshhaja-informacija/kak-dobratsja-do-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/obshhaja-informacija/istorija-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/rekvizity-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/obshhaja-informacija/kontakty-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/obshhaja-informacija/preimushhestva-nashejj-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/klinika-doktora-pirogova/obshhaja-informacija-klinika-doktora-pirogova.md
- Ya_wiki_kugn/vrachi-kliniki-svodnyj-spisok.md
- Ya_wiki_kugn/skripty-vozrazhenija-chavo-obshhijj-spravochnik.md
История изменений
- 2026-05-02 (Н. Кузнецова): режим работы всех филиалов, ТГ-бот, мобильное приложение, актуальный e-mail, закрытие филиала в Краснокамске (окончательно, не временно).
- 2026-05-03 (правка после фейла регрессии): вынесен мета-блок «Анализ материалов вики» сюда; раздел «Направления приёма» расширен FAQ-формулировками для процедур (тимпанометрия, эндоскопия, спирография и т.д.); список «способов получения справки 3-НДФЛ» переведён с нумерованного на маркированный, чтобы парсер не делал из «1. Лично», «3. Клиника отправляет…» отдельные секции.
Анализ материалов вики и предложения по дополнению
Раздел носит технический характер — это рабочие пометки для последующего наполнения. В РАГ-ответы пациенту он не должен попадать. Хранится отдельно от data/datasets/, чтобы не индексироваться.
Что уверенно покрыто из выгрузки
- Адреса двух действующих филиалов (Цеткин и Газеты Звезда). Краснокамск (Пирогова) закрыт — упоминается одной строкой как закрытый, без активных контактов.
- Телефонные линии для пациентов.
- Транспорт и пеший маршрут до Цеткин и Газеты Звезда.
- Парковка в Перми.
- Режим работы всех филиалов (добавлено вручную 2026-05-02 со слов оператора).
- Список врачей по специальностям (из сводного файла
vrachi-kliniki-svodnyj-spisok.md). - Способы записи — телефон, Telegram-бот, мобильное приложение «Ухо Горло Нос» (RuStore).
- Справка для налогового вычета — процедура заказа, состав заявки, сроки, способы получения.
- История клиники, имени Оленевой.
- Юридические реквизиты.
- Список процедур, которые в клинике не проводятся.
- Диагностика и процедуры на приёме (добавлено 2026-05-03 в ответ на фейлы регрессии): эндоскопия ЛОР-органов, тимпанометрия, спирография, промывание носа, удаление серных пробок, ЛОР-операции — оформлены как FAQ-абзацы внутри раздела «Направления приёма».
Что в выгрузке отсутствует или скудно — стоит дополнить вручную в вики
- Wi-Fi. Системный промпт ветки явно ожидает ответ на вопрос «есть ли Wi-Fi». В вики этого нет.
- Доступная среда / маломобильные пациенты. В выгрузке есть алгоритм действий администратора при обращении маломобильных, но нет короткой пациент-ориентированной заметки: есть ли пандус, лифт, как лучше подъехать.
- Детский приём. Понятно, что детей принимают, но нет короткой страницы «детский ЛОР»: с какого возраста, кто из врачей принимает детей, что взять с собой кроме базовых документов.
- Подготовка к приёму по специальностям. Для аллерголога, отоневролога, сурдолога есть нюансы (отмена антигистаминных перед аллерго-тестом и т. п.). Сейчас всё разбросано по скриптам записи — стоит свести в одну страницу «Подготовка к приёму».
- Ориентиры и фото входа. Для Цеткин и Газеты Звезда нет фотографий входа и подробных ориентиров. Для патчат-сценария «не могу найти вход» это полезно.
- Платежи и ДМС в общем виде. Какие способы оплаты принимаются (карта, наличные, СБП), кратко про ДМС-партнёров. Детально это уйдёт в ветку
price_question, но в общей справке нужна одна-две фразы. - Время приёма по умолчанию. Сколько обычно длится первичный приём ЛОРа, аллерголога. Пациенты часто спрашивают «во сколько успею».
- Отмена и перенос. Короткое правило «как отменить запись» (полноценно — в ветке
reschedule, но ссылка-минимум полезна и в общей). - Прочие документы по итогам приёма. Заключение, выписка, больничный — что выдают и в какой форме (справка ФНС теперь покрыта отдельным разделом).
- Праздничные дни. Режим работы 1 января, 8 марта, 9 мая и т. д. — пациенты регулярно спрашивают, в датасете явно не указано.
- КТ височных костей — фейл в регрессии 2026-05-02. Сейчас не понятно: делаем ли, и если нет — куда направляем.
- Кожные аллергопробы (на животных, бытовые аллергены) — фейл в регрессии. Нужно явное «да/нет» и список доступных аллергенов либо границы.
- Услуга по настройке слухового аппарата — фейл в регрессии. Сурдоакустик в направлениях есть, но прямого ответа «настраиваем уже купленный аппарат» / «только подбираем новый» в датасете нет.
- Поиск назначений врача в приложении — пациент спросил «есть ли приложение, где можно посмотреть назначение врача». В описании приложения сейчас нет пункта про назначения; либо подтвердить, что это запланировано, либо отрицать явно.
- График врачей (например, «график у Терво С. О.»). В общем датасете список врачей есть, графиков работы по конкретному специалисту — нет. Нужно решить: либо добавлять, либо явно роутить такие вопросы на оператора.
Что НЕ должно попадать в датасет общей ветки (но есть в вики)
При следующих итерациях нужно явно отфильтровать при автообновлении:
- Внутренние добавочные номера сотрудников и врачей (из
kontakty-kliniki.md) — это служебная информация для администраторов, пациенту озвучивать нельзя. - Логины и пароли почтовых ящиков и сервисов (из
akkaunty.md) — это явная утечка, такие страницы вообще не должны попадать в РАГ. - Цены, скидки, ДМС — отдельная ветка
price_question, в общей не должны звучать. - Скрипты записи и работы с возражениями — это контент для веток
new_bookingиescalate_human.
Предложение по структуре подписки
Когда мультиагент будет подписан на живую вики, имеет смысл хранить датасеты не одним файлом, а блоком файлов под каждую ветку, например: data/datasets/general_info/*.md. Тогда:
- Каждый файл = одна страница вики (адрес, режим, врачи, преимущества и т. д.).
- При обновлении страницы в вики обновляется ровно один файл, индекс пересобирается локально.
- Чувствительные страницы (пароли, добавочные) можно явно занести в чёрный список фильтра подписки.
Текущий единый файл — временный формат для тестирования первой версии РАГа в ветке general_info.