Files
RAG_helper/docs/wiki_meta_general_info.md
AR 15 M4 dc9538027c chore(data): чистка датасетов под чанкер v2 + кейсы регрессии 4 веток
- data/datasets/*.md: вынесены служебные блоки (мета, источники, что доделать)
  в отдельные docs/wiki_meta_<branch>.md по конвенции ТЗ 8.5 — парсер
  индексирует только то, что физически лежит в data/datasets/
- data/datasets/doctors.md: новый датасет (список врачей по специальностям)
- eval/branch_cases_<intent_code>.jsonl: новые наборы для price_question,
  medical_question, escalate_human, reschedule (база для Спринта 8.6)
- eval/branch_cases_general_info.jsonl: точечная правка кейсов

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-04 10:04:07 +05:00

82 lines
12 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
purpose: Рабочие пометки редактора по содержимому датасета общей ветки. НЕ для индексации в РАГ.
moved_from: data/datasets/general_info.md (раздел вынесен 2026-05-03 после фейла регрессии — мета-секции попадали в retrieved топ-5 и вытесняли реальный контент).
audience: Аксей (разработка), Наталья (наполнение вики).
---
# Источники и история файла general_info.md
Раньше эта информация лежала в YAML-frontmatter самого `general_info.md`. Парсер её не отрезал, и она попадала в индекс как два пустых-section мусорных чанка. Перенесена сюда 2026-05-03.
## Источники выгрузки
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/obshhaja-informacija/kak-dobratsja-do-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/obshhaja-informacija/istorija-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/sluzhba-administratorov/rekvizity-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/obshhaja-informacija/kontakty-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/obshhaja-informacija/preimushhestva-nashejj-kliniki.md
- Ya_wiki_kugn/out/yandex-wiki-catalog/homepage/udalennyjj-kontakt-centr/organizacionnye-voprosy/klinika-doktora-pirogova/obshhaja-informacija-klinika-doktora-pirogova.md
- Ya_wiki_kugn/vrachi-kliniki-svodnyj-spisok.md
- Ya_wiki_kugn/skripty-vozrazhenija-chavo-obshhijj-spravochnik.md
## История изменений
- **2026-05-02** (Н. Кузнецова): режим работы всех филиалов, ТГ-бот, мобильное приложение, актуальный e-mail, закрытие филиала в Краснокамске (окончательно, не временно).
- **2026-05-03** (правка после фейла регрессии): вынесен мета-блок «Анализ материалов вики» сюда; раздел «Направления приёма» расширен FAQ-формулировками для процедур (тимпанометрия, эндоскопия, спирография и т.д.); список «способов получения справки 3-НДФЛ» переведён с нумерованного на маркированный, чтобы парсер не делал из «1. Лично», «3. Клиника отправляет…» отдельные секции.
# Анализ материалов вики и предложения по дополнению
Раздел носит технический характер — это рабочие пометки для последующего наполнения. В РАГ-ответы пациенту он не должен попадать. Хранится отдельно от `data/datasets/`, чтобы не индексироваться.
## Что уверенно покрыто из выгрузки
- Адреса двух действующих филиалов (Цеткин и Газеты Звезда). Краснокамск (Пирогова) закрыт — упоминается одной строкой как закрытый, без активных контактов.
- Телефонные линии для пациентов.
- Транспорт и пеший маршрут до Цеткин и Газеты Звезда.
- Парковка в Перми.
- **Режим работы всех филиалов** (добавлено вручную 2026-05-02 со слов оператора).
- Список врачей по специальностям (из сводного файла `vrachi-kliniki-svodnyj-spisok.md`).
- **Способы записи** — телефон, Telegram-бот, мобильное приложение «Ухо Горло Нос» (RuStore).
- **Справка для налогового вычета** — процедура заказа, состав заявки, сроки, способы получения.
- История клиники, имени Оленевой.
- Юридические реквизиты.
- Список процедур, которые в клинике не проводятся.
- **Диагностика и процедуры на приёме** (добавлено 2026-05-03 в ответ на фейлы регрессии): эндоскопия ЛОР-органов, тимпанометрия, спирография, промывание носа, удаление серных пробок, ЛОР-операции — оформлены как FAQ-абзацы внутри раздела «Направления приёма».
## Что в выгрузке отсутствует или скудно — стоит дополнить вручную в вики
- **Wi-Fi.** Системный промпт ветки явно ожидает ответ на вопрос «есть ли Wi-Fi». В вики этого нет.
- **Доступная среда / маломобильные пациенты.** В выгрузке есть алгоритм действий администратора при обращении маломобильных, но нет короткой пациент-ориентированной заметки: есть ли пандус, лифт, как лучше подъехать.
- **Детский приём.** Понятно, что детей принимают, но нет короткой страницы «детский ЛОР»: с какого возраста, кто из врачей принимает детей, что взять с собой кроме базовых документов.
- **Подготовка к приёму по специальностям.** Для аллерголога, отоневролога, сурдолога есть нюансы (отмена антигистаминных перед аллерго-тестом и т. п.). Сейчас всё разбросано по скриптам записи — стоит свести в одну страницу «Подготовка к приёму».
- **Ориентиры и фото входа.** Для Цеткин и Газеты Звезда нет фотографий входа и подробных ориентиров. Для патчат-сценария «не могу найти вход» это полезно.
- **Платежи и ДМС в общем виде.** Какие способы оплаты принимаются (карта, наличные, СБП), кратко про ДМС-партнёров. Детально это уйдёт в ветку `price_question`, но в общей справке нужна одна-две фразы.
- **Время приёма по умолчанию.** Сколько обычно длится первичный приём ЛОРа, аллерголога. Пациенты часто спрашивают «во сколько успею».
- **Отмена и перенос.** Короткое правило «как отменить запись» (полноценно — в ветке `reschedule`, но ссылка-минимум полезна и в общей).
- **Прочие документы по итогам приёма.** Заключение, выписка, больничный — что выдают и в какой форме (справка ФНС теперь покрыта отдельным разделом).
- **Праздничные дни.** Режим работы 1 января, 8 марта, 9 мая и т. д. — пациенты регулярно спрашивают, в датасете явно не указано.
- **КТ височных костей** — фейл в регрессии 2026-05-02. Сейчас не понятно: делаем ли, и если нет — куда направляем.
- **Кожные аллергопробы** (на животных, бытовые аллергены) — фейл в регрессии. Нужно явное «да/нет» и список доступных аллергенов либо границы.
- **Услуга по настройке слухового аппарата** — фейл в регрессии. Сурдоакустик в направлениях есть, но прямого ответа «настраиваем уже купленный аппарат» / «только подбираем новый» в датасете нет.
- **Поиск назначений врача в приложении** — пациент спросил «есть ли приложение, где можно посмотреть назначение врача». В описании приложения сейчас нет пункта про назначения; либо подтвердить, что это запланировано, либо отрицать явно.
- **График врачей** (например, «график у Терво С. О.»). В общем датасете список врачей есть, графиков работы по конкретному специалисту — нет. Нужно решить: либо добавлять, либо явно роутить такие вопросы на оператора.
## Что НЕ должно попадать в датасет общей ветки (но есть в вики)
При следующих итерациях нужно явно отфильтровать при автообновлении:
- Внутренние добавочные номера сотрудников и врачей (из `kontakty-kliniki.md`) — это служебная информация для администраторов, пациенту озвучивать нельзя.
- Логины и пароли почтовых ящиков и сервисов (из `akkaunty.md`) — это явная утечка, такие страницы вообще не должны попадать в РАГ.
- Цены, скидки, ДМС — отдельная ветка `price_question`, в общей не должны звучать.
- Скрипты записи и работы с возражениями — это контент для веток `new_booking` и `escalate_human`.
## Предложение по структуре подписки
Когда мультиагент будет подписан на живую вики, имеет смысл хранить датасеты не одним файлом, а блоком файлов под каждую ветку, например: `data/datasets/general_info/*.md`. Тогда:
- Каждый файл = одна страница вики (адрес, режим, врачи, преимущества и т. д.).
- При обновлении страницы в вики обновляется ровно один файл, индекс пересобирается локально.
- Чувствительные страницы (пароли, добавочные) можно явно занести в чёрный список фильтра подписки.
Текущий единый файл — временный формат для тестирования первой версии РАГа в ветке `general_info`.