LLM Guard в OpenWebUI: защита ПДн в корпоративном ChatGPT

Задача

Компания развернула Digital Mentor — корпоративный ChatGPT на базе OpenWebUI. Сотрудники начали активно использовать его для работы: анализ документов, ответы на вопросы, генерация текстов.

Быстро выяснилось: для качественных ответов нужны облачные модели — GPT-4.1, Claude, Gemini. Но IT-политика компании запрещала передавать персональные данные клиентов и сотрудников во внешние сервисы. Промпты содержали реальные ФИО, контакты, ИИН.

Нужно было решение, которое работает прозрачно — пользователи продолжают работать в привычном интерфейсе, а ПДн не уходят наружу.

Стек технологий

LLM Guard OpenWebUI Python FastAPI Presidio spaCy Natasha

Результат

Сотрудники используют GPT-4.1 через привычный интерфейс. ПДн автоматически маскируются до отправки и восстанавливаются в ответе. IT-департамент получил полный аудит-лог.

Решение

Мы развернули LLM Guard как прозрачный прокси между OpenWebUI и облачными LLM-провайдерами. OpenWebUI настроен так, чтобы все запросы к внешним моделям шли через LLM Guard — это один параметр в конфигурации без изменения пользовательского интерфейса.

Путь запроса через систему

flowchart TD U["Сотрудник в OpenWebUI вводит промпт с ФИО клиента"] --> OW["OpenWebUI (Digital Mentor)"] OW --> LG["LLM Guard прокси"] LG --> AN["Анонимизация: ФИО → PERSON_1 тел → PHONE_1 ИИН → IIN_1"] AN --> PR["LLM-провайдер GPT-4.1 / Claude"] PR --> DE["Деанонимизация: PERSON_1 → реальное ФИО"] DE --> OW2["Ответ в OpenWebUI с реальными данными"] LG --> AL[("Аудит-лог: что найдено, что замаскировано")]

Что получила компания

Нулевые изменения для пользователей. Интерфейс OpenWebUI остался тем же. Сотрудники не заметили разницы, кроме того, что теперь доступны GPT-4.1 и Claude.
Compliance по IT-политике. ПДн не передаются в облако в открытом виде. IT-служба закрыла вопрос с безопасностью.
Аудит-лог для ИБ. Каждый запрос логируется: какие типы ПДн были обнаружены, какое действие предпринято, задержка обработки.
Деанонимизация работает прозрачно. GPT возвращает ответ с плейсхолдерами — LLM Guard подставляет реальные значения до отображения пользователю.

Технические особенности

Уровень 2 (NLP) для основных задач. Presidio + Natasha распознают ФИО, организации, адреса на русском языке без LLM-вызовов — быстро и без дополнительных затрат.
Уровень 3 по требованию. Для чувствительных каналов включается LLM-анализ контекста — ловит косвенные идентификаторы.
Маппинг плейсхолдеров. Связь «плейсхолдер ↔ оригинал» хранится в SQLite с TTL — сессия завершилась, маппинг удалён.
Интеграция за 1 день. Конфигурация OpenWebUI: один URL в настройках провайдера. Больше ничего не менялось.

← Предыдущий: Акты сверки Следующий: LLM Guard для юристов →

Защита персональных данных в корпоративном ChatGPT