aixis / on-prem-llm

LLM в закрытом контуре компании.

On-prem LLM — это запуск языковых моделей на вашей инфраструктуре, когда данные и запросы не покидают периметр компании. Подходит, когда чувствительные данные нельзя отправлять во внешние API, поток запросов высокий, а к безопасности и доступу есть строгие требования.

Мы проектируем такие системы целиком: self-hosted inference, RAG в закрытом контуре, контроль доступа, мониторинг и интеграции — с возможностью начать с гибридной архитектуры и переносить нагрузку внутрь по мере роста.

Нужен ИИ без передачи данных наружу?

/ разбор требований · 30 минут · go/no-go по архитектуре

$ обсудить кейс →

self-hosted inference
RAG в контуре
152-ФЗ · банковская тайна
контроль доступа
гибридная схема
без выхода в интернет

Когда нужен on-prem.

Регуляторные требования — 152-ФЗ, банковская или врачебная тайна, ГИС: данные не должны уходить во внешние сервисы
Чувствительные данные — договоры, персональные данные, коммерческая тайна, по которым внешняя обработка неприемлема
Высокий и предсказуемый поток — на больших объёмах своя инфраструктура может быть дешевле платы за API
Работа без интернета — закрытый контур, изолированные сети, объекты с ограниченным доступом
Контроль над моделью — фиксированная версия, отсутствие зависимости от изменений внешнего провайдера
Политики безопасности — внутренние требования, запрещающие передачу данных третьим сторонам

Cloud API против self-hosted inference.

Разница не в «лучше/хуже», а в том, где обрабатываются данные и кто отвечает за инфраструктуру.

Cloud API — быстрый старт, нет своей инфраструктуры, оплата за запросы; данные уходят во внешний сервис, версии моделей меняет провайдер
Self-hosted / on-prem — данные остаются в периметре, версия модели под контролем, на объёме дешевле; нужны GPU, эксплуатация и команда
Hybrid — чувствительное обрабатывается внутри, несекретное и пиковое — в облаке через маршрутизацию; баланс скорости старта, стоимости и комплаенса

Архитектура решения.

Модели и inference

Open-source модели под self-hosting через vLLM, llama.cpp или Ollama, с квантизацией и батчингом под целевую нагрузку. Модель подбирается под задачу, а не наоборот.

RAG в закрытом контуре

Локальные embeddings и векторная база (pgvector / Qdrant), retrieval и генерация ответа без выхода данных наружу. Это позволяет строить RAG по базе знаний на чувствительных документах.

Безопасность и права доступа

Изоляция сети, аутентификация и авторизация, права доступа на уровне данных и retrieval, шифрование, журналирование запросов и ответов.

Latency и стоимость инфраструктуры

Конфигурация GPU и память рассчитываются под целевой поток и требования к задержке; стоимость считается per-request и сопоставляется с облаком.

Мониторинг

Метрики latency, throughput, утилизации GPU, доступности и качества ответов; алерты на деградацию и контроль стоимости.

Интеграции

Подключение к внутренним системам и процессам — поддержка, документооборот, риск-операции — через тот же контур. Подробнее об интеграции — на странице интеграция ИИ.

KPI и метрики.

On-prem оценивается по инфраструктурным и риск-метрикам в дополнение к качеству ответов.

Latency (p95)время ответа под нагрузкой

Throughputзапросов и токенов в секунду

Cost per requestстоимость запроса на своей инфраструктуре

Data exposure riskриск выхода данных за периметр

Uptimeдоступность сервиса inference

GPU utilizationзагрузка оборудования

Answer accuracyкачество ответов на eval-датасете

TCOсовокупная стоимость владения vs облако

Риски и ограничения.

Стоимость и эксплуатация — GPU и поддержка инфраструктуры требуют вложений и команды; оправдано на объёме или при жёстком комплаенсе
Качество моделей — на сложных рассуждениях open-source может уступать топовому облаку; проверяется на eval-датасете под задачу
Latency и throughput — зависят от железа; недонастроенная конфигурация даёт очереди и задержки
Галлюцинации — присущи любым LLM; ограничиваются через RAG, guardrails и evals так же, как в облаке
Безопасность — закрытый контур не отменяет необходимости прав доступа, изоляции и журналирования
Fallback-сценарии — при перегрузе или сбое узла нужны резерв, очередь и при необходимости отказоустойчивая маршрутизация

Как внедряем.

Аудит требований — данные, регуляторика, целевой поток и latency, текущая инфраструктура
Прототип — выбор модели и проверка качества на eval-датасете под задачу
Eval-датасет — эталонные кейсы и метрики качества для сравнения моделей и конфигураций
Пилот — inference в контуре на ограниченной нагрузке, замер latency и стоимости
Интеграция — подключение к системам, права доступа, безопасность, журналирование
Мониторинг — дашборды latency, throughput, утилизации GPU и стоимости
Масштабирование — рост нагрузки, перенос задач из облака, оптимизация стоимости

Mini-case · закрытый контур.

Обезличенный пример: клиенты под NDA, метрики приведены диапазонами и проверяются на пилоте под конкретные требования.

Задача

Компания с регуляторными ограничениями не может отправлять документы и обращения с персональными данными во внешние API, но хочет внедрить RAG и автоматизацию.

Решение

Self-hosted inference (vLLM) и RAG в закрытом контуре, локальные embeddings и векторная база, контроль доступа, журналирование и мониторинг; гибридная маршрутизация для несекретных задач.

Метрики

Данные остаются в периметре; latency и стоимость per-request выходят на целевые значения под прогнозируемый поток; качество подтверждается на eval-датасете под задачу.

Ограничения

Требуются вложения в GPU и эксплуатацию; на отдельных сложных задачах качество сверяется с облаком; конфигурация рассчитывается под реальный поток.

FAQ · on-prem LLM.

Когда on-prem LLM оправдана?
Когда данные нельзя или рискованно отправлять во внешние API (152-ФЗ, банковская и врачебная тайна, внутренняя безопасность), при высоком и предсказуемом потоке запросов, где собственная инфраструктура дешевле платы за API, и при требовании работать без выхода в интернет. Если ни одно из условий не выполняется, облако обычно проще и дешевле на старте.

Какие данные нельзя отправлять во внешние API?
Это определяется вашей правовой оценкой, но обычно к чувствительным относят персональные данные под 152-ФЗ без оснований для трансграничной передачи, банковскую и врачебную тайну, данные ГИС и существенную коммерческую тайну. Для таких данных inference и хранение остаются в закрытом контуре.

Будет ли качество хуже, чем у облачных моделей?
Для многих прикладных задач (RAG-ответы, классификация, извлечение полей) современные open-source модели в закрытом контуре дают достаточное качество. На сложных рассуждениях топовые облачные модели могут быть сильнее. Подход — подобрать модель под конкретную задачу и проверить качество на eval-датасете, а не отталкиваться от общих рейтингов.

Какая инфраструктура нужна?
Зависит от модели и нагрузки: серверы с GPU под inference, хранилище для моделей и векторной базы, сеть и контроль доступа. Конкретная конфигурация (число и тип GPU, объём памяти) рассчитывается под целевой поток запросов и требования к latency на аудите.

Можно ли начать с гибридной архитектуры?
Да, и часто это оптимальный старт. Чувствительные данные обрабатываются в закрытом контуре, а несекретные или пиковые задачи могут уходить в облако через слой маршрутизации. Так можно начать быстро и переносить нагрузку в on-prem по мере роста объёма и требований.

Как контролировать стоимость inference?
Через выбор модели под задачу, квантизацию, батчинг запросов, кэширование, маршрутизацию (мелкие задачи — лёгкой моделью) и мониторинг утилизации GPU. Стоимость считается per-request и сопоставляется с альтернативой в облаке для конкретного потока.