aixis / rag-baza-znaniy

RAG по базе знаний компании.

RAG-система нужна, когда компании важно отвечать на вопросы по собственным документам без обучения модели на этих данных. Она извлекает релевантные фрагменты из базы знаний и передаёт их LLM как контекст для ответа.

Так корпоративный AI-поиск отвечает по регламентам, договорам, FAQ и тикетам, ссылается на источник, обновляется без переобучения модели и учитывает права доступа. Это основа для ИИ-поддержки, внутренних ассистентов и поиска по документам.

Хотите поиск и ответы по своим документам?

/ разбор источников · 30 минут · go/no-go по пилоту

$ обсудить кейс →

ответы по регламентам
внутренний ассистент
поиск по документам
RAG для поддержки
права доступа
цитирование источника

Что такое RAG простыми словами.

RAG (retrieval augmented generation) — это связка «поиск + генерация». Вместо того чтобы зашивать знания в саму модель, система в момент запроса находит релевантные фрагменты в вашей базе знаний и передаёт их LLM как контекст. Модель формирует ответ на основе этих фрагментов и может сослаться на источник.

Из этого следует три практических свойства: знания можно обновлять без переобучения модели, ответ опирается на конкретные документы (а не на «память» модели), и доступ к фрагментам можно разграничивать по правам.

Когда нужен RAG.

Ответы лежат в документах — регламенты, инструкции, договоры, политики, FAQ, которые регулярно меняются
Сотрудники тратят время на поиск — знания разбросаны по Notion, Confluence, дискам и переписке
Поддержке нужен ассистент — операторам и клиентам нужны ответы по актуальной базе знаний
Важна актуальность — факты меняются часто, и переобучать модель под каждое изменение нерационально
Нужна проверяемость — ответ должен ссылаться на источник, чтобы ему можно было доверять
Есть требования по доступу — разные сотрудники должны видеть разные документы

Когда RAG лучше, чем fine-tuning

RAG выигрывает, когда важны свежие и проверяемые факты по вашим документам. Fine-tuning меняет стиль и поведение модели, но плохо подходит для часто меняющихся знаний. Подробное сравнение — на странице RAG vs fine-tuning.

Источники данных и что делает система.

RAG подключается к тем источникам, где уже живут знания компании, и приводит их к единому индексу.

Источники — Notion, Confluence, Google Drive, базы знаний helpdesk, CRM, PDF, договоры, регламенты, выгрузки тикетов
Поиск по смыслу — находит релевантные фрагменты, даже если формулировка вопроса не совпадает с текстом документа
Ответ с цитированием — формирует ответ на основе найденных фрагментов и показывает источник
Учёт прав доступа — возвращает только те фрагменты, которые разрешены пользователю
Отказ при недостатке данных — если в базе нет ответа, система не выдумывает, а сообщает об этом
Обновление знаний — индекс пересобирается при изменении документов, без переобучения модели

Архитектура решения.

Подготовка и chunking

Документы нормализуются, очищаются от дублей и устаревших версий и разбиваются на осмысленные фрагменты (chunks) с метаданными об источнике, разделе и правах доступа.

Embeddings и vector DB

Фрагменты переводятся в векторные представления (embeddings) и индексируются в векторной базе — pgvector или Qdrant. Для on-prem используется локальная модель эмбеддингов.

Retrieval

Гибридный поиск (BM25 + dense) находит кандидатов, reranking упорядочивает их по релевантности. Фильтр по правам доступа применяется до передачи фрагментов модели.

Генерация ответа

LLM формирует ответ строго на основе найденных фрагментов, с цитированием источника и отказом при недостатке контекста. Это ограничивает галлюцинации.

Права доступа

К каждому фрагменту привязаны метаданные доступа; retrieval возвращает пользователю только разрешённые ему фрагменты, поэтому ответ не строится на закрытых документах.

Eval-датасет и мониторинг

Эталонные вопросы и ответы, офлайн-оценки на релизах и онлайн-метрики на трафике, дашборды качества, latency и стоимости. Подробнее — evals и guardrails.

KPI и метрики.

Качество RAG измеряется отдельно для поиска и для ответа — это разные точки отказа.

Answer accuracyточность итогового ответа

Retrieval precisionдоля релевантных найденных фрагментов

Recall@kнаходится ли нужный фрагмент в топ-k

Groundednessдоля ответов, опирающихся на источник

Coverageдоля вопросов, покрытых базой

Latencyвремя ответа на запрос

Cost per queryстоимость одного запроса

Freshnessзадержка обновления знаний в индексе

Риски и ограничения.

Галлюцинации — ограничиваются ответом по найденному контексту и отказом при его недостатке; оставшиеся ошибки ловятся evals
Качество данных — устаревшие, дублирующиеся или противоречивые документы напрямую ухудшают ответы; нужна ревизия и владелец контента
Privacy и безопасность — права доступа на уровне retrieval, защита персональных данных, on-prem для чувствительных документов
Latency — поиск и генерация добавляют задержку; смягчается кэшем, reranking и выбором модели
Стоимость inference — зависит от объёма запросов и размера контекста; контролируется кэшем и лимитами, считается per-query
Fallback-сценарии — при пустом или слабом результате поиска система честно отвечает «не нашёл» и предлагает обратиться к человеку

Как внедряем.

Аудит источников — разбираем, где лежат знания, в каком состоянии и какие права доступа нужны
Прототип — RAG на части документов и реальных вопросах
Eval-датасет — эталонные вопросы и ответы, метрики retrieval и answer
Пилот — ограниченный набор источников и пользователей, контроль качества
Интеграция — подключение источников, прав доступа, каналов (поддержка, внутренний ассистент)
Мониторинг — дашборды точности, покрытия, latency и стоимости, алерты на деградацию
Масштабирование — новые источники и сценарии по мере подтверждения качества

Mini-case · RAG.

Обезличенный пример: клиенты под NDA, метрики приведены диапазонами и проверяются на пилоте под конкретную базу знаний.

Задача

Сотрудники и поддержка тратят время на поиск ответов в разрозненной документации; часть ответов устаревает быстрее, чем обновляется память сотрудников.

Решение

RAG по объединённой базе знаний с hybrid-поиском, цитированием источника, учётом прав доступа, eval-датасетом и мониторингом качества.

Метрики

Рост доли вопросов с корректным ответом по базе после настройки retrieval и evals; сокращение времени поиска ответа; знания обновляются без переобучения модели.

Ограничения

Качество ответов ограничено качеством базы знаний; темы вне документов не покрываются; точные цифры считаются после разбора источников.

FAQ · RAG по базе знаний.

Можно ли подключить закрытые документы?
Да. RAG работает по внутренним документам компании — регламентам, договорам, базе знаний, тикетам — без публикации их наружу. При чувствительных данных система разворачивается в закрытом контуре, где документы и запросы не покидают инфраструктуру компании.

Как система понимает, кому что можно видеть?
Права доступа учитываются на этапе retrieval: к каждому фрагменту привязаны метаданные (источник, отдел, уровень доступа), и поиск возвращает пользователю только те фрагменты, которые ему разрешены. Так ответ не строится на документах, к которым у пользователя нет прав.

Чем RAG отличается от fine-tuning?
RAG не обучает модель на ваших данных, а в момент запроса находит релевантные фрагменты и передаёт их LLM как контекст. Это позволяет менять и обновлять знания без переобучения, показывать источник ответа и разграничивать доступ. Fine-tuning меняет поведение и стиль модели, но плохо подходит для часто меняющихся фактов.

Что делать, если база знаний плохо структурирована?
Это типичная стартовая ситуация. На этапе подготовки данные нормализуются, дубли и устаревшие версии вычищаются, документы разбиваются на осмысленные фрагменты. Качество ответов напрямую зависит от качества базы, поэтому ревизия контента — часть внедрения, а не предусловие.

Можно ли развернуть RAG on-prem?
Да. Embeddings, векторная база и inference разворачиваются в закрытом контуре (vLLM, llama.cpp, Ollama, локальная vector DB). Это нужно при требованиях 152-ФЗ, банковской тайны или внутренней безопасности, когда данные не должны уходить во внешние API.

Как измерять качество ответов?
Через eval-датасет с эталонными вопросами и ответами и набор метрик: точность ответа, точность и полнота retrieval, доля ответов, опирающихся на источник (groundedness), покрытие тем, latency и стоимость запроса. Метрики считаются офлайн на релизах и онлайн на реальном трафике.