Как голосовой бот «помнит» клиента: RAG и база знаний

Почему «обычный» LLM не помнит клиента

Большая языковая модель — GPT и российские аналоги — это нейросеть, обученная на огромном корпусе текстов из интернета. Она знает общие факты («Москва — столица России»), умеет рассуждать, понимает контекст разговора в рамках одного диалога. Но она не знает: вашего конкретного клиента Анну, её историю покупок, мастера по имени Дмитрий, ваш прайс на корневое окрашивание и адрес вашей клиники на Лесной 24.

Это не баг, а архитектурное ограничение. LLM обучается раз в полгода-год на статических данных. Включать в неё базу клиентов всех бизнесов планеты невозможно — модель раздуется, обучение займёт годы, обновления станут невозможными. Решение — отделить «универсальные знания» от «специфичных для бизнеса». Универсальные остаются в LLM. Специфичные хранятся отдельно и подгружаются в момент разговора через технологию RAG.

Без RAG бот может ответить «у нас широкий выбор услуг», но не «в вашем салоне окрашивание стоит от 3 500 ₽ у Дмитрия и от 4 200 ₽ у Анны». Первый ответ — бесполезен. Второй — продаёт.

Что такое RAG: упрощённая схема

RAG (Retrieval-Augmented Generation) переводится буквально как «генерация с дополнением через поиск». Вместо того чтобы держать все факты внутри модели, система на каждый вопрос сначала находит нужные фрагменты в вашей базе знаний, а потом подставляет их в языковую модель. Весь цикл укладывается в 0,5-1 секунду и работает в три шага:

Подготовка базы. Все ваши документы (прайс, FAQ, регламенты, скрипты, история клиента) разбиваются на куски (chunks) по 200-500 слов и превращаются в векторы — числовые отпечатки, отражающие смысл. Эти векторы хранятся в векторной базе данных. Один документ = десятки или сотни векторов.
Поиск в момент разговора. Когда клиент задаёт вопрос («сколько стоит окрашивание у Дмитрия?»), его вопрос тоже превращается в вектор. Затем база ищет 3-5 наиболее похожих векторов из вашей базы знаний — обычно это занимает 50-150 миллисекунд.
Подстановка в LLM. Найденные куски текста («прайс окрашивания», «расписание Дмитрия») вставляются в промпт для языковой модели вместе с вопросом клиента. LLM генерирует ответ, опираясь на эти конкретные факты, а не на свои общие знания.

Итог: за 0.5-1 секунду бот выдаёт ответ, который звучит как «персональный ассистент с эрудицией». На самом деле он не запоминал ничего заранее — он ищет ответ заново на каждый вопрос. Это и хорошо: обновили прайс на сайте — бот сразу начинает использовать новые цифры без переобучения модели.

База знаний как сердце персонализации

Качество RAG на 80% зависит от качества базы знаний, а не от самой технологии: векторный поиск и языковая модель — это лишь инфраструктура. Что именно бот знает о вашем бизнесе — прайс, регламенты, историю клиента, отраслевые нюансы — определяете вы. Поэтому наполнение базы важнее выбора конкретного движка поиска.

Что обычно входит в production-базу знаний бизнеса:

Прайс-лист услуг. С детализацией по мастерам/специалистам, длительностью, описанием. Если прайс меняется — обновляется в одном месте и сразу подтягивается ботом.
Расписание и доступные слоты. Подтягивается из CRM (YClients, AmoCRM, Битрикс24, МойСклад) в реальном времени, не из базы знаний — слоты меняются ежеминутно.
FAQ. 50-200 типичных вопросов с эталонными ответами. Бот цитирует их буквально, чтобы избежать «галлюцинаций».
Регламенты и политики. Условия возврата, правила переноса, время работы, парковка, оплата, программы лояльности.
История клиента. Прошлые визиты, услуги, мастера, предпочтения, заметки менеджера. Обновляется автоматически после каждого взаимодействия.
База знаний по отрасли. Профессиональные термины, советы по подготовке к процедуре, противопоказания, рекомендации после.

База знаний — это не «положили один раз и забыли». Это живая структура, которая обновляется при каждом изменении бизнеса: добавили услугу, сменили мастера, обновили цены — всё это попадает в базу и через минуты доступно боту.

Как бот достаёт историю конкретного клиента

Память о клиенте работает по тому же принципу RAG, но с дополнительным фильтром: при поиске вектора в базе бот ограничивает выборку «только этот клиент». Идентификация клиента — по номеру телефона, который определяется до начала разговора через телефонию.

Сценарий: звонит клиент Анна, номер +7 901 234-56-78. До соединения бот делает запрос в базу: «достань всё, что есть по этому номеру». Возвращается список из 12 записей: визиты, услуги, мастера, предпочтения, заметки. Бот выбирает релевантные для начала разговора — обычно последние 2-3 визита и любые активные заметки («предупредить о новом адресе»). Эти данные вставляются в системный промпт LLM, и бот начинает разговор с фразы вроде «Анна, здравствуйте, в прошлый раз вы были у Дмитрия — записать к нему снова?»

Технически это требует двух вещей: (1) интеграция с CRM, откуда подтягивается история, через коннекторы; (2) корректная склейка карточек клиента, иначе бот будет «помнить» только часть истории, разбросанную по дубликатам.

Что отличает «хороший» RAG от «плохого»

Технологически RAG может собрать любой разработчик за месяц, но между «работает в демо» и «работает в production» — пропасть. Рабочую систему отличают пять параметров: точность поиска recall@5 на уровне 90%+, скорость поиска 100-200 мс, осмысленный чанкинг, защита от галлюцинаций и полное журналирование каждого запроса. Разберём каждый:

1. Точность поиска (recall@5). Из 100 вопросов клиентов сколько раз система находит правильный кусок в топ-5 результатов? Хороший показатель — 90%+. Низкий recall означает, что бот будет отвечать «не знаю» или «галлюцинировать» — придумывать факты.

2. Скорость поиска. Для голоса критичны миллисекунды. От момента, когда клиент закончил фразу, до начала ответа бота — должно пройти 600-900 миллисекунд, иначе разговор кажется неестественным. Из этого бюджета RAG-поиск должен уложиться в 100-200 мс, оставив место для LLM-генерации.

3. Чанкинг (разбиение на куски). Документ разбивается на куски с учётом смысла, а не механически по 500 слов. Прайс — каждая услуга — отдельный кусок. FAQ — каждая пара вопрос-ответ. История клиента — каждый визит. Плохой чанкинг режет смысл и снижает recall в 2-3 раза.

4. Защита от галлюцинаций. LLM может «придумать» факт, если не нашла его в базе. Хороший RAG имеет промпт «отвечай только на основе предоставленных фактов; если нет — скажи „уточню у менеджера“». Это сокращает галлюцинации с 5-10% до 0.5-1%.

5. Журналирование и аудит. Каждый запрос в базу, каждый кусок, попавший в промпт, каждый ответ модели — должны быть в логах. Без этого вы не сможете расследовать, почему бот выдал клиенту неправильную цену или сослался на устаревший регламент. Журнал аудита с привязкой к разговору — необходимое условие.

Что нужно для запуска RAG-системы за неделю

Если вы внедряете готовое SaaS-решение с интегрированным RAG, запуск занимает 3-7 рабочих дней. Если строите с нуля — 2-4 месяца. Разница огромна, поэтому большинство компаний выбирает SaaS-маршрут.

Что нужно подготовить:

Структурированный прайс-лист. Excel или Google Sheets с колонками: услуга, длительность, цена, мастер (если применимо), категория. Это 60-80% базы знаний.
FAQ из реальных звонков. Послушайте 30-50 записей разговоров администратора с клиентами. Выпишите все вопросы — это и есть ваш FAQ. Сформулируйте эталонные ответы.
Регламенты в текстовом виде. Условия возврата, время работы, политика опозданий — всё на одной странице, простым языком, без юридических оборотов.
Доступ к CRM через API. Токен или API-ключ от вашей CRM-системы. Для популярных систем — YClients, amoCRM, Битрикс24 — готовые коннекторы. Для нестандартных — REST API.
Список «опасных» тем. Что бот не должен говорить ни в коем случае: медицинские диагнозы, юридические консультации, обещания «100% результата». Эти темы прописываются как guardrails в промпт.

За неделю база загружается, тестируется на 50-100 контрольных вопросах, дотюнивается. Дальше — постоянное улучшение по обратной связи: что-то клиенты спрашивают, а бот не знает — добавляем в базу.

Что бот не должен «помнить»: ФЗ-152 и право на забвение

Память бота — это персональные данные клиента, а значит, она полностью регулируется ФЗ-152. На практике это накладывает пять требований: хранение только на серверах в РФ, промышленное шифрование, право клиента на удаление по ст. 14, ограниченный срок хранения записей и техническую возможность выгрузить всё, что вы о клиенте знаете. Разберём каждое:

Хранение только в РФ. Вся векторная база, история разговоров, транскрипты — на серверах в России. Зарубежные облачные сервисы (включая популярные RAG-платформы) для этого не подходят.
Шифрование. Промышленные алгоритмы (AES-256) для хранения, TLS для передачи. Не «зашифровано на сервере провайдера», а реальное шифрование, проверяемое.
Право на удаление. Клиент имеет право в любой момент потребовать удаления всех его данных (ст. 14 ФЗ-152). Это значит — удаление не только из CRM, но и из векторной базы, из логов разговоров, из архива истории. Регламент удаления должен быть прописан и работать.
Срок хранения. Записи разговоров обычно хранятся 6-12 месяцев, после чего автоматически удаляются. Транскрипты — дольше, до 3 лет, для аналитики. Дольше — только с обоснованием.
Доступ к своим данным. Клиент может запросить выгрузку всего, что вы о нём знаете. Это требование ФЗ-152 — выгрузка должна работать через техническую процедуру, не «менеджер вручную соберёт».

Контроль над хранением и удалением осуществляется через журнал аудита и инструмент экспорта данных. Это не «дополнительная фича», а юридическое требование для любой системы, работающей с ПДн.

Цифры эффекта от RAG-внедрения

Кейс 1. Клиника эстетической медицины (3 врача, Москва): до RAG — бот отвечал на 32% вопросов клиентов, остальные переключал на администратора. После загрузки прайса, регламентов и FAQ — бот закрывает 78% вопросов сам. Нагрузка на администратора снизилась на 60%, средняя длительность разговора — с 4 минут до 1.5.

Кейс 2. Образовательная платформа (онлайн-курсы): до RAG — бот не знал про скидки, действующие промо, расписание потоков, преподавателей. Конверсия первого звонка в покупку — 7%. После RAG с актуальной базой — 14%. Удвоение конверсии за счёт того, что бот отвечает на «нюансные» вопросы клиента сразу, не теряя момент.

Кейс 3. Сеть автосервисов (5 точек): персонализация по истории клиента дала рост повторных записей через бот с 18% до 41%. Клиенту проще согласиться, когда бот говорит «вы делали ТО полгода назад, пора следующее».

RAG в сочетании с другими каналами

База знаний работает не только в голосе. Та же RAG-инфраструктура питает все три канала: телефонный разговор, чат в Telegram, виджет на сайте. Бот в Telegram отвечает на вопрос о цене окрашивания с той же точностью, что и бот по телефону, потому что обращается к той же векторной базе.

Сложные случаи, которые бот не закрывает сам, передаются менеджеру через механизм перевода на оператора вместе с цитатой из базы знаний, на которую бот опирался при ответе. Менеджер видит контекст и не дублирует уже сказанное клиенту. Это особенно важно для эскалаций «бот сказал X, но я хочу уточнить» — менеджер сразу понимает, о каком X речь.

Для исходящих кампаний RAG-данные используются как фильтр сегментации. Бот не звонит клиенту, если его последний визит был помечен как конфликтный, не предлагает услугу, на которую у клиента есть противопоказание из истории, не пытается «вернуть» того, кто формально отписался от рассылок. Эти бизнес-правила хранятся в базе знаний и применяются автоматически.

Что выбирать сейчас и куда смотреть в 2026 году

На 2026 год RAG — стандарт для production голосовых ботов в России. Все серьёзные платформы поддерживают эту технологию из коробки. Различия между провайдерами — в качестве реализации: скорости поиска, точности recall, удобстве загрузки данных, журналировании, защите от галлюцинаций.

Перед выбором провайдера попросите показать живую демонстрацию: «дайте загрузить наш прайс в течение 30 минут, потом задайте боту 20 наших реальных вопросов». Хорошая система покажет 17-19 правильных ответов из 20. Слабая — 10-12, и часть ответов будет «общей», без опоры на загруженные данные. Это разница между рабочим инструментом и красивой презентацией.

Команда Stexa AI

Команда разработки голосового AI-оператора Stexa. Пишем о голосовых ботах, AI-технологиях и автоматизации звонков с 2025 года.

Часто задаваемые вопросы

Чем RAG отличается от файн-тюнинга модели?

Файн-тюнинг — это дообучение самой нейросети на ваших данных. Стоит дорого (от 100 000 ₽), занимает дни, после каждого изменения базы нужно переобучать. RAG — это поиск во внешней базе плюс подстановка в стандартную модель. Дешевле, быстрее, обновляется в реальном времени. Для 95% бизнес-задач RAG предпочтительнее. Файн-тюнинг оправдан только для специфической доменной терминологии (медицина, право), где общая модель плохо понимает контекст.

Сколько данных нужно для запуска RAG?

Минимально — структурированный прайс (50-200 позиций) + FAQ (30-50 пар). Это 5-10 страниц текста, готовится за день. Дальше — расширение по мере выявления пробелов: что клиенты спрашивают, а бот не знает — добавляем. Через 1-2 месяца естественной эксплуатации база содержит 200-500 фрагментов и закрывает 75-85% вопросов. Большие компании имеют базы из 5 000-50 000 фрагментов.

Бот будет помнить переписку из Telegram отдельно от звонка?

Если правильно настроена склейка карточек клиента — нет, бот видит единую историю всех взаимодействий. Звонок и Telegram-чат — это разные транспорты, но единый таймлайн событий в карточке клиента. При следующем звонке бот скажет «вижу, вы вчера в чате уточняли по доставке — хотите оформить?». Без склейки карточек — да, история будет фрагментирована.

Как защититься от того, что бот выдаст конфиденциальные данные не тому клиенту?

Несколько уровней защиты: (1) идентификация клиента до загрузки истории — по номеру телефона или подтверждённому email; (2) фильтр на уровне векторного поиска — выборка только по идентификатору клиента; (3) промпт-инструкция модели не раскрывать данные о других клиентах; (4) аудит — каждый запрос в базу логируется с указанием, по какому клиенту извлекались данные. Утечка возможна только при ошибке идентификации, поэтому критичны корректные правила определения клиента.

Можно ли использовать RAG без интеграции с CRM?

Технически да — база знаний может быть автономной (прайс, FAQ, регламенты), без подключения к CRM. Но тогда бот не знает истории клиента и не сможет персонализировать разговор. Эффективность снижается на 30-50% по сравнению с полной интеграцией. Для маленьких бизнесов без CRM это допустимый стартовый вариант — потом добавляется CRM-коннектор.

Какие есть альтернативы RAG для долгосрочной памяти бота?

Технологические альтернативы: (1) огромный контекст в LLM (модели на 1М+ токенов могут вместить всю историю клиента в промпт, но дорого и медленно); (2) специализированные системы памяти (mem0, Zep) — расширения RAG для долгосрочной диалоговой памяти; (3) файн-тюнинг модели на истории компании (см. FAQ выше). Для production-внедрения 2026 года RAG остаётся стандартом цена/качество. Альтернативы интересны для R&D, но не для бизнеса.