Работа с документами в Clora: как ИИ-агент читает и понимает ваши файлы
Clora не просто «прикладывает» документы — она извлекает текст из PDF, Word и Excel, разбивает его по смыслу и находит нужное по сути запроса, а не по ключевому слову. Разбираем, как устроено чтение и понимание документов, и даём 5 рабочих сценариев: от базы знаний до автогенерации КП и счетов.

У любого бизнеса знания о продукте лежат в файлах: прайс-листы в Excel, каталоги в PDF, регламенты и инструкции в Word, шаблоны договоров и счетов. Проблема в том, что клиент задаёт вопрос словами, а ответ спрятан где-то на 14-й странице PDF — и пока менеджер его ищет, клиент уходит.
Clora закрывает этот разрыв. Она умеет читать ваши документы (доставать из них текст, даже из таблиц и сканов) и понимать их (находить ответ по смыслу вопроса, а не по совпадению слов). Ниже — как это устроено внутри и пять сценариев, где это экономит время и деньги уже сегодня.
«Прочитать» и «понять» — это две разные задачи
Когда говорят «ИИ работает с документами», обычно смешивают два совершенно разных навыка:
- Прочитать — корректно извлечь текст из файла любого формата, не потеряв таблицы, цены и структуру.
- Понять — связать вопрос клиента с нужным фрагментом, даже если он сформулирован другими словами.
Большинство «чат-ботов с документами» умеют только первое и ищут по точному совпадению ключевых слов — поэтому на вопрос «а в рассрочку можно?» они не находят абзац про «оплату частями». Clora решает обе задачи. Разберём по порядку.
Как Clora читает документы
Первый шаг — превратить файл в чистый текст. Для каждого формата Clora использует свой надёжный извлекатель, а если основной способ не сработал — переключается на запасной, чтобы не «спотыкаться» на нестандартных файлах.
Поддерживаемые форматы
- PDF — извлекается не только текст, но и таблицы (это критично для прайс-листов и спецификаций). Сначала работает движок, который аккуратно разбирает табличную вёрстку; если PDF «сложный» — подключается резервный движок, а в крайнем случае низкоуровневый разбор. Так из выгрузки 1С или дизайнерского каталога вытаскивается именно содержимое, а не каша из символов.
- Word (.docx, .doc) — текст и структура документа сохраняются, включая абзацы и форматирование.
- Excel (.xlsx, .xls) и CSV — каждая строка таблицы читается как отдельная позиция; CSV распознаётся в разных кодировках (в том числе windows-1251, в которой до сих пор выгружают многие российские системы).
- TXT, Markdown — как есть.
Загрузить документы в базу знаний можно прямо в интерфейсе: раздел «База знаний → Документы», перетащить файлы (PDF, DOCX, TXT — до 10 МБ) и нажать «Обучить». Подробности — в документации по базе знаний.
Может ли ИИ читать PDF с таблицами и сканами?
Да. Таблицы в PDF — отдельная боль: обычные парсеры превращают аккуратный прайс в нечитаемую строку. Clora сначала пытается извлечь именно табличную структуру (строки и столбцы), и только потом — обычный текст. Для прайс-листов это означает, что названия позиций не «слипаются» с ценами. Если PDF собран нестандартно, срабатывает каскад из нескольких движков — вероятность, что файл «не прочитается», минимальна.
Как Clora понимает документы
Извлечь текст — половина дела. Дальше начинается то, что отличает Clora от поиска по Ctrl+F.
Разбивка по смыслу, а не по страницам
Длинный документ нельзя «скормить» модели целиком — его нужно разбить на фрагменты. Наивный подход режет текст каждые N символов и рвёт мысль на полуслове. Clora использует семантическую разбивку: она оценивает, насколько соседние предложения близки по смыслу, и ставит границу фрагмента там, где тема меняется. В результате один смысловой блок (например, условия доставки) не размазывается по двум кускам, а лежит целиком — и находится целиком.
Поиск по смыслу: гибрид векторов и ключевых слов
Каждый фрагмент превращается в эмбеддинг — числовой «отпечаток смысла». Когда приходит вопрос клиента, Clora ищет ответ двумя способами одновременно:
- Векторный поиск — по смыслу. «Можно оплатить частями?» находит абзац про рассрочку, даже если слова «частями» там нет.
- Полнотекстовый поиск (BM25) с поддержкой русской морфологии — по точным терминам, артикулам, названиям моделей.
Результаты двух поисков объединяются и переранжируются (метод RRF — Reciprocal Rank Fusion). Так вы получаете лучшее из двух миров: понимание смысла + точность по конкретным словам и кодам. Это и есть полноценный RAG по вашим документам.
Без дублей и без «выдумок»
Два важных механизма, которые делают ответы надёжными:
- Дедупликация. Если вы загрузили один и тот же текст дважды (или почти одинаковые версии), Clora не засоряет базу — слишком похожие фрагменты отсекаются автоматически.
- Контроль галлюцинаций. Clora отвечает, опираясь на найденные в ваших документах фрагменты, а ответы дополнительно проверяются на «отсебятину». Если в базе нет ответа, агент честно об этом скажет или передаст диалог человеку, а не сочинит несуществующую гарантию. Подробнее о хранении данных и контроле качества — на странице «Безопасность и 152-ФЗ».
5 способов применить работу с документами
Теперь — где это приносит деньги.
1. База знаний компании = консультант 24/7
Загрузите в Clora всё, что обычно объясняет менеджер: каталоги, регламенты, FAQ, условия гарантии и возврата, инструкции. Агент будет отвечать клиентам круглосуточно — по сути ваших документов, со всеми нюансами, без «я уточню и перезвоню». Один раз обучили — отвечает всегда одинаково правильно.
2. Импорт прайс-листа из PDF или Excel за минуту
Не нужно вбивать сотни позиций руками. Загрузите прайс в PDF, Excel или CSV (до 15 МБ) — Clora извлечёт текст и распознает позиции: название, цену (фиксированную, диапазон или «по запросу»), валюту и единицу измерения (кв.м, шт, час). Останется проверить и сохранить. Это особенно выручает интернет-магазины и сервисы с большим каталогом.
3. КП, договоры и счета по вашему шаблону
Загрузите свой реальный шаблон договора или счёта (DOCX, XLSX, TXT) — Clora проанализирует его и сама расставит «плейсхолдеры»: где подставлять данные клиента, сумму прописью, таблицу позиций, номер и дату. При этом реквизиты вашей компании она не трогает — они статичны. Дальше агент формирует готовые КП, договоры и счета прямо в диалоге, сохраняя ваше оформление.
4. Обучение на вашем сайте
Документы — не единственный источник. Clora умеет читать и веб-страницы: можно указать адрес сайта, и она пройдёт по страницам, извлечёт контент и добавит его в базу знаний. Быстрый способ «обучить» агента, если ваша информация уже опубликована онлайн.
5. Единый «мозг» из разрозненных источников
Часть знаний в PDF, часть в Excel, часть на сайте, что-то — просто текстом или парами «вопрос-ответ». Clora сводит всё это в одну базу знаний и ищет ответ по всем источникам сразу. Менеджеру больше не нужно помнить, в каком файле что лежит.
Как загрузить документ: пошагово
- Откройте раздел «База знаний → Документы».
- Перетащите файлы (PDF, DOCX, TXT, MD) или выберите их вручную — до 10 МБ каждый. Для прайс-листов и каталогов используйте импорт в разделе услуг/товаров (поддерживаются ещё Excel и CSV до 15 МБ).
- Дождитесь статуса «Черновик» и нажмите «Обучить» — содержимое попадёт в базу знаний и станет доступно агенту.
- Готово: задайте агенту вопрос по документу и проверьте ответ.
Статус «Черновик» означает, что документ загружен, но ещё не обучен — агент пока не использует его в ответах. Кнопка «Обучить» добавляет содержимое в базу знаний.
Коротко
- Clora читает PDF (включая таблицы), Word, Excel и CSV, а не просто «прикладывает» файлы.
- Она понимает документы: разбивает по смыслу, ищет гибридно (по смыслу + по точным словам), не дублирует знания и не выдумывает ответы.
- Это работает на пяти уровнях: база знаний, импорт прайсов, генерация КП и счетов, обучение на сайте и единая база из разных источников.
Загрузить первые документы и проверить, как агент отвечает по вашим материалам, можно сразу — это входит в оба тарифа. Сравнить возможности и стоимость удобно на странице тарифов.