← Все статьи
Продукт

Работа с документами в Clora: как ИИ-агент читает и понимает ваши файлы

Clora не просто «прикладывает» документы — она извлекает текст из PDF, Word и Excel, разбивает его по смыслу и находит нужное по сути запроса, а не по ключевому слову. Разбираем, как устроено чтение и понимание документов, и даём 5 рабочих сценариев: от базы знаний до автогенерации КП и счетов.

C
Clora · 30 июня 2026 г.
Работа с документами в Clora: как ИИ-агент читает и понимает ваши файлы

У любого бизнеса знания о продукте лежат в файлах: прайс-листы в Excel, каталоги в PDF, регламенты и инструкции в Word, шаблоны договоров и счетов. Проблема в том, что клиент задаёт вопрос словами, а ответ спрятан где-то на 14-й странице PDF — и пока менеджер его ищет, клиент уходит.

Clora закрывает этот разрыв. Она умеет читать ваши документы (доставать из них текст, даже из таблиц и сканов) и понимать их (находить ответ по смыслу вопроса, а не по совпадению слов). Ниже — как это устроено внутри и пять сценариев, где это экономит время и деньги уже сегодня.

«Прочитать» и «понять» — это две разные задачи

Когда говорят «ИИ работает с документами», обычно смешивают два совершенно разных навыка:

  • Прочитать — корректно извлечь текст из файла любого формата, не потеряв таблицы, цены и структуру.
  • Понять — связать вопрос клиента с нужным фрагментом, даже если он сформулирован другими словами.

Большинство «чат-ботов с документами» умеют только первое и ищут по точному совпадению ключевых слов — поэтому на вопрос «а в рассрочку можно?» они не находят абзац про «оплату частями». Clora решает обе задачи. Разберём по порядку.

Как Clora читает документы

Первый шаг — превратить файл в чистый текст. Для каждого формата Clora использует свой надёжный извлекатель, а если основной способ не сработал — переключается на запасной, чтобы не «спотыкаться» на нестандартных файлах.

Поддерживаемые форматы

  • PDF — извлекается не только текст, но и таблицы (это критично для прайс-листов и спецификаций). Сначала работает движок, который аккуратно разбирает табличную вёрстку; если PDF «сложный» — подключается резервный движок, а в крайнем случае низкоуровневый разбор. Так из выгрузки 1С или дизайнерского каталога вытаскивается именно содержимое, а не каша из символов.
  • Word (.docx, .doc) — текст и структура документа сохраняются, включая абзацы и форматирование.
  • Excel (.xlsx, .xls) и CSV — каждая строка таблицы читается как отдельная позиция; CSV распознаётся в разных кодировках (в том числе windows-1251, в которой до сих пор выгружают многие российские системы).
  • TXT, Markdown — как есть.

Загрузить документы в базу знаний можно прямо в интерфейсе: раздел «База знаний → Документы», перетащить файлы (PDF, DOCX, TXT — до 10 МБ) и нажать «Обучить». Подробности — в документации по базе знаний.

Может ли ИИ читать PDF с таблицами и сканами?

Да. Таблицы в PDF — отдельная боль: обычные парсеры превращают аккуратный прайс в нечитаемую строку. Clora сначала пытается извлечь именно табличную структуру (строки и столбцы), и только потом — обычный текст. Для прайс-листов это означает, что названия позиций не «слипаются» с ценами. Если PDF собран нестандартно, срабатывает каскад из нескольких движков — вероятность, что файл «не прочитается», минимальна.

Как Clora понимает документы

Извлечь текст — половина дела. Дальше начинается то, что отличает Clora от поиска по Ctrl+F.

Разбивка по смыслу, а не по страницам

Длинный документ нельзя «скормить» модели целиком — его нужно разбить на фрагменты. Наивный подход режет текст каждые N символов и рвёт мысль на полуслове. Clora использует семантическую разбивку: она оценивает, насколько соседние предложения близки по смыслу, и ставит границу фрагмента там, где тема меняется. В результате один смысловой блок (например, условия доставки) не размазывается по двум кускам, а лежит целиком — и находится целиком.

Поиск по смыслу: гибрид векторов и ключевых слов

Каждый фрагмент превращается в эмбеддинг — числовой «отпечаток смысла». Когда приходит вопрос клиента, Clora ищет ответ двумя способами одновременно:

  1. Векторный поиск — по смыслу. «Можно оплатить частями?» находит абзац про рассрочку, даже если слова «частями» там нет.
  2. Полнотекстовый поиск (BM25) с поддержкой русской морфологии — по точным терминам, артикулам, названиям моделей.

Результаты двух поисков объединяются и переранжируются (метод RRF — Reciprocal Rank Fusion). Так вы получаете лучшее из двух миров: понимание смысла + точность по конкретным словам и кодам. Это и есть полноценный RAG по вашим документам.

Без дублей и без «выдумок»

Два важных механизма, которые делают ответы надёжными:

  • Дедупликация. Если вы загрузили один и тот же текст дважды (или почти одинаковые версии), Clora не засоряет базу — слишком похожие фрагменты отсекаются автоматически.
  • Контроль галлюцинаций. Clora отвечает, опираясь на найденные в ваших документах фрагменты, а ответы дополнительно проверяются на «отсебятину». Если в базе нет ответа, агент честно об этом скажет или передаст диалог человеку, а не сочинит несуществующую гарантию. Подробнее о хранении данных и контроле качества — на странице «Безопасность и 152-ФЗ».

5 способов применить работу с документами

Теперь — где это приносит деньги.

1. База знаний компании = консультант 24/7

Загрузите в Clora всё, что обычно объясняет менеджер: каталоги, регламенты, FAQ, условия гарантии и возврата, инструкции. Агент будет отвечать клиентам круглосуточно — по сути ваших документов, со всеми нюансами, без «я уточню и перезвоню». Один раз обучили — отвечает всегда одинаково правильно.

2. Импорт прайс-листа из PDF или Excel за минуту

Не нужно вбивать сотни позиций руками. Загрузите прайс в PDF, Excel или CSV (до 15 МБ) — Clora извлечёт текст и распознает позиции: название, цену (фиксированную, диапазон или «по запросу»), валюту и единицу измерения (кв.м, шт, час). Останется проверить и сохранить. Это особенно выручает интернет-магазины и сервисы с большим каталогом.

3. КП, договоры и счета по вашему шаблону

Загрузите свой реальный шаблон договора или счёта (DOCX, XLSX, TXT) — Clora проанализирует его и сама расставит «плейсхолдеры»: где подставлять данные клиента, сумму прописью, таблицу позиций, номер и дату. При этом реквизиты вашей компании она не трогает — они статичны. Дальше агент формирует готовые КП, договоры и счета прямо в диалоге, сохраняя ваше оформление.

4. Обучение на вашем сайте

Документы — не единственный источник. Clora умеет читать и веб-страницы: можно указать адрес сайта, и она пройдёт по страницам, извлечёт контент и добавит его в базу знаний. Быстрый способ «обучить» агента, если ваша информация уже опубликована онлайн.

5. Единый «мозг» из разрозненных источников

Часть знаний в PDF, часть в Excel, часть на сайте, что-то — просто текстом или парами «вопрос-ответ». Clora сводит всё это в одну базу знаний и ищет ответ по всем источникам сразу. Менеджеру больше не нужно помнить, в каком файле что лежит.

Как загрузить документ: пошагово

  1. Откройте раздел «База знаний → Документы».
  2. Перетащите файлы (PDF, DOCX, TXT, MD) или выберите их вручную — до 10 МБ каждый. Для прайс-листов и каталогов используйте импорт в разделе услуг/товаров (поддерживаются ещё Excel и CSV до 15 МБ).
  3. Дождитесь статуса «Черновик» и нажмите «Обучить» — содержимое попадёт в базу знаний и станет доступно агенту.
  4. Готово: задайте агенту вопрос по документу и проверьте ответ.

Статус «Черновик» означает, что документ загружен, но ещё не обучен — агент пока не использует его в ответах. Кнопка «Обучить» добавляет содержимое в базу знаний.

Коротко

  • Clora читает PDF (включая таблицы), Word, Excel и CSV, а не просто «прикладывает» файлы.
  • Она понимает документы: разбивает по смыслу, ищет гибридно (по смыслу + по точным словам), не дублирует знания и не выдумывает ответы.
  • Это работает на пяти уровнях: база знаний, импорт прайсов, генерация КП и счетов, обучение на сайте и единая база из разных источников.

Загрузить первые документы и проверить, как агент отвечает по вашим материалам, можно сразу — это входит в оба тарифа. Сравнить возможности и стоимость удобно на странице тарифов.