Перейти к основному содержимому
Версия: v3.1.0

Объединение дублей (Deduplicate)

Инструмент Deduplicate предназначен для автоматического поиска и слияния дублирующихся атрибутов внутри одной группы атрибутов. Он помогает поддерживать чистоту каталога, объединяя разрозненные или случайно созданные копии одного и того же атрибута в единую запись, бережно сохраняя все привязанные к товарам значения.

Интерфейс инструмента Deduplicate
Интерфейс инструмента Deduplicate

Обзор

Со временем в справочнике атрибутов часто образуются дубликаты (например, "Цвет", "цвет", "Цвет ", "Цвет товара"). Инструмент Deduplicate находит такие копии в выбранной группе атрибутов, выбирает один основной атрибут и переносит в него все значения товаров и настройки из дубликатов, после чего аккуратно удаляет лишние копии.

Доступные режимы

В зависимости от степени "загрязненности" вашего каталога, вы можете выбрать один из следующих режимов поиска дублей:

1. Строгое совпадение (strict)

Этот режим выполняет быстрый поиск точных копий атрибутов. Он находит атрибуты, имена которых полностью совпадают (игнорируются только начальные и конечные пробелы). Рекомендуется для регулярной очистки справочника от явных дублей.

2. Совпадение очищенных названий (match)

Более умный режим поиска. Перед сравнением названий он автоматически удаляет из них единицы измерения (например, очищает "Мощность, Вт" до "Мощность"). После очистки он ищет точные совпадения без учета регистра. Идеально для объединения атрибутов, которые были заведены по-разному из-за явного указания размерностей.

3. Нечеткое совпадение (fuzzy)

Режим для сложных случаев, когда дубликаты содержат опечатки или незначительные изменения в написании. Сравнивает очищенные имена на предмет схожести. Если текста совпадают более чем на 80%, они признаются дубликатами и объединяются.

4. AI-Классификация (ai)

Самый продвинутый режим, использующий искусственный интеллект (OpenAI) для семантического анализа атрибутов.

ИИ анализирует не только названия атрибутов в группе, но и их фактические значения у товаров. Затем он группирует вместе атрибуты, которые означают одно и то же, даже если они называются совершенно по-разному (например, "Объем ОЗУ" и "Оперативная память").

Как использовать AI режим

Для работы режима AI необходимо:

  1. Убедиться, что вы указали OpenAI API Key (ключ API) в настройках модуля.
  2. Выбрать алгоритм ИИ (например, gpt-4o-mini).
  3. Выбрать Группу атрибутов, в которой нужно провести поиск смысловых дублей.
  4. Выбрать режим ai в выпадающем списке режима дедупликации.
  5. Нажать кнопку выполнения.
Настройки AI дедупликации
Настройки AI дедупликации
примечание

Алгоритм ИИ настроен таким образом, чтобы строго различать разные составные части или концепции товара. Например, он не будет объединять "Цвет салона" и "Цвет кузова", или "Ширина упаковки" и "Ширина товара", понимая контекст их использования.

внимание

Режим ИИ является мощным инструментом, но он всё ещё может ошибаться при анализе узкоспециализированных терминов. Обязательно тестируйте результаты его работы на небольших тестовых группах перед применением ко всему каталогу!

Особенности слияния (Merge)

При объединении дубликата с основным атрибутом, система работает очень аккуратно:

  • Значения товаров: Если у товара был только атрибут-дубликат, он просто заменяется на основной. Если же у товара были заданы значения обоих объединяемых атрибутов, их значения аккуратно склеиваются через заданный в настройках разделитель (например, /). При этом применяется паттерн Дозаполнение (Supplement): если у основного атрибута не были заданы иконки, изображения или подсказки, они автоматически копируются из дубликата перед его удалением. Никакие данные при объединении не теряются!
  • Дежурные шаблоны: Шаблоны по умолчанию (duty) для обоих атрибутов объединяются аналогичным и безопасным образом. Пустые настройки шаблона основного атрибута также дозаполняются из дубликата.
  • Связи с категориями: Настройки отображения атрибута в категориях корректно дополняют основной атрибут.
  • Глобальные метаданные: Общие настройки основного атрибута (иконка, картинка, единицы измерения) дополняются из удаляемого дубликата, если они не были заданы.

Рекомендации

  • Пагинация не требуется: Поиск скрытых дублей выполняется в рамках одной указанной вами группы атрибутов за раз.
  • Начинайте с простого: Рекомендуется сначала прогнать группу в режиме strict, чтобы быстро собрать и удалить явные копии, затем в режиме match очистить размерности, и уже в конце использовать ai или fuzzy для разбора оставшихся аномалий.
  • Проверяйте логи: Каждый процесс слияния атрибутов детально протоколируется в системных логах. В случае необходимости вы можете посмотреть, какие именно атрибуты стали целью объединения и какие были удалены.
Логи дедупликации
Логи дедупликации