Шингл

Шингл — последовательность определенного количества слов, используемая в алгоритме проверки текста на уникальность. Уникальность текста в интернете определяется путем сравнения нового текста с уже проиндексированными поисковыми системами текстами. Алгоритм проверки уникальности текста через поиск дубликатов отдельных его частей называется алгоритмом шинглов. Идею об этом алгоритме впервые высказал Уди Мандер, а довел до логического завершения Андрей Бродер, сотрудник «Yahoo!».

При определении уникальности происходит следующее:

  1. Канонизация текста — очистка текста от элементов, не несущих смысловой нагрузки. Из текста удаляются предлоги, союзы, html-разметка, знаки препинания и другие элементы с возможным (но необязательным) приведением слов к именительному падежу единственного числа.
  2. Разбиение текста на шинглы — текст разбивается на последовательности, состоящие из определенного количества слов, при этом конец каждого шингла является началом предыдущего. Шингл характеризуется размером: минимальный шингл включает в себя 3 слова, максимальный — 10. Оптимальной считается величина, лежащая посередине между этими значениями, поскольку крайние значения приведут к искаженным результатам.
  3. Вычисление хэшей шинглов — на этом этапе начинается сравнение текстов. Однако точность сравнения напрямую зависит от количества операций: это достаточно ресурсоёмкий процесс. В какой-то момент сравнение текстов может критично сказаться на производительности, поэтому принцип алгоритма шинглов заключается в сравнении контрольных сумм случайной выборки шинглов (подпоследовательностей) двух текстов между собой.
  4. Определение результата — на основании сравнения выводится результат, свидетельствующий об уникальности нового текста. Результат публикуется в процентах: 100% — полностью уникальный текст, 0% — полностью неуникальный, то есть такой текст уже присутствует в сети.

Для увеличения уникальности неоригинального текста, как правило, используются следующие приемы:

  1. замена синонимами отдельных слов;
  2. изменение словоформ;
  3. перестановка отдельных слов в предложении;
  4. изменение структуры отдельных предложений без изменений слов.

Такие приемы позволяют повысить уникальность текста, но не его качество.

Уроки по теме: