11 августа руководитель отдела аналитики Demis Group – Павел Никулин выступил на пятой ежегодной крупнейшей конференции по интернет-маркетингу – «Baltic Digital Days» в Калининграде. В рамках секции «SEO в русскоязычном интернете» спикер представил презентацию на тему «Machine Learning для текстового анализа» и рассказал каким образом отдел аналитики Demis Group анализирует значимость текстов на страницах сайта, определяет коммерческость запросов, спамность, водность, неестественность. Особое место в выступлениии было уделено работе с алгоритмом «Баден-Баден».
Поиск значимого текста
При анализе текста на странице существует вероятность принять за значимую совершенно ненужную для анализа часть документа. Алгоритм поиска значимого текста внедренный специалистами Demis Group нужен для того, чтобы понять, где находится такой текст, стоит ли его писать и сколько вхождений он принесет. Такой тип алгоритма способен найти отличия между реальным текстом и описанием позиции в каталоге, даже если описательная часть состоит из 2-2,5 тысяч символов.
Задача алгоритма — подобрать такую нелинейную модель анализа страницы, которая способна классифицировать навигацию, каталог или текст. Для этого используется HTML-код страницы, и собираются различные факторы — метрики о данных каждого блока страницы: количество слов, знаков препинания, категории тегов, число ссылок и проч.
Коммерческость
Для анализа коммерческости запроса и документа в алгоритме поиска значимого текста используется заголовок и аннотация сниппета, анализируются характеристики хоста (нахождение в Яндекс.Каталоге, геопривязка и пр.), характеристики страницы (коммерческие и некоммерческие признаки в URL).
Спамность
Для создания алгоритма определения спамности отделом аналитики Demis Group был проанализирован корпус спамных и качественных текстов, размеченных вручную. Модель включала 24 фактора: количество текста, предложений, частых и редких биграмм, униграмм (последовательностей и сочетаний символов, слогов, слов и т. д.) и пр.
Водность
Для определения водности текстов анализу были подвергнуты несколько сотен тысяч документов. Качество результата основывалось на сравнении сеошных слов и пар слов в коммерческих и некоммерческих текстах. Если определенная комбинация типа «Наша компания предлагает вашему вниманию…» очень часто встречается в текстах с большой SEO-составляющей и почти не встречается в качественном контенте, то с большой долей вероятности можно утверждать о ее «коммерческости».
Неестественность
Понятие сродни водности, за одним исключением. У каждого слова в тексте есть его граммема — недопустимая часть речи, падеж, согласование времен, числительных и пр. Для анализа все слова в текстах были заменены на граммемы. Корпус частых пар слов граммем был выделен из большого корпуса граммем типа «кирпич москва», «вылет горящий тур» и других. Для определения неестественности также были использованы коммерческие и некоммерческие тексты.
Алгоритм «Баден-Баден»
«Баден-Баден», представленный Яндексом 23 марта 2017 года, позволяет находить переоптимизированные тексты. На момент его появления в компании Demis Group существовала единственная метрика анализа текста — спамность. Для оценки эффективности алгоритма была проанализирована спамность текстов из ТОП-10 и ТОП-20 поисковой выдачи до и после его введения. Существенных изменений не произошло — метрика «спамность» в выдачах выросла всего на 0,021%.
На самом деле спамность выросла гораздо больше. Она сильно коррелирует с размером текстов. С начала 2017 года в рунете наблюдается существенное уменьшение доли массивных документов в ТОП-10 выдачи — количество символов в среднем документе за последний год сократилось в 2-3 раза. Предположим, если раньше на текст из 3000 символов вхождение ключей было на уровне 5, то сейчас то же количество ключей наблюдается в текстах на 1000 символов.
Если говорить об анализе текстов, потерявших позиции после введения алгоритма «Баден-Баден», то их число зависит от того, что анализировалось — тексты по конкретным запросам или весь хост. Хостовый «Баден-Баден» накладывается на весь хост и не всегда понятно, какие именно тексты признаны «упавшими» и их нужно переписывать. Минус в том, что под фильтр может попасть даже область сайта, не предназначенная для продвижения.
Как оценить вероятность наложения «Баден-Баден»
Во избежание подобных ситуаций специалистами компании была создана метрика вероятности наложения фильтра «Баден-Баден». Она представляет собой комбинацию 14 факторов: спамности, неестественности, водности, величины текста, коммерческости, уровня вложенности, комбинации факторов и пр.
Благодаря данной метрике специалисты Demis Group c высокой точностью могут предсказать на какие страницы наложен фильтр «Баден-Баден» и внести корректировки. Успешные кейсы компании подтверждают эффективность работы данного алгоритма.
Если Вашему сайту требуется качественное и эффективное SEO-продвижение, если Ваш ресурс попал под фильтр или пессимизирован, обращайтесь в Demis Group!
Получить коммерческое предложение
Подписывайтесь на рассылку и получайте анонсы ключевых digital-событий и полезные статьи 2 раза в месяц
Мы ежедневно создаем интересный и полезный для бизнеса контент. Публикуем статьи и исследования рынка, советы от экспертов отрасли, организуем вебинары и консультации по продвижению бизнеса с учетом текущих условий. Размещаем обзоры и репортажи с крупных выставок.
Подписывайтесь, применяйте полученные знания на практике и будьте на гребне волны!