В предыдущей главе мы описали основные принципы оптимизации текстов с практической точки зрения. Теперь коснемся того, как поисковики определяют, является ли текстовый документ релевантным запросу или нет.
При подсчтете формулы тектового ранжирования большинство поисковиков используют формулу TF*IDF.
Точная формула у каждого поисковика неизвестна, и это сегодня определить достаточно сложно, так как в эту формулу могут входить как логарифмические, так и экспоненциальные зависимости, а также сейчас помимо тектовых факторов на выдачу влияют еще сотни других составляющих.
Тем не менее, для успешной оптимизации тектов необходимо понимать то, как работают поисковые системы и как они подсчитывают релеванстность текста.
Для сравнения релевантности каждого отдельного документа вводится понятие веса. Т.е. чем больше вес документа, тем выше его позиции. Весом документа будем считать как раз произведение TF*IDF.
Величина TF в общем случае пропорциональна количеству вхождений заданного слова в документе. Например, для документа, в котором запрос "утюг" употребляется 5 раз, будет пропорционален 5, если же слово встречается 10 раза - то десяти.
Величина IDF в общем случае пропорциональна обратной частоте слова во всей коллекции документов (в данном случае под коллекцией документов может подразумеваться все страницы в интернете, на которых содержится слово). Чем чаще в интернете встечается слово, тем меньше будет IDF.
Таким образом, наибольший вес будет получать документ, в котором чаще встречается заданное слово, и это слово наиболее реже встречается в интренете.
Обратите внимание на то, что в этой статье я использую достаточно грубое приближение, записывая слово "пропорционально". Как я уже писал, в формулу могут входить множетсво пораметров тектового документа, такие как его длина, частотность самого употребляемого термина, количество слов в документе, содержащихся в запросе, и другие. Поскольку сегодня зависимость от этих параметров далеко не линейная, для понимания основных принципов достаточно приближение "пропорционально".
Теперь примерно становится понятна логика того, как можно обогнать конкурентов по конкрентному запросу в плане текстового ранжирования страницы. Так как IDF для всех документов и одного и того же запроса одинаково, то нам следует просто сделать TF продвигаемого запроса на странице больше, чем у конкурентов.
|