Как се изчисляват параметрите и какво означават те в анализ на текст SEO пробивзнание
В момента отчетът съдържа следните параметри:
думи общо
Общият брой думи в анализирания фрагмент.
Броят на незначителните думи, открити в повечето текстове. Например спиращите думи включват: "беше, всичко, повече, как, кога, кое, повечето." Стоп думите се използват и при по-нататъшен анализ, когато се изчисляват много други показатели.
Важно: различните услуги използват свои собствени списъци със стоп думи, което води до несъответствия. Списъкът bez-bubna.com се основава на добавянето на няколко публични списъка. Именно той беше използван при изследването на алгоритъма Баден-Баден.
Въпрос: Възможно ли е да получите списък със стоп думи за услуга?
Отговор: невъзможно е, защото това е конкурентно предимство на услугата. Списъкът е тестван в детайлни проучвания на преоптимизирани текстове и е доказал своята ефективност, с негова помощ са изчислени праговете за попадане на филтъра. Това е важна част от алгоритъма, няма смисъл да го давате (и дори продавате) на конкуренти.
уникални словоформи
За да се определи броят на словоформите, всички повторения на дума в определена форма се филтрират. Например, в реда „Коледно дърво се роди в гората, израсна в гората ... той отсече нашата коледна елха“, „гора“ ще бъде филтрирана, но „рибена кост“ и „рибена кост“ няма.
уникални леми
Подобно на предишния, преди броенето текстът се лематизира, т.е. думите се свеждат до първоначалната им форма. Ако разгледаме предишния пример, тогава "рибена кост" и "рибена кост" ще бъдат сведени до една и съща лема.
класическо гадене
Корен квадратен от броя на срещанията на най-често срещаната дума. Очевидно това не е независим полезен сигнал.
академично гадене
Също така нее независим полезен сигнал.
Важно: академичното гадене се изчислява в различни служби по различни методи. Няма добре установена общоприета формула за изчисление, така че изведох своя собствена. Академичното гадене в bez-bubna.com се изчислява на база броя на срещанията на думи, които се срещат 2 или повече пъти в текста и общия брой думи. Колкото повече се появяват различни думи в текста и колкото по-малък е обемът му, толкова по-високо е академичното гадене. Разликата от класическата е, че всяка дума, която се среща повече от 1 път, а не само най-честата, дава добавка към крайния показател.
променливост
Изчислява се като разликата между 1 и съотношението уникални леми/уникални словоформи. Допълнителен слаб сигнал; при естествени текстове е малко по-висока, при спам текстове е по-ниска.
Разликата между единица и съотношението „брой думи след изчистени стоп думи/брой думи в оригиналния текст“. Страница, която изобщо не съдържа стоп думи, ще има водно съдържание 0, страница, съдържаща само стоп думи, ще има водно съдържание 1. Неестествените текстове под санкции много често имат повишено водно съдържание.
ТОП 3 Биграми
Трите най-популярни стабилни комбинации от две думи в текста, заедно с броя на срещанията. Тези данни са необходими за намиране на най-много "спам" изрази (въпреки че не всяка стабилна комбинация е спам!).
ТОП 3 триграми
Трите най-популярни комбинации от три думи в текста, заедно с броя на срещанията. По същия начин.
биграм гадене
За изчислението се взема сумата от броя на срещанията на трите най-чести биграми. Сумата се разделя на броя на думите в текста (с изключение на стоп думите и думите, по-кратки от 3 букви), за да се оцени относителната честота. Терминът "гадене" се използва за простота, като добре установенобозначаване.
Обикновено полезен сигнал; на спам текстовете по-горе.
Забележка: за удобство услугата показва резултата от изчислението, умножен по 100 и закръглен до третия знак след десетичната запетая.
триграмно гадене
Подобно на гаденето на биграмите. За изчислението се взема сумата от броя на срещанията на трите най-чести биграми. Сумата се разделя на броя на думите в текста (с изключение на стоп думите и думите, по-кратки от 3 букви), за да се оцени относителната честота.
Обикновено полезен сигнал; на спам текстовете по-горе.
Забележка: за удобство услугата показва резултата от изчислението, умножен по 100 и закръглен до третия знак след десетичната запетая.
диграма/униграма индекс
Подобно на гаденето на биграмите, но броят на появяванията на горните биграми не се разделя на общия брой думи в текста, а на броя на появяванията на думи, които съставят биграмите (униграма - 1 дума).
Обикновено полезен сигнал; на спам текстовете по-горе.
индекс на триграма/униграма
Подобно на биграм индекс. Според резултатите от проучването на голяма извадка, този показател демонстрира максимални разлики в "нормалните" и "спам" текстове.
отговор на сървъра
Техническа информация. Обикновено трябва да е 200. Ако е другото, вероятно е възникнала грешка (например сървърът ви е защитен от анализиране и измъква грешен текст).
тип анализ
Според настройките услугата може или да анализира целия html, или да се опита да изреже значителна част, или да следва маркирането с и тагове. Ако по една или друга причина не е възможно да се използва вторият или третият метод, ще бъде анализиран целият html, което ще бъде отразено в отчета.