В търсене на идеалната публикация или хабр гатанка, SavePearlHarbor

Още едно копие на пристанището

В търсене на перфектната публикация или habr гатанка

Внезапно си представих този идеален пост: нещо невероятно красиво, предизвикващо светло чувство, необяснимо, като мълчаливата красота на звездите. Как да го намеря, публикация без нито един минус?

От тези статии, които прочетох, не можах да си спомня такива, поне 1-2 минуса, но определено имаше. Възникна логична мисъл, че ако има такива, тогава трябва да ги търсите някъде в края на списъка с най-добрите публикации за месеца, защото там на теория трябваше да има публикации, в които с най-голям брой плюсове имаше най-малко минуси. Преглеждайки последните няколко страници (97-100), намерих една такава публикация.

За съжаление чудото не се случи, добър пост, но нищо особено. Тогава си помислих, че е необходимо да се съберат и анализират всички статистики. Може би сред публикациите с най-малък брой минуси има някои модели, например максимумът, който ще ми покаже заветната идеална публикация сред целия набор, написан през годините на съществуването на Habr.

Изтеглих всичките 100 страници с "най-добрите за всички времена" публикации, написах проста програма за анализ и разпределих редица "за" и "против" за всяка публикация. Ето какво се случи:

търсене

Това са първите хиляда публикации, изобразени графично по оста Х, сортирани по крайната оценка (рейтинг), показани в зелено, а в червено - броя на минусите. Вижда се, че дори и най-добрите статии доста силно преглъщат минусите. Може би някой ще намери друго изображение по-визуално, където първите 500 публикации са показани по-големи, сортирани по броя на плюсовете, така че минусите се оказаха „натиснати“ дълбоко в графиката:

хабр
След това сортирах публикациите по броя на гласовете против. Картината се оказа неочаквана:
публикация
Първоначално нямах представа какво е това. Тук всеки зъб е стълбове с еднакъв брой минуси (отляво 1, 2 и т.н.), сортирани вътрешно по броя на плюсовете. Между другото, накрая имаше само 2 публикации без нито един минус. Самата картина е интересна, но тук забелязах следното: въпреки че на теория височината на зъбите трябва да има нормално или произволно разпределение, може да се види, че първите 10 са подредени в странна двойна стълба:
хабр
Как може да се случи така, че максималният рейтинг на публикации с брой минус 1-5 постоянно расте, след това следва спад и след това от 6 до 10 отново равномерно увеличение? Не намерих никакво обяснение за този факт, освен че някакви свръхестествени сили се опитаха тук.

Ако погледнем същата статистика за най-доброто за месеца, ще видим нормално разпределение, без никакви аномалии:

публикация

След като прочетох статиите в горната част на тези зъби, си помислих: Чудя се как ще бъдат разпределени публикациите, ако вземем предвид броя на минусите по различни начини? Тоест, например, умножете ги по 5, така че на върха да останат само публикации с много малко минуси. Проведох следния експеримент: да предположим, че има коефициент на отрицателност и рейтингът, като го вземе предвид, се изчислява като

където P е броят на плюсовете, N е броят на минусите, KN е отрицателният коефициент.

Например, помислете за няколко абстрактни публикации:

- публикация с полезна или интересна информация, за която са поставили 130 плюса, но някои все още не са харесали нещо и са поставили 4 минуса; — публикация с поздравления (годишнина на ресурс или изобретение), приета положително (140 плюса), но тъй като като цяло е глупава, има много минуси, да речем, 27; - публикация на спорна тема, например за авторското право, която набира много гласове, катоположителни и отрицателни; - полезна, но не особено интересна публикация, например за прилагането на някакъв конкретен алгоритъм, получава само 27 плюса, докато 8 души смятат, че всичко трябва да е направено погрешно, и поставят минуси.

С обичайната формула за оценка, когато коефициентът на отрицателност KN = 1, публикациите се разпределят по следния начин: Ако KN=5, тогава публикациите с много минуси намаляват - „авторското право“ пада, отстъпвайки място на статия за алгоритъма: Увеличаваме още KN и рожденият ден също намалява, така че когато KN се повиши, и двете тематични публикации са на върха, а противоречивите едните остават на опашката: Сега преместваме плъзгача на коефициента на отрицателност в другата посока, като по този начин намаляваме тежестта на минусите: Тук рожденият ден веднага изскача напред, който е събрал много плюсове. И ако още повече намалим коефициента: Ще видим, че авторското право е на първо място, премествайки всичко останало надолу. По този начин, ако желаят, оптимистично настроените потребители могат да намерят публикациите с най-положителни реакции, независимо колко отрицателни гласове са получили.

Експериментирах малко с това съотношение върху реални данни и статистика на най-горните публикации и начертах графики, които започнаха да изглеждат доста странни, тъй като сега пресичаха оста x, но не се оказа много интересно, така че реших да начертая публикации в равнината на резултатите. По оста X - плюсове, по оста Y - минуси:

идеалната
Нещо в тази картина очарова, сякаш искри летят в космоса, гледах я дълго, когато я видях за първи път. Това е графика на най-добрите публикации на всички времена, където можете да видите, че те са отрязани от най-лошо класираната граница (170) сред най-добрите публикации на всички времена. И в началото на статията поставих графика за месеца, къдетосамо хакнат. И двете снимки ясно показват това, което така или иначе всички знаем: рядка публикация в Habré достига 500 плюса и повечето са разпределени почти равномерно в цялата равнина. Тук най-накрая се убедих, че няма идеален пост и че опитите да го намеря трябва да бъдат изоставени, в противен случай последствията могат да бъдат непредвидими.

Но какво кара хабраузера да щрака върху плюс или минус? Всъщност тази мисъл ми хрумна много по-рано, дори преди да построя първата графика, показана тук. Може би греша, но ето моето впечатление:

Въпреки че това е сайт за ИТ хора, които, както мнозина смятат, трябва да мислят като машини, безпристрастно оценявайки само полезна информация и изхвърляйки всичко останало, струва ми се, че хабровците се ръководят не само от ума, но и от чувствата, когато оценяват публикациите. Те използват бутоните под публикацията по предназначение, както е написано в подсказката: „харесвам“ или „не харесвам“.