Разликата между статистиката и науката за данните

Здравейте скъпи читатели. Отново ще се опитаме да се консултираме с вас относно уместността на новостта на Орейлев. Този път ще говорим за статистика за Data Science.

разликата

Книгата се занимава с кратки случаи с малък брой графики и примери на езика R.

Разбира се, има и огромно търсене на специалисти по данни. Миналата година Glassdoor класира професията като най-добра работа за 2016 г. - цитирайки 1700 отворени позиции със средна годишна заплата от $116k като пример.

Но след като прочетох публикация в Data Science и след това отговорих на въпрос от бизнес училище в Quora (между другото, имаше дълбоки мисли) - опитвайки се да разбера тази модерна тенденция, имах само още въпроси. Всеки определи малко по-различно какво е Data Science и какво не е. След няколко часа вече не бях сигурен, че феноменът Data Science изобщо съществува.

Както скоро стана ясно, отговорът е свързан не само с умението за програмиране, но и с най-дълбокото разбиране на създавания продукт.

Скептичен статистик

Нейт Силвър изглежда не вижда разликата между науката за данни и статистиката. Той е известен калкулатор, ключов човек от медийния сайт FiveThirtyEight - и същият човек, който правилно прогнозира резултатите от гласуването на президентските избори през 2008 г. в 49 от 50-те американски щата. През 2012 г. той вече получи 50 от 50. И той възприема термина „наука за данни“ по-скептично.

„Мисля, че data-scientist е рекламиран синоним на „статистик“, каза Силвър в лекция през 2013 г. на Съвместната статистическа среща.

„Статистиката е научна дисциплина. Терминът „наука за данни“ е малко излишен, така че е по-добре да използваме термина „статистик“.

За статистиците цялата тенденция в науката за данни изглежда малко арогантна. Без значение каква е точната дефиниция на „наука за данни“, по един или друг начин тази област на дейност се припокрива с работата, която статистиците вършат от десетилетия.

Дори науката за данни да е нещо специално, не можах да разбера защо всички тези компании се нуждаят от легиони от такива специалисти. Защо работата е толкова готина? Възможно ли е компаниите просто да имитират Google, Facebook и Netflix, жадувайки за своите печалби и пазарна стойност?

Разочарован, надрасках кратко съобщение до приятел, CTO. Той реагира светкавично: „Не искам и да чувам за тях“.

От няколко месеца той интервюира кандидати за позиция на специалист по данни в тяхната компания. Оказа се, че самопровъзгласилите се за специалисти по данни са повече от неясни какво трябва да правят. Всеки кандидат имаше малко по-различен набор от умения и още по-идиосинкратично разбиране на набора от своите задачи.

„99% от кандидатите не са специалисти по данни“, каза той. „Те не знаят как да направят това, от което се нуждаем.“ Дори тези, които се застъпват за тази професия, изглежда са объркани относно това къде свършва статистиката и започва науката за данните.

Човекът, който знае отговорите

Търсейки отговори, писах на Дрю Хари, директор Data Science в Twitch. Предминалата есен обсъдихме статия за това как Twitch стана по-голям. Ако някой можеше да ми покаже пътя, това беше Дрю.

„Да, познавам колега с интересни мисли по този въпрос“, пише той. Няколко дни по-късно се явих на среща с Брад Шумич, решихме да седнем в кафене близо до централата на Twitch в Сан Франциско.

„Е, кажете ми какво мислите за науката за данните истатистика“, пита Брад. И тогава той седи тихо, отпива горещ шоколад и ме слуша внимателно - и след две чаши кафе, аз преминавам от езика R към управление на канали за данни и по-нататък към алгоритми.

Брад има отговорите, от които се нуждая, но като добър учен по данни, той започва да задава въпроси, за да ме накара да започна.

След като завърших изчисленията си, Брад учтиво отговаря: „Всичко това са много добри точки, но като цяло темата не е лесна. Като цяло, това е страхотна тема, просто защото има какво да се обсъжда тук.

След пауза той започва: „Първо, аз много уважавам статистиците.“

Подчертано не бърза и не се притеснява да спре, за да събере мислите си. „Статистиката е съществена част от науката за данните. Нашият екип за наука за данни в Twitch има три компетенции: статистика, програмиране и разбиране на продукта. Никога не бихме наели човек, който е слабо запознат със статистиката. Можеш да си страхотен програмист, но ако не знаеш какво е Bayesian inference, тогава имаме и инженерен отдел, аз мога да го ръководя.

„Някои хора смятат, че науката за данни е просто приложна статистика, но ние определено не сме само статистици. Имам нужда не само от хора, които биха се занимавали с теоретични изследвания в областта на статистиката. Никой не трябва да пише статии като Фишър за мен“, продължава той, имайки предвид Роналд Фишър, основателят на съвременната статистика и експерименталния дизайн. „Много по-важно е да можем да приложим направените изводи.“ Естествено, в компания като Twitch подобно „използване“ изисква задълбочени познания по компютърни науки.

Не само статистика

В статистическата общност все повече се говори, че границите на статистиката трябва да бъдат разширени – напр.да бъдем по-внимателни към събирането, представянето и управлението на данни, да се ангажираме по-отблизо с прогнозирането на резултата, а не просто да изграждаме логически връзки. Има много посоки, в които статистиката може да расте. Вместо просто да направят учебник и след това да се върнат към теоретичните изследвания, статистиците трябва да общуват.

Например, преди няколко десетилетия кванти (статистици, участващи в количествен анализ) преглеждаха числата в своите офиси и предаваха данните на заинтересованите страни - например търговци - така че те да могат да предприемат необходимите действия. Днес специалистите по данни пишат алгоритми, които са в състояние да усвояват данни в напълно автоматичен режим, да изчисляват всичко и да правят сделки - всичко това за част от секундата.

Очевидно корените на всичко това са в статистиката. Разбирам защо мнозина, включително уважаваният Нейт Силвър, могат да го объркат с науката за данни. Но областта на професионалната дейност на учените по данни далеч не се ограничава само до статистиката. Компютърните науки обогатяват много дисциплини, като им придават нови аспекти. Маркетинг + програмиране = хакване на растежа. Вероятно статистика + програмиране = наука за данни. Как ми се иска да можех да се върна към часовете по Udemy, които пропуснах.

Ерата на динамичните продукти

Преди двадесет години сайтовете, които посетих с II si в компютърен клас, бяха предимно статични документи. Но тези страници няма да ви отведат много далеч, така че скоро се появиха по-сложни сайтове, които реагираха на въведените от потребителите. Например Google - получи заявка за търсене от потребителя и след това издаде списък с подходящи уеб страници.

Когато отворите Facebook, формирането започваемисия с новини и безброй много фактори участват в нейното оптимизиране. Уил Оремус, старши технологичен писател в Slate, описва този процес в отличното си проучване на алгоритъма зад Facebook News Feed:

Но как да вплетем всичко това в един продукт? Има ли голяма стойност в една ретроспекция? Facebook се нуждае от алгоритъм, за да анализира всичко това, докато страницата се зарежда, да предскаже и да достави оптималната емисия новини. Това прави специалистът по данни.

Ето защо такива специалисти са необходими в технологичните компании. И защо те, дори и да работят със статистика, далеч не са „същите специалисти, поглед отстрани“.

Но успехът в науката за данни също изисква задълбочено разбиране на продукта, с който работите.

под въпрос

„Twitch е пълен със страхотни хора и не всички знаят статистиката. Следователно, за да постигнете резултат, трябва да установите контакт между специалиста по данни и продуктовия мениджър“, казва Брад.

Докато обсъждаме ролята на науката за данните в разработването на продукти, Брад продължава да говори за „ефективност“.

„Много по-ефективно е да работите, ако всички разбират значението на продукта по един и същи начин, решават кои параметри са по-важни, разбират как да прилагат проследяване от гледна точка на програмист и как да правят анализ от гледна точка на статистик.“

Неразбирането как хората ще използват продукта и какви са целите на компанията, може да изкриви целия анализ на данните. Задачата на data scientist е да държи в ума цялата тази информация наведнъж и когато някой дойде в отдела с неясно дефиниран проблем, да знае към кои данни да се обърне, за да отговори на въпроса.

Универсални занаятчии

Поглеждайки назад, разбирам защо е толкова трудно да се дефинира тази област,защото специалистите в него работят на пресечната точка на статистика и програмиране, както и статистика и производство. Още по-ясно е колко трудно е да се намери такова определение, ако вие сами сформирате екип за наука за данни.

Настоящият учен по данни странно съчетава чертите на икономист, физик и математик. Това е рядко срещан човек, който благодарение на обстоятелствата и правилното образование е и страхотен инженер и калкулатор. Но такива хора трудно се намират. Опитът показва, че не всеки, който твърди, че е учен по данни, по принцип може да обясни какво е това.

Може би, ако всички стигнем до общо мнение какво трябва да правят учените по данни, ще има по-малко такива публикации. Но все пак има усещането, че бурното търсене на истински специалисти в тази област засега ще продължи.

В анкетата могат да участват само регистрирани потребители. Влез Моля.