Как да разберете дали една компания лъже за машинното обучение, Технологии

Според наскоро публикувано проучване на CB Insights, размерът на рисковите кръгове в транзакциите с AI проекти на етап A е 200 милиона долара - огромна цифра, често свързана, може би, само с факта, че префиксът AI (Artificial intelligence, изкуствен интелект -Forbes ) присъства в описанието на стартъп. Според статистиката на CB Insights броят на сделките с подобни проекти през последните пет години е нараснал 4,6 пъти - от 150 през 2012 г. до 698 през 2016 г.

„Машинно обучение“ и „изкуствен интелект“ вече са се превърнали в модни думи за почти всяка ИТ компания в света. Те, които вече са част от маркетинговата стратегия, се използват не само от стартиращи компании, но и от големи играчи. Защо наричам тези концепции „маркетинг“? Защото в действителност представителите на бизнеса (и още повече широката аудитория) не разполагат с никакви инструменти, за да проверят факта на реалното използване на такива технологии. Инвеститорите, които анализират стартиращи продукти, предлагани за инвестиране, също се сблъскват с този проблем. Как да отделим зърното от плявата?

Има различни методи за машинно обучение - от класификацията на алгоритми до невронни мрежи (повече за работата на машинното обучение - в материала на Forbes). В първия случай тясното място е експертизата на специалисти, които прилагат алгоритми и разработват аналитични фактори за тях. Във втория, изчислителната мощност е не по-малко важна: когато работите с невронни мрежи, те ще се нуждаят от стотици и дори хиляди пъти повече, отколкото с аналитични алгоритми. Разгледайте тези фактори като потенциални тесни места, преди да вземете решение да закупите продукти или да инвестирате в компания.

започнахсе занимават с машинно обучение през 2009 г., когато то все още не беше толкова нашумяло и популярно, колкото е сега. През това време разработих набор от критерии, които се превърнаха в „лакмус“ за определяне на етапа на технологична зрялост на компания в областта на машинното обучение.

Критерий 1. Демонстрация на продукта

Какво да търсите:

Данни за демонстрационен/пилотен проект. Трябва да показват някаква аналитичност по предварително подготвени данни по абсолютно представителен начин. Трябва да имате чувството на увереност, че обработката на конкретни данни наистина се случва, а не просто „пуска“ предварително подготвен скрипт.

Къде и как се обработват данните.

в облака на разработчика. Ако изпращате данни към „облака“ на разработчика, тогава единственият начин да проверите дали с него работят не анализатори, а алгоритми, е да изпратите толкова много данни, че ръчната им обработка да отнеме повече време от времето, за което ви е предоставен резултатът.
От страна на клиента. В случай на изчисление от ваша страна, трябва да сте подготвени за мащабиране на такава система и потенциални проблеми с нея. Например, ако доставчик предоставя „хардуерно“ решение в кутия, важно е да разберете за колко информация е проектирано и да проверите праговите стойности. При машинното обучение времето за обработка на информация често не е линейно пропорционално на нейния обем: например, ако по време на теста сте проверили обработката на 50 Mb информация, това изобщо не означава, че обработката на 100 Mb информация ще отнеме два пъти повече (може би 4, или 8, или 100 пъти повече) - в зависимост от използваните алгоритми. Ако сте получили само един сървър за тестване, който се занимава както със събиране на данни, така и с обработката им,струва си да се обмисли колко продуктивна ще бъде тази опция в бъдеще и дали изобщо си струва да тествате системата в тази форма. Ако единственият сървър се продава като система за анализиране и обработка на данни с помощта на машинно обучение (всичко в една бутилка), тогава трябва да се консултирате с разработчика: как изобщо може да работи такава система? В крайна сметка алгоритмите за машинно обучение няма да оставят свободни ресурси на сървъра за друга работа на системата.

Критерий 2. Спецификация на продукта

Какво да търсите:

Обхват и източник на набора за обучение. „Големи данни“ са само красиви думи, ако не са потвърдени от количествени и качествени оценки. Много компании използват отворени източници на данни („набори от данни“, набори от данни) и не се страхуват да посочат произхода си. Водещи играчи на пазара дори публикуват своите данни в публичното пространство. Когато анализирате всеки проект, е важно да разберете откъде идват данните за обучението - това ще покаже тяхната надеждност и качество. Ако производителят крие произхода на данните, това е повод да се замислим за причините за това поведение. Размерът на комплекта за обучение също е много важен и винаги е измерим. Разработчикът знае точно колко данни се използват за обучение - поискайте тази информация, когато анализирате проекта, поискайте число - в гигабайти, в броя на записите, във всяка друга мерна единица. Трябва да чуете конкретен индикатор.

Подробности за използваните алгоритми. Търговска тайна, казват мнозина. Но за да се убедите в технологичния потенциал на продукта, изобщо не е необходимо да получите спецификация за конкретно изпълнение. Повечето алгоритми за машинно обучение обикновено са стандартни и добре описани. Много по-важно е да разберем какво точно се случва вътрепродукт, поне на ниво входни и изходни данни. Например, ако даден стартъп не може ясно да обясни какво се случва с потребителските данни, за да ги превърне в краен брой входни неврони в мрежата и за какво точно са отговорни изходните неврони, той най-вероятно просто няма тази технология.

Критерий 3. Обратна връзка от клиенти и експерти.

Това е може би най-очевидният критерий. Разбира се, струва си да попитате настоящите клиенти на компанията доколко декларираните от нея параметри отговарят на действителните. Това е много прост и ефективен начин. Важно е да разграничавате лоялните клиенти от обективните. Често стартирането е готово да даде списък с лоялни клиенти, но мнението на тези, които намирате сами, е много по-интересно.

Експертното мнение тук също е трудно да се надцени. Не може да се каже, че има много професионалисти в машинното обучение в България, но специалисти наистина има и то достатъчно много. Добър вариант би бил да поканите някой от служителите на портфейлни компании като попечители, за да анализират нови стартиращи компании.

Внимателният анализ на всеки от трите критерия ще ви помогне да се ориентирате в практическите аспекти на машинното обучение, а не сляпо да „води“ към маркетинга. Не пренебрегвайте този набор от въпроси за разработчиците.