Computerra Големи разкопки и големи предизвикателства

Науката за извличане на съдържание от масиви от данни става все по-сложна и задачите, които майсторите на подобно търсене поемат, са все по-човешки.

Науката за извличане на съдържание от гигантски набори от данни става все по-сложна и задачите, които майсторите на подобно търсене поемат, стават все по-човешки.

Какво е SIG? Нека помислим за най-популярната от тези групи - SIGGRAPH. Ежегодните мегаконференции, на които се правят доклади, изнасят се лекции и се демонстрират най-високите постижения на компютърната графика, анимацията и свързаните с тях математика, други науки и технологии, са известни далеч извън общността на специалистите. Други SIG (сега тридесет и четири, включително SIGART [изкуствен интелект], SIGMOD [бази данни], SIGPLAN [програмни езици], SIGSOFT [разработка на софтуер] и т.н.) не са толкова известни сред широката общественост, но са спечелили уважението на специалистите, а техните конференции, публикуваните списания са показатели за качество в техните области.

Произход на KDD

- От детството си имах склонност към математиката, очевидно наследена от баща ми, виден математик Иля Пятецки-Шапиро. Докато живеех в Москва, учих в известната Втора математическа школа, участвах в математически олимпиади - но тъй като поех само малка част от математическия си талант от баща си, още в училище разбрах, че чистата математика не е за мен. Открих компютрите през 1974 г., през първата си година в Технион, когато емигрирах в Израел, и веднага се заинтересувах от тях. Бях особено очарован от въпросите за изкуствения интелект. Написах първата интересна програма през 1974 г. на езика APL - тя беше предназначена за игра на "морска битка". След като изиграх една игра с нея, азбезусловно се поддаде на собствената си програма. Желанието за продължаване на играта изчезна - но желанието за писане на програми се засили. След това имаше следдипломно обучение в САЩ, също съсредоточено върху задачи с изкуствен интелект. Темата на дисертацията беше приложението на изкуствения интелект при работа с бази данни.

Успешни статистически модели са идентифицирали стотици милиони долари потенциални „данъчни убежища“ за богатите американци.

Кандидати за страхотни

На конференцията KDD-2006 няколко добре известни изследователи в областта на извличането на знания от данни предложиха задачи, които в бъдеще може да претендират за „големите предизвикателства“, хвърлени от ежедневната практика.

Тест на Уикипедия

Оценете милиард прогнозни модели

Разработване на системи за копаене на текст, способни да преминават редовни изпити SAT, GRE, GMAT за разбиране на текст

Е, за пълнота нека споменем състезанието, което ще се проведе на конференцията KDD-2007. На участниците се предоставя обучителен набор от данни на Netflix, който събира повече от 100 милиона оценки (по петобална скала) за 18 000 филма от 480 000 произволно избрани анонимни потребители на Netflix (т.е. хора, наели DVD-та от Netflix) от 1998 до 2005 г. Ето една от двете задачи, за които ще се проведе състезанието:

Даден е списък от 100 хиляди двойки от формата "user_number, movie_number", отнасящи се до 2006 г. (тоест не са включени в масива за обучение). За всяка такава двойка трябва да посочите вероятността този потребител по някакъв начин да е оценил този филм през 2006 г.

Сред кандидатите за "Големите предизвикателства на KDD" (виж страничната лента) са задачи, които са близки до теста на Тюринг. Има ли надежда, че DM техниките ще помогнат за постигане на значителен напредък в решаването на този проблем?класически проблеми с изкуствения интелект? От друга страна, възможно ли е в проблемите на протеомиката да се надяваме, че отговорите на важни въпроси от биологията ще се появят само благодарение на DM?

Лично аз смятам, че това е проблем, който може да бъде решен в рамките на пет до десет години и когато се реши, това ще промени напълно съществуващата практика на приемните изпити.

Добрият модел с данни е толкова важен за dm, колкото двигателят за спортна кола

Наскоро Лари Пейдж, съосновател на Google, обяви, че Google работи сериозно върху AI и използването на изчислителната мощност и базата от знания там може сериозно да ускори движението към AI.

1. "Пункция на цереброспиналната течност". [връщане]

2. Хм-хм. Наскоро споменахме широко разпространеното използване на разпознаване на реч при лекарски диктовки на медицински досиета. Може би системата на Рао коригира грешки не само на лекарите, но и на системата, записала диктовката им? - L.L.-M. [връщане]