Валидност. Също толкова важна е концепцията за валидност, която е точността на измерването.

Също толкова важна е концепцията за валидност, която е точността на измерването. За да бъде точна, всяка измервателна система трябва да измерва точно това, за което е проектирана. Ако една система за измерване има висока степен на доверие, но не предоставя точни резултати, нейната валидност се счита за ниска и въпреки високата степен на увереност тя има лошо качество на измерване. Валидността на теста е изключително важен критерий за оценка. Преди конкретен тест да бъде приложен на практика, селекционерът трябва да се увери в валидността на този тест, като направи прецизни измервания на присъщата черта(и). Това е много важен момент, тъй като прогнозата за бъдещото поведение на кандидата на работа се основава на резултатите от такива тестове. Например, помислете за използването на полиграф (детектор на лъжата) в процеса на подбор, за да проверите честността на кандидатите. През 1986 г. е проведен експеримент: изследователи са подложили 1000 души на полиграфски тестове. 500 от тях трябваше да кажат истината, а 500 трябваше да излъжат. Полиграфът показа, че 185 от казващите истината лъжат, а 120 от "лъжците" казват истината. Тези резултати показват, че валидността на полиграфа като мярка за честност не е безупречна. Детекторът на лъжата може да бъде абсолютно надежден и да показва едни и същи резултати всеки път, когато едно и също лице извършва теста. Но не е валиден, защото дава неверни резултати и не измерва честността с перфектна точност.

Строго погледнато, признаването на коректността — валидността — се отнася доинтерпретацията на резултатите, получени от всеки тест или метод за подбор,отколкото до интерпретацията на самите тестове или процедури за подбор.Това е централен проблем, тъй като един тест може да е валиден, когато измерва едно нещо, и да не е валиден, когато измерва друго. Например полагащите изпити за чираци програмисти обикновено се опитват да оценят математическите способности на полагащите изпит да предскажат как ще се представят в бъдещите си работни места. Въпреки това, тъй като съвременното програмиране изисква първо по-високи нива на вербално-логическа способност за разсъждение и след това математически способности (Penney and Lazzarini 1979), такива тестове са несъстоятелни за избор на компютърни програмисти. Те обаче могат да бъдат валидни при оценката на кандидати, кандидатстващи за работа, за която математическите способности са важни. Следователно валидността е осъществима само в тясна връзка с целите, за които е приложен тестът.

Най-известните определения за валидност са: валидност на съдържанието, конструктивна валидност и валидност, свързана с критерии. Всеки от тях сам по себе си е критерий за оценка. Трябва да се признае, че методът за изпитване или подбор трябва да има и трите вида валидност. Достоверността на съдържанието често се разделя на два отделни аспекта: външна достоверност и истинска достоверност на съдържанието.Външната надеждносте възприятието на самите кандидати колко правилно са направени измерванията по време на тестването. Сама по себе си външната сигурност изобщо не е вид валидност. Някои твърдят, че външната валидност е маловажна (вж. Mosier, 1947, пълно отразяване на дискусията), но всъщност тя е от голямо практическо значение, тъй като често е причината, поради която или компания, или кандидати отхвърлят тест.Предполага се, че въпреки ниската валидност на специалните интервюта, те са широко използвани именно поради външната надеждност.Валидността на съдържаниетокато такава решава проблема с вземането на проби от значение за процеса на измерване. Съдържанието на всяко измерение може да се визуализира като селекция от въпроси, задачи или поведения, които отразяват структурата, която се измерва. Осигуряването на достоверност на съдържанието е процес на две фази. Първата фаза се фокусира върху това дали методът за подбор отразява всички известни характеристики на въпросната работа (напр. междуличностни умения, екстравертност). Това обикновено се постига чрез сравняване на инструмента за измерване и квалификациите и изискванията към персонала, разработени въз основа на анализа на съдържанието на работата. Втората фаза оценява колко точно всички задачи на измервателния инструмент отразяват отличителните характеристики на това, което се измерва. Например, ако даден тест е предназначен да измерва общите математически способности, но не включва задачи за събиране или изваждане, неговата увереност на съдържанието ще бъде ниска. Но ако същият тест е предназначен само за измерване на способността на кандидата да умножава и дели, надеждността на съдържанието му може да бъде висока.

Потенциално конструктивната валидност е най-полезният тип валидност, но в същото време обикновено е най-неясният и сложен от всички видове валидност. Cronbach и Meehl (1955) дефинират конструкт или обобщен ментален образ като "някакъв постулиран атрибут на човек, който трябва да бъде отразен в представянето на теста." Като такъв, този тип валидност се опитва да отговори на въпроса "Какво е психологическото значение на тези мерки и как тези мерки се сравняват с други мерки?"Следователно конструктивната валидност се занимава със степента на съответствие между предвидения образ и реалността. Вземете например упражнението за избор на работа, разработено от Майкъл Стал през 1983 г. и внедрено от Greatplay Inc. за идентифициране на признаци на управленска мотивация. Мениджърската мотивация не е някакъв физически обект, тя е просто етикет, използван за описване на интензивността и посоката на поведение, състоящ се от две изображения: Нужда от власт (NPow) - описателно име, което отразява нуждата да се влияе на другите, и Нужда от успех (NAch) - описателно име, което отразява необходимостта да се поставят цели и да се постигат. За да определи конструктивната валидност, Щал тества хипотезата, че човек с висока управленска мотивация ще има висок резултат по скалите NPow и NAch и обратното, човек с ниска управленска мотивация ще има нисък резултат. Той измерва представянето на 1417 респонденти от различни професии - както сини якички, така и управленски персонал - работещи в различни сфери. Той установи, че тези, които имат висок резултат по скалите NPow и NAch, имат по-висок процент на повишение от тези, които имат нисък резултат. Тези с високи резултати е по-вероятно да бъдат лидери, отколкото тези с ниски резултати; сред първите имаше повече мениджъри, отколкото сред вторите. Въз основа на тези резултати можем да заключим, че образът на управленското поведение има значителна степен на доверие. Следователно Stahl по същество тества конструктивната валидностна идеята зад теста, а не самия тест. Въпреки това, както в този случай, често е доста трудно да се отделят доказателствата за валидност, предоставени от този подходдоказателство за увереност, свързано с критерия. По-графичен метод за установяване на конструктивната валидност на новоразработен тест е да се съпоставят резултатите от новия тест с тези на достоверен тест, който точно отразява изображението. Например, конструктивната валидност на тест за екстраверсия може да бъде установена чрез съпоставяне на нова мярка за екстраверсия с признат тест за екстраверсия. Конструктивната валидност на дадено измерване може също да бъде определена чрез статистически методи като проучвателен и потвърждаващ факторен анализ с помощта на компютърни програми. Но тези техники са извън обхвата на тази книга; Заинтересованият читател може да се позове на Joreskog и Sorbom (1988), Bentler (1989) или Ferguson и Cox (1993).

Осъзнаването на конструктивната валидност на даден тест може също да помогне при оценката на приложимата валидност, свързана с даден критерий. Както беше показано с Greatplay Inc., валидността, свързана с критерия, се отнася до връзката между прилагания тест и изпълнението на критерий (напр. производствени цели). Прогнозната валидност измерва доколко даден тест е свързан с последващото изпълнение на дадена работа. Но определянето на предсказуемата валидност на нов тест може да включва известен риск и разходи. Да предположим, че Greatplay Inc. разработихме нов тест за управленска мотивация и наехме служители въз основа на резултатите от теста; и известно време по-късно представителите на компанията решиха да оценят как всеки от приетите служители изпълнява работата и да съпоставят резултатите спървоначални резултати. Да предположим, че имат ниска корелация. Тъй като съответствието между оригиналния тест и мерките за ефективност е мярка за предсказващата валидност на теста, Greatplay Inc. установява, че е наела много неподходящи кандидати. Това е рискът, който много компании не искат да поемат поради високите разходи. Практически начин за преодоляване на този проблем е да се предложи на всички кандидати нов тест, но да се избират кандидати въз основа на други, установени методи. След известно време трябва да сравните представянето на успешните кандидати с тяхното собствено представяне, получено от новия тест. Ако корелацията е висока, което показва, че новият тест има висока прогностична валидност, тестът може да се използва в следващите процедури за подбор. Естествено, полученият коефициент на валидност ще повлияе не само на точността на новия тест, но и на средствата за измерване на ефективността. Това е много важно, защото често се полагат големи усилия, за да се направи новият тест точен, а мерките за ефективност са почти напълно игнорирани.

Друга процедура за оценка на доверието, свързано с критерий, е установяването на последователно доверие. Този метод включва прилагане на методи за скрининг на съществуващи служители и измерване на тяхното текущо изпълнение на работата. След това тези два показателя се сравняват един с друг. Предимствата на този метод са бързината на установяване на валидността на измерването и по-ниските разходи. Този метод обаче има своите недостатъци: първо, реалните служители имат по-ниска мотивация от потенциалните и следователно могат да отговорят неправилно, което може да доведе до неправилна оценка на коефициента на валидност;второ, има вероятност истинските служители да вършат добра работа, в противен случай биха преминали към друга компания или биха я напуснали. Това означава, че е възможно обхватът на получените тестови резултати да бъде ограничен, което почти винаги ще доведе до по-нисък коефициент на валидност, отколкото е в действителност. Този проблем може да бъде решен с помощта на математически формули (виж Smith and Robertson, 1993a). Специален тип последователна валидност, която може да преодолее тези трудности, саноминираните групивъз основа на използването на две групи от хора с различни характеристики, които трябва да бъдат измерени. Например, това е група от съвестни дългосрочни работници с добри проценти на напускане и група от млади работници. Разработеният тест за добросъвестност може да бъде тестван върху тези групи. Измерването ще бъде ефективно, ако резултатите показват ясна разлика в представянето на тези групи, с по-високо представяне в групата на по-възрастните работници. Ако няма никаква разлика между показателите на двете групи, измерването не може да се счита за надеждно.