ЛИНГВИСТИЧНА СТАТИСТИКА
В допълнение, описите на езиковите форми могат да се разглеждат като различни популации: в този случай всяка езикова форма е селекция (с повторение) от списъка на формите на едно от предходните нива, например всяко изречение може да се разглежда като избор на думи от опис на словоформи, или като селекция на морфи от списък на морфеми, или като селекция на речеви звуци от списък на фонеми.
В зависимост от естеството на изучаваните езикови единици има фонологична статистика, която се занимава със статистическото изследване на моделите на използване на речеви звуци, фонеми, срички и т.н., морфологична статистика, която се занимава със статистическо изследване на използването на различни морфологични форми (основи, суфикси, модели на думи, части на речта и т.н.), лексикална статистика, която се занимава със статистическо изследване на моделите на употреба от думи и фрази. Стилистичната статистика установява със статистически методи характеристиките на функционалните, жанровите и индивидуалните стилове. В допълнение към тези раздели, в L. s. те също така разграничават типологичната статистика, която се занимава с развитието на количествените типологични характеристики на езиците, и хронологичната статистика (глотохронология), която разработва методи за определяне на времето на разминаване на езиците. За всички раздели L. с. характерно е използването на концепцията за честотата на дадена езикова форма като мярка за нейната употреба.
Л. с. като научен дисциплината възниква във връзка с желанието да се разшири наборът от структурни характеристики на езиковите форми с характеристика на тяхното използване. В същото време ние изхождахме от предположението, че всяка езикова форма има априорна вероятност да бъде използвана в текста. Всъщност тази вероятност трябва да се характеризираизползването на тази езикова форма. Като начин за намиране на тези вероятности се използва статистически метод за вземане на проби, който дава приблизителна оценка на употребата на дадена езикова форма под формата на нейната относителна честота. Л. с. изучава не само относителните честоти на езиковите форми и техните класове, но и такива характеристики на формите като техния размер (дължина), съвместимост (сила на връзка), разпределение в текста. Разликата между текстовете може да бъде в различния състав на формите и в различното им използване. Този факт се използва от стилистичната статистика, която разработва методи за сравняване на текстове по отношение на състава и използването на форми и получаване на оценки за степента на разлика между текстовете. Текстовете на различни езици се характеризират с различна относителна честота на елементи от подобен тип. Това използва типологична статистика за разработване на методи за типологично сравнение на езиците и получаване на оценки за т.нар. типологични индекси. Например съотношението на броя на морфемите към броя на думите в текста може да служи като мярка за синтеза на език (наричан негов синтетичен индекс). Виетнамският език, в който думите са практически мономорфеми, се характеризира със синтетичен индекс 1,06, за разлика от ескимосския, в който синтетичният индекс е 3,72. Между тях са английски (1,68), български и украински.
Отделен клон на L. s. съставят изследвания с помощта на методите на теорията на информацията. следобед формулират се редица специфични лингвостатистически задачи, като намиране на обема на текстов речник по неговата дължина, намиране на обема на пълен речник на писател въз основа на извадка от текстове на писателя, оценка на степента на разнородност на текстовете на различни нива, характеризиране на статистическата структура на текст, установяване на връзки между статистически характеристикиезикови форми от различни нива и др.
Във връзка с решаването на тези проблеми възникнаха проблемите на изучаването на лингвостатистическите разпределения. При изучаването на структурата на езика се използват както качествени, така и количествени характеристики на неговите елементи, което позволява по-задълбочено разбиране на механизма на езика и принципите на неговото генериране. Данните за използването на езикови елементи, предимно думи, се използват широко в такива приложни области като езиково обучение, текстова критика, стенография, машинен превод, комуникации и др. Вижте също Измервания на езикова информация.
Лит.: