Лексикостатистика - Lexicostatistics

Лексикостатистика - это метод сравнительной лингвистики, который включает сравнение процента лексических родственных слов между языками для определения их взаимосвязи. Лексикостатистика относится к сравнительному методу, но не реконструирует протоязык . Его следует отличать от глоттохронологии , которая пытается использовать лексикостатистические методы для оценки отрезка времени, прошедшего с тех пор, как два или более языка разошлись от общего более раннего протоязыка. Однако это всего лишь одно из применений лексикостатистики; другие его приложения могут не разделять предположение о постоянной скорости изменения основных лексических элементов.

Термин «лексикостатистика» вводит в заблуждение, поскольку используются математические уравнения, но не статистика. Другие особенности языка могут использоваться помимо лексики, хотя это необычно. В то время как сравнительный метод использовал общие идентифицированные инновации для определения подгрупп, лексикостатистика не выявляет их. Лексикостатистика - это дистанционный метод, тогда как сравнительный метод учитывает языковые символы напрямую. Метод лексикостатистики является простым и быстрым методом по сравнению с методом сравнения, но имеет ограничения (обсуждаемые ниже). Его можно проверить путем перекрестной проверки деревьев, созданных обоими методами.

История

Лексикостатистика была разработана Моррисом Сводешем в серии статей в 1950-х годах на основе более ранних идей. Первое известное использование этой концепции было сделано Дюмоном д'Юрвилем в 1834 году, который сравнил различные «океанические» языки и предложил метод расчета коэффициента родства. Хаймс (1960) и Эмблтон (1986) рассматривают историю лексикостатистики.

Метод

Создать список слов

Цель состоит в том, чтобы составить список общеупотребительных значений (рука, рот, небо, I). Затем слова собираются для этих смысловых интервалов для каждого рассматриваемого языка. Первоначально Сводеш сократил больший набор значений до 200. Позже он обнаружил, что необходимо сократить его еще больше, но он мог включить некоторые значения, которых не было в его первоначальном списке, дав его более поздний список из 100 пунктов. Список Сводеша в Викисловаре дает всего 207 значений на нескольких языках. Альтернативные списки , которые применяются более строгие критерии были получены, например , в список Долгопольского и список Leipzig-Джакарте , а также списки с более конкретной областью; например, Dyen, Kruskal и Black имеют 200 значений для 84 индоевропейских языков в цифровой форме.

Определить коньяки

Для принятия решений в области когнитивных функций необходим обученный и опытный лингвист. Однако по мере повышения уровня знаний может потребоваться уточнение решений. Однако лексикостатистика не полагается на правильность всех решений. Для каждой пары списков когнитивность формы может быть положительной, отрицательной или неопределенной. Иногда язык имеет несколько слов для одного значения, например , маленькие и Литтл для не больших .

Вычислить лексикостатистические проценты

Этот процент связан с долей значений для конкретной языковой пары, которые являются родственными, то есть по отношению к общему количеству без неопределенности. Это значение вводится в таблицу расстояний N x N , где N - количество сравниваемых языков. По завершении эта таблица заполняется наполовину в форме треугольника . Чем выше доля когнитивности, тем теснее родство языков.

Создать генеалогическое древо

Создание языкового дерева основано исключительно на приведенной выше таблице. Могут использоваться различные методы разделения на подгруппы, но Дайен, Крустал и Блэк использовали следующие методы:

  • все списки помещаются в пул
  • два ближайших члена удаляются и образуют ядро, которое помещается в пул
  • этот шаг повторяется
  • при определенных условиях ядро ​​становится группой
  • это повторяется до тех пор, пока пул не будет содержать только одну группу.

Вычисления должны производиться в процентных долях ядра и группы.

Приложения

Ведущим представителем лексикостатистики был Исидор Дайен . Он использовал лексикостатистику для классификации австронезийских языков, а также индоевропейских языков . О крупном исследовании последнего сообщили Дайен, Краскал и Блэк (1992). Также были проведены исследования индейских и африканских языков .

Пама-Нюнган

Вопрос о внутреннем ветвлении в языковой семье пама-ньюнган был давнишним вопросом в австралийской лингвистике, и по общему мнению, внутренние связи между более чем 25 различными подгруппами пама-ньюнганского языка либо невозможно реконструировать, либо что подгруппы были созданы. на самом деле вообще не связаны генетически. В 2012 году Клэр Бауэрн и Квентин Аткинсон опубликовали результаты своего применения вычислительных филогенетических методов к 194 документам, представляющим все основные подгруппы и изоляты Памя-Нюнган. Их модель «восстановила» многие из ветвей и подразделений, которые ранее предлагались и принимались многими другими австралийцами, а также дала некоторое представление о более проблемных ветвях, таких как Paman (что осложняется отсутствием данных) и Ngumpin- Япа (где генетическая картина скрыта из-за очень высокого уровня заимствований между языками). Их набор данных является крупнейшим в своем роде для языковой семьи охотников-собирателей и вторым по величине в целом после австронезийской ( Greenhill et al. 2008 ). Они приходят к выводу, что пама-ньюнганские языки на самом деле не являются исключением из лексикостатистических методов, которые успешно применялись к другим языковым семьям мира.

Критика

Такие люди, как Хойер (1956), показали, что были трудности с поиском эквивалентов значимых элементов, в то время как многие сочли необходимым изменить списки Сводеша. Гудщинский (1956) сомневался, можно ли получить универсальный список.

Такие факторы, как заимствования , традиции и табу, могут исказить результаты, как и в случае с другими методами. Иногда лексикостатистика использовалась с лексическим сходством , а не с познанием, чтобы найти сходства. Тогда это эквивалентно массовому сравнению .

Выбор смысловых интервалов субъективен, как и выбор синонимов .

Улучшенные методы

Некоторые из современных методов вычислительной статистической проверки гипотез можно рассматривать как усовершенствования лексикостатистики, поскольку они используют аналогичные списки слов и меры расстояния.

Смотрите также

использованная литература

дальнейшее чтение

  • Добсон, Аннетт (1969). Лексикостатистическая группировка. Антропологическая лингвистика 7, 216-221.
  • Добсон, Аннет и Блэк, Пол (1979). Многомерное масштабирование некоторых лексикостатистических данных. Ученый-математик 1979/4, 55-61.
  • МакМахон, Эйприл и МакМахон, Роберт (2005). Классификация языков по номерам. Издательство Оксфордского университета.
  • Санкофф, Дэвид (1970). «О скорости смены словесных отношений». Язык 46.564-569.
  • Виттманн, Анри (1969). «Лексико-статистическое исследование диахронии хеттов». Indogermanische Forschungen 74.1-10. [1]
  • Виттманн, Анри (1973). «Лексикостатистическая классификация креольских языков, основанных на французском». Лексикостатистика в генетической лингвистике: Труды Йельской конференции, 3–4 апреля 1971 г. , реж. Исидор Дайен, 89–99. Ла Хэй: Мутон. [2]

внешние ссылки