Программа автоматической оценки сходства - Automated Similarity Judgment Program

Программа автоматической оценки сходства
Режиссер Институт истории человечества Макса Планка (Германия)
Языки английский
Доступ
Расходы Бесплатно
Покрытие
Дисциплины Количественная сравнительная лингвистика
Ссылки
Веб-сайт http://asjp.clld.org

Программа автоматизированного определения сходства ( ASJP ) - это совместный проект, в котором применяются вычислительные подходы к сравнительной лингвистике с использованием базы данных списков слов. База данных имеет открытый доступ и состоит из списков базовой лексики из 40 пунктов для более чем половины языков мира. Он постоянно расширяется. В дополнение к изолятам и языкам продемонстрированных генеалогических групп, база данных включает пиджины , креолы , смешанные языки и искусственные языки . Слова базы данных транскрибируются в упрощенную стандартную орфографию ( ASJPcode ). База данных использовалась для оценки дат, когда языковые семьи разошлись на дочерние языки с помощью метода, связанного с глоттохронологией , но все еще отличного от него , для определения родины ( Urheimat ) протоязыка , исследования звуковой символики , оценки различных филогенетических методы и несколько других целей.

ASJP не получил широкого признания среди лингвистов-историков в качестве адекватного метода для установления или оценки отношений между языковыми семьями.

Это часть проекта Cross-Linguistic Linked Data, организованного Институтом истории человечества им . Макса Планка .

История

Оригинальные цели

Первоначально ASJP был разработан как средство для объективной оценки сходства слов с одинаковым значением из разных языков с конечной целью классификации языков с помощью вычислений на основе наблюдаемых лексических сходств. В первой статье ASJP два семантически идентичных слова из сравниваемых языков были признаны похожими, если они показали по крайней мере два идентичных звуковых сегмента. Сходство между двумя языками рассчитывалось как процент от общего числа сравниваемых слов, которые были признаны похожими. Этот метод был применен к спискам слов из 100 пунктов для 250 языков из языковых семей, включая австроазиатский , индоевропейский , майянский и мускогский .

Консорциум ASJP

Консорциум ASJP, основанный примерно в 2008 году, объединил около 25 профессиональных лингвистов и других заинтересованных сторон, работающих в качестве добровольцев-транскриберов и / или оказывающих помощь проекту другими способами. Главной движущей силой основания консорциума был Сесил Х. Браун. Сорен Вихманн - ежедневный куратор проекта. Третий центральный член консорциума - Эрик У. Холман, который создал большую часть программного обеспечения, используемого в проекте.

Более короткие списки слов

Хотя используемые списки слов были первоначально основаны на списке Сводеша из 100 пунктов , статистически было определено, что подмножество 40 из 100 пунктов дало такие же хорошие, если не немного лучшие результаты классификации, чем весь список. Таким образом, впоследствии собранные списки слов содержат всего 40 пунктов (или меньше, если для некоторых отсутствуют подтверждения).

Левенштейн Расстояние

В статьях, опубликованных с 2008 года, ASJP использовала программу оценки сходства, основанную на расстоянии Левенштейна (LD). Было обнаружено, что этот подход дает лучшие результаты классификации, сравниваемые с мнением экспертов, чем метод, использованный изначально. LD определяется как минимальное количество последовательных изменений, необходимых для преобразования одного слова в другое, где каждое изменение представляет собой вставку, удаление или замену символа. В рамках подхода Левенштейна различия в длине слова могут быть исправлены путем деления LD на количество символов более длинного из двух сравниваемых слов. Это дает нормализованный LD (LDN). Разделение LDN (LDND) между двумя языками рассчитывается путем деления среднего LDN для всех пар слов, имеющих одно и то же значение, на среднее значение LDN для всех пар слов с разными значениями. Эта вторая нормализация предназначена для исправления случайного сходства.

Список слов

ASJP использует следующий список из 40 слов. Он аналогичен списку Сводеша – Яхонтова , но имеет некоторые отличия.

Части тела
  • глаз
  • ухо
  • нос
  • язык
  • зуб
  • рука
  • колено
  • кровь
  • кость
  • грудь (женская)
  • печень
  • кожа
Животные и растения
  • вошь
  • собака
  • рыба (существительное)
  • рог (часть животного)
  • дерево
  • лист
Люди
  • человек
  • name (имя существительное)
Природа
  • солнце
  • звезда
  • воды
  • Огонь
  • камень
  • дорожка
  • гора
  • ночь (темное время)
Глаголы и прилагательные
  • пить (глагол)
  • умереть
  • видеть
  • слышать
  • прийти
  • новый
  • полный
Числительные и местоимения
  • один
  • два
  • я
  • ты
  • мы

ASJPcode

Версия ASJP от 2016 года использует следующие символы для кодирования фонем : pbfvmw 8 tdszcnrl SZC j T 5 ykgx N q X h 7 L 4 G! ie E 3 auo

Они представляют собой 7 гласных и 34 согласных, и все они присутствуют на стандартной клавиатуре QWERTY.

Звуки представлены ASJPcode
ASJPcode Описание IPA
я высокий гласный переднего ряда, округленный и неокругленный я, ɪ, у, ʏ
е гласная середины переднего ряда, округленная и неокругленная е, ø
E низкий гласный переднего ряда, округленный и неокругленный а, æ, ɛ, ɶ, œ
3 высокий и средний центральный гласный, округленный и неокругленный ɨ, ɘ, ə, ɜ, ʉ, ɵ, ɞ
а нижний центральный гласный, неокругленный ɐ
ты высокий гласный заднего ряда, округленный и неокругленный ɯ, ты
о средние и нижние гласные заднего ряда, округленные и неокругленные ɤ, ʌ, ɑ, о, ɔ, ɒ
п глухая двухгубная остановка и щелевой p, ɸ
б звонкий двугубный стоп и щелевой б, β
м двугубый носовой м
ж глухой губно-зубной щелевой ж
v звонкий губно-зубной щелевой v
8 глухой и звонкий зубной фрикативный звук θ, ð
4 зубной носовой
т глухая альвеолярная остановка т
d звонкий альвеолярный стоп d
s глухой альвеолярный щелевой s
z звонкий альвеолярный щелевой z
c глухой и звонкий альвеолярный аффрикат ts, dz
п глухой и звонкий альвеолярный носовой п
S глухой постальвеолярный щелевой ʃ
Z звонкий постальвеолярный щелевой ʒ
C глухой небно-альвеолярный аффрикат
j звонкий небно-альвеолярный аффрикат
Т глухая и звонкая небная остановка c, ɟ
5 небный носовой ɲ
k безмолвный велярный стоп k
грамм звонкий велярный стоп ɡ
Икс глухой и звонкий велярный фрикативный х, ɣ
N велярный носовой ŋ
q беззвучная увулярная остановка q
грамм звонкий увулярный стоп ɢ
Икс глухой и звонкий увулярный фрикативный, глухой и звонкий глоточный фрикативный χ, ʁ, ħ, ʕ
7 глухая гортанная остановка ʔ
час глухой и звонкий голосовой щелевой звук ч, ɦ
л звонкий альвеолярный латеральный приблизительный л
L все остальные отводы ʟ, ɭ, ʎ
ш звонкий двугубно-велярный аппроксимант ш
у небный аппроксимант j
р звонкая апико-альвеолярная трель и все разновидности «р-звуков» r, ʀ и т. д.
! все разновидности «щелчков» ǃ, ǀ, ǁ, ǂ

Смотрите также

использованная литература

Источники

внешние ссылки