Корпус современного американского английского языка
В другом языковом разделе есть более полная статья Corpus of Contemporary American English (англ.). |
Корпус современного американского английского (англ. Corpus of Contemporary American English, COCA) — электронный корпус текстов, созданный профессором корпусной лингвистики Марком Дэвисом[англ.] из Brigham Young University в 2000—2003 годах на основе текстов журнала Time, написанных с 1923 года[1].
Это наибольший (450 млн слов) корпус текстов американского варианта английского языка и единственный свободно доступный корпус на этом языке, включающий большое разнообразие текстов различных жанров. Он составлен из более чем 160 тыс. текстов, включая по 20 млн слов за каждый год с 1990 по 2011. Это наиболее широко используемый структурированный корпус текстов, ежемесячно его используют примерно 10 000 человек.
Другие корпусы Дэвиса
[править | править код]TIME Magazine corpus
[править | править код]Корпус составлен более чем из 275000 статей из архива журнала TIME Архивная копия от 20 октября 2013 на Wayback Machine и содержит больше 100 миллионов слов из текстов, написанных с 1923 по 2006 год. TIME Magazine Corpus интегрирован в общую систему других корпусов, созданных Марком Дэвисом (которая также включает в себя базы данных Corpus of Historical American English (COHA), Corpus del Español или Corpus of American Soap Operas)[2].
Принцип работы
[править | править код]Архитектура корпуса построена по принципу других проектов Марка Дэвиса, например корпуса современного американского английского языка — Corpus of Contemporary American English (COCA). Существует центральная база n-граммов, которая содержит информацию о каждом из ста миллионов слов корпуса. Они связаны с таблицами, позволяющими анализировать регистр, а также с отдельными таблицами для синонимов, лемм и форм, появляющихся у слова с течением времени.
Разметка текстов производилась с помощью CLAWS-теггера (Constituent Likelihood Automatic Word-tagging System)[3]. Эта же программа использовалась при создании других корпусов Марка Дэвиса, а также Британского национального корпуса.
Оборудование для корпуса было подобрано так, чтобы обеспечить крайне быстрый поиск — как правило, он занимает менее секунды даже для самых сложных запросов, содержащих словоформу, часть речи, частоту и регистр.
Возможности использования
[править | править код]TIME Magazine Corpus позволяет производить поиск как отдельных слов и словосочетаний, так и специфических грамматических форм или синонимических рядов, а также увидеть контекст их употребления и изменение частоты использования.
Корпус позволяет исследовать:
- изменение частоты и контекста использования слов и фраз, связанных с переменами в культурной и социальной жизни общества
- языковые перемены в морфологии и грамматических конструкциях
- колебания частоты использования тех или иных групп слов со временем
- семантические изменения слов на протяжении XX века
Доступ
[править | править код]Доступ к корпусу предоставляется бесплатно.
Необходима регистрация с предоставлением электронного адреса либо информации об организации и статусе пользователя в зависимости от требуемого уровня доступа. Уровней доступа пять в трёх категориях: not researcher, semi-researcher, researcher. Все они различаются объёмом предоставляемой информации в сутки (если начинающему пользователю доступно совершение 100 запросов в день, то профессор или аспирант, зарегистрированный в качестве исследователя, за тот же период времени может выполнить поиск 600 раз).
См. также
[править | править код]Примечания
[править | править код]- ↑ Kauhanen, Henri. The Corpus of Contemporary American English: Background and history . VARIENG (21 марта 2011). Дата обращения: 13 октября 2011. Архивировано 12 января 2012 года.
- ↑ Список корпусов, созданных Марком Дэвисом Архивная копия от 7 ноября 2013 на Wayback Machine. По данным Google Analytics на март 2012 года Архивная копия от 6 ноября 2013 на Wayback Machine, к услугам этой базы данных ежемесячно прибегают более 100 тысяч уникальных пользователей.
- ↑ CLAWS part-of-speech tagger for English . Дата обращения: 27 октября 2013. Архивировано 2 апреля 2019 года.