Translate

среда, 17 декабря 2014 г.

Корпус шотландского языка

    Корпус шотландского (германского) языка»( «Scottish Corpus Of Texts & Speech» иначе SCOTS) выбран мной не случайно для итоговой работы, на мой взгляд, он выделяется на фоне остальных корпусов оформлением, он создает впечатление современного, крайне удобного, простого в использовании корпуса, постоянно развивающегося и способного дать ответы на многие вопросы . Так, к примеру, каждый желающий, у которого возникли какого-либо рода замечания, может отправить свои пожелания на e-mail создателям, где они в свою очередь могут их рассмотреть и внести соответствующие коррективы. 

    Создан корпус был из-за изменения политической ситуации в Шотландии. Новое политическое течение возродило интерес к местным языкам и культуре. В Шотландии языковое наследие яркое, обособленное от других. Современная языковая ситуация здесь весьма насыщена, ведь на одной территории уживаются шотландский, английский, гэльский и множество других языковых общин. Однако, такие вопросы, как сохранение шотландского языка, отличительные характеристики шотландского английского, или использование некоренных языков, таких как китайский или урду не имеет достаточное количество данных и однозначных ответов. И это отсутствие информации создает значительные проблемы для тех, кто работает в сфере образования или просто интересуется данной проблемой.
    Современные технологии позволили хранить и анализировать очень большие объёмы информации. И «THE SCOTS» первый масштабный проект, посвященный исключительно языкам Шотландии. Он предоставляет большой электронный корпус письменных и устных текстов для языков этой страны. Первый этап создания осуществлялся с 2002 по 2004 годы в рамках совместного проекта университетов Глазго и Эдинбурга. Университет Глазго был ответственен за сбор письменных и устных материалов, а также создание основы корпуса, в то время как университет Эдинбурга занимался оформлением корпуса и решением вопросов о выборе областей научных исследования корпуса. Помимо Университета Глазго в проекте участвовали специалисты следующих организаций:
·                    University Of Oxford
·                    Queen’s University Belfast
·                    University Of Helsinki
·                    Scottish Language Dictionaries
·                    University Of Edinburgh
·                    SCRAN
·                    The Tuscan Word Centre
     Корпус существует с ноября 2004 года, и после регулярных обновлений и дополнений, к маю 2007 года количество слов на сайте достигло 4 миллионов. Остается надеяться, что для тех, кто интересуется языковым разнообразием Шотландии, «THE SCOTS» даст ответы на все интересующие их вопросы. Корпус имеет возможность исследовать языки Шотландии по-новому, и устранять пробелы, которые в настоящее время существуют в наших знаниях о них.

   Дочерний ресурс, "Корпус современного шотландского письменности" (The Corpus of Modern Scottish Writing), был запущен в 2010 году и в настоящее время включает в себя 5,4 млн. слов с изображениями. CMSW является электронным корпусом письменных и печатных текстах периода с 1700 по 1945 и дополняет Helsinki Corpus of Older Scots (1450-1700) и SCOTS (1945 - по сей день). CMSW содержит более 350 документов, содержащих приблизительно 5,5 млн. слов текста в целом. Документы CMSW включают в себя различный спектр публикаций от печатных романов, письменной корреспонденции, газетных и журнальных статей да юридических материалов. Все документы были получены от таких партнеров, как библиотека Митчелла в Глазго, Национальная библиотека Шотландии и архив Университета Глазго.

     Проект «The Scottish corpora» направлен на тех, кто заинтересован в изучении лингвистического разнообразия Шотландии, в шотландской культуре и уникальности, в исследовании языков Шотландии новыми способами, а также устранении пробелов в знаниях об этой стране, которые всё ещё существуют в настоящее время. Этот ресурс также направлен на сохранение и передачу информации будущим поколениям.

    В настоящее время корпус SCOTS содержит более 1300 письменных и устных текстов, более 4,5 миллионов слов. 77% этой суммы составляют письменные тексты и 23% - устные, которые представлены в виде транскрипции, синхронизированной с исходными аудио или видео материалами. Одна из функций корпуса заключается в том, чтобы отображать целые тексты там, где это возможно, отчего наполняемость корпуса заметно увеличивается. В некоторых случаях, в силу авторского разрешения, может быть показана только часть текста. В «THE SCOTS» представленная информация взята из источников начиная с 1945 года и заканчивая сегодняшним днем. SCOTS стремится добиться справедливости для широких спектров текстов, текстов различных видов языка, жанров и регистров; в максимальном объёме представить ораторов или писателей по жанровому, возрастному, половому, профессиональному и географическому признакам. А также в корпусе есть небольшое количество текстов на Гельском языке, которые можно найти, если ввести «Gaelic» в заголовке перед поиском.
    Существуют три различных способа поиска. Те пользователи, которых интересует статистическая информация, например, об относительной частоте определенных слов в разных жанрах, могут использовать данные шотландцев в этом направлении. В зависимости от объёма запрашиваемой информации вы можете выбрать быстрый, стандартный или расширенный вид поиска.

  • Быстрый поиск
Это наиболее простой способ найти частоту использования того слова, в котором вы заинтересованы, в различных аудио файлах и текстовых документах. В результате вы получаете частоту использования слова и формат файлов, в которых оно используется.
  • Стандартный поиск
Стандартный поиск позволяет выполнять некоторые несложные типы поиска, а также дает возможность просматривать все документы в корпусе.
  • Расширенный поиск
    Расширенный поиск предоставляет более широкий спектр возможностей, нежели стандартный. Здесь представлена основная статистическая информация, все словоупотребления и карты, на которые выводятся результаты. Расширенный поиск разделяется по поисковым критериям, которые можно задать для ограничения поиска слов в текстах конкретного режима (устной или письменной речи), жанра (переписка, фантастика, интервью), или с определенным набором критериев (беседы после 2000 года, профессиональные научные статьи и так далее). Таким образом, результаты различных поисковых запросов могут быть согласованы друг с другом.

    Страница результатов
     После выполнения поиска быстрого или расширенного, вы попадете на страницу результатов, состоящую из двух основных частей: резюме результатов поиска, а также перечень документов. Если вы использовали быстрый поиск, или если ваш поиск включал поиск слова / фразы, то в списке документов будут также показаны первые примеры слова / фразы в его непосредственном контексте, максимум пять для каждого документа.
 Сводные результаты поиска покажут:

    1. Число вхождений слова / фразы 
  2. Количество документов в корпусе, которые отвечают вашим критериям поиска и процентное отношение этих документов ко всем имеющимся в корпусе.
    3. Общее количество слов в документах, которые отвечают вашим критериям, и процент отношения этих документов ко всем имеющимся.
    Список документов, содержащий все документы, которые отвечают критериям, которые вы задали. При нажатии на заголовок документа можно просмотреть документ в полном объеме. Если вы искали конкретное слово или фразу, нажав на вхождение этого слова или фразы, вы будете переправлены прямо к тому месту, где искомый компонент находится в документе.
    Этот список может быть изменён при нажатии за различные критерии в строке заголовка:
    1. В алфавитном порядке по названию документа (по умолчанию)
    2. В алфавитном порядке по автору фамилии
   3. Открытие мультимедиа (нажав на заголовок "мультимедия" вы перейдёте в раздел с документами аудио или видео клипов в верхней части списка)
    4. По количеству слов или сортировки документов по размеру.
  5. Если вы искали конкретное слово или фразу, то вы можете сортировать список документов по количеству появлений этого слова.
   6. К нормализованной частоте. Нормированная частота показывает, сколько раз слово / фраза появись бы, если документ содержал 1000 слов. Такая нормализация позволяет сравнивать появление слов в документах разной длины. Например, если слово имеет частоту 1 в документе 1000 слов, то нормированная частота 1. Если слово имеет частоту 1 в 500 слов документа, то нормированная частота равна 2.
   В нижней части страницы таблица записывает все ваши пять недавно просмотренных документов для быстрого ознакомления.



    Расширенный поиск
    Расширенный поиск дает вам гораздо больше возможностей для создания сложного поиска, чем обычный поиск объекта.
    Страница расширенного поиска состоит из трех элементов: Критерий, Ваш поисковый профиль и Результаты поиска. При первом посещении расширенным поиском, результатами поиска будут все документы в корпусе по умолчанию.
    Чтобы совершить расширенный поиск необходимо выбрать критерии:
  •  Общие: Объекты, которые являются общими для обоих устных и письменных документов, например, слово, длина документ. В этом разделе вы можете выбрать критерий, чтобы ограничить результаты только устных или письменных документов.
  •  Устные: Особенности, которые имеют отношение к звуковым документам, например, место рождения, год рождения. Если вы выберите один из этих критериев, письменные документы, не подходящие под параметры, будут автоматически исключены из результатов.
  •  Письменные: Особенности, которые имеют отношение к письменным документам, например, определённая деталь, тип текста.
    Нажмите на знак плюс (+), чтобы добавить критерий в ваш поисковый профиль. Он может быть удален в любой момент, нажав на знак минус (-) рядом с полем выбора для этого критерия.
    Под вашем поисковым профилем вы увидите все критерии, которые вы выбрали. Есть целый ряд различных видов способа отбора:
  1.  Сделать отметку: просто да или нет. Галочка в поле поможет сузить поиск до этого критерия.
  2. Текст: введите желаемое критерия
  3. Количество: числовое значение, наряду с большим или меньшим количеством вариантов.
  4. Дата: дата (форматированный YYYY-MM-DD), наряду с более недавним чем (т.е. более поздние) или менее (т.е. старше) вариантом.
    Не все комбинации критериев дадут результаты. Как и в обычном поиске, помните, что чем больше заданных критериев, тем меньше документов, подходящих для удовлетворения этих критериев.
    Раздел Результаты поиска имеет до трех частей, в зависимости от типа поиска. 
  • Первые результатпоказывающий, как было написано выше:
  1. Число вхождений слова / фразы .
  2. Количество документов в корпусе, которые отвечают вашим критериям поиска.
  3. Общее количество слов в документах, которые отвечают вашим критериям.
  • Далее Карта.
    При нажатии на флажок карта показывает дополнительную информацию с указанием количества авторов, участников и документов, связанных с этим местом. Есть также вариант, чтобы показать детали, давая их перечень  справа карте. Флажки могут быть поставлены, чтобы показать место жительства, место рождения, место рождения отца или место рождения матери; Эти параметры могут быть выбраны из выпадающего списка над картой. Пожалуйста, обратите внимание, что эта информация была необязательной для заявителей, и поэтому не все документы имеют этот параметр.
   Карта предоставляет навигационные стрелки и возможность увеличивать и уменьшать масштаб. 
  • Инструменты анализа.  
    Расширенный поиск более гибок в сравнении со стандартной системой поиска, основной на статистической информации. Документы также можно загружать для своих личных исследований, но они не могут быть использованы в коммерческих целях.

     Правописание и его вариации.
    SCOTS содержит документы на английском шотландском, на диалектах шотландского, а также такие тексты, язык которых может быть описан, как находящийся между английским литературным шотландским языком. Это означает, что корпус содержит широкий диапазон вариаций правописания.
    Обозначения, использованные стенографами:
1.     Цезура;
2.     Нерасслышанные фразы, т.е. части текста, которые стенограф не смог услышать и понять;
3.     Неясные части, т.е. части текста, где стенограф сомневается в написании, и которые нуждаются в проверке;
4.     Фальстарты или усечения, т.е. заикания, недосказанные слова и т.д.;
5.     Полу-лексические единицы (междометия и звукоподражательные слова);
6.     Нелексические единицы (кашель, зевок, смех и т.д.);
7.     Нелингвистические события (под ними понимаются шумы на заднем плане, мешающие восприятию текста).


Различные автономные инструменты поиска:

Показывает более 100 словоформ для данного слова. Величина слова зависит от частоты использования.








Визуализирует прочность словоформы.

Показывает выбранное слово в качестве ключевого слова в контексте


    В заключение хотелось бы добавить,что любой языковой корпус - это отличная возможность изучить язык, ознакомиться ближе с тонкостями употребления слов, открыть новые возможности языка и обогатить свой словарный запас. Шотландский корпус, хоть и не совершенен, не имеет, возможно, большой языковой базы, но отлично справляется со своими обязанностями!