Участник
 
Вы не авторизированы!
Вы не сможете публиковать доклады или оставлять комментарии. Чтобы получить регистрационный ключ, нажмите здесь.

Если Вы регистрировались с именем и паролем, то введите их ниже:

Логин:

Пароль:



ОБЗОР ЭЛЕКТРОННЫХ РЕСУРСОВ СЛАВЯНСКИХ ЯЗЫКОВ С ПТИЧЬЕГО ПОЛЕТА: ВИДЫ И ПРИМЕНЕНИЕ - 2 (13.5.2009)

преподаватель Софийский университет им. Св. Климента Охридского, доктор наук Петрова К.А.

Соавтор: Алексова Красимира Славчева, Осенова Петя Ненчева


Текст доклада
Этот обзор был начат несколько лет тому назад, когда область обработки естественного языка (ОЕЯ, Natural Language Processing – NLP) развивалась в научных звенях и лабораториях, но слабо изучалась в вузах Болгарии [см. 3]. Несколько лет спустя уже преподаются дисциплины, связанные с ОЕЯ, развиваются и накапливаются соответствующие ресурсы.
Область обработки естественного языка объединяет конструрование и приложение компьютерной технологии и использование естественного человеческого языка. В 1930-40-х годах были созданы математические формализмы, которые способствовали развитию новых научных дисциплин: генеративной и компьютерной лингвистики, искусственного интеллекта, обработки естественного языка (об истории и развитии этой области см. [2: iv]). Можно указать на две тенденции развития в этой области: 1) подходы, основанные на правилах (rule-based systems) на основе достижений структурной лингвистики в основном генеративных и депендентных грамматик – (см. обзор синтаксических теорий в [1]), и 2) “эмпирические” подходы, основанные на статистических, стохастических, вероятностных подходах, или вообще основанных на обработке данных (data-driven), “читаемых” машиной текстов и баз данных. Эти две тенденции предопределяют и разрабатываемые компьютерные модели, модули, средства.
Как реальное доказательство движения к интердисциплинарности в науке, увязывания теоретических и прикладных исследований, ОЕЯ тесным образом связана и переплетается с другими дисциплинами, ориентированными на язык [см. 2: vi-vii]:
- когнитивные науки – лингвистически адекватное моделирование функционирования человеческого языка;
- генеративная лингвистика – намечается тенденция переноса, трансфера знаний и моделей из теоретической сферы к приложениям и средствам ОЕЯ;
- искусственный интеллект – создание компьютерных систем, которые симулируют определeнные аспекты когнитивного поведения;
- компьютерная лингвистика – часто этот термин используется как синонимический ОЕЯ. Исторически термин восходит к исследованию машинного перевода, а сейчас соприкасается к трем смежным областям:
- ответвление лингвистики – компьютер используется как средство тестирования генеративных лингвистических теорий;
- ответвление компьютерной науки – взаимодействие естественного и формальных языков – распознавание языка, синтаксический анализ, структурирование данных и т.д.
- ответвление изучения литературы – обработка огромных корпусов литературных текстов, гипертекст, установление авторства анонимнх текстов и т.д.
ОЕЯ тесным образом связана и с высокими информационными технологиями, и так обособилась область технологий, связанных с естественным человеческим языком (Human Language Technologies – HLT) и обслуживающих автоматический перевод, обучение, библиотечное дело, разные поисковые системы в интернете, телефонное, финасовое и бизнес обслуживание, туризм, электронная торговля [http://www.hltcentral.org/euromap].
Взаимная связь и взаимодействие лингвистического знания, математических формализмов и компьютерных технологий и приложений могут быть представлены в виде следующей схемы (с опорой на лекции Елены Паскалевой на семинаре по компьютерной лингвистике, Софийский университет им. Св. Климента Охридского, академический 2000-2001 год.):







Лексика, Грамматика
Семантика
Синтаксис

























Перечисленные виды электронных лингвистических ресурсов используются для т.наз. тренировки указанных в схеме компьютерных средств, программ, систем, которые со своей стороны анализируют их автоматически. Лексические базы данных служат основой электронных словарей, систем машинного перевода и поисковых систем. Грамматический словарь, содержащий полный набор словоформ по словоизменительным и формообразующим категориям данного языка, является основой не только орфографических и орфоэпических словарей и редакторов (spell checkers), но и других систем – морфологического анализатора, поисковых и диалоговых систем, систем обработки звучащей речи. Корпуса бывают разных типов – письменные тексты, транскрибированная устная речь, свод текстов без дополнительной обработки, или лингвистически интерпретированный (таггированный или аннотированный – морфологически и синтаксически размеченный) текст. Огромно разнообразие компьютерных словарей – одно-, дву- и многоязычных, тезаурусов. Комбинацией разнообразных лексикографических справочников представляет система WordNet, в которой сочетаются тезаурус, языковая онтология, толковый словарь, синтагматические и парадигматические связи слов. Она организована на психолингвистических принципах. Морфологический анализатор, таггер, служат для анализа конкретных словоформ в тексте, приписывают набор морфологических категорий, в случае грамматической омонимии и многозначности выявляют ее, подключаются программы для ее снятия. Синтаксические анализаторы членят текст на синтагмы вплоть до синтаксического разбора предложения, с опорой на морфологическую и семантическую информацию в тексте. Создаются банки синтаксических деревьев языка (классификация предложений по типам и структуре). Все эти системы являются модулями компьютерных систем и приложений, потребительских и промышленных продуктов. Целью повышения осведомленности о некоторых направлениях в области ОЕЯ имеет группа по созданию Балканских региональных информационных центров в этой области, членами которой являются авторы данного сообщения (http://larflast.bas.bg/balric/). В рамках данного проекта создается начальный англо-болгарский словарь терминов в области ОЕЯ с целью унификации и установления общепринятой терминологии в данной области на болгарском языке (http://larflast.bas.bg/balric/index/index.htm).
Таким образом образом очерченные, лингвистические ресурсы в электронном виде рассмaтриваются дальше по славянским языкам с ссылкой на общедоступный адрес.
Этот обзор славянских электронных лингвистических ресурсов не претендует на полность, а является лишь попыткой определить их типы и возможное применение, дать основные ссылки. Доступ к электронным ресурсам славянских языков даст лингвистам, преподавателям этих языков, переводчикам возможность выдвигать, доказывать или опровергать свои научные гипотезы, усовершенствовать свою работу, работать в сотрудничестве со специалистами из смежных областей на современном уровне.


Литература:

1. Градинарова А. Генеративизм. Синтаксические теории. “Евразия”, 2001.
2. Дейл и др.: Dale R., H.Moisl, H.Somers. Handbook of Natural Language Processing. “Marcel Dekker Inc.”, New York-Basel, 2000.
3. Петрова, Алексова, Осенова 2002: К.Петрова, К.Алексова, П.Осенова. Обзор электронных ресурсов славянских языков: виды и применение. - VIII международный симпозиум МАПРЯЛ 2002 “Тeоретические и методические проблемы русского языка как иностранного в начале ХХI века”. Доклады и сообщения, 4 -7 април 2002 г., Велико Търново, сс.315-319.

Полный текст
Комментарии:

Copyright © 2002-2009 Ставропольский Государственный Университет
Поддержка © 2002-2009 Ставропольский Региональный Центр Информатизации