Участник
 
Вы не авторизированы!
Вы не сможете публиковать доклады или оставлять комментарии. Чтобы получить регистрационный ключ, нажмите здесь.

Если Вы регистрировались с именем и паролем, то введите их ниже:

Логин:

Пароль:



ОБЗОР ЭЛЕКТРОННЫХ РЕСУРСОВ СЛАВЯНСКИХ ЯЗЫКОВ С ПТИЧЬЕГО ПОЛЕТА: ВИДЫ И ПРИМЕНЕНИЕ - 2 (13.5.2009)

преподаватель Софийский университет им. Св. Климента Охридского, доктор наук Петрова К.А.

Соавтор: К.С. Алексова, П.Н. Осенова


Текст доклада
ОБЗОР ЭЛЕКТРОННЫХ РЕСУРСОВ СЛАВЯНСКИХ ЯЗЫКОВ С ПТИЧЬЕГО ПОЛЕТА: ВИДЫ И ПРИМЕНЕНИЕ - 2


Этот обзор был начат несколько лет тому назад, когда область обработки естественного языка (ОЕЯ, Natural Language Processing – NLP) развивалась в научных звенях и лабораториях, но слабо изучалась в вузах Болгарии [см. 3]. Несколько лет спустя уже преподаются дисциплины, связанные с ОЕЯ, развиваются и накапливаются соответствующие ресурсы.
Область обработки естественного языка объединяет конструрование и приложение компьютерной технологии и использование естественного человеческого языка. В 1930-40-х годах были созданы математические формализмы, которые способствовали развитию новых научных дисциплин: генеративной и компьютерной лингвистики, искусственного интеллекта, обработки естественного языка (об истории и развитии этой области см. [2: iv]). Можно указать на две тенденции развития в этой области: 1) подходы, основанные на правилах (rule-based systems) на основе достижений структурной лингвистики в основном генеративных и депендентных грамматик – (см. обзор синтаксических теорий в [1]), и 2) “эмпирические” подходы, основанные на статистических, стохастических, вероятностных подходах, или вообще основанных на обработке данных (data-driven), “читаемых” машиной текстов и баз данных. Эти две тенденции предопределяют и разрабатываемые компьютерные модели, модули, средства.
Как реальное доказательство движения к интердисциплинарности в науке, увязывания теоретических и прикладных исследований, ОЕЯ тесным образом связана и переплетается с другими дисциплинами, ориентированными на язык [см. 2: vi-vii]:
- когнитивные науки – лингвистически адекватное моделирование функционирования человеческого языка;
- генеративная лингвистика – намечается тенденция переноса, трансфера знаний и моделей из теоретической сферы к приложениям и средствам ОЕЯ;
- искусственный интеллект – создание компьютерных систем, которые симулируют определeнные аспекты когнитивного поведения;
- компьютерная лингвистика – часто этот термин используется как синонимический ОЕЯ. Исторически термин восходит к исследованию машинного перевода, а сейчас соприкасается к трем смежным областям:
- ответвление лингвистики – компьютер используется как средство тестирования генеративных лингвистических теорий;
- ответвление компьютерной науки – взаимодействие естественного и формальных языков – распознавание языка, синтаксический анализ, структурирование данных и т.д.
- ответвление изучения литературы – обработка огромных корпусов литературных текстов, гипертекст, установление авторства анонимнх текстов и т.д.
ОЕЯ тесным образом связана и с высокими информационными технологиями, и так обособилась область технологий, связанных с естественным человеческим языком (Human Language Technologies – HLT) и обслуживающих автоматический перевод, обучение, библиотечное дело, разные поисковые системы в интернете, телефонное, финасовое и бизнес обслуживание, туризм, электронная торговля [http://www.hltcentral.org/euromap].
Взаимная связь и взаимодействие лингвистического знания, математических формализмов и компьютерных технологий и приложений могут быть представлены в виде следующей схемы (с опорой на лекции Елены Паскалевой на семинаре по компьютерной лингвистике, Софийский университет им. Св. Климента Охридского, академический 2000-2001 год.):







Лексика, Грамматика
Семантика
Синтаксис

























Перечисленные виды электронных лингвистических ресурсов используются для т.наз. тренировки указанных в схеме компьютерных средств, программ, систем, которые со своей стороны анализируют их автоматически. Лексические базы данных служат основой электронных словарей, систем машинного перевода и поисковых систем. Грамматический словарь, содержащий полный набор словоформ по словоизменительным и формообразующим категориям данного языка, является основой не только орфографических и орфоэпических словарей и редакторов (spell checkers), но и других систем – морфологического анализатора, поисковых и диалоговых систем, систем обработки звучащей речи. Корпуса бывают разных типов – письменные тексты, транскрибированная устная речь, свод текстов без дополнительной обработки, или лингвистически интерпретированный (таггированный или аннотированный – морфологически и синтаксически размеченный) текст. Огромно разнообразие компьютерных словарей – одно-, дву- и многоязычных, тезаурусов. Комбинацией разнообразных лексикографических справочников представляет система WordNet, в которой сочетаются тезаурус, языковая онтология, толковый словарь, синтагматические и парадигматические связи слов. Она организована на психолингвистических принципах. Морфологический анализатор, таггер, служат для анализа конкретных словоформ в тексте, приписывают набор морфологических категорий, в случае грамматической омонимии и многозначности выявляют ее, подключаются программы для ее снятия. Синтаксические анализаторы членят текст на синтагмы вплоть до синтаксического разбора предложения, с опорой на морфологическую и семантическую информацию в тексте. Создаются банки синтаксических деревьев языка (классификация предложений по типам и структуре). Все эти системы являются модулями компьютерных систем и приложений, потребительских и промышленных продуктов. Целью повышения осведомленности о некоторых направлениях в области ОЕЯ имеет группа по созданию Балканских региональных информационных центров в этой области, членами которой являются авторы данного сообщения (http://larflast.bas.bg/balric/). В рамках данного проекта создается начальный англо-болгарский словарь терминов в области ОЕЯ с целью унификации и установления общепринятой терминологии в данной области на болгарском языке (http://larflast.bas.bg/balric/index/index.htm).
Таким образом образом очерченные, лингвистические ресурсы в электронном виде рассмaтриваются дальше по славянским языкам с ссылкой на общедоступный адрес.
Этот обзор славянских электронных лингвистических ресурсов не претендует на полность, а является лишь попыткой определить их типы и возможное применение, дать основные ссылки. Доступ к электронным ресурсам славянских языков даст лингвистам, преподавателям этих языков, переводчикам возможность выдвигать, доказывать или опровергать свои научные гипотезы, усовершенствовать свою работу, работать в сотрудничестве со специалистами из смежных областей на современном уровне.

ЛИТЕРАТУРА

1. Градинарова А. Генеративизм. Синтаксические теории. “Евразия”, 2001.
2. Дейл и др.: Dale R., H.Moisl, H.Somers. Handbook of Natural Language Processing. “Marcel Dekker Inc.”, New York-Basel, 2000.
3. Петрова, Алексова, Осенова 2002: К.Петрова, К.Алексова, П.Осенова. Обзор электронных ресурсов славянских языков: виды и применение. - VIII международный симпозиум МАПРЯЛ 2002 “Тeоретические и методические проблемы русского языка как иностранного в начале ХХI века”. Доклады и сообщения, 4 -7 април 2002 г., Велико Търново, сс.315-319.

ПРИЛОЖЕНИЕ

Болгария
• Секция лингвистического моделирования при Центральной лаборатории параллельной обработки информации, Болгарская Академия Наук – ссылки на множество действующих проектов в области ОЕЯ; лаборатория является образовательным центром в области ОЕЯ http://www.lml.bas.bg; Лингвистические ресурсы болгарского языка - http://www.lml.bas.bg/resources.html
• Морфологическиe анализаторы для болгарского языка:
• Демо-версия: http://www.larflast.bas.bg/balric/bulric_home.htmр
• Морфологический словарь – Пловдивский университет им. Паисия Хилендарского – болгарский лингвистический софтвер – описание - http://www.pu.acad.bg/dcs/lingua1.htm
• Морфологичeский процессор - http://www.pu.acad.bg/dcs/morph.htm
• Морфологические анализаторы для болгарского языка - http://www.bultreebank.org/taggers/taggers.html
• Морфологический анализатор по частям речи, независимый от языка – для 12 языков, в т.ч. болгарский и русский - TreeTagger - a language independent part-of-speech tagger - German, English, French, Italian, Dutch, Spanish, Bulgarian, Russian, Greek, Portuguese, Chinese and old French http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
• Проверка синтаксического согласования пар слов в болгарском тексте - http://www.pu.acad.bg/dcs/syntax.htm
• База лексических данных с морфологической информацией http://www.diogenes.bg/slovnik/index.html WWW.SLOVNIK.BG – распознает больше 110 000 болгарских лексем и приписывает им релевантные морфологические характеристики; служит для снятия морфосинтактической многозначности; можно скачать грамматическую базу данных с полным набором грамматических форм для 2 500 базовых слов – для морфологического анализа и синтеза словоформ;
• Компьютерная система по изучению научной терминологии на иностранном языке (LeARning Foreign LAnguage Scientific Terminology), база – независима от конкретных языков; исходные языки – болгарский, румынский, русский, язык-цель – английский, тематические области обучения иностранному языку – компьютерные науки, бизнесс, коммуникационнъе технологии как технические области. ОБЩИЙ ПРОЕКТ С СИМФЕРОПОЛЬСКИМ УНИВЕРСИТЕТОМ: http://www-it.fmi.uni-sofia.bg/larflast/
• Русско-болгарский проект по унифицированию формата грамматических словарей - http://lml.bas.bg/projects.html http://lml.bas.bg/projects/Rus-Bg/
• Cинтаксический анализатор, основанный на опорно-фразовой грамматике (HPSG-based Syntactic Treebank of Bulgarian), http://www.bultreebank.org – содержит около 90 млн. eдиниц (tocens); ресурсы для болгарского языка – депендентная часть в рамках банка деревьев зависимостей – 196 000 единиц, морфологически размеченная часть – 214 000 единиц;
• Первая формальная грамматика болгарского языка на основе опорно-фразовой грамматики – П.Осенова, К.Симов - http://www.bultreebank.org/bgpapers/FormalGrammarBG.pdf
• Neural Network Morphosyntactic disambiguator for Bulgarian – the ClaRK Programme – корпус 2 600 предложений из публицистики и прозы с многозначностью, создан тренировочный корпус http://www.bultreebank.org/clark/index.html
• Электронный архив болгарских диалектов http://www.bultreebank.org/veda/index.html BulDialects Project - Measuring linguistic unity and diversity in Europe (http://www.sfs.uni-tuebingen.de/dialectometry/index.shtml ). http://www.bultreebank.org/veda/indexVeda.html
• Текстовой архив – около 15 млн. Словоформ, 33% фантастика, 60% газеты, 7% - администативные тексты, XML маркированные на уровне параграфа. Разработка онтологий и Баз лексических данных http://www.sirma.bg/ НЕДОСТЪПНО
• Лаборатория для разработки софтвера и исследований, связанных с представлением знаний и лингвистики http://www.sirma.bg/?Ontotext_Lab
• Машинный перевод болгарский-английский-болгарский http://www.bultra.com , http://tran.skycode.com
• О работе по созданию болгарского WordNet (и других славянских языков): http://www.hum.uva.nl/~ewn/, http://www.ceid.upatras.gr/Balkanet/, http://www.elsnet.org 2001, 10.3, pp.10-11, www.dcs.shef.ac.uk/research/ilash/Seminars/ewn_ilash.ppt
• Болгарский WordNet – BulNet - 27 000 синонимических множеств. http://dcl.bas.bg/BulNet/general_bg.html http://dcl.bas.bg/wordnet_bg.html
• Институт болгарского языка http://www.ibl.bas.bg
• Секция современного болгарского языка -http://www.ibl.bas.bg/departments_bg1.htm Национальная стандартизированная система и софтвер для транслитерирования болгарских кириллических собственных имен латиницей http://transliteration.mdaar.government.bg/trans.php.
• Болгарский национальный корпус содержит около 400 000 000 слов и включает 11 323 текста. Материалы в Корпусе отражают состояние болгарского языкa (преимущественно в его письменной форме) с сер. ХХ в. (1945 г.) до наших дней. http://www.ibl.bas.bg/BGNC_bg.htm ; поиск http://search.dcl.bas.bg/
• Секция по компьютерной лингвистике http://dcl.bas.bg/home_bg.html
• Описание видов корпусов болгарского языка и условий их пользования: http://dcl.bas.bg/corpora_bg.html
• Описание видов программ и условий их загрузки: - http://dcl.bas.bg/programs_bg.html
• Система DaskaL - создание и интерактивное использование для упражнений и тестов по языковому обучению http://daskalnet.net
• "ItaEst - Taka e!" – программа-редактор для коррекции правописания и переноса по слогам для болгарского языка - Office 2000, XP и 2003. http://www.bacl.org/itaest.html
• BGDictionary - Показывает парадигму и грамматическую информацию для данного слова: http://dict.ibl.bas.bg/
• SpeechLab е система за синтезиране на българска реч - Windows 98/2000/XP – Люди со зрительными заболеваниями могут получить бесплатную индивидуальную лицензию на некомерсиальное пользвание программы SpeechLab 2.0 из Фондацис "Хоризонти" или из Союза слепых в Болгарии: http://www.bacl.org/specbg.html и др.
• Корпус транскрибированной разговорной речи К. Алексовой http://www.hf.uio.no/ilos/studier/studenttjenester/Nettressurser/bulg/mat/Aleksova/ и Ц. Николовой http://www.hf.uio.no/ilos/studier/studenttjenester/Nettressurser/bulg/mat/Nikolova/ ; корпус транскрибированой парламентской речи И. Мавродиевой - http://www.hf.uio.no/ilos/studier/studenttjenester/Nettressurser/bulg/mat/Parliament/ ; корпус болгарского интернет чата М. Джоновой - http://www.hf.uio.no/ilos/studier/studenttjenester/Nettressurser/bulg/mat/ICQ/
• Корпус болгарской разговорной речи: http://bgspeech.net/
• Транскрибированная речь – интервью, медийная и публичная речь, речь школьников, академическая речь, неофициальная разговорная речь http://bgspeech.net/bg/resourses.html ;
• публикации по проблемам разговорной речи - http://bgspeech.net/bg/publications_bg.html
• Обработка рукописей и старопечатных книг http://clover.slavic.pitt.edu
• Система корригирования скенированного текста - CoRrect: Cyrillic and Latin OCR correction using electronic dictionaries and sentence context http://lml.bas.bg/~stoyan/ocorrect/index.html
• Университетские курсы по ОЕЯ / компьютерной лингвистике:
• Софийский университет им. Св. Климента Охридского. Факультет славянских филологий:
• Магистрская программа по Компьютерной лингвистике. Интернет технологии в гуманитаристике: http://www.slav.uni-sofia.bg/Masters/cl/sites/CL/index.html; www.slav.uni-sofia.bg/Masters/cl/sites/CL/courses.html
• Специальность „Русская филология”. Современный русский язык. Прикладные аспекты: http://www.slav.uni-sofia.bg/Subjects/rusuchpro.html
• Софийский университет им. Св. Климента Охридского. Факультет математики и информатики:
• избираемая дисциплина Компьютерная лингвистика и др. http://www.uni-sofia.bg/index.php/ bul/fakulteti/fakultet_po_matematika_i_informatika2/ specialnosti/ bakalav_rski_programi/ fakultet_po_matematika_i_informatika/ kompyut_rni_nauki
• Практическая компьютерная лингвистика – статистический подход - statnlp.devbg.org/ http://sites.google.com/a/lml.bas.bg/statnlp/Home
• Софийский университет им. Св. Климента Охридского. Факультет классических и новых филологий:
• Магистрская программа Прикладная лингвистика http://www.uni-sofia.bg/ index.php/bul/fakulteti/ fakultet_po_klasicheski_i_novi_filologii/ specialnosti/magist_rski_programi/ fakultet_po_klasicheski_i_novi_filologii/ prilozhna_lingvistika
• Пловдивский университет им. Паисия Хилендарского, Факультет математики и информатики, www.uni-plovdiv.bg/hdk/hdk1.htm;
Компьютерная лингвистика http://www.fmi-plovdiv.org/index.jsp?id=136&ln=1
• Великотырновский университет им. Св. св. Кирилла и Мефодия, Филологический факультет, Магистрская программа „Язык и перевод” (английский язык). - Компьютерная лингвистика www.uni-vt.bg/1/?page=1970
• Новый Болгарский университет, Департамент иностранных языков и литератур, курс Компьютерная лингвистика - www.nbu.bg/index.php?l=1121
• Болгарская ассоциация по компьютерной лингвистике http://www.bacl.org/
• Болгарская электронная лингвистическая библиотека http://www.belb.net/index.php
• Общество русистов Софии. А.Градинарова - Параллельные болгарско-русские тексты. Павел Вежинов. Бариерата http://orus.slavica.org/node/32148 ; Михаил Булгаков. Мастер и Маргарита http://orus.slavica.org/node/26648 Павел Вежинов. Сините пеперуди http://orus.slavica.org/node/26509
• сайт Балканская Русистика http://www.russian.slavica.org/
• LT4eL - Language Technology for eLearning www.lt4el.eu/index.php?content=partners&language=bg
• Программа SpeechLab 2.0 - синтезатор болгарской речи - www.bezmonitor.com/speechlab.htm

Россия
Поиск интернетовских адресов по ключевому слову дал результатом 9 440 сайтов по ОЕЯ, и более 5 500 по компьютерной лингвистике.
www.philol.msu.ru, www.dialog.ru, www.textology.ru, www.nlp.ru,www.nlp.org/internet.htm,www.nlp-now.co.uk/nlp_europe.htm, www.odessanlp.od.ua/index1. htm,www.purenlp.com/nlpctr.html,
• Корпус русского языка http://www.ruscorpora.ru/
• Сайт Диалог в области ОЕЯ - Международная конференция по компьютерной лингвистике - http://www.dialog-21.ru/
• Синтаксический анализатор - ETAП-3 www.intas.be/catalog/94-3509.htm
• Brill Part of Speech Tagger - Russian www.ling.gu.se/~lager/Home/demo.html
• Полное описание словарей руссского языка www.slowari.ru, http://slovari.yandex.ru/, www.gramota.ru
• Ассоциация лексикографов Lingvo http://www.lingvoda.ru/
• Tолковый и морфологический словарь РЯ www.star.spb.ru/software/services/research.html
• Машинный перевод, статистические методы mull.ccl.umist.ac.uk/staff/harold

Чешская республика
• Текстовые ресурсы и средства ОЕЯ. Институт формальной и прикладной лингвистики, Прага, http://ufal.ms.mff.cuni.cz/ VS97028
• Морфологический анализатор и таггер (Markov model and Feature-based tagger), Система морфологических маркеров
http://shadow.ms.mff.cuni.cz/pdt/Morphology_and_Tagging/Morphology/index.html
• Пражская база синтаксических деревьев (The Prague Dependency Treebank with multi-level syntactic information) http://ufal.ms.mff.cuni.cz/pdt/
• Чешский национальный корпус – свыше 100 млн.словоформ; два корпуса: старый чешский, разговорный – Институт чешского корпуса, Карлов ун-т, http://ucnk.ff.cuni.cz/, Брно, Масарик ун-т, http://www.fi.muni.cz
• BalkaNet - Design and Development of a Multilingual Balkan WordNet LE4-8328 - EuroWordNet 2

Польша
• Проект по созданию аннотированного корпуса польского языка http://www.ipipan.waw.pl/mmgroup/index.html, http://www.ipipan.waw.pl/~corpus/
• Синтаксические средства: http://www.ipipan.waw.pl/mmgroup/CRIT2/treebank.html, http://www.ipipan.waw.pl/mmgroup/HPSG/hpsg.html
• Морфологический анализатор: http://www.mimuw.edu.pl/iinf/ii.e.html, ftp://ftp.mimuw.edu.pl/pub/People/polszczyzna/SAM-95/
• Морфолого-синтаксический анализатор ftp://ftp.mimuw.edu.pl/pub/People/polszczyzna/AMOS-95/amos-eng.html;
• Синтаксический анализатор ftp://ftp.mimuw.edu.pl/pub/People/polszczyzna/AS/index.html
• Система тестирования для верификации и валидации синтаксического парсера ftp://ftp.mimuw.edu.pl/pub/People/polszczyzna/tajp/tajp.htm
• Отделение польских словарей http://slowniki.pwn.pl/redakcja/
• Корпус – свыше 50 млн слов (проза, периодика, фантастика, разговорная речь) http://slowniki.pwn.pl/korpus/index_en.php
• Проекты по лексическим данным: http://main.amu.edu.pl/~zlisi/projekty/polexe.htm, http://main.amu.edu.pl/~zlisi/projekty/ceglexe.htm, http://main.amu.edu.pl/~zlisi/projekty/gramlexe.htm
• Проект PELCTRA, польский национальный корпус – 130 млн, Лодзь университет, http://www1.uni.lodz.pl/pelcra/; группа по компьютерной лингвистике, Краков, http://winnie.ics.agh.edu.pl/
• База данных флексий (Inflectional Database) http://www.icsr.agh.edu.pl/fleksbaz/
• Крайние автоматы как средство ОЕЯ, http://www.eti.pg.gda.pl/~jandac/fsa.html, http://www.eti.pg.gda.pl/KATEDRY/kzi/en/research.html

Сербия (наша сердечная благодарность Данко Шипка (университет в Познане, Польша) за помощь! http://main.amu.edu.pl/~sipkadan/pozcomp.htm )
• Корпус http://www.serbian-corpus.edu.yu/ie/menu/emenu.html, http://main.amu.edu.pl/~sipkadan/korpus.htm, www.umass.edu/fclrc/serb-cro.htm
• Морфологический анализатор, парсер, лексикон, http://main.amu.edu.pl/~sipkadan/; http://www.rcub.bg.ac.yu/recnik/
• Машинный перевод сербско-хорватский - английский http://www.tranexp.com, http://crl.nmsu.edu

Хорватия
• Языковые технологии на хорватском языке http://www.hnk.ffzg.hr/cnc.htm
• Хорватский национальный корпус http://www.hnk.ffzg.hr/default.htm; корпус современного хорватского языка и архив электронных текстов http://clover.slavic.pitt.edu/~aatseel/croatlit/croataatseel2.htm

Словения
• Таггированный корпус славянских языков http://nl.ijs.si/et/talks/SFB441/tue-slides/
• Корпус http://nl.ijs.si/elan/, параллельный корпус словенско-английский http://www.fida.net/slo/index.html
• Морфосинтактический таггер http://www2.arnes.si/~svinta/spela-en.htm
• MULTEXT-East морфосинатаксическое описание http://nl.ijs.si/ME/V2/msd/,
• Средства для аннотации и исследования параллельных корпусов, http://nl.ijs.si/et/talks/bham01/bham-slides/

Босния
• Корпус боснийского языка (The Oslo Corpus of Bosnian Texts) http://www.tekstlab.uio.no/Bosnian/Corpus.html
http://www.uni-bonn.de/slavistik/links/volltexte.html

Корпуса нескольких славянских языков
Одноязычные и параллельные корпуса - www.tractor.de, math.amu.edu.pl/~sipkadan/nt.htm, www.fi.muni.cz/usr/pala/, www.telri.de/, www.ling.uu.se/lars/,www.english.bham.ac.uk/ccl, www.slaviska.uu.se/ingrid.htm clover.slavic.pitt.edu/~djb/slavic.html, www.ling.helsinki.fi/uhlcs/data/helsinki-corpora-I.html, www.intas.be/catalog/93-2119.htm, www.summarization.com/~radev/u/db/acl/html/RESOURCES/CORPORA/


Литература:

1. Градинарова А. Генеративизм. Синтаксические теории. “Евразия”, 2001.
2. Дейл и др.: Dale R., H.Moisl, H.Somers. Handbook of Natural Language Processing. “Marcel Dekker Inc.”, New York-Basel, 2000.
3. Петрова, Алексова, Осенова 2002: К.Петрова, К.Алексова, П.Осенова. Обзор электронных ресурсов славянских языков: виды и применение. - VIII международный симпозиум МАПРЯЛ 2002 “Тeоретические и методические проблемы русского языка как иностранного в начале ХХI века”. Доклады и сообщения, 4 -7 април 2002 г., Велико Търново, сс.315-319.

Комментарии:

Copyright © 2002-2009 Ставропольский Государственный Университет
Поддержка © 2002-2009 Ставропольский Региональный Центр Информатизации