LABINFORM.RU СУЩЕСТВИТЕЛЬНЫЕ ПРИЛАГАТЕЛЬНЫЕ ГЛАГОЛЫ

Главная RuWordNet

Тезаурус русского языка в формате WordNet - RuWordNet

Одним из самых известных в мире компьютерно-лингвистических ресурсов является тезаурус WordNet, который описывает лексику английского языка в виде сети понятий, так называемых синсетов.

Синсеты представляют собой совокупности синонимов, между синсетами установлены отношения. Современный объем тезауруса WordNet составляет 150 тысяч слов и выражений английского языка.Тезаурус WordNet используется во многих исследованиях и экспериментах, связанных с обработкой текстов на английском языке. Формализованная структура тезауруса позволяет разработчикам автоматизированно извлекать из него фрагменты для формирования специализированных ресурсов для решения конкретной прикладной задачи.

В течение многих лет наша группа развивала тезаурусы для автоматической обработки текстов со структуров, несколько отличающейся от тезаурусов типа WordNet. Обсуждение отличий нашего подхода к созданию тезаурусов в форме лингвистических онтологий можно найти здесь и здесь.

Однако многим исследователям и практикам хотелось бы иметь для русского языка тезаурус именно в формате WordNet. Действительно, проекты в области создания национальных ворднетов инициированы более чем для 60 языков, раз в д ва года проводится специализированная международная конференция разработчиков (http://globalwordnet.org/). Можно согласиться с тем, что существование представительного и качественного тезауруса типа WordNet дает дополнительные возможности для многоязычной обработки текстов, поскольку позволяет устанавливать межъязыковые связи между ворднетами, созданными для разных языков.

Также представление лексических системы различных языков в формализованном виде в похожих форматах, в данном случае в формате англоязычного WordNet, создает основу для межъязыкового, типологического сопоставления таких лексических систем.

В итоге было принято решение автоматизированно породить тезаурус русского языка типа WordNet (RuWordNet) на основе знаний о русском языке и окружающем мире, собранных в тезаурусе РуТез.

Тезаурус в формате WordNet - RuWordNet создан при поддержке фонда РГНФ, грант 15-04-12017в.

Тезаурус RuWordNet содержит синсеты трех частей речи: существительные (отдельные существительные, группы существительного, предложные группы), глаголы (отдельные глаголы и глагольные группы), прилагательные (отдельные прилагательные и группы прилагательного):

- 29297 синсетов существительных;

- 12865 синсетов прилагательных;

- 7636 синсетов глаголов.

Между синсетами, относящимися к разным частям речи, но выражающих один и тот же смысл, установлены отношения частеречной синонимии, соединяющие разделенные синсеты.

Между синсетами каждой части речи установлены связи гипоним-гипероним (род-вид). Всего получилось отношений гипоним-гипероним:

- для существительных - более 39 тысяч;

- для прилагательных - более 17 тысяч;

- для глаголов - более 10 тысяч.

Кроме того, между синсетами установлены отношения: часть-целое, экземпляр-класс и отношение антонимии.

Для некоммерческого использования можно получить xml-файлы с данными тезауруса RuWordNet. Для получения файлов обращайтесь по адресу louk_nat@mail.ru.