LABINFORM.RU | СУЩЕСТВИТЕЛЬНЫЕ | ПРИЛАГАТЕЛЬНЫЕ | ГЛАГОЛЫ |
Тезаурус русского языка в формате WordNet - RuWordNetОдним из самых известных в мире компьютерно-лингвистических ресурсов является тезаурус WordNet, который описывает лексику английского языка в виде сети понятий, так называемых синсетов. Синсеты представляют собой совокупности синонимов, между синсетами установлены отношения. Современный объем тезауруса WordNet составляет 150 тысяч слов и выражений английского языка.Тезаурус WordNet используется во многих исследованиях и экспериментах, связанных с обработкой текстов на английском языке. Формализованная структура тезауруса позволяет разработчикам автоматизированно извлекать из него фрагменты для формирования специализированных ресурсов для решения конкретной прикладной задачи. В течение многих лет наша группа развивала тезаурусы для автоматической обработки текстов со структуров, несколько отличающейся от тезаурусов типа WordNet. Обсуждение отличий нашего подхода к созданию тезаурусов в форме лингвистических онтологий можно найти здесь и здесь. Однако многим исследователям и практикам хотелось бы иметь для русского языка тезаурус именно в формате WordNet. Действительно, проекты в области создания национальных ворднетов инициированы более чем для 60 языков, раз в д ва года проводится специализированная международная конференция разработчиков (http://globalwordnet.org/). Можно согласиться с тем, что существование представительного и качественного тезауруса типа WordNet дает дополнительные возможности для многоязычной обработки текстов, поскольку позволяет устанавливать межъязыковые связи между ворднетами, созданными для разных языков. Также представление лексических системы различных языков в формализованном виде в похожих форматах, в данном случае в формате англоязычного WordNet, создает основу для межъязыкового, типологического сопоставления таких лексических систем. В итоге было принято решение автоматизированно породить тезаурус русского языка типа WordNet (RuWordNet) на основе знаний о русском языке и окружающем мире, собранных в тезаурусе РуТез. Тезаурус в формате WordNet - RuWordNet создан при поддержке фонда РГНФ, грант 15-04-12017в. Тезаурус RuWordNet содержит синсеты трех частей речи: существительные (отдельные существительные, группы существительного, предложные группы), глаголы (отдельные глаголы и глагольные группы), прилагательные (отдельные прилагательные и группы прилагательного): - 29297 синсетов существительных; - 12865 синсетов прилагательных; - 7636 синсетов глаголов. Между синсетами, относящимися к разным частям речи, но выражающих один и тот же смысл, установлены отношения частеречной синонимии, соединяющие разделенные синсеты. Между синсетами каждой части речи установлены связи гипоним-гипероним (род-вид). Всего получилось отношений гипоним-гипероним: - для существительных - более 39 тысяч; - для прилагательных - более 17 тысяч; - для глаголов - более 10 тысяч. Кроме того, между синсетами установлены отношения: часть-целое, экземпляр-класс и отношение антонимии. Для некоммерческого использования можно получить xml-файлы с данными тезауруса RuWordNet. Для получения файлов обращайтесь по адресу louk_nat@mail.ru. |