Labinform.ru О проекте Справка
А
Б
В
Г
Д
Е
Ж
З
И
Й
К
Л
М
Н
О
П
Р
С
Т
У
Ф
Х
Ц
Ч
Ш
Щ
Ы
Э
Ю
Я

Главная РуТез

О лингвистической онтологии "Тезаурус РуТез"

 

Новости. 18.01.2016.
Опубликована вторая версия тезауруса: РуТез-2.0

Новая версия РуТез-2.0 содержит более 31.5 понятий, 111.5 тысяч различных текстовых входов (слов и выражений русского языка), более 130 тысяч с учетом значений многозначных слов.

Тезаурус распространяется в формате XML по запросу по адресу louk_nat@mail.ru,
а также опубликован на сайте (http://www.labinform.ru/pub/ruthes/index.htm).

В связи с распространенностью и популярностью тезаурусов, построенных по модели WordNet,
версия тезауруса РуТез-2.0 стала основой для порождения ворднета для русского языка (RuWordNet).

Новая версия тезауруса РуТез-2.0 и новый тезаурус в формате WordNet - RuWordNet созданы и опубликованы при поддержке фонда РГНФ, грант 15-04-12017в.

 

О тезаурусе

На данном сайте представлена часть тезауруса русского языка РуТез (далее РуТез-lite). Тезаурус РуТез представляет собой лингвистический ресурс концептуального типа, то есть представляет собой иерархическую сеть понятий, к которым приписаны текстовые выражения. И в этом смысле РуТез относится к тому же классу, что и тезаурус WordNet. При этом, в отличие от WordNet, который создавался как модель человеческой памяти (раздельное описание частей речи, специальные типы отношений и др.), тезаурус РуТез создавался именно как ресурс для автоматической обработки текстов.

До недавнего времени тезаурус РуТез использовался только как корпоративный ресурс, применяемый в таких приложениях как концептуальный информационный поиск, автоматическое расширение запроса, автоматическая рубрикация, автоматическое аннотирование, автоматическая кластеризация. Полезность использования знаний, описанных в тезаурусе РуТез, была показана в ряде кампаний в рамках на ряде международных конференций по оценке (SUMMAC) и российского семинара по методам информационного поиска РОМИП. Приложения, основанные на тезаурусе РуТез, использовались в проектах с государственными и коммерческими организациями.

Текущий объем тезауруса РуТез составляет 158 тысяч слов и выражений, уложенных в сеть 55 тысяч понятий, между которыми вручную установлено более 210 тысяч отношений. Особенностью тезауруса является то, что в течение многих лет он тестировался в реальных проектах.

Объем опубликованного тезауруса РуТез-lite составляет 115 тысяч слов и выражений. Тезаурус РуТез-lite опубликован при поддержке Фонда Дмитрия Зимина "Династия" и финансовой поддержке основателей компании "Яндекс".

Версия тезауруса РуТез-lite выложена для бесплатного некоммерческого использования (лицензия типа Attribution-NonCommercial-ShareAlike 3.0 Unported, позволяющая копировать, изменять и некоммерчески использовать данную версию тезауруса).

При использовании данных следует ссылаться на книгу:
Лукашевич Н.В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского университета, 2011.

(Доиздательская версия книги - скачать PDF)

Для некоммерческого использования можно получить xml-файлы с данными тезауруса. Для получения файлов обращайтесь по адресу louk_nat@mail.ru .