Главная О проекте Справка
А
Б
В
Г
Д
Е
Ж
З
И
Й
К
Л
М
Н
О
П
Р
С
Т
У
Ф
Х
Ц
Ч
Ш
Щ
Ы
Э
Ю
Я

О Проекте

Единицы тезауруса РуТез

Единицей описания в тезаурусе РуТез является не множество синонимичных слов или терминов, как в тезаурусе WordNet, а понятие, отражающее значимые классы сущностей, различаемых людьми в мире, в современной общественной жизни, в психической жизни людей. При этом предполагается, что значения слов и выражений, существующие в современных естественных языках, позволяют выделить главное, существенное для современной жизни людей.

В тезаурусе РуТез каждое понятие должно иметь однозначное имя, которое построено на базе его текстовых входов, и должно быть понятным носителю языка. Каждое вводимое понятие должно быть снабжено списком слов и словосочетаний, с помощью которых можно сослаться в тексте на вводимое понятие - текстовых входов. В качестве таких текстовых входов могут быть отдельные слова (существительные, прилагательные, глаголы, наречия), а также именные и глагольные группы.

Языковые выражения (слова, словосочетания, термины), которые были описаны как текстовые входы одного и того же понятия, называются онтологическими синонимами. Понятия в тезаурусе РуТез могут иметь достаточно большие ряды онтологических синонимов.

Отношения в тезаурусе РуТез

Отношения между понятиями, описываемые в онтологическом ресурсе, предназначенном для автоматической обработки текстов в рамках информационно-поисковых приложений, должны выполнять разнообразные функции, включая расширение поискового запроса и вывод рубрики; разрешение лексической многозначности; тематического анализа текстов с учетом их лексической связности. Для реализации любой из этих функций необходимо осуществление своеобразного логического вывода: встретив вхождение некоторого понятия в тексте, нужно делать многошаговые проходы по отношениям.

Для стабильной работы на разных типах текстов в тезаурусе РуТез используется небольшой набор надежных отношений, т.е. отношений, которые не исчезают, не меняются в течение всего срока существования любого или подавляющего большинства экземпляров понятия.

В результате исследований и экспериментов мы пришли к набору отношений ресурса, предназначенного для эффективной автоматической работы в информационно-поисковых приложениях и приложениях автоматической обработки текстов.

В тезаурусе РуТез имеется четыре основных типа отношений.

Первый тип отношений - родовидовое отношение ниже-выше, представляет собой отношение класс-подкласс, обладает свойствами транзитивности и наследования.

Второй тип отношений - отношение часть-целое. Используется не только для описания физических частей, но и для других внутренних сущностей понятия, таких как свойства или роли для ситуаций. Важным условием при установлении этого отношения является то, что понятия-части должны быть жестко связаны со своим целым, то есть каждый пример понятия-части должен в течение всего времени своего существования являться частью для понятия-целого, и не относиться к чему-либо другому.

В этих условиях удается выполнить свойство транзитивности введенного таким образом отношения часть-целое, что очень важно для автоматического вывода в процессе автоматической обработки текстов.

Еще один тип отношения, называемого несимметричной ассоциацией асц2 - асц1, связывает два понятия, которые не могут быть связаны выше рассмотренными отношениями, но когда одно из которых не существовало бы без существования другого. Например, понятие КИПЕНИЕ требует существования понятия ЖИДКОСТЬ. В онтологических исследованиях такое отношение называется отношением онтологической зависимости.

Последний тип отношений - симметричная ассоциация асц - асц - связывает, например, понятия, очень близкие по смыслу, но которые разработчики не решились соединить в одно понятие (предсинонимия).