Telegram объявил конкурс на алгоритм ранжирования новостей с призовым фондом $100 000

Спортивное программирование Алгоритмы Социальные сети и сообщества
Telegram продолжает традицию проведения «народных» конкурсов для своих пользователей с выплатой крупных денежных вознаграждений. На этот раз задача — создать агрегатор новостей. Раньше такую роль в рунете выполнял сервис «Яндекс.Новости», который теперь подчиняется требованиям властей и индексирует только специально отобранные источники информации.

В июне 2019 года Павел Дуров пригласил на работу в Telegram разработчиков из «Яндекса»: «Российская интернет-индустрия породила сотни талантливых разработчиков. Однако, в результате описанной выше политики , сегодня они вынуждены играть в поддавки со своими зарубежными коллегами, — написал он. — В своё время мы организовали ”Ноев ковчег” для лучших разработчиков ”Вконтакте”, пригласив их на работу в Telegram. В этом году мы хотим дать такой же шанс разработчикам ”Яндекса”, которые занимаются сервисами рекомендации контента. Устройство таких сервисов, как ”Яндекс.Новости”, впечатляет в техническом отношении, однако ограничено цензурой и русскоязычным рынком».

Неизвестно, сколько разработчиков ушли из «Яндекса» в Telegram, но Дуров не отказался от идеи разработки агрегатора новостей, свободного от политической цензуры.

Конкурсантам предлагается пять заданий.

Задания конкурса

Выделение текстов на русском и английском языках. Алгоритм должен выделить все англо- и русскоязычные тексты.

Отделение новостей от других материалов (энциклопедических, справочных и т. д.)

Группировка новостей по семи тематикам:


Society (в том числе Politics, Elections, Legislation, Incidents, Crime)

Economy (в том числе Markets, Finance, Business)

Technology (в том числе Gadgets, Auto, Apps, Internet services)

Sports (в том числе E-Sports)

Entertainment (в том числе Movies, Music, Games, Books, Arts)

Science (в том числе Health, Biology, Physics, Genetics)

Other (новостные статьи, не попавшие в перечисленные выше категории)

Группировка похожих новостей в сюжеты с выбором общего заголовка. Новости внутри сюжета должны быть отсортированы по релеватности.

Ранжирование сюжетов по важности. Кроме того, нужно сформировать отсортированный по релеватности список сюжетов вне зависимости от тематики.

Работы принимаются в виде standalone-приложения под названием tgnews с CLI-интерфейсом. Приложение запускается со следующими параметрами:

tgnews languages source_dir
tgnews news source_dir
tgnews categories source_dir
tgnews threads source_dir
tgnews top source_dir
где source_dir — путь до директории с HTML-файлами, содержащими тексты статей.

Приложение не должно использовать сеть, должно иметь высокую скорость работы и использовать минимум внешних зависимостей.

Для разработки участникам предлагаются два тестовых набора данных в формате HTML: 1 , 2 . В ходе конкурса будут периодически публиковаться дополнительные наборы данных. Проверка работ пройдёт на других наборах данных, в том числе с других доменов.

Возможно, объявленный конкурс поможет найти и разработчиков, и кандидатов на позиции Content Recommendation Engineer для будущего агрегатора новостей в Telegram. В прошлый раз Павел Дуров упомянул, что зарплаты в его компании «несопоставимо выше, чем в Яндекс или Google», но это не должно стать главной мотивацией: «У нас есть шанс создать первый в истории интернета эффективный и свободный агрегатор новостей, — написал он. — Технология моментального просмотра новостей Instant View уже позволяет читать новости 6000 изданий по всему миру с любого устройства, а статистика их просмотров в каждой стране позволяет алгоритмически вычислять наиболее релевантный на данный момент контент. Рекомендации статей мы можем начать с блока Recommended Articles после прочтения каждой статьи в Telegram, постепенно выведя их в отдельный сервис с ежечасной подборкой и глобальным поиском по всем новостям мира. Параллельно с рекомендацией текстов мы займёмся и рекомендацией наиболее актуальных видеозаписей».)
Теги:
Хабы: