Telegram продолжает традицию проведения «народных» конкурсов для своих пользователей с выплатой крупных денежных вознаграждений. На этот раз задача — создать агрегатор новостей. Раньше такую роль в рунете выполнял сервис «Яндекс.Новости», который теперь подчиняется требованиям властей и индексирует только специально отобранные источники информации.
В июне 2019 года Павел Дуров пригласил на работу в Telegram разработчиков из «Яндекса»: «Российская интернет-индустрия породила сотни талантливых разработчиков. Однако, в результате описанной выше политики , сегодня они вынуждены играть в поддавки со своими зарубежными коллегами, — написал он. — В своё время мы организовали ”Ноев ковчег” для лучших разработчиков ”Вконтакте”, пригласив их на работу в Telegram. В этом году мы хотим дать такой же шанс разработчикам ”Яндекса”, которые занимаются сервисами рекомендации контента. Устройство таких сервисов, как ”Яндекс.Новости”, впечатляет в техническом отношении, однако ограничено цензурой и русскоязычным рынком».
Неизвестно, сколько разработчиков ушли из «Яндекса» в Telegram, но Дуров не отказался от идеи разработки агрегатора новостей, свободного от политической цензуры.
Конкурсантам предлагается пять заданий.
Задания конкурса
Выделение текстов на русском и английском языках. Алгоритм должен выделить все англо- и русскоязычные тексты.
Отделение новостей от других материалов (энциклопедических, справочных и т. д.)
Группировка новостей по семи тематикам:
Society (в том числе Politics, Elections, Legislation, Incidents, Crime)
Economy (в том числе Markets, Finance, Business)
Technology (в том числе Gadgets, Auto, Apps, Internet services)
Sports (в том числе E-Sports)
Entertainment (в том числе Movies, Music, Games, Books, Arts)
Science (в том числе Health, Biology, Physics, Genetics)
Other (новостные статьи, не попавшие в перечисленные выше категории)
Группировка похожих новостей в сюжеты с выбором общего заголовка. Новости внутри сюжета должны быть отсортированы по релеватности.
Ранжирование сюжетов по важности. Кроме того, нужно сформировать отсортированный по релеватности список сюжетов вне зависимости от тематики.
Работы принимаются в виде standalone-приложения под названием tgnews с CLI-интерфейсом. Приложение запускается со следующими параметрами:
tgnews languages source_dir
tgnews news source_dir
tgnews categories source_dir
tgnews threads source_dir
tgnews top source_dir
где source_dir — путь до директории с HTML-файлами, содержащими тексты статей.
Приложение не должно использовать сеть, должно иметь высокую скорость работы и использовать минимум внешних зависимостей.
Для разработки участникам предлагаются два тестовых набора данных в формате HTML: 1 , 2 . В ходе конкурса будут периодически публиковаться дополнительные наборы данных. Проверка работ пройдёт на других наборах данных, в том числе с других доменов.
Возможно, объявленный конкурс поможет найти и разработчиков, и кандидатов на позиции Content Recommendation Engineer для будущего агрегатора новостей в Telegram. В прошлый раз Павел Дуров упомянул, что зарплаты в его компании «несопоставимо выше, чем в Яндекс или Google», но это не должно стать главной мотивацией: «У нас есть шанс создать первый в истории интернета эффективный и свободный агрегатор новостей, — написал он. — Технология моментального просмотра новостей Instant View уже позволяет читать новости 6000 изданий по всему миру с любого устройства, а статистика их просмотров в каждой стране позволяет алгоритмически вычислять наиболее релевантный на данный момент контент. Рекомендации статей мы можем начать с блока Recommended Articles после прочтения каждой статьи в Telegram, постепенно выведя их в отдельный сервис с ежечасной подборкой и глобальным поиском по всем новостям мира. Параллельно с рекомендацией текстов мы займёмся и рекомендацией наиболее актуальных видеозаписей».)
В июне 2019 года Павел Дуров пригласил на работу в Telegram разработчиков из «Яндекса»: «Российская интернет-индустрия породила сотни талантливых разработчиков. Однако, в результате описанной выше политики , сегодня они вынуждены играть в поддавки со своими зарубежными коллегами, — написал он. — В своё время мы организовали ”Ноев ковчег” для лучших разработчиков ”Вконтакте”, пригласив их на работу в Telegram. В этом году мы хотим дать такой же шанс разработчикам ”Яндекса”, которые занимаются сервисами рекомендации контента. Устройство таких сервисов, как ”Яндекс.Новости”, впечатляет в техническом отношении, однако ограничено цензурой и русскоязычным рынком».
Неизвестно, сколько разработчиков ушли из «Яндекса» в Telegram, но Дуров не отказался от идеи разработки агрегатора новостей, свободного от политической цензуры.
Конкурсантам предлагается пять заданий.
Задания конкурса
Выделение текстов на русском и английском языках. Алгоритм должен выделить все англо- и русскоязычные тексты.
Отделение новостей от других материалов (энциклопедических, справочных и т. д.)
Группировка новостей по семи тематикам:
Society (в том числе Politics, Elections, Legislation, Incidents, Crime)
Economy (в том числе Markets, Finance, Business)
Technology (в том числе Gadgets, Auto, Apps, Internet services)
Sports (в том числе E-Sports)
Entertainment (в том числе Movies, Music, Games, Books, Arts)
Science (в том числе Health, Biology, Physics, Genetics)
Other (новостные статьи, не попавшие в перечисленные выше категории)
Группировка похожих новостей в сюжеты с выбором общего заголовка. Новости внутри сюжета должны быть отсортированы по релеватности.
Ранжирование сюжетов по важности. Кроме того, нужно сформировать отсортированный по релеватности список сюжетов вне зависимости от тематики.
Работы принимаются в виде standalone-приложения под названием tgnews с CLI-интерфейсом. Приложение запускается со следующими параметрами:
tgnews languages source_dir
tgnews news source_dir
tgnews categories source_dir
tgnews threads source_dir
tgnews top source_dir
где source_dir — путь до директории с HTML-файлами, содержащими тексты статей.
Приложение не должно использовать сеть, должно иметь высокую скорость работы и использовать минимум внешних зависимостей.
Для разработки участникам предлагаются два тестовых набора данных в формате HTML: 1 , 2 . В ходе конкурса будут периодически публиковаться дополнительные наборы данных. Проверка работ пройдёт на других наборах данных, в том числе с других доменов.
Возможно, объявленный конкурс поможет найти и разработчиков, и кандидатов на позиции Content Recommendation Engineer для будущего агрегатора новостей в Telegram. В прошлый раз Павел Дуров упомянул, что зарплаты в его компании «несопоставимо выше, чем в Яндекс или Google», но это не должно стать главной мотивацией: «У нас есть шанс создать первый в истории интернета эффективный и свободный агрегатор новостей, — написал он. — Технология моментального просмотра новостей Instant View уже позволяет читать новости 6000 изданий по всему миру с любого устройства, а статистика их просмотров в каждой стране позволяет алгоритмически вычислять наиболее релевантный на данный момент контент. Рекомендации статей мы можем начать с блока Recommended Articles после прочтения каждой статьи в Telegram, постепенно выведя их в отдельный сервис с ежечасной подборкой и глобальным поиском по всем новостям мира. Параллельно с рекомендацией текстов мы займёмся и рекомендацией наиболее актуальных видеозаписей».)