В социальных медиа (vk, ok и т.п.) пользователи как правило могут оставлять посты, посты в группе, сообществе или на своей странице. Посты можно комментировать, однако комментарии при этом могут как иметь отношение к тексту поста, так и нет. Комментарий может содержать смысл или быть бессмыслицей или спамом в целом.
Необходимо реализовать решение которое сможет генерировать (генеративная суммаризация) текст суммаризации (главного, смысла обсуждения) комментариев под каждым постом.
Brand Analytics ML Contest - мероприятие, которое собрало молодых айтишников со специализацией в машинном обучении. Команды из разных городов России на протяжении трёх недель работали над реальной задачей: разрабатывали решение для генерации текста суммаризации комментариев под каждым постом в социальных медиа. До стоп-кода дошли только 14 команд - именно они поборолись за призовые места в финале. Эксперты контеста отметили высокий уровень компетентности участников: представленные решения качественно проработаны.
Подписаться на канал контеста в Telegram, задать интересующие вопросы
Решать задачу контеста 4-23 декабря
Эксперты
Островский Григорий
Brand Analytics
Репин Александр
Brand Analytics
Кошкина Ирина
Brand Analytics
Заикин Борис
Brand Analytics
Болдырев Андрей
Brand Analytics
Организаторы
Brand Analytics
- инновационная российская ИТ-компания и разработчик лидирующей системы мониторинга и анализа социальных медиа и СМИ на рынках России и СНГ. Аналитическая система Brand Analytics включена в единый реестр российского программного обеспечения. Этот статус позволяет без каких-либо ограничений использовать систему в органах государственной власти, госучреждениях и госкомпаниях.
В системе Brand Analytics используются только собственные разработки и открытое ПО. А данные хранятся на территории России.
«Акселератор Возможностей» при ИНТЦ МГУ «Воробьевы Горы»
– крупный оператор и организатор хакатонов и инвестиционных мероприятий, куратор инновационного блока ИНТЦ МГУ «Воробьевы горы». Компания занимается привлечением венчурных инвестиций, а также построением технологической инфраструктуры на территории ИНТЦ МГУ. «Акселератор Возможностей» входит в пятерку крупнейших операторов программ корпоративных инноваций
- инновационная российская ИТ-компания и разработчик лидирующей системы мониторинга и анализа социальных медиа и СМИ на рынках России и СНГ. Аналитическая система Brand Analytics включена в единый реестр российского программного обеспечения. Этот статус позволяет без каких-либо ограничений использовать систему в органах государственной власти, госучреждениях и госкомпаниях.
В системе Brand Analytics используются только собственные разработки и открытое ПО. А данные хранятся на территории России.
FAQ
Это формат соревнования, предназначенный для решения реальных задач по программированию за определенный период времени.
Да, участие бесплатное, у каждого есть шанс получить часть призового фонда.
Формат участия: одиночный или командный Ограничение: в команде не больше 3 человек. Участником может быть любой гражданин Российской Федерации старше 18 лет. К участию приглашаются участники любого уровня подготовки.
Да, такой формат участия возможен!
Да, конечно, контест полностью проходит в онлайн-формате. Можно участвовать из любого города Российской Федерации.
Вы можете написать @acvomsu или задать их в общем канале контеста в Телеграм.
17:00-17:30 Открытие контеста, приветственное слово
17:30-18:00 Презентация задачи
18:00 Старт и работа над задачей
23:59 Стоп-код (подгрузка финальных решений) и старт проверки
18:00-19:30 Подведение итогов контеста
Суммаризация комментариев в социальных медиа
Описание задачи:
Входные данные:
Правила суммаризации по уровню сложности:
Требования к решению:
В социальных медиа (vk, ok и т.п.) пользователи как правило могут оставлять посты, посты в группе, сообществе или на своей странице. Посты можно комментировать, однако комментарии при этом могут как иметь отношение к тексту поста, так и нет. Комментарий может содержать смысл или быть бессмыслицей или спамом в целом.
Необходимо реализовать решение которое сможет генерировать (генеративная суммаризация) текст суммаризации (главного, смысла обсуждения) комментариев под каждым постом.
Файл в формате .jsonl с постами и комментариями, а также мета-информацией. Данные в файле не структурированы, участникам в первую очередь необходимо будет связать комментарии и посты по внешним идентификаторам, которые указаны в качестве отдельного поля каждого объекта исходного файла.
Суммаризация всех комментариев под каждым постом;
Суммаризация только тех комментариев, которые имеют явное отношение к тексту каждого поста;
Суммаризация не только тех комментариев которые имеют явное отношение к тексту поста, но и косвенное (пример: пост про технологию компании, а комментарий про обсуждение самой компании)
Использование только открытых технологий;
Запрещено использование в конечном результате (но допускается в процессе разработки) облачных решений: OpenAI и т.п.
Конечное решение должно иметь инструкцию по запуску и установке всех зависимостей. Все внешние файлы, словари, модели и т.п. должны предоставляться вместе с самим решением;
Приложение должно иметь одну точку входа и формат вывода результата;
Ограничений по стеку технологий нет, но предпочтителен стандартный набор современного DS/ML: Python.
Важно:
Качество решения;
Ресурсоэффективность (чем меньше потребляется ресурсов — тем лучше);
Скорость работы;
Предпочтительны решения, способные эффективно работать на CPU, допускаются решения с работой на GPU.