Спецификация решения
Этапы извлечения признаков
Этап 1. Извлечение аудио-эмбеддингов
Подробнее об аудио-эмбеддингах
Используются нормализованные Мел-спектрограммы для извлечения аудио-эмбеддингов.
Мел-спектрограммы представляют собой визуальное представление аудиосигнала, которое учитывает восприятие частот человеческим ухом. Нормализация позволяет уменьшить влияние шумов и искажений, что делает эмбеддинги более устойчивыми к изменениям в качестве звука.
Это особенно важно для коротких видео, где аудиотрек может варьироваться по громкости и качеству.
Этап 2. Извлечение визуальных эмбеддингов
Подробнее о видео-эмбеддингах
Для выборки релевантных отрезков видео используется метод анализа движения объектов в последовательности изображений, а именно - Optical Flow. Он позволяет оценить перемещение пикселей между кадрами, а также используется в компьютерном зрении для задач, таких как отслеживание объектов, стабилизация видео и восстановление трехмерной структуры сцены.
Применяется нейросетевая модель архитектуры SWIN для анализа видео и извлечения визуальных эмбеддингов. SWIN (Shifted Windows) является современным подходом в компьютерном зрении, который позволяет эффективно обрабатывать изображения с различными масштабами и контекстами.
Эта архитектура обеспечивает высокую точность в распознавании объектов и сцен, что критично для идентификации дубликатов, особенно когда видео может содержать схожие, но не идентичные визуальные элементы.
Этап 3. Извлечение текста из аудио
Подробнее об Speech-to-Text
Используется технология распознавания речи (speech-to-text) а именно whisper для извлечения текстовой информации из аудиотреков видео.
Эта технология позволяет преобразовать устную речь в текст, что открывает дополнительные возможности для анализа контента.
Текстовая информация может быть использована для сопоставления с другими источниками данных, что значительно увеличивает вероятность нахождения дубликатов, особенно в случаях, когда визуальные элементы могут отличаться.
Этап 4. Извлечение текста из изображения
Подробнее об OCR
Применяется оптическое распознавание символов (OCR) для извлечения текста из изображений.
OCR позволяет извлекать текстовую информацию из визуального контента, что может быть полезно для анализа заголовков, подписей и других текстовых элементов, присутствующих в видео.
Это дополнительно обогащает набор признаков, используемых для поиска дубликатов, и позволяет учитывать контекст, который может быть упущен при анализе только аудио или видео.
Этап 5. Поиск мемов на изображении
Подробнее об аудио-эмбеддингах
Включает в себя идентификацию мемов, что может быть полезно для поиска дубликатов, содержащих популярные визуальные элементы.
Мемы часто имеют характерные визуальные и текстовые шаблоны, которые могут быть распознаны с помощью специализированных алгоритмов.
Это позволяет не только находить дубликаты, но и учитывать культурные и социальные контексты, что особенно актуально для коротких видео, часто основанных на мемах.
Алгоритм поиска дубликатов
На основе извлеченных признаков применяется алгоритм поиска дубликатов, который включает следующие этапы:
Поиск потенциальных кандидатов на дубликаты
Используется косинусная близость векторов эмбеддингов для нахождения потенциальных дубликатов среди видео. Косинусная близость позволяет измерять схожесть между векторами, что особенно полезно для высокоразмерных данных, таких как эмбеддинги. Этот метод позволяет быстро и эффективно находить видео, которые имеют схожие аудио и визуальные характеристики.
Заужение выборки
Сопоставление текста в речи, текста на изображении, мемов и других признаков для уточнения выборки и повышения точности поиска. Этот этап позволяет исключить ложные срабатывания и сосредоточиться на наиболее вероятных дубликатах. Использование нескольких источников информации (аудио, текст, визуальные элементы) значительно увеличивает точность и надежность алгоритма.
Вынесение конечного вердикта
На основе усредненных аудио и визуальных эмбеддингов принимается окончательное решение о наличии дубликатов. Этот этап включает в себя анализ всех собранных данных и принятие решения на основе комплексного подхода. Усреднение эмбеддингов позволяет учитывать вариации и неопределенности, что делает финальный вывод более обоснованным и надежным.