Искусственный интеллект помогает делать исторические видео цветными

22.01.2024 0 Автор admin

 

Многие исторические кадры кинохроники со временем выцветают и портятся, из-за чего людям становится затруднительно оценивать и понимать подлинное историческое значение из этих культурных артефактов. К счастью, технология колоризации стала мощным инструментом для сохранения и восстановления исторических киноматериалов. Используя передовые методы редактирования и восстановления, черно-белые исторические кадры можно превратить в яркие, цветные и реалистичные изображения из прошлого. Это не только улучшает понимание истории, но и помогает приобщиться к культурному наследию на более глубоком уровне. Метод временной согласованности использует глубокую априорную обработку видео для моделирования структуры видео и эффективного обеспечения плавности между кадрами после редактирования цвета в видеоряде, даже при небольшом объёме обучающих данных.

Процесс раскрашивания исторических видеокадров с киноплёнки – сложная и ответственная задача, требующая специальных знаний и навыков. Основное различие между раскрашиванием изображения на бумаге и в видео заключается в размерности данных и способе обработки временных последовательностей. Придание цвета чёрно-белому изображению обычно включает окраску отдельных пикселей из оттенков серого, с одинаковой обработкой последовательности кадров, обеспечивая при этом временную согласованность и плавность временного ряда. Чтобы решить эти проблемы, реставраторы объединяют существующие методы раскрашивания исторических изображений с интеллектуальными компьютеризированными методами временной согласованности, решая проблему дрожания кадров при прямой композиции цветных кадров. Тщательно анализируя последовательность кадров в историческом видео и применяя алгоритмы колоризации, учитывающие непрерывность и плавность временного ряда, можно добиться эффекта цветного видео, который будет одновременно визуально привлекательным и исторически точным.

К сожалению, отсутствие наборов исторических видеоданных, для искусственного интеллекта, является огромной проблемой, разочаровывающей специалистов. Помимо разработки метода раскрашивания, специально для исторических видео, понемногу создаётся набор исторических видеоданных под названием MHMD-Video. Он включает в себя сегменты до, во время и после Второй мировой войны, которые часто упускаются из виду в существующих наработках этой области документального кино. Предоставляя исследователям доступ к высококачественным историческим материалам, специалисты лелеют надежду стимулировать дальнейшие исторические исследования и внести вклад в сохранение мирового культурного наследия для будущих поколений.

В специфичной, но модной сейчас, области придания старому видео цвета, с некоторых пор доминируют методы, основанные на глубоком машинном обучении и использовании свёрточных нейронных сетей, для извлечения информации об изображениях. Некоторые студии объединили глобальные и локальные априоры изображений, чтобы добиться унифицированного обучения раскрашиванию и классификацию изображений покадрово. Однако эти методы ограничены традиционными статистическими и вероятностными методами распределения, что затрудняет обеспечение качества. Следовательно, многие разработчики обратили своё внимание на генеративно-состязательные сети, для сопоставления входных изображений в оттенках серого с выходными цветными изображениями. Метод основан на моделях циклического внимания, сегментации изображений и многозадачном обучении, который позволяет более точно контролировать эффект редактирования цвета изображений и является эффективным и точным.

Однако, все вышеупомянутые алгоритмы ориентированы только на раскрашивание сравнительно современных видеоматериалов (чёрно-белые киноленты, созданные после 1920 года), и существует очень мало методов, специально разработанных для раскрашивания исторических изображений более раннего периода. В области раскрашивания видео большинство методов основаны на ручном вмешательстве, руководствуясь эталонными изображениями или уже сделанным кадром в цвете. Однако недавние достижения в области искусственного интеллекта и глубокого обучения привели к появлению нескольких автоматизированных методов.

Современные разработки помогают лучше моделировать долгосрочные зависимости временных последовательностей и улучшать производительность. Методика может более точно выполнять раскраску видео за счет внедрения методов глубокого сопоставления различных эталонных образцов, механизмов пространственного внимания, многомасштабных стратегий и методов оптимизации, на основе глубокого обучения, повышая точность и надёжность раскраски каждого видеокадра. Но разработчики ИИ пошли ещё дальше, создав новый метод визуального соответствия, основанный на сопоставлении сегментации. Сканер сегментирует входные изображения и сопоставляет соответствующие части этих сегментированных изображений для получения векторов признаков, а затем использует модель Transformer для объединения и выравнивания признаков, достигая высокой точности соответствия изображения. Хотя, надо с горечью признать, что в настоящее время исследования по не эталонному интеллектуальному редактированию цвета видео ограничены. Самый известный на сегодняшний день метод — полностью автоматический метод раскрашивания видео, который эффективно решает проблемы нестабильности, шума и временной последовательности в процессе раскрашивания, достигая хороших, но не идеальных результатов.

Кроме того, при раскрашивании видео часто требуются методы временной согласованности, чтобы улучшить синхронизацию между видеокадрами. Самым распространённым является метод межкадрового согласования, за счёт минимизации расстояния между входными кадрами и обработанным цветным видео в градиентной области. Но для этого требуются серьёзные вычислительные мощности центра обработки данных, чтобы досконально выявить ошибки деформации между двумя последовательными изображениями. Раскрашивание исторических личностей вручную на совсем старых кадрах с киноплёнки — реалистично и практично, однако существующие методы в этом отношении неэффективны. Кроме того, необходимо уделять особое внимание разнообразной и высококачественной раскраске одежды в исторических реалиях тех времён, основанной на мелкозернистом семантическом понимании и достоверности. Прежде, чем начинать непосредственно колоризацию, надо обеспечить классификацию изображений по эпохам, национальностям и типам одежды. Благодаря разработке подсети классификации и анализа можно повысить точность раскрашивания изображения и сделать границы каждой части изображения более чёткими.

В настоящее время в большинстве доступных наборов видеоданных отсутствуют подлинно исторические сцены. Это представляет собой серьёзную проблему для реставраторов, которые заинтересованы в колоризации исторических документальных фильмов, особенно тех, на которых изображена одежда прошедших периодов. Приходится изучать исторические материалы по модным журналам тех лет. На основе этих исторических материалов наряды классифицируют их по трём основным категориям: национальность, эпоха и тип одежды. Уже сейчас набор данных разделён на 27 отдельных категорий, в общей сложности насчитывающих более 8000 образцов.

HistoryNet представляет собой генеративную модель, которая включает в себя низкоуровневые сети признаков, генераторов, синтаксического анализа, дискриминаторов и классификаторов. Эта нейросеть по функционалу выполняет три подзадачи: анализ людей на кадре, сегментарную классификацию и колоризацию. Во время процесса раскрашивания сеть анализа человека и классификатора передают информацию в основную часть раскрашивания, для создания окончательного цветного изображения. Затем сгенерированное изображение оценивается дискриминатором, и обратная связь от дискриминатора используется для управления генератором при создании оптимального цветного изображения. Эта сеть обучается с использованием набора исторических данных, что приводит к более точной раскраске всего кадра.

Далее в дело вступает Deep Video Prior — это метод обработки видео, который использует технологию глубокого обучения, для моделирования структуры с помощью свёрточных нейронных сетей. Извлекая предварительную информацию, присутствующую в видео, этот метод обеспечивает эффективную обработку последующих кадров. DVP может поддерживать согласованность прогнозируемых результатов для соответствующих патчей между разными кадрами. Явление мерцания цвета рассматривается, как шум во временной области, который можно исправить.

При настройке предварительно обработанного видеоряда с проблемами мерцания цвета, нейронная сеть сначала фиксирует цветовое отображение и подгоняет общие характеристики, а затем устраняет нестабильный мерцающий шум. Таким образом, использование Deep Video Prior помогает нейронной сети лучше понять общие и специфические особенности, присутствующие в видео, тем самым улучшая анализ и обработку, одновременно неявно достигая временной согласованности.