【Аудио и видео】Экстремальная передача видео в реальном времени при слабой сети

искусственный интеллект Java MySQL

Сценарий слабой сети

Слабая сеть все еще отличается от обычного Интернета, который уже подходит для экстремальных задач. Будь то прямая трансляция или видео по запросу, инфраструктура, сетевое оборудование и технология обработки сжатия могут полностью удовлетворить потребности высокой четкости, сверхвысокой четкости и нескольких точек обзора. Однако для слабых сетей, таких как: помощь в чрезвычайных ситуациях, морские дела, беспилотная передача изображений, мониторинг пограничной обороны и т. д., эти сценарии часто требуют связи в режиме реального времени.Однако в этих сценариях есть определенные естественные причины полагаться связи с базовой станцией, что может привести к проблемам со связью, ограничить или даже прервать связь. Например: масштабные оползни, землетрясения и другие стихийные бедствия.

Экстремальная коммуникационная архитектура

Основываясь на реальном сценарии слабой сети и реальных проблемах, лаборатория NTU предложила экстремальную коммуникационную архитектуру, которая в основном отражается в трех аспектах:

  • управляемый данными
  • Онлайн-обучение с подкреплением для персонализации
  • Передача данных превращается в искусственный интеллект

управляемый данными

Судя по многолетнему исследовательскому опыту, начиная с самой базовой точки зрения инженерного проектирования, переходя к управлению данными, конечно, это также оказалось осуществимым: например, обучение с подкреплением применяется для управления пропускной способностью сети, кодирования видео и параметры декодирования, такие как контроллер, эти параметры являются более сложными.

Онлайн-обучение с подкреплением для персонализации

Конечно, есть надежда, что от управления данными можно перейти к автоматизации и интеллекту, потому что вы не можете знать об изменениях в сети, с которой вы контактируете, и вы не можете предсказать, какое распределение существует. Поэтому мы надеемся достичь сквозной видеосвязи с помощью новейших моделей и стратегий онлайн-обучения.

передача данных искусственному интеллекту

Большая часть видеосвязи в настоящее время существует в форме передачи данных, например, коммутатор не знает, являются ли данные видео, изображением или чем-то еще. Таким образом, есть надежда, что сама комбинация контента видео и изображений действительно перейдет от уровня данных к искусственному интеллекту с точки зрения понимания пользователем или с точки зрения семантики. Потому что в восприятии пользователя, даже если видео теряет один кадр и теряются пиксели, мы можем вернуть это через компенсацию. Когда сеть находится в худшем состоянии, можем ли мы активно терять пакеты, когда сеть не может их прочитать, можно решить с помощью некоторых терминальных устройств. Например, некоторые популярные мобильные телефоны содержат чипы, которые обладают высокой вычислительной мощностью и могут компенсироваться терминалом при потере сетевых пакетов. Мы проводим некоторые тесты на ранней стадии: когда линейная модель расширяется до управляемой данными, производительность восприятия пользователей и восприятия видеосвязи может быть улучшена более чем на 10%. В то же время мы превращаем офлайн-модель в онлайн-модель, что может снова повысить ее производительность. Конечно, если пакеты активно теряются с точки зрения восприятия пользователя, это можно улучшить. Трудность заключается в том, как лучше развернуть их на терминалах, сетевых узлах и серверах.

Умное кодирование видео

Это необходимо для сжатия видео и кодирования больших объемов данных. Итак, как добиться наилучшего сжатия и кодирования, люди интересовались более 30 лет. Конечно, с годами можно увидеть некоторый прогресс в сжатии видео. От MPEG-1 до VVC, AVS3 улучшение почти в 16 раз.

Вначале, основываясь на существующей теории, мы хотели создать новую систему видеокодеков через систему человеческого понимания. И некоторые связанные с этим теоретические статьи были выдвинуты в то время. Наконец, рассмотрите возможность выполнения этой части работы с точки зрения биологического зрения и зрения мозга.

С точки зрения процесса, поскольку текущий процесс достигает все большего и большего порядка, 5 нанометров, 3 нанометра, а также энергопотребление оборудования, вычислительная мощность и т. д. стали самыми важными соображениями. Затем с 2015 года Google начал разработку собственного графического процессора. В дальнейшем Apple, Huawei и другие мобильные телефоны также имеют карты для таких устройств ускорения. Это можно сделать в промышленных масштабах, но жертва, которую это приносит, относительно велика.

Поэтому сейчас изучается то, что содержание видеоизображений просматривается только людьми или используется машинами. Но всем им необходимо понимать содержание видеоизображений, чтобы принимать более взвешенные решения. Поэтому при просмотре видеоконтента иногда возникает психологическая наводка. Например: смотреть саспенс, комедию, ужасы и другие фильмы, есть счастливые, счастливые и грустные. С точки зрения человека, есть сетчатка, нерв посередине и мозг, соответствующий первичный зрительный слой. Это также частичное извлечение, анализ, восприятие и понимание информации. Соответственно, в случае того, что мы называем машинным интеллектом, с точки зрения мониторинга, на переднем конце есть камера, которая подключена к сети, и отправляется в крупный вычислительный центр, как городской мозг, через сеть, чтобы сделать некоторые решения. Такой систематический процесс похож на извлечение и передачу информации в нашем человеческом мозгу, а затем на последующее психологическое принятие решений, которое очень интуитивно. Поэтому мы можем просветить нас, можем ли мы сделать это таким образом из такой системы понимания человеческих существ. В то же время мы также приняли некоторые другие материалы, такие как: некоторые международные филиалы также проводят исследования в этой области. Мы хотим, чтобы новые знания помогли нам разобраться и вдохновить. В этом случае мы предлагаем использовать биологическое зрение или мозговое зрение, чтобы вдохновить на это.

Возвращаясь к основному информационному потоку, видеоизображение воспринимается от человеческого глаза к изображению сетчатки, по этому пути в первичную кору сетчатки, а также в другие коры, V2, V4, MT и т. д. Это полный поток визуальной информации, и научное сообщество также анализирует эту серию процессов передачи информации через анатомию. Итак, мы хотим сделать некоторые из вещей, которые мы хотим сделать, с помощью мозгового зрения, нейронауки. Во многих статьях, опубликованных в истории, в 1960-х годах американские ученые предположили, что зрительный перцептрон человека обрабатывает около 100 МБ/с при восприятии мира, а затем проходит через клетки сетчатки после разделения в латеральный слой, примерно в 100 раз сжимая : 1 МБ/с, затем ряд клеток, а затем до первичной зрительной коры V1, всего 40 бит/с. Потому что область, на которую обращает внимание человеческий глаз, будет иметь очень высокое разрешение, а разрешение, которое не касается, будет ниже. Если увеличить в 10 раз, лучший видеостандарт VVC сейчас примерно в 1000 раз в условиях вещания. В то же время человеческий глаз является нелокальной операцией для изображений и видео, потому что саккады и вращения человеческого глаза особенно чувствительны к определенным областям, цветам и формам. Это механизм внимания. Врач в Германии начал это делать 20 лет назад. Представленная V1 очень похожа на этот механизм внимания, поэтому мы добавили этот модуль: нелокальное внимание. Некоторые из последних модулей, после V1, передаются в более глубокую семантику, которую мы проектируем как гипер, в основном для помощи в реконструкции и извлечении информации. Наконец, выполняется простая сквозная симметрия, и посредством симметрии извлекается информационная игла. Очень интересно, что такие информационные иглы могут быть хорошо выражены, будь то пиксели изображения, или движение нескольких изображений, или есть ли разница в движении. Итак, мы называем это: Гипотетическая система с прямой связью и такой моделью обратной связи, называемой HFF. Затем этот HFF является полным выражением для пикселей Эта модель применяется к сжатию видео и изображений, и результаты весьма удовлетворительны. Недавнее сжатие изображений превзошло эффекты VVC.

Для дизайна также есть определенные проблемы, такие как сложность видео. После этого был предложен новый метод.Метод, основанный на мозговом зрении, сочетается с традиционным сжатием видео.Основных причин две.С точки зрения производительности сжатие изображений превысило международные стандарты, но сжатие видео все же немного ниже. Во-вторых, уже есть некоторые существующие устройства, поэтому наиболее эффективный метод заключается в том, чтобы передать некоторые простые сети на существующие устройства, чтобы можно было практически использовать обработку вдохновения новой мозговой информации, поэтому предлагается новая схема: Производительность/сложность. Основная концепция этого заключается в том, что человеческий мозг не похож на декодер, это всего лишь частичный анализ и, наконец, больше процесс слияния. В то же время чувствительность клеток человека к разным признакам изображения не одинакова.

сетевая адаптивная передача

Во-первых, управление скоростью через BBR относительно ограничено. Поэтому возникает мысль: можем ли мы использовать трассировку и сетевые изменения сети как способ обучения с подкреплением, чтобы ввести адаптацию видеосети на основе обучения с подкреплением. Изучая передовой международный опыт, применяя его к системе реального времени, был создан автономный алгоритм обучения ARS. Конечно, по сравнению с текущими усовершенствованными алгоритмами BBR и GCC производительность QoE улучшена примерно на 12%. Однако этот процесс не является идеальной эволюцией, и в нем есть определенные недостатки. Например, в процессе офлайн-обучения есть ограниченные образцы, которые не соответствуют реальной среде. После сбора множества сетевых модулей, таких как: 4G, отличаются ли сетевые характеристики 5G. Следовательно, требуется онлайн-обучение, и онлайн-обучение необходимо обрабатывать для классификации сетевых условий и классификации видео. В основном это включает кластеризацию и классификацию сетевых условий и видеоконтента. Таким образом, в конечном итоге достигается лучшая производительность. В то же время для информации каждого пользователя будет уточнена новая модель. Когда такое состояние слишком отличается от среднего состояния, будет использоваться новая модель. В то же время будет автоматически развертываться обучение для формирования модели скользящего система схемы. Согласно последним изменениям, по сравнению с моделью офлайн-обучения, производительность онлайн-обучения значительно повышается на 8,1% нормализованного QoE. При переходе от автономной OffLine ARS к OnLine ARS улучшение производительности контента по-прежнему отличается, но у большинства из них улучшение выше. От обучения в автономном режиме, местная среда и учебные ресурсы ограничены, до обучения в режиме онлайн, получение в режиме реального времени источников информации о пользователях и факторов окружающей среды может предоставить больше и лучшие гарантии для обучения новой модели.Полученная модель может быть лучше совместима с изменениями в окружающей среде. факторов в реальной ситуации.В то же время его можно использовать в качестве некоторых дополнений и улучшений для создания новых моделей в новой среде, что способствует обучению сетевых моделей в реальном времени.

Суммировать

В слабом сетевом окружении есть две основные проблемы: с одной стороны, крайне низкая пропускная способность, что не является большой проблемой, пока сеть стабильна. Затем возникает вторая проблема, сетевой джиттер. На самом деле, слабая сеть используется не только для оказания экстренной помощи при стихийных бедствиях, океанских морских делах и т. д., особенно после введения 5G, частота стала выше, и требуется линейная передача.При возникновении многих препятствий сеть будет сильно измениться. Это также называется слабой сетью. Конечно, иногда под Wi-Fi будут слабые сети. Перед лицом низкой пропускной способности, в основном, объема информации, улучшить сжатие. Перед лицом большого сетевого джиттера состояние сети изучается посредством управления сетью и машинного обучения. В настоящее время наши исследования все еще опережают международный уровень, особенно для кодирования со сжатием. Среди существующих модельных алгоритмов наша производительность имеет большое преимущество.

Замечательная рекомендация