Содержание | Цифровое видео

Цифровое видео

Запись и редактирование звуков давно применялось в РС, но только недавно движущееся видео стало проникать в мир РС. В прошлом цифровое видео было ограничено небольшой группой пользователей-специалистов, например разработчиками мультимедийных приложений и профессиональных видеоредакторов, которые были готовы платить большие деньги за дорогие и сложные видеосистемы. Только начиная с 1997 г. после нескольких лет интенсивных технологических исследований и разработок цифровое видео стало обычным делом в мире РС.

По мере расширения потенциального рынка цены начали снижаться, а это открывало цифровое видеоредактирование совершенно новой аудитории. Бизнесмены стали использовать видео в своих презентациях, а домашние пользователи смогли сохранять и редактировать свои отпускные видеофильмы на жестких дисках и даже пересылать их через Internet. Широкое распространение пишущих видеокамер (camcorder - от camera и recorder) означало доступ к аппаратуре видеозаписи все большего числа людей, что еще более расширяло рынок потребительских систем.

История цифрового видео

В начале 90-х годов прошлого века цифровая видеосистема, способная захватывать полноэкранные видеоизображения, стоила несколько тысяч долларов. Наиболее дорогим компонентом были схемы сжатия, необходимые для уменьшения файлов огромных размеров, получаемых при преобразовании аналоговых видеосигналов в цифровые данные, до управляемых размеров. Имелись и менее мощные карты захвата видео (video capture), способные сжимать четверть-экранные изображения (320х240 пикселов), но даже они были слишком дорогими для среднего пользователя РС. Потребительский рынок был ограничен базовыми картами, которые могли захватывать видео, но не имели своих аппаратных средств сжатия. Такие дешевые платы для обработки сырых файлов видеоданных опирались на центральный процессор РС и единственный способ поддержания управляемых размеров файлов состоял в сильном уменьшении размеров изображений.

До появления в 1993 г. процессора Pentium даже наиболее мощные РС были ограничены захватом изображений с размерами не более 160х120 пикселов. Для графической карты с разрешающей способностью 640х480 такое изображение занимало только 1/16 экрана. В результате эти дешевые карты захвата видео считались просто игрушками, не рассчитанными на серьезную работу.

Поворотной точкой для цифровых видеосистем стало достижение и превышение процессорами рабочей частоты 200 МГц. При такой скорости РС смогли обрабатывать изображения до 320х240 пикселов, не требуя дорогих схем сжатия. Выпуск процессора Pentium II с еще большей вычислительной мощностью сделал карты захвата видео менее полного экрана почти ненужными и осенью 1998 г. на рынке появилось несколько потребительских устройств, которые обеспечивали захват полноэкранного изображения и стоили несколько сот долларов.

Основные положения

Понимание того, что такое цифровое видео (digital video), требует понимания его предшественника - широковещательного телевидения, или аналогового видео. Изобретение радио показало, что звуковые волны можно преобразовать в электромагнитные волны и передать на значительное расстояние в радиоприемники. Аналогично телевизионная камера преобразует информацию о цвете и яркости отдельных оптических изображений в электрические сигналы, которые передаются по воздуху или записываются на видеоленту. Аналогично кинофильмам телевизионные сигналы преобразуются в кадры (frames) информации и показываются со скоростью, достаточной для того, чтобы глаз человека воспринимал непрерывное движение. Если рассмотреть телесигнал на осциллографе, аналоговый сигнал выглядит как непрерывный поток изогнутых холмов и впадин, соответствующих информации о яркости и цвете.

Имеются три системы кодирования телевизионного сигнала (TV-сигнала):

В большинстве европейских стран применяется система PAL.
Во Франции, России и некоторых восточноевропейских странах применяется система SECAM, отличающаяся от системы PAL только некоторыми деталями, которых, однако, вполне достаточно, чтобы сделать эти две системы несовместимыми.
В США и Японии используется система NTSC.

В системе PAL (Phase-Alternation-Line) каждый полный кадр формируется строка за строкой сверху вниз. В Европе применяется переменный ток с частотой 50 Гц и система PAL синхронизируется с ним для выполнения 50 проходов (полей - fields) каждую секунду. Для формирования полного кадра выполняются два прохода, поэтому частота изображений составляет 25 кадр/с (Frames Per Second - FPS). На первом проходе формируются нечетные строки, а на втором - четные. Такой прием называется чересстрочной разверткой (interlaced), а изображение на экране РС формируется за один проход, что называется прогрессивной разверткой (Non-Interlaced - NI). Чересстрочные сигналы с частотой 50 Гц подвержены нестабильности и мерцанию, поэтому не подходят для отображения текста или тонких горизонтальных линий.

PC работают с цифровой информацией, представленной двоичными нулями и единицами. Для цифрового хранения визуальной информации холмы и впадины видеосигнала необходимо преобразовать в цифровой эквивалент с помощью аналого-цифрового преобразователя (Analog-to-Digital Converter - ADC). Процесс преобразования называется дискретизацией (sampling), или захватом видео (video capture). Поскольку РС могут работать с цифровой графической информацией, для отображения видео на мониторе РС никакой другой специальной обработки не требуется. Однако для просмотра видео на традиционном телевизоре потребуется цифро-аналоговый преобразователь (Digital-to-Analog Converter - DAC) для превращения двоичной информации в аналоговый сигнал.

Захват видео

Оцифровка (digitisation) аналогового TV-сигнала выполняет карта захвата видео (video capture card), которая преобразует каждый кадр в последовательность растровых (bitmapped) изображений для обработки и отображения компьютером. Она берет одну горизонтальную строку и, для системы PAL, разбивает ее на 768 сегментов. Для каждого из этих сегментов вычисляются значения красного, зеленого и синего цветов, что дает 768 цветных пикселов на строке. Ширина в 768 пикселов выбрана с учетом коэффициента формы 4:3 TV-экрана. Из 625 строк в PAL-сигнале примерно 50 используются для телетекста (Teletext) и не содержат информации об изображении, поэтому они не оцифровываются. Для получения отношения 4:3 575 строк умножаются на четыре и делятся на три, что дает 766.7. Поскольку компьютеры предпочитают работать с целыми числами, карты видеозахвата обычно оцифровывают 576 строк, разделяя каждую на 768 сегментов, что дает точное отношение 4:3.

Таким образом, после оцифровки полный кадр состоит из 768x576 пикселов. Каждый пиксел требует три байта для сохранения красного, зеленого и синего компонентов его цвета (для 24-битового цвета). Следовательно, каждый кадр требует 768 x 576 x 3 байта = 1.3 МБ. Поскольку система PAL выполняет два прохода для формирования полного кадра (на каждом проходе формируются четные и нечетные строки) одна секунда видео требует 65 МБ (1.3 x 25 FPS x 2 прохода). Добавление 16-битовой звуковой дорожки с частотой дискретизации 44.1 кГц увеличивает этот размер примерно на 600 КБ. Однако на практике некоторые карты оцифровывают менее 576 строк и захватывают меньше информации, но в большинстве карт применяется модель YUV.

Ученые обнаружили, что глаз человека более восприимчив к яркости, чем к цвету. Модель YUV представляет собой метод кодирования изображений, который применяется в широковещательном телевидении. В этом методе интенсивность (яркость) обрабатывается независимо от цвета. Значение Y для интенсивности измеряется с полной разрешающей способностью, а U и V являются разностными сигналами цвета и измеряются с половиной разрешающей способности (обозначается как YUV 4:2:2) или с четвертью разрешающей способности (обозначается YUV 4:1:1). Оцифровка сигнала YUV требует 16 битов (два байта), а сигнал RGB - 24 бита (три байта) для получения истинного цвета (true color). В результате одна секунда видео PAL требует примерно 22 МБ.

Система NTSC работает с 525 строками и 30 кадрами в секунду (частота электросети в США и Японии составляет 60 Гц). Кадры NTSC обычно оцифровываются с разрешающей способностью 640x480 пикселов, что соответствует разрешающей способности VGA. Это не совпадение, а результат того, что РС был разработки в США.

Типичная карта захвата видео представляет собой систему аппаратных и программных средств, которая предоставляет пользователю возможность преобразовать видео в машинно-читаемый формат путем оцифровки видео последовательностей в несжатые, а обычно сжатые, файлы данных. Сжатие видео при захвате и распаковку его для воспроизведения выполняет кодек (codec - от coder и decoder), который можно реализовать аппаратно или программно. Даже при наличии процессоров со скоростью 1 ГГц и выше для достижения качества вещательного видео требуется аппаратный кодек.

В большинстве устройств захвата видео применяется аппаратный кодек Motion-JPEG, который выполняет сжатие JPEG в каждом кадре для получения файлов меньших размеров, сохраняя возможности редактирования. Огромный успех видеокамер на основе цифрового видео в конце 90-х годов прошлого века привел к тому, что некоторых высококачественных картах стал применяться кодек цифрового видео (DV).

После сжатия видео последовательности можно отредактировать на РС, применяя подходящую программу видеоредактирования, и вывести в формате и с качеством S-VHS в видеомагнитофон, пишущую камеру, на телевизор или монитор РС. Чем выше качество входного видео и чем выше скорость передачи данных РС, тем лучше качество выходных видеоизображений.

Формат VHS (Video Home System - домашняя видеосистема) разработан компанией JVC в 1976 г. и сейчас является стандартом для бытовых и промышленных видемагнитофонов с кассетами полудюймовой ленты (12.7 мм). Видеомагнитофоны являются аналоговыми устройствами, но с помощью адаптеров их можно использовать для резервирования компьютерных данных. В усовершенствованном формате Super VHS (S-VHS) несколько повышена разрешающая способность.

В некоторых картах захвата видео ради снижения стоимости отсутствуют схемы записи. Вместо этого они обеспечивают прохождение через разъемы, которое позволяет направить звуковой вход в звуковую карту РС. Это не является проблемой для простого редактирования, но без специальных аппаратных средств при сложном редактировании могут возникнуть проблемы синхронизации аудио и видео дорожек.

Карты захвата видео имеют несколько входных и выходных разъемов. Имеется два основных видеоформата: композитное видео (composite video) является стандартом для бытовых видеоприборов, но в высококачественном оборудовании часто применяется формат S-Video. Большинство карт захвата видео имеют минимум один входной сокет, который может воспринимать любой тип видеосигнала, обеспечивая подключение к любому источнику видео, например видеомагнитофону, цифровой видеокамере, TV-тюнеру и лазерному диску, которые формируют сигнал в любом их приведенных форматов. Имеются и дополнительные сокеты, так как сложное видеоредактирование часто требует нескольких входов. Некоторые карты допускают введение необязательного TV-тюнера и все больше карт захвата видео содержат интегрированный TV-тюнер.

Предусматриваются выходные сокеты видео, чтобы записать видео последовательности на ленту, а некоторые карты позволяют воспроизвести видео на мониторе РС или телевизоре. Менее сложные карты для обеспечения этой функциональности требуют отдельный графический адаптер или карту TV-тюнера.

Видеоредактирование

В общем, имеются два метода видеоредактирования. Первый подразумевает редактирование непосредственно с одной ленты на другую и называется линейным редактированием (linear editing). Второй требует, чтобы редактируемые последовательности были переданы на жесткий диск, отредактированы и возвращены на ленту; этот метод называется нелинейным редактированием (non-linear editing).

В любом методе редактирования можно использовать РС. В линейном редактировании он просто управляет магнитофонами или пишущими камерами, участвующими в процессах считывания и записи. В нелинейном редактировании карта захвата видео передает видео на жесткий диск РС и собственно редактирование выполняется полностью в РС. Сейчас наблюдается повсеместный переход к нелинейному редактированию, так как появляются все более емкие, быстрые и дешевые диски, а программы видеоредактирования постоянно усложняются.

Несмотря на то, что видео MPEG-2 широко применяется в распространении видео, при производстве возникают проблемы, особенно когда видео необходимо редактировать. Если "врезаться" в поток данных, кадры B и P отделяются от кадров, на которые они ссылаются, и их соответствие теряется. В результате видео MPEG-2 перед обработкой распаковывается. Даже когда формируется видеопоток MPEG-2 с другой скоростью данных от производства к распространению, материал необходимо полностью распаковать. Конкатенация выполняется очень сложно, поэтому производители DVD откладывают кодирование на последний момент.

Требования к системе

Цифровое видео опирается, в основном, на скорость и емкость жесткого диска и особенно важной характеристикой является поддержание постоянной пропускной способности в реальном времени. Большинство накопителей обеспечивают скорость примерно 3 МБ/с. Однако AVI-файлы могут быть огромными и потребовать поддержания такой скорости передачи данных в течение до 10 минут. Если скорость снижается, видеопоток "затыкается", так как программа воспроизведения пропускает кадры для поддержания скорости воспроизведения. Для приложений с захватом аудио и видео подходят накопители со спецификацией AV, так как они в процессе передачи данных не производят тепловой (thermal recalibration). В общем, накопители SCSI предпочтительней накопителей EIDE, так как последние могут влиять на действия процессора. Если во время воспроизведения Windows решает выполнить некоторую служебную задачу или очистить некоторые кэши данных, скорость передачи данных может значительно упасть. Накопители и контроллеры SCSI менее подвержены такому недостатку.

Еще одним неприятным побочным эффектом изменения скорости передачи является дрейф звука, который сопровождал системы видеоредактирования с момента их появления. Из-за небольших изменений скорости данных и необходимости продолжительное время поддерживать синхронизацию видеокарты и звуковой карты звуковая дорожка в AVI-файлах часто дрейфовала. В высококачественных картах захвата видео эта проблема решалась введением собственных аппаратных средств записи звука и использованием своих программ воспроизведения, а не стандартных компонентов, например Video for Windows. Более того, новый API ActiveMovie компании Microsoft призван устранить проблемы дрейфа звука.

Приложения

Скорость оцифровки видео варьируется для различных приложений. Оцифровка кадров с разрешающей способностью 768 x 576 (для PAL) дает видео вещательного качества (которое часто называется full-PAL). Именно это требуется для профессионального редактирования с целью записать видео, отредактировать его, а затем воспроизвести с записью на ленту. Это требует от жесткого диска воспроизведения видео в реальном времени, делая продолжительную скорость передачи данных жесткого диска критической характеристикой в системе обработки.

Однако для захвата видео мультимедийных фильмов и воспроизведения с CD-ROM с аппаратной распаковкой или без нее не требуется оцифровка с разрешающей способностью full PAL. Обычно оцифровывается только половина строк (четные или нечетные 288 строк), а для получения коэффициента формы 4:3 каждая строка разбивается на 384 фрагмента. При этом получается кадр из 384x288 пикселов (320x240 для системы NTSC), а для этого требуется скорость 8.3 МБ/с. Аналогичная разрешающая способность (352x288) требуется для захвата видео, которое будет распространяться в формате MPEG-1 для Video CD.

Конечно, значительная доля видеорынка приходится на видеоконференции, включая передачу видео через Internet. Здесь главным ограничиващим фактором является скорость соединения, которым может быть обычная телефонная линия и модем, сеть ISDN, кабельный модем или что-то другое. Например, модем со скоростью 14.4 Кб/с примерно в 100 раз медленнее односкоростного CD-ROM, поэтому в этом случае требуются высокие коэффициенты сжатия. Для видеоконференций в реальном времени необходимо аппаратное сжатие с очень высокой скоростью.

Факторы качества

На качество кодирования цифрового видео влияют несколько несколько факторов:

Формат источника - Для домашнего применения допустима лента VHS, но ленты с форматами S-VHS и Hi-8 обеспечивают заметно лучшие результаты. Только для профессиональных применений оправдана значительная стоимость таких высококачественных источников, как BetaCam и цифровая лента. Однако появление формата цифрового видео (Digital Video- DV) означает, что качество не является теперь привилегией только профессионалов. В этом формате применяется четверть-дюймовая металлизированная лента (6.35 мм), которая обеспечивает запись со скоростью 25 Мб/с (18.8 мм/с) на стандартной трехчасовой кассете или одночасовой кассете MiniDV.
Содержание источника - Формат MPEG-1 и программные кодеки не справляются с быстро изменяющимися последовательностями, вызывая цифровые искажения и смазывание цветов. Такие последовательности имеют высокую сложность и резко изменяются от одной сцены к другой, формируя огромный объем подлежащей сжатию видеоинформации. Форматы MPEG-1 и DV превратились в надежные стандарты, которые хорошо справляются с таким сложным содержанием.
Качество системы кодирования - Несмотря на то, что видеоформаты подчиняются стандартам, системы кодирования широко варьируются по качеству, сложности и гибкости. Простая система обеспечивает общую обработку цифрового видео, почти не предоставляя управления параметрами, а высококачественная система обеспечивает возможность интеллектуального кодирования.

Сжатие видео

Сжатие видео (video compression) представляет собой искусство удаления максимально возможного объема данных без заметного ухудшения качества. Более распространены методы сжатия с потерями (lossy), т.е. результат распаковки не идентичен оригинальному источнику. С помощью снижения разрешающей способности, уменьшения глубины цвета и частоты кадров вначале в РС появилось видео размером с почтовую марку, но затем были разработаны способы более эффективного представления изображений и уменьшения объема данных без воздействия на физические размеры. Сжатие видео реализуется так называемыми кодеками (codec - от COmpression/DECompression). Были разработаны разнообразные типы кодеков, которые реализовывались аппаратно, программно или аппаратно-программно, которые обеспечивали эффективные сжатие и распаковку видео.

Способы сжатия с потерями уменьшают размер данных (с помощью сложных математических преобразований и селективное удаление такой визуальной информации, которую наши глаза и мозг обычно игнорируют) и могут привести к снижению качества изображения. С другой стороны, сжатие без потерь (loseless) удаляет только избыточную информацию. Кодеки можно реализовать аппаратно, программно или аппаратно-программно. Коэффициент сжатия кодеков варьируется от 2:1 до 100:1, позволяя оперировать огромными объемами видеоданных. Чем больше коэффициент сжатия, тем хуже результирующее изображение. На нем появляются размытые цвета, искажения и помехи, контуры объектов становятся более отчетливыми и, конце концов, результат может оказаться бесполезным.

К концу 90-х годов прошлого века наиболее широко используемые способы опирались на трехэтапный алгоритм дискретного косинусного преобразования (Discrete Cosine Transform - DCT). Алгоритм DCT использует тот факт, что соседние пикселы в изображении (физически близкие - в пространстве или близкие в последовательных изображениях - во времени) могут иметь одно и то же значение. Математическое преобразование (похожее на преобразование Фурье) выполняется на сетках 8х8 пикселов; этим объясняются блоковые искажения (артефакты - artefacts) при высоких уровнях сжатия. Было показано, что в визуальных системах низкочастотные компоненты важнее высокочастотных. Процесс квантования соответственно взвешивает их и удаляет те, которые содержат минимум визуальной информации в зависимости от требуемого уровня сжатия. Например, удаление 50% преобразованных данных может привести к потере только 5% визуальной информации. После этого энтропийное кодирование (способ сжатия без потерь) выбрасывает действительно ненужные биты.

Первоначально сжатие производилось программно. Недостаточная мощность процессора ограничивала выполнение алгоритмом его задачи за 1/25 секунды, т.е. время, необходимое для формирования кадра полнодвижущегося ("живого") видео. Тем не менее, компания Avid Technology и другие пионеры нелинейного редактирования (Non-Linear Editing - NLE) в конце 80-х годов прошлого века выпустили системы редактирования на базе РС с использованием программного сжатия. Несмотря на то, что видео соответствовало четверти разрешающей способности вещательного телевидения, имело размытые цвета и блоковые искажения, система NLE означала революцию в производственном процессе. Сначала такие системы применялись для офлайнового редактирования, когда материал отшлифовывался программно. Для получения одночасового документального фильма требовалось обработать 30-часовой видеоматериал и это лучше делать на дешевой системе, чем на дорогом онлайновом оборудовании.

Несмотря на то, что качество видео первых NLE-систем на базе РС уступало качеству офлайнового редактирования с помощью видеомагнитофонов VHS, у NLE-систем были определенные достоинства. Наподобие текстового процессора для видео они предоставляли более быстрый и более творческий стиль работы. Пользователь мог быстро вырезать и вклеить фрагменты видео, улучшить их и выполнить различные редактирующие действия, типичные для производственного процесса. Кроме того, импорт точного списка редактирования (Edit Decision List - EDE), который образовала NLE-система, на гибкий диск онлайнового компьютера было намного удобнее ввода с клавиатуры списка временных кодов. NLE-система не только обеспечивала более удобное редактирование, но и предоставляла офлайновый продукт близкий к окончательной версии, что сокращало время редактирования на онлайновм оборудовании.

Однако NLE-системы практически исчезли в 1991 г., когда аппаратное сжатие обеспечило видео качества VHS. Первое аппаратное сжатие видео называлось M-JPEG (motion JPEG). Оно было получено на основе стандарта DCT, разработанного для неподвижных изображений и называемого JPEG. Этот стандарт никогда не предназначался для сжатия видео, но когда компания C-Cube в начале 90-х годов прошлого века выпустила микросхему кодека, способную сжимать по стандарту JPEG до 30 неподвижных изображений в секунду, пионеры NLE-систем не могли долго сопротивляться. При сжатии данных в 50 раз персональные компьютеры смогли обрабатывать цифровое видео с качеством VHS.

Тем временем РС становились все быстрее, а память дешевела, что позволило использовать меньшие коэффициенты сжатия с возможностью редактирования видео лучшего качества. Во многих приложениях нелинейного редактирования, появившихся в середине 90-х годов прошлого века, применялось сжатие видео с коэффициентом 10:1. Такие системы считались подходящими для онлайнового редактирования, т.е. законченные видео-программы можно было воспроизводить с разъема на задней стороне системы. Считалось, что качество видео таких систем приближалось к качеству вещательного телевидения.

Появление этой технологии породило несколько спорных противоречий. Большинство изображений хорошо сжимались с коэффициентом сжатия 10:1, но качество некоторых изображений, особенно с множеством мелких деталей и участками высокого контраста, ухудшалось. Большинство зрителей не замечало этого, но инженеры-видеотехники быстро научились устранять искажения звона и "блоковости" (blocky), вводимые сжатием DCT. Кроме того, для изменения содержания видео-изображений, добавления некоторого эффекта или графики весь материал приходилось распаковывать, а затем вновь сжимать. Этот процесс, будучи цифровым, близок к аналоговому миру. В процессе конкатенации на каждом цикле добавлялись искажения, например помехи. Правильно спроектированная система реализуют каждый эффект за один проход, но если в производственном процессе и вещании применяется несколько систем со сжатием, конкатенация становится проблемой.

Стоимость аппаратуры M-JPEG за прошедшие несколько лет значительно снизилась и сейчас можно за приемлемую цену приобрести карты шины PCI, обеспечивающие коэффициент сжатия 3:1, совместно с программным обеспечением нелинейного редактирования. Однако все же формат M-JPEG не рассчитан на движущиеся изображения. Когда речь идет о цифровом распространении, где очень важна полоса пропускания, значительные преимущества обеспечивает семейство стандартов MPEG, специально ориентированных на видео.

Стандарты MPEG

Группа экспертов по видео (Moving Picture Experts Group - MPEG) определила набор стандартов для сжатия видео и звуковых сигналов на основе DCT, которые стали мировым языком для высококачественного видео. В них для сжатия отдельных кадров применяется алгоритм JPEG, а затем удаляются данные, которые в соседних кадрах остаются одними и теми же. Форматы MPEG являются асимметричными, т.е. сжатие сжатие кадра видео длится дольше распаковки, и требуют значительной вычислительной мощности для уменьшения размера файла. Однако результаты оказываются просто поразительными:

MPEG-1 (или стандарт Белой Книги - White Book) был разработан для получения видео качества VHS при фиксированной скорости данных 1.5 Мб/с, поэтому его можно воспроизводить с обычных CD. Опубликованный в 1993 г., стандарт поддерживает кодирование видео со скоростью до 1.5 Мб/с и стереозвук с качеством 192 Кб/с. Разрешающая способность при 30 кадрах в секунду составляет 352х240 с качеством, которое примерно эквивалентно видеоленте VHS. Обычно разрешающая способность 352х240 масштабируется и интерполируется. Масштабирование (scaling) ведет к блоковости изображения, когда, например, один пиксел превращается в четыре соседних пиксела с одним и тем же значением цвета. Интерполирование (interpolation) "размывает" соседние пикселы, вставляя пикселы с "наиболее подходящими" значениями цвета. Большинство графических процессоров могут масштабировать изображение для полноэкранного воспроизведения, но удобным компромиссом оказывается программное полуэкранное воспроизведение. MPEG-1 позволяет хранить на одном диске CD-ROM более 70 минут высококачественного видео и звука. До появления РС с процессором Pentium формат MPEG-1 требовал аппаратной поддержки. Он оптимизирован на видеосигналы с прогрессивной разверткой (Non-Interlaced).
Вскоре Группа MPEG признала необходимость разработки второго стандарта для кодирования видео с повышенной скоростью и в чересстрочном формате. В результате появился стандарт MPEG-2, рассчитанный на кодирование обычного телевидения с скоростями от 1.5 Мб/с до 15 Мб/с. Кроме того, MPEG-2 допускает кодирование многоканального объемного звука и обратно совместим с MPEG-1. Интересно отметить, что для видеосигналов, закодированных со скоростью ниже примерно 3 Мб/с, формат MPEG-1 может оказаться эффективнее MPEG-2. Формат MPEG-2 обеспечивает разрешающую способность 704х480 при 30 кадрах в секунду и оптимизирован на высококачественные вещание и развлекательные приложения, например спутниковое вещание и DVD-Video. При скорости данных 10 Мб/с он способен доставлять видео почти вещательного качества с пятиканальным звуком. Разрешающая способность примерно вдвое выше, чем у видеоленты VHS, и стандарт поддерживает такие дополнительные возможности, как масштабируемость и "картинка в картинке".
Стандарт MPEG-3, предназначенный для телевидения высокой четкости (High Definition TeleVision - HDTV), был преобразован в MPEG-2.
В 1993 г. началась разработка стандарта MPEG-4 - узкополосного мультимедийного формата, который может содержать смесь носителей, допуская сосуществование записанных видео-изображений и звуков с компьютерными двойниками. Гораздо более важно, что MPEG-4 обеспечивает стандартизованные способы представления звукового, визуального и аудио-визуального содержания как дискретных медийных объектов (media objects). Они могут иметь натуральное или искусственное происхождение, т.е. их можно записать с камеры или микрофона или образовать с помощью компьютера. Возможно, наиболее важным достижением MPEG-4 является то, что он допускает взаимодействие зрителей и слушателей с объектами сцены.
Формат MPEG-7, формально называемый интерфейсом описания мультимедийного содержания, (Multimedia Content Description Interface - MCDI), ставит целью создание стандарта для описания данных мультимедийного содержания. Этот стандарт будет поддерживать некоторую степень интерпретации смысла информации, который можно передать и обработать устройством или компьютерным кодом.

Видео MPEG требует меньшую полосу пропускания по сравнению с M-JPEG, так как оно объединяет две формы сжатия. Видеофайлы M-JPEG фактически представляют собой серию сжатых неподвижных изображений. С помощью внутрикадрового, или пространственного, сжатия производится удаление избыточности в каждом кадре видео. MPEG также осуществляет пространственное сжатие, но использует также и межкадровое, или временное, сжатие, удаляя избыточность между видеокадрами. Если взять два соседних кадра видео, то можно заметить очень небольшие изменения за 1/25 секунды. Поэтому MPEG снижает скорость данных, записывая только изменения, а не полные кадры.

Видеопотоки MPEG состоят из последовательности наборов кадров, называемых группами картин (Group Of Pictures - GOP). Каждая группа, обычно длиной от восьми до 24 кадров, имеет только один кадр, представленный полным содержанием и сжатый только с помощью внутрикадрового сжатия. Фактически это кадр JPEG и он называется I-кадром. Рядом с ним находятся сжатые во времени кадры, представляющие только изменения данных. В процессе кодирования мощные и гибкие способы предсказания движения сравнивают соседние кадры и выделяют области движения, определяя векторы движения от одного кадра к следующему. Записывая только эти векторы, можно значительно уменьшить объем подлежащих записи данных. Предиктивные (predictive) Р-кадры опираются только на предыдущий кадр, а двунаправленные (bidirectional) B-кадры опираются на предыдущий и последующий кадры. Такая комбинация способов сжатия делает MPEG масштабируемым. Скорости данных снижаются не только благодаря пространственному сжатию каждого I-кадра, но и благодаря использованию более длинных групп GOP с большими числами B- и P-кадров.

Формат M-JPEG

Формат JPEG представляет собой хорошо известный стандарт для сжатия неподвижных изображений. В отличие от MPEG, формат JPEG сжимает и сохраняет каждый кадр, а не только различия между одним кадром и следующим. В результате объем данных по сравнению с MPEG увеличивается, но JPEG оказывается более эффективным при быстрых изменениях сцен и этот формат проще редактировать. Он обеспечивает различные коэффициенты сжатия, обычно от 2:1 до 12:1. При коэффициенте сжатия 5:1 или ниже он обеспечивает вещательное качество. При повышении коэффициента сжатия до 12:1 формат остается пригодным для полупрофессиональных или потребительских целей.

Кодек M-JPEG работает лучше всего при реализации его как микрокода в микросхеме карты захвата видео. При такой аппаратной реализации основной процессор РС освобождается для других задач, например поддержания требуемой скорости данных жесткого диска. Алгоритм можно также реализовать в программном кодеке, что обеспечивает "бесшовное" редактирование в таких приложениях, как Adobe Premiere.

Несмотря на роль MPEG как "рабочей лошадки" в мире цифрового видео, его будущее оказывается неопределенным. На профессиональном рынке все большее распространение получает формат цифрового видео (Digital Video - DV). Этот формат полностью цифровой, он обеспечивает лучшее качество изображений по сравнению с аналого-цифровым преобразованием и его поддерживают такие крупные компании, как Sony и Panasonic. Этот формат должен привнести в настольные РС высококачественное видеоредактирование в реальном времени.

Кодек Cinepak

Cinepak - это еще один асимметричный видеокомпрессор, разработанный компаниями Apple и SuperMac. Этот формат выводит видео хорошего качества с разрешающей способностью 320x240 (четверть экрана) с частотой 15 кадров в секунду с такой скоростью данных, которую может обеспечить даже односкоростной накопитель CD-ROM. В высокопроизводительном РС скорость воспроизведения может достигать 30 кадр/с, но фильмы Cinepak обычно записываются с намеренно низкой частотой кадров, чтобы использовать множество установленных медленных плейеров CD-ROM. Масштабирование размера окна требует дополнительной вычислительной мощности, а изображения становятся блоковыми. Этот кросс-платформенный, программный масштабируемый кодек лицензирован для нескольких видеоплейеров, включая Microsoft Video for Windows и Apple QuickTime. Обладая лучшими определениями цвета по сравнению с другими кодеками, Cinepak лучше всего использовать для сжатия "естественного" видео, т.е. видео без множества графики и анимации.

Кодек Indeo

Вскоре после появления Apple QuickTime фирма Intel отреагировала своим кодеком Indeo Video Interactive (IVI или Indeo 4.0). Этот формат обеспечивает масштабируемое программное воспроизведение видео. IVI может сжимать видео симметрично (в реальном времени с получением файлов большого размера) или асимметрично (в офлайновом режиме с получением файлов меньшего размера, с низкими скоростями данных и наилучшим качеством). Время сжатия можно значительно сократить с помощью нового офлайнового компрессора Quick Compressor, который примерно в 50 раз быстрее предыдущих версий. Первые кодеки Indeo 3.1 и 3.2 обычно обеспечивали разрешающую способность 320x240 при частоте кадров 15 кадр/с в компьютере с процессором 486, а масштабирование окна приводило к блоковым изображениям. Современная версия оптимизирована для процессоров Pentium Pro и Pentium II, что обеспечивает плавное воспроизведение с частотой 30 кадр/с. Indeo обеспечивает также хорошее качество на менее мощных РС с процессором Pentium, используя специальные способы для постепенного масштабирования.

В отличие от кодека QuickTime, который намеренно пропускает кадры для адаптации под медленные компьютеры, Indeo динамически изменяет качество изображения в соответствии с мощностью процессора, доступной при воспроизведении. Частота кадров остается постоянной и пропущенных кадров нет, но при этом приходится жертвовать детальностью изображений. Дополнительная возможность 'Alternate Line Zoom-by-Two' удваивает размер окна с помощью горизонтального удвоения пикселов, а затем формируя строку черных пикселов между каждой строкой. Такой способ сглаживания минимизирует блоковость, вызываемую масштабированием окна. Еще одной новинкой является прозрачность 'Transparency' - эффект композиции, в котором объект можно поместить в слое поверх видео. Этот эффект применяется в телевизионных прогнозах погоды - диктор стоит впереди синего экрана и его изображение можно электронным способом вырезать и поместить поверх фонового слоя, которым является карта погоды. Сложная реализация Indeo включает в себя композицию на движущийся фон, движение объектов (спрайтов) по экрануи другие возможности, что объясняет наличие слова 'nteractive' в названии кодека. Кодек Indeo поддерживает Microsoft Video for Windows и ActiveMovie.

Другие кодеки

До сих пор применяется несколько других популярных кодеков, которые поддерживает Microsoft Video for Windows:

Microsoft Video 1: Быстрое сжатие, но с малым коэффициентом сжатия. Применяется для полнодвижущегося видео среднего качества с разрешающей способностью до 240х18.
Microsoft RLE: Малые коэффициенты сжатия. Подходит для простых картинок, например анимации, чем записанного видео. Возникают проблемы при частых изменениях сцены.
Фрактальные преобразования: Преобразует естественные кривые фигуры в математические формулы, из которых можно реконструировать изображение. Качество может быть превосходным. Время сжатия очень велико, но распаковка выполняется быстро и можно получить большие коэффициенты сжатия.

Поддержку многих современных кодеков обеспечивают наиболее распространенные сейчас программные видеоплейеры:

QuickTime компании Apple Computer
Video for Windows компании Microsoft
ActiveMovie компании Microsoft

Видеоплейер QuickTime

Учитывая недостаток требования дорогого адаптера для воспроизведения, компания Apple разработала видеоформат, который можно воспроизводить без специальной дополнительной карты. Получившийся формат QuickTime представляет собой знаменательную веху в цифровом видео. Он обеспечивает мультимедийную архитектуру, которая синхронизирует все типы цифровых носителей, включая видео, звук, текст, графику и музыку. При воспроизведении фильма QuickTime плавно пропускает видеокадры, если это требуется для поддержания непрерывной синхронизации со звуком. Такая масштабируемость оказалась основным прорывом, который преобразовал компьютер Macintosh в ценную платформу воспроизведения видео. Первые фильмы QuickTime обычно вспроизводились в окнах размером с почтовую марку (160х120 пикселов), и дергающимися изображениями (12 кадр/с). Однако впоследствии формат обеспечил доставку полнокадрового (640х480) полнодвижущегося (30 кадр/с) видео, пригодного для профессиональных применений. Благодаря четко определенному уровню аппаратных абстракций (Hardware Abstraction Layer - HAL) QuickTime является кросс-платформенным стандартом и имеются его версии для РС с Windows и NT, а также для рабочих станций с операционной системой UNIX. Его открытая архитектура поддерживает множество форматов файлов и кодеков, включая Cinepak, Indeo, Motion JPEG и MPEG-1, а также допускает расширение для поддержки будущих кодеков, например DVCAM.

Видеоплейер Video for Windows

Общий формат Audio Video Interleaved (AVI) компании Microsoft предназначен для цифрового видео в Windows, который обеспечивается через интерфейс управления носителем (Media Control Interface - MCI). Формат AVI допускает несколько методов сжатия в реальном времени, не в реальном времени с аппаратной поддержкой и без нее. В отличие от QuickTime видеоплейер Video for Windows (VfW) не является кросс-платформенной технологией, а рассчитан на самую широко распространенную операционную систему Windows. Выпущенная в конце 1992 г. первая версия была способна воспроизводить видео с разрешающей способностью 320х240 пикселов и частотой 15 кадр/с. Небольшой размер окна и низкая частота кадров объяснялись ограничениями тогдашних РС с процессором 486 и памятью 4 МБ. Современные процессоры Pentium II и Pentium III обеспечивают полнодвижущееся (30 кадр/с) воспроизведение AVI-файлов при максимальной разрешающей способности экрана. Поддерживаются такие кодеки, как Cinepak, Indeo и Microsoft Video 1.

Видеоплейер ActiveMovie

ActiveMovie представляет собой интерфейс прикладного программирования (Application Programming Interface - API), который был объявлен в 1996 г. Он получил очень широкое распространение в компьютерной индустрии как кросс-платформенная технология цифрового видео для настольных РС и Internet. Эксперты считали его своеобразным лекарством от болезней Video for Windows и QuickTime. ActiveMovie снимает большинство ограничений Video for Windows, например небольшое число поддерживаемых форматов файлов, ограниченная пропускная способность ввода-вывода, несогласованные модели драйверов и несовместимость драйверов между Windows 95 и Windows NT. Эти проблемы в ActiveMovie решены, в основном, использованием в качестве основы объектной модели компонентов (Component Object Model - COM), наиболее известной реализацией которой является связывание и встраивание объектов (Object Linking and Embedding OLE). Различные объекты в модели управляют такими действиями, как распаковка данных, регулировка уровня громкости и др.

Создавая ActiveMovie на архитектуре COM, компания Microsoft предоставила разработчикам приложений API цифрового видео, имеющее несколько достоинств, например независимость от операционных систем и языков, что позволяет использовать один и тот же или аналогичный код на нескольких платформах. ActiveMovie также поддерживает наиболее популярные форматы, включая аудио MPEG, аудио .WAV, видео MPEG и видео QuickTime, что делает его особенно удобным для Internet создателей приложений для интранет. Более того, ActiveMovie интегрирован с технологией DirectX компании Microsoft. Это позволяет ему автоматически учесть возможности аппаратных средств ускорения видео и аудио, чтобы каждый компьютер работал в соответствии со своими способностями. Например, ActiveMovie улучшает качество воспроизведения фильмов AVI и QuickTime с привлечением DirectDraw, компонента DirectX, и возможностей, имеющихся во многих стандартных графических картах.

Одной из наиболее впечатляющих возможностей ActiveMovie является возможность декодировать видео MPEG, включая и MPEG-2, аппаратно или программно. Можно декодировать MPEG-1 полностью программно и обеспечить высококачественное воспроизведение в РС с процессором Pentium. Если РС имеет схемы для декодирования MPEG, то ActiveMovie может использовать DirectMPEG, еще один компонент DirectX, для доступа к этим схемам и бесшовного воспроизведения видео.

Недавно ActiveMovie был улучшен и теперь называется DirectShow. Самое большое улучшение состоит в поддержке дисков DVD, которые ActiveMovie не поддерживал.

Формат DV

В конце 90-х годов прошлого века появилось новое поколение полностью цифровых камер и пишущих видеокамер (camcorder), в которых применяется новый видеоформат - цифровое видео (Digital Video - DV). Вместо реализации процесса аналого-цифрового преобразования, как в традиционной карте захвата видео, DV-файл уже в сжатом цифровом формате можно просто загрузить в РС без потери качества в реальном времени.

Компании Panasonic и Sony первыми использовали стандарт DV в видеокамерах и хотя он первоначально не был рассчитан на признание в качестве профессионального формата обе компании в последующем объявили о своих расширениях стандарта - компания Panasonic выпустила видеокамеру DVCPRO в 1995 г., а компания Sony - видеокамеру DVCAM в 1996 г. Обе компании выбрали для своих цифровых потребительских изделий формат MiniDV. Стандарт DV ориентирован на четверть-дюймовую (6.35 мм) ленту с металлизированным покрытием, позволяющую записать до трех часов видео в режиме стандартного воспроизведения (Standard Play - SP) на кассетах с размерами 125x78x14.6 мм. Основное достоинство формата MiniDV - очень небольшой размер кассеты 66х48х1.2 мм (практически это 1/12 размера стандартной ленты VHS). На кассету MiniDV можно записывать один час в стандартном формате или до 90 минут в режиме продолжительного воспроизведения (Long Play - LP) с пониженным качеством - разрешающая способность по горизонтали составляет 500 строк.

В техническом отношении формат DV опирается на исследования сжатия видео, в частности, на сложное дискретное косинусное преобразование (Discrete Cosine Transformation - DCT). Этот способ рассчитан на внутрикадровое, а не на прогрессивное, сжатие и использует трехэтапный процесс сжатия данных - каждый кадр сжимается в отдельности, а не сравнивается с соседними кадрами. На первом этапе применяется сжатие DCT - сжатие с потерями, которое убирает информацию, невидимую глазом человека. После этого информация о каждом пикселе разделяется на яркость и цвет, а затем они оцифровываются, причем предпочтение отдается цвету. В результате получается очень точное цветовое представление с сокращением данных в три раза. Это достигается преобразованием RGB-значения цвета каждого пиксела в цветовое пространство YUV, где Y яркость, а U и V - цвет. Значение Y оцифровывается четыре раза, а значения Y и V - дважды, поэтому описывающая пространство YUV формула имеет вид 4:2:2. Затем видео сжимается еще раз, поскольку кодек DV оптимизирует формулу до 4:2:0, объединяя цветовую информацию от соседних пикселов в блоки 4х4. Конечно, при этом ухудшается качество, но глаз человека плохо воспринимает небольшие изменения цвета, поэтому при хорошем естественном освещении разница не воспринимается. Наконец, система аппаратного сжатия в камере еще более сжимает видео, используя алгоритм, аналогичный M-JPEG.

Формат DV отличается тем, что может сжимать разные фрагменты каждого кадра с различными коэффициентами сжатия. Например, синее небо на заднем плане изображения сжимается с коэффициентом 25:1, а сложный лес на переднем плане, который требует большей детальности, сжимается с коэффициентом только 7:1. Благодаря этому DV может оптимизировать видеопоток на кадровой основе. С другой стороны, алгоритм M-JPEG должен иметь фиксированный коэффициент сжатия для всего видео и не может обеспечить "интеллектуальное" сжатие каждого изображения, что приводит к искажениям.

Стандарт DV поддерживает также импульсно-кодовую модуляцию (Pulse Code Modulation - PCM) стереозвука, обеспечивая 16-битовый звук качества CD. Можно также использовать 12-битовый режим для записи двух пар звуковых дорожек - одну для стереозвука, записанную во время съемки, и одну для музыкального или текстового сопровождения, которое добавляется впоследствии. Если видеоинформация DV передается с номинальной скоростью 25 Мб/с, то ее приходится повышать до 36 Мб/с при добавлении звука и информации для исправления ошибок.

Несмотря на рассмотренные достоинства, все же DV-файлы оказываются довольно большими, поэтому требуется быстрый интерфейс для передачи их из видеокамеры в РС. К счастью, решение этой проблемы уже имеется - это разработанный компанией Apple Computers интерфейс FireWire, который утвержден как международный стандарт IEEE 1394. Когда разрабатывался этот интерфейс, цифровое видео не привлекало большого интереса и просто не было необходимости в таком быстром интерфейсе. Поэтому несколько лет интерфейс IEEE 1394 представлял собой решение проблемы, которой просто не существовало. Однако вскоре из систем видеоредактирования интерфейс IEEE 1394 пришел на рынок потребительских цифровых видеокамер.

Главная проблема стандарта DV заключается в том, что в отличие от MPEG-2, он не является масштабируемым. Он предназначен для записи на ленту с фиксированной скоростью данных 25 Мб/с. Это обстоятельство, а также ограниченная цветовая емкость (4:2:0 или 4:1:1) приводили к тому, что многие считали этот стандарт непригодным для профессионального производства. Для NLE-систем скорость данных оказывалась слишком высокой для офлайнового редактирования и слишком низкой для сложных эффектов и насыщенной графики. Выпуск в 1998 г. компанией Panasonic видеокамеры DVCPRO50, которая удвоила скорость данных до 50 Мб/с и расширила цветовую глубину до 4:2:2, позволил применять DV в высококачественных системах. Формат Digital-S (или D9) компании JVC обеспечивает запись потока 50 Мб/с на кассеты с размерами VHS. Качество обоих форматов сравнимо с качеством Digital Betacam, а видеокамеры оказываются дешевле в два раза.

Меню энциклопедии