Содержание | Звуковые карты


Звуковые карты







Звук - это относительно новая возможность в РС, потому что при разработке первых РС его никто не брал в расчет. Первый IBM PC проектировался как деловой, а не как мультимедийный компьютер, поэтому в его архитектуре специальных звуковых микросхем не было. Компьютеры долго считались вычислительными машинами и для них требовался только один звук - предупреждающий сигнал (beep). Пока интегрированных звуковых возможностей в большинстве РС нет, поэтому для генерирования высококачественного звука необходимо приобретать дополнительную схемную плату, называемую звуковой картой (sound card), или аудиокартой (audio card). Эта карта представляет собой адаптер шины ISA; на фотографии показана современная звуковая карта AWE64 Gold.

Популярность мультимедийных приложений за прошедшие несколько лет ускорила разработку звуковых карт, а конкуренция между производителями приводит к тому, что звуковые карты становятся все более сложными и дешевыми. Сейчас звуковые карты не только создают звук для игр и мультимедийных приложений, но и позволяют настойчивым пользователям создавать, редактировать и печатать свою музыку, а также учиться играть на пианино, записывать и редактировать цифровой звук и проигрывать звуковые компакт-диски. Звуковые карты выполняют минимум четыре задачи и функционируют как синтезатор, интерфейс MIDI, аналого-цифровой преобразователь при записи звука с микрофона и цифро-аналоговый преобразователь при воспроизведении звука через динамики.

Физическая природа звука


Звук формируется, когда два или более объектов сталкиваются, освобождая волну энергии, которая, в свою очередь, вызывает изменения в давлении окружающего воздуха. Изменения давления воспринимаются нашими барабанными перепонками, а наш мозг интерпретирует их как звук. Звуковые волны распространяются от точки возмущения во всех направлениях, наподобие волн, расходящихся от брошенного в озеро камня.

Когда звук записывается с помощью микрофона, изменения воздушного давления заставляют диафрагму микрофона колебаться, аналогично колебаниям барабанной перепонки. Эти крошечные колебания преобразуются затем в изменения напряжения. В сущности, все звуковые карты создают звук именно таким образом, только в противоположном направлении. Вначале они создают, или воспроизводят (play back), звуковые сигналы. Затем изменения напряжения усиливаются и вызывают вибрацию "конусов" звуковых колонок. Такие вибрации вызывают изменения в давлении воздуха, которые интерпретируются как звук.


Человеческий мозг представляет собой совершенный процессор; применительно к звуку он может определить местонахождение источника звука, имея всего два уха и возможность поворачивать наши голову и тело. Источником звука может быть двигатель автомашины, музыкальный инструмент, хлопок дверью и т.д. Сам источник излучает звук различными способами - большая часть звука изо рта человека направлена туда, куда повернуто лицо, а автомобиль излучает звук по всем направлениям. Когда звук создан, на него начинают действовать окружающие условия. Фактический носитель между источником и слушателем сильно влияет на звук; вспомните, как трудно докричаться в ветреный день, или услышать что-либо под водой. Основная часть слышимого звука распространяется от источника по прямой. Однако некоторые звуки могут достигать наших ушей после отражения от стены или другого объекта; материал этих препятствий поглощает определенные частоты, уменьшая общую громкость. Звук "отражения первого порядка" (first-order reflection) не только отличается от звука прямого источника, но и звучит с некоторой задержкой. Этот эффект проявляется в отражениях второго порядка и др. Качество и задержка отраженного звука содержат информацию об окружающей среде.

Многие люди могут точно определить, откуда идут отражения первого порядка, а некоторые могут различать и отражения второго порядка. Однако по мере того, как уха достигает все больше отражений, мозг стремится объединить их в эффект запаздывающего эхо, называемый реверберацией (reverb). Правильное использование реверберации является ключевым моментом в моделировании различных сред.

Дискретизация и запись


Когда звуковая карта записывает аналоговый звук, она преобразует звуковой сигнал в цифровую информацию, а затем копирует ее в реальном времени на жесткий диск. По существу, она использует диск как "безленточный" магнитофон. Для прослушивания записанного звуковая карта считывает цифровую информацию с жесткого диска, преобразует ее в аналоговую форму, а затем подает ее в динамики, наушники или обычный магнитофон.

Процесс преобразования аналогового сигнала в цифровую форму называется дискретизацией (sampling), или оцифровкой (digitising). Аналоговый сигнал превращается в определенное число "вырезок" в секунду. Для каждой "вырезки" измеряется амплитуда и округляется до ближайшего доступного значения. Чем больше "вырезок" в секунду (частота дискретизации - sampling rate) и чем точнее присвоенные значения амплитудам (динамический диапазон - dynamic range), тем лучше представление оригинала.

В цифровых CD используется частота дискретизации 44.1 кГц и 16-битовый динамический диапазон. Конечно, CD является стерео-системой, а это означает два 16-битовых слова каждую 1/44100 секунды. В результате получатся 160 КБ/с, 10.5 МБ/мин или 630 МБ/час. Для хранения цифрового звука в РС часто применяется формат WAVe. В РС имеется множество файлов .wav, которые содержат звук в цифровой форме - в виде отсчетов. Продолжительность звучания ограничена несколькими секундами из-за больших размеров файлов. Файл .wav будет звучать одинаково независимо от имеющейся в РС звуковой карты, поскольку звук находится в файле, а не синтезируется звуковой картой.

Все звуковые карты должны обеспечивать разрешающую способность 16 битов и частоты дискретизации 44.1 кГц или 48 кГц, хотя они могут при необходимости работать и с менее точными параметрами качества. В хороших звуковых картах обеспечивается низкий уровень помех и имеются высококачественные аналого-цифровые и цифро-аналоговые преобразователи.

Для записи и редактирования звука требуется значительное дисковое пространство: для 10-минутного звука качества CD требуется более 100 МБ. Чем быстрее жесткий диск и подсистема ввода-вывода, тем удобнее работать с такими большими файлами. Современные жесткие диски и контроллеры PCI обеспечивают непрерывную скорость передачи в 4 МБ/с. Для серьезных профессионалов желательно отсутствие прерываний в аудио-потоке. Многие жесткие диски периодически производят тепловую рекалибровку, что вызывает короткие, но нежелательные паузы. В некоторых накопителях средства рекалибровки отсутствуют, чтобы предотвратить паузы.

Конечно, наилучшее решение обеспечивает полностью цифровая система обработки звука, но пока такие системы слишком дороги. Основными компонентами цифровой системы являются звуковая карта, оснащенная разъемами S/PDIF (Sony/Philips Digital InterFace) для Digital In и Digital Out, а также программой для передачи цифрового звука на жесткий диск. Примером такой программы является утилита CDGrab Professional, которая может копировать цифровую информацию с накопителя CD-ROM на жесткий диск в формате WAV (16 битов, стерео, 44.1 кГц).

Компоненты звуковой карты




Звуковая карта современного РС содержит несколько аппаратных систем для производства и захвата звука и основными из них являются две - подсистема захвата и цифрового звука и подсистема воспроизведения и синтеза музыки. Вторая подсистема образует звуковые волны одним из двух способов: с помощью внутреннего FM-синтезатора или путем воспроизведения оцифрованного (дискретизированного - sampled) звука.

Подсистема цифрового звука карты содержит согласованные 16-битовые цифро-аналоговый преобразователь (Digital-to-Analogue Converter - DAC) и аналого-цифровой преобразователь (Analogue-to-Digital Converter - ADC), а также программируемый генератор частоты дискретизации (sample rate generator). Компьютер считывает данные отсчетов с преобразователей. Генератор частоты дискретизации, которым управляет РС, синхронизирует преобразователи. Можно задать любую частоту дискретизации более 5 кГц, но обычно она составляет часть частоты 44.1 кГц.

Для считывания и записи цифровых аудио-данных в схемы или из схем цифрового звука большинство карт использует один или несколько каналов прямого доступа к памяти (Direct Memory Access - DMA). Карты, которые могут одновременно выполнять запись и воспроизведение (такая работа называется дуплексной - full duplex), используют два канала. Такие карты сложнее инсталлировать и настраивать, так как при работе возникают конфликты DMA-каналов с другими аппаратными средствами. Некоторые карты предоставляют прямой цифровой выход с использованием оптического или коаксиального S/PDIF-соединения.

Основой генератора звука карты является специализированный цифровой сигнальный процессор (Digital Signal Processor - DSP), который воспроизводит требуемые музыкальные ноты путем мультиплексирования отсчетов из различных областей памяти "таблицы волн" (wavetable memory) с разными скоростями, чтобы получить требуемые частоты звука. Максимальное число доступных нот определяется вычислительной мощностью DSP-процессора и называется полифонией (polyphony) карты.

DSP-процессоры используют сложные алгоритмы для создания таких эффектов, как реверберация (reverb), хор (chorus) и задержка (delay). Реверберация создает впечатление того, что инструменты "играют" в большом концертном зале. Хор применяется для создания впечатления одновременного звучания многих инструментов, хотя фактически в любой момент времени звучит только один инструмент. Введение стерео-задержки, например для звука гитары, позволяет создать иллюзию стерео-звука.

Частотная модуляция


В первых звуковых картах для создания звука применялась технология частотной модуляции (Frequency Modulation - FM), разработанная еще в начале 70-х годов прошлого века в Стэнфордском университете. FM-синтезаторы производили звук, генерируя чистый синусоидальный сигнал (он называется несущей - carrier) и смешивая его с другим сигналом (он называется модулятором - modulator). Когда два этих сигнала близки по частоте, образуется сложный сигнал. Управляя несущей и модулятором, можно создать различные тембры (timbres), или инструменты.

Каждый FM-голос требует минимум два генератора сигналов, которые обычно называются операторами (operators). В различных реализациях FM-синтеза имеются разные степени управления параметрами оператора. В сложных FM-системах применяются 4 или 6 операторов на голос и операторы имеют регулируемые оболочки, которые позволяют корректировать скорость нарастания (attack rate) и скорость спадания (decay rate) сигнала.

Компания Yamaha была первой компанией, которая серьезно занялась FM-синтезом, и результатом ее исследовательских усилий стала разработка легендарного синтезатора DX7. Вскоре специалисты компании поняли, что, смешивая более широкие диапазоны несущих и модуляторов, можно создать более сложные тембры, воспроизводящие более реалистически звучащие инструменты. Схемы синтезатора OPL3 компании Yamaha стали стандартом de facto для игровых карт. В них использовались параметры, загружаемые из программного драйвера, для управления каскадированными FM-генераторами, которые генерировали аналоговые звуки акустических и электронных музыкальных инструментов.

В первых клавишных синтезаторах FM-системы были реализованы в аналоговой области, но в последующем появились цифровые реализации FM-синтеза. Способы такого синтеза очень удобны для создания новых впечатляющих синтезированных звуков. Но если цель системы синтеза состоит в воспроизведении звука существующих инструментов, ее можно достичь с получением лучших результатов, применяя полностью цифровой таблично-волновой синтез.

Таблично-волновой синтез


В таблично-волновом синтезе (WaveTable Synthesis - WTS) для генерирования звука используются не несущие и модуляторы, а настоящие отсчеты (сэмплы - samples) реальных инструментов. Отсчет - это цифровое представление сигнала, формируемого инструментом. Звуковые карты, рассчитанные на шину ISA< обычно хранят отсчеты в микросхемах ROM. В новых картах для шины PCI отсчеты хранятся в банках системной памяти RAM и загружаются в звуковую карту при запуске системы; теоретически отсчеты можно модифицировать для включения в них новых звуков.

Если все FM-карты звучат примерно одинаково, качество звучания WTS-карт значительно варьируется. Качество звучания инструментов определяется несколькими факторами:

  • Качеством оригинальных записей.
  • Частотой, с которой записывались отсчеты.
  • Числом отсчетов, используемых для создания каждого инструмента.
  • Способом сжатия, который применяется для хранения отсчетов.

Отсчеты инструментов обычно записываются 16-битовыми кодами с частотой дискретизации 44.1 кГц. Однако многие производители сжимают данные, чтобы вместить в ограниченный объем памяти больше отсчетов или инструментов. Здесь приходится идти на компромисс, так как сжатие часто приводит к потере динамического диапазона или качества звука.

Когда магнитофонная кассета воспроизводится слишком медленно или слишком быстро, изменяется высота тона (pitch). Такое явление характерно и для цифрового звука. Воспроизведение отсчетов с более высокой частотой, чем оригинальная, приводит к появлению звука более высокого тона, обеспечивая воспроизведение нескольких октав. Но когда слишком быстро воспроизводятся отдельные тембры, они начинают звучать слабее и выше. Аналогичная ситуация возникает и при более медленном воспроизведении. Для преодоления этого явления производители разбивают клавиатуру на несколько участков и применяют для каждого участка относительно высокотональный отсчет от инструмента. Чем больше отсчетных участков записано, тем более реалистичным оказывается воспроизведение.

Каждый инструмент образует несколько отличающиеся тембры в зависимости от того, как на нем играют. Например, когда на пианино играют мягко, не слышно звуков молоточков, ударяющих по струнам. При жесткой игре слышны не только звуки молоточков, но и изменяется тон звуков.

Чтобы такой диапазон звуков точно воспроизводил синтезатор, необходимо записать множество отсчетов и их вариаций. Разумеется, для этого потребуется больше памяти. Типичная звуковая карта может содержать отсчеты 700 инструментов в ROM с емкостью 4 МБ. Однако для точного воспроизведения звука одного пианино требуется от 6 МБ до 10 МБ данных. Вот почему бессмысленно сравнивать синтезированный звук и звук настоящего инструмента.

Переход к таблично-волновому синтезу


Для перехода к таблично-волновому синтезу не всегда требуется приобретать новую звуковую карт. Большинство 16-битовых звуковых карт имеет дополнительный разъем (feature connector), в который можно вставить дочернюю WTS-карту. Качество звучания инструментов в таких картах сильно варьируется и обычно зависит от емкости имеющихся на карте микросхем ROM. Большинство карт имеет от 1 МБ до 4 МБ отсчетов и реализуют несколько звуковых эффектов.

Плейер




Для воспроизведения звуковых файлов требуется плейер (player), т.е. дополнительный модуль (plugin). Все версии операционной системы Windows имеют встроенные плейеры для воспроизведения файлов .wav и .midi. Поэтому достаточно произвести на имени файле двойной щелчок и на экране появится элемент управления плейера. Для воспроизведения файлов .mp3 и .mod требуется дополнительные внешние модули, которые можно найти в Internet.

Стандарты


Интерфейс звуковых карт, как и интерфейсы накопителей CD-ROM, поддерживают три фирменных интерфейса компаний Sony, Mitsumi и Panasonic, но сейчас все большую популярность приобретают интерфейсы SCSI, IDE и EIDE. Они также имеют аудио-разъем для выхода звукового компакт-диска. Благодаря этому одна плата расширения РС придает РС мультимедийные возможности.

Аппаратная конфигурация звуковой платы компании AdLib была первой попыткой установить стандарт, но только карты SoundBlaster компании Creative Labs привели к установлению долгожданного стандарта для цифрового звука в РС. Эта компания захватила лидерство в производстве 8-битовых, а затем и 16-битовых звуковых карт. Широкое распространение получила звуковая карта AWE32, а текущим "бестселлером" стала выпущенная в 1997 г. звуковая карта AWE64, которая обладает 64-нотной полифонией для одного MIDI-устройства, причем 32 ноты управляются аппаратно, а еще 32 программно.

Большинство продаваемых сейчас звуковых карт должны поддерживать стандарты SoundBlaster и General MIDI, записывая и воспроизводя стерео-звук с частотой дискретизации 44.1 кГц. С такой частотой дискретизации записываются компакт-диски CD-Audio, поэтому часто говорят, что звуковые карты обеспечивают звук качества CD.

Окружающий звук (surround sound) для фильма предварительно записан и доставляется в ухо независимо от того, просматривается фильм в кинотеатре или дома. Система Dolby учитывает только, насколько далеко расположены задние динамики от переда и слушателя. В остальном это та же линейная доставка без всякого взаимодействия со слушателем; ситуация такая же, как и при прослушивании музыки.

Очевидно, это не подходит для игр, где звук должен интерактивно изменяться в реальном времени в зависимости от происходящих на экране действий. Как сейчас кажется, в далеком прошлом компания Creative Labs предложила стандарт SoundBlaster для моно-звука в DOS-играх на РС. Со временем реализм был улучшен возможностями стерео-звука (SoundBlaster Pro), а качество приблизилось в качеству звука CD (SoundBlaster 16). При запуске игры пользователь выбирает опцию звука, соответствующую имеющейся звуковой карте. Однако компания Microsoft изменила все мультимедийные игровые стандарты, разработав для Windows 95 стандарт DirectX. Он предлагает множество команд, называемых также API (Application Programming Interface - программный интерфейс), например "сформируй звук слева" или "нарисуй сферу впереди". Затем игры просто осуществляют вызовы DirectX, а производители аппаратных средств должны обеспечить, чтобы драйверы звуковых и графических карт понимали эти вызовы. Звуковая часть DirectX 1 и 2 называется DirectSound и он обеспечивает стерео-эффекты левого и правого панорамирования. Совместно с другими компонентами DirectX это позволяет программистам писать прямо для любой DirectX-совместимой звуковой карты с несколькими аудио-потоками и используя эффекты трехмерного звука. Каждый звуковой канал можно программировать в отдельности, поддерживая несколько частот дискретизации и возможность добавлять созданные программно эффекты. Сам DirectSound действует как машина смешивания звуков, используя системную память RAM для хранения разных воспроизводимых аудио-потоков на несколько миллисекунд до их смешивания и передачи в звуковую карту. В идеальных условиях DirectSound может смешать и вывести запрошенные звуки за 29 миллисекунд.

Стандарт DirectX 3 ввел DirectSound3D (DS3D), который предложил набор команд для размещения звука в любом месте трехмерного пространства. Этот метод называется позиционным звуком (positional audio) и для его реализации требуется значительная вычислительная мощность.

Позиционный звук DS3D является одной из возможностей, поддерживаемых последним поколением звуковых карт, рассчитанных на шину PCI. Попросту говоря, позиционный звук оперирует характеристиками звуков, чтобы казалось, что звук появляется с определенного направления, например сзади или издалека слева. DirectSound3D предоставляет разработчикам игр команды API, которые можно использовать для позиционирования звуковых элементов. Более того, DirectSound3D является масштабируемым: если приложение запрашивает эффекты позиционирования, а поддерживающих такие эффекты аппаратных средств нет, DirectSound3D обеспечит программную реализацию эффектов позиционирования, привлекая для обработки центральный процессор.

DS3D поддерживает позиционный звук, но не обеспечивает значительной поддержки для введения реверберации, используя отдельные отражения для имитации различных сред. Поэтому появилось два новых звуковых стандарта, которые стали широко использовать разработчики игр: расширения окружающего звука (Environmental Audio Extensions - EAX) компании Creative Labs и системы A3D компании Aureal.

Компания Aureal вначале разрабатывала A3D совместно с НАСА для имитаторов полета, а результате получился технически превосходный стандарт. Версия A3D2 вводит в видеокарту информацию о геометрии комнаты и использует ее для получения реалистических звуковых отражений и преград. Используя технологию WaveTracing, система A3D2 интеллектуально вычисляет до 60 отражений первого порядка, которые взаимодействуют со средой в реальном времени, а затем группирует отражения остальных порядков в общую реверберацию. A3D API полностью независим от DS3D и самостоятельно создает позиционные эффекты и реверберацию.

В системе EAX компании Creative Labs принят более простой с вычислительной точки зрения подход, в котором объединяются все отражения и создаются предопределенные эффекты реверберации. Здесь просто имитируются конкретные помещения, например самолетный ангар или пещера. Список предопределенных эффектов реверберации предоставляется как открытый набор расширений для DS3D компании Microsoft, т.е. они являются звуковыми расширениями для имитации окружающей обстановки. В играх, которые используют DirectSound и EAX, DS3D обеспечивает позиционные эффекты, а большинство программистов просто использует один параметр реверберации EAX до тех пор, пока игрок не перейдет в новое помещение. Несмотря на то, что версия EAX 2 добавила поддержку преград, этот стандарт остается значительно менее мощным, чем A3D2.

Стандарт A3D2 оказался настолько вычислительно сложной системой, что компания Aureal разработала специализированный процессор. Новый стандарт A3D3, который поддерживает Dolby Digital и потоковость, рассчитан на еще более мощный и улучшенный процессор Vortex2, который совместно DSP обеспечивает ускорение новых команд. С другой стороны, стандарт EAX для выполнения своих команд требует только DSP.

Спецификация MIDI под названием загружаемые звуки (DownLoadable Sounds - DLS) позволяет программистам добавлять звуковые отсчеты в набор General MIDI WTS-синтезатора. Поддержка DLS встроена в DirectMusic - реализованный как часть DirectX 6 - и может использоваться разработчиками игр и музыкантами. Такая поддержка позволяет, например, включить цифровую запись рева тиранозавра и ассоциировать ее с конкретным номером инструмента в WTS-синтезаторе. В общем, отсчеты DLS могут содержать любой звук, включая произносимый диалог.

MIDI


Цифровой интерфейс электромузыкальных инструментов (Musical Instrument Digital Interface - MIDI) разработан в начале 80-х годов прошлого века. Он создавался как стандартный интерфейс музыкальных контроллеров, например клавиатур, с генераторами звуков, например синтезаторами. Первоначально для него использовалась последовательная коммуникация согласно протоколу RS-232.


С точки зрения электрического соединения MIDI представляет собой полудуплексную токовую петлю 5 мА, которая передает последовательный поток 8-битовых данных со скоростью 31.25 Кбод. Использование токовой петли позволяет изолировать два устройства с помощью оптронов, что очень важно с точки зрения безопасности и работы системы без помех. Поэтому для подключения звуковой карты к генератору звука или MIDI-контроллеру требуется специальный кабель, так как оптроны и токовые буферы обычно не поставляются со звуковыми картами.

С информационной точки зрения MIDI представляет собой язык для описания композиций (compositions), или музыкальных событий (musical events), в реальном времени. Он взаимодействует с 16 каналами (аналогично наличию в цепи семи SCSI-устройств), позволяя воспроизводить до 16 MIDI-инструментов по одному интерфейсу. Так как большинство звуковых карт являются многотембровыми, 16 инструментов можно воспроизводить одновременно всего из одного устройства. Добавление второго MIDI-интерфейса открывает еще 16 MIDI-каналов. Некоторые MIDI-интерфейсы допускают до 16 выходов, обеспечивая одновременный доступ к 256 инструментам.

Фактически MIDI-файл содержит не звук, а описание того, как должен воспроизводиться звук. Другими словами, запись звука производится на "уровне нот", а не собственно звука. Звуки формируются звуковой картой. MIDI-файл содержит только информацию о порядке (sequencing information) - какой инструмент как и когда воспроизводить. На эти простые сообщения должно реагировать приемное устройство.


Инструменты подключаются с помощью стандартных 5-контактных разъемов DIN. Когда, например, на клавиатуре нажимается клавиша, по MIDI-кабелю передается сообщение Note On, инструктирующее приемное устройство воспроизвести ноту. Сообщение состоит их трех элементов:

  • Байт состояния (Status Byte).
  • Номер ноты (Note Number).
  • Значение скорости (Velocity Value).

Байт состояния содержит информацию о типе события (в приведенном примере - Note On) и в какой канал оно посылается (1-16). Номер ноты описывает нажатую клавишу, например среднее C, а значение скорости (или быстроты) показывает, с какой силой произведен удар по клавише. Приемное устройство будет воспроизводить данную ноту до получения сообщения Note Off, содержащего те же данные.

В зависимости от воспроизводимого звука синтезатор по-разному реагируют на скорость. Например, звук пианино будет громче, если ударить по клавише сильнее. Также изменяются тональные характеристики. Профессиональные синтезаторы часто вводят дополнительные тембры для имитации звука молоточков, ударяющих по струнам.

Для управления такими параметрами, как громкость, уровни эффектов и панорамирование (позиционирование звука при использовании стерео), применяются контроллеры непрерывности (Continuous Controllers - CC). Многие MIDI-устройства позволяют присваивать внутренние параметры СС-контроллерам: можно выбирать из 128 параметров. На основе этих параметров Ассоциация MMA (MIDI Manufacturers Association) разработала стандарт General MIDI.

Первое применение MIDI состояло в том, чтобы разрешить музыкантам формировать "слой" звуков, формируемых несколькими синтезаторами. Сейчас MIDI применяется, в основном, для временного распределения (sequencing). По существу, секвенсер (sequencer) представляет собой ленточный магнитофон, который записывает и воспроизводит не звуковые сигналы, а MIDI-сообщения. Первые секвенсеры имели очень мало памяти, что ограничивало объем хранимой информации: многие секвенсеры могли хранить всего одну-две тысячи событий. По мере совершенствования секвенсеров усложнялись и реализации MIDI. Не ограничиваясь только воспроизведением нот, производители разработали способы управления отдельными параметрами звука и звуковыми эффектами с помощью контроллеров непрерывности. Большинство современных секвенсеров является приложениями для РС и позволяют корректировать параметры с помощью графических ползунков (sliders). Многие секвенсеры имеют обширный набор возможностей для редактирования и точной настройки производительности, поэтому для создания хорошей музыки совсем не обязательно быть опытным музыкантом-исполнителем.

Стандарт MIDI повлиял на работу не только музыкантов и программистов, но и инженеров светотехников и акустиков. Поскольку почти любое электронное устройство можно заставить тем или иным образом реагировать на команды MIDI, появились автоматические микшеры и осветительное оборудование. Со временем MIDI стал широко применяться осветительными компаниями как удобный способ управления световыми шоу и проекционными системами. С помощью секвенсера любое действие на пульте управления можно записать, отредактировать и синхронизировать с музыкой или фильмом. Он также предоставляет мультимедийным авторам экономичные средства доставки слушателям высококачественного звука. Альтернативой этому является просто оцифрованная музыка, но при необходимости выделения 10 МБ на одну минуту звучания потребуются жесткие диски емкостью в десятки и сотни ГБ. MIDI-данные требуют ничтожной доли этой емкости.

General MIDI


В сентябре 1991 г. Ассоциация MMA (MIDI Manufacturers Association) и японский комитет по стандартам MIDI (Japan MIDI Standards Committee - JMSC) ознаменовали начало новой эры в MIDI-технологии, опубликовав спецификацию General MIDI System Level 1 (GM или GM1). Спецификация определила минимальный уровень совместимости MIDI-инструментов и помогла подготовить почву для MIDI на растущем рынке потребительских и мультимедийных услуг.

Спецификация предъявляет несколько требований к устройствам генерирования звука (клавиатура, звуковой модуль, звуковая карта, программа и др.), включая следующие:

  • Минимум 24 полных динамически распределяемых голоса должны быть одновременно доступны для мелодических и ударных звуков или 16 динамически распределяемых голосов для мелодичных звуков и 8 для ударных звуков.
  • Поддерживаются все 16 MIDI-каналов, каждый из которых способен воспроизводить переменное число голосов (полифония) или различных инструментов (звук/высота/тембр).
  • Поддерживаются минимум 16 одновременных и различных тембров, воспроизводящих различные инструменты, а также минимум 128 предустановленных инструментов (программные номера MIDI), удовлетворяющие GM1 Instrument Patch Map, и 47 ударных звуков, которые удовлетворяют GM1 Percussion Key Map.

Когда впервые появился MIDI, он позволил музыкантам объединять музыкальные аранжировки с помощью имеющихся MIDI-инструментов. Но когда время доходило до воспроизведения файлов на других синтезаторах, не было гарантии, что звук будет тем же самым, так как разные производители инструментов могли присвоить инструменты разным программным номерам: то, что было пианино в оригинальном синтезаторе, могло воспроизводиться как труба на другом. Отвечающие требованиям General MIDI модули позволили создавать и воспроизводить музыку независимо от производителя продукта.

DirectMusic


Принятие протокола MIDI в 1982 г. позволило независимым композиторам эффективно управлять всем процессом записи во всем диапазоне устройств - от домашних студий до промышленных микшеров. Это принятие сопровождалось точным тембровым определением того, что могло происходить при воспроизведении MIDI-файлов на любых звуковых картах. В 90-х годах прошлого века технология цифрового звука получила широкое распространение и для композиторов наметились два направления. С одной стороны, у композиторов появилась возможность создавать богатые цифровые записи акустических и электронных инструментов. С другой стороны, стимулировалось творческое воровство, когда композиторы "заимствовали" успешные новинки ранее записанных артистов для создания новых композиций.

На РС доступны несколько форматов, поддерживающих технологию дискретизации. Наиболее известным из них является формат .wav, который обеспечивает широкополосное цифровое приведение (rendering) звука. Слабым моментов файлов формата .wav было отсутствие стандарта на экономичную доставку музыкальных исполнений и именно здесь появился DirectMusic. Комбинируя MIDI, поддержку аппаратного ускорения и программный синтез, интегрированную систему доставки заказных отсчетов, DirectMusic предоставляет экономичные средства доставки музыкальных исполнений профессионального качества, решая трудные проблемы синхронизации с помощью буферированных событий, имеющих временные метки, и глобального эталона времени.

Одним из наиболее важных достоинств DirectMusic заключается в полной реализации спецификации загружаемых звуков (DownLoadable Sounds - DLS), которая позволяет создавать заказные звуки на основе фактических записей инструментов. В прошлом было невозможно получить согласованное воспроизведение MIDI, а качество воспроизведения зависело от звуковой карты или воспроизводящего устройства. DLS-коллекции опираются на сигнальные файлы (wave files), которые могут содержать одну ноту, музыкальную фразу, звуковой эффект, диалог или что-то еще, и позволяют композитору точно определять необходимые тембры. В результате композиторы получили в своих партитурах точное определение тембров - то, что слышали пользователи, было точно тем, что композитор создал в своей студии. Используя DLS, сигнальные файлы можно импортировать в коллекцию и обрабатывать так же, как MIDI-контроллеры оперируют любым источником синтезированного звука. Благодаря тому, что DirectMusic сжимает звуковые файлы в коллекциях DLS, ценность DirectMusic очень велика.

Кроме того, DirectMusic поддерживает два метода синтеза. В аппаратном синтезе (hardware synthesis), звуковая карта использует MIDI-события для создания звука, прослушиваемого через динамики РС. В программном синтезе (software synthesis) звуковой сигнал создает центральный процессор. Программный синтезатор DirectMusic действует как дискретизатор (sampler) внутри РС пользователя. Благодаря программному синтезатору большинство пользователей услышат партитуры, которые созданы полностью процессором и воспроизводятся как запись исполнения. Однако когда звуковая карта предоставляет возможности, большие программного синтезатора, DirectMusic может использовать вместо синтезатора звуковую карту. Таким образом, DirectMusic обеспечивает превосходное качество сигнального формата и компактность, гибкость и интерактивность MIDI.

Звук на шине PCI


В 1996 г. появились звуковые микросхемы для шины PCI, которые размещались на материнской плате или на карте в слоте расширения шины PCI. К середине 1998 г. тенденция к картам PCI, которые обеспечивали расширенные возможности для игровых и музыкальных приложений стала преобладающей. По мере повышения требований к аудио-обработке традиционные карты перестали применяться из-за физических ограничений шины ISA. Проблемой оказалась пропускная способность. Теоретическая максимальная пропускная способность шины ISA составляет всего 8 МБ/с, а шина PCI может поддерживать скорость передачи данных до 132 МБ/с. Такая скорость ограничивает звук до 16 каналов. Хотя этого вполне достаточно для большинства игр, но для профессиональных приложений предпочтительно иметь 32 или даже 64 канала.

Карты для шины PCI обеспечивают повышенную производительность, необходимую для таких возможностей, как смешивание нескольких звуковых потоков и обработка трехмерных позиционных потоков. Из-за больших служебных потерь технологии ISA считается, что до 20% возможностей центрального процессора блокируются при воспроизведении 16-битового стереозвука с частотой дискретизации 44.1 кГц. Шина PCI освобождает центральный процессор для других задач, например для трехмерной графики. В общем, при обработке звуковых потоков шина PCI в 10 - 20 раз эффективнее шины ISA.

Шина PCI стала широко применяться с 1993 г., но только через пять лет она стала общепринятой в звуковой системе РС. Это объясняется несколькими причинами:

  • Нехватка приложений, которые требовали высококачественного звука.
  • Технические трудности разработки звуковых карт, обеспечивающих полную совместимость с Sound Blaster на шине PCI.
  • Высокая стоимость первых звуковых микросхем для шины PCI.

Однако сейчас звуковые платы для шины PCI оказываются дешевле карт для шины ISA, что частично объясняется скоростью и элегантностью шины PCI. Звуковая карта шины ISA с таблично-волновым синтезом обычно содержит дорогую память ROM емкостью от 1 до 4 МБ для хранения отсчетов звуков инструментов; эти отсчеты часто называются patch set или wave set (набор волн). Однако во многих PCI-картах вместо ROM для хранения набора волн используется системная память RAM. Скорость шины PCI допускает такой подход, так как предоставляет звуковым картам возможность быстрого доступа к отсчетам в системной памяти.

Интересной возможностью нового поколения звуковых карт для шины PCI является обеспечение совместимости реального режима DOS Sound Blaster для огромного числа имеющихся DOS-игр. Такую совместимость обеспечить звуковой картой для шины PCI значительно сложнее, чем звуковой микросхемой PCI, встроенной в материнскую плату. Новые звуковые карты допускают подключение нескольких динамиков; к РС можно подключить до восьми динамиков в так называемом формате 7.1 (семь отдельных позиционных звуковых каналов и один субвуфер - subwoofer). Такая возможность реализована в карте Sound Blaster Live!, которая выпущена в 1998 г.

Спецификация РС 98 компании Microsoft требует прекращения использования в новых системах шины ISA, поэтому вполне вероятно, что шина ISA вскоре исчезнет совсем.

Звук на шине USB


Полупроводниковая компания Micronas разработала технология, которая может исключить звуковую карту из будущих мультимедийных РС. Звуковой контроллер этой компании интегрирует цифровой сигнальный процессор (Digital Signal Processor - DSP), цифро-аналоговый преобразователь, операционный усилитель и контроллер шины USB в одно внешнее устройство, которое содержит все, что необходимо для подключения динамиков прямо к РС без использования звуковой платы. В дополнение к снижению стоимости такая технология обеспечивает конечным пользователям несколько преимуществ, в частности, возможность изменять громкость и баланс динамика на самом устройстве и возможность профессионалам программировать устройство с помощью интерфейса электронной таблицы Excel.

Стандарт MP3


Сформированный на базе оригинального стандарта MPEG стандарт MP3 (это аббревиатура от MPEG Audio Layer 3) представляет собой одну из трех схем кодирования (Layer 1, Layer 2 и Layer 3) для сжатия звуковых сигналов и использует способ кодирования звука, опирающийся на психоакустику. Эта наука исследует, как мозг человека воспринимает звук, и доказала, что он просто не может обработать массу информации, которую собирает ухо. MP3 удаляет избыточные и неважные части звукового сигнала. Звук качества CD сжимается в 8-12 раз практически с сохранением оригинального качества. Возможно получение еще больших коэффициентов сжатия для использования файлов в Internet. Стандарт MP3 обеспечивает хранение в одном мегабайте одной минуты высококачественной музыки.

Стандарт MP3 разделяет частотный спектр на 576 частотных диапазонов (полос) и сжимает каждый диапазон независимо. Ухо человека хорошо слышит среднечастотные сигналы, но хуже низко- и высокочастотные. Их можно услышать, но недостаточно хорошо, чтобы различить отдельные детали. Следовательно, эти диапазоны можно сильно сжать без заметного влияния на общее качество звука, применяя так называемое персептуальное кодирование (perceptual coding). Когда два звука возникают одновременно, MP3 записывает только один - тот, который действительно отберет ухо человека. Аналогично можно удалить тихий звук после сильного, так как его человек не услышит. Если звук идентичен в обоих стереоканалах, он сохраняется только один раз, но при распаковке и воспроизведении MP3-файла звук появляется в обоих каналах.

Дополнительно MP3 вводит модифицированное дискретное косинусное преобразование (Discrete Cosine Transform - DCT), которое реализует банк фильтров. В результате MP3 обеспечивает сжатие звуковых файлов с качеством CD в 12 раз с незначительной потерей качества. Звук с качеством CD с временем звучания 1 мин можно сжать до 1 МБ данных, поэтому типичную 4-минутную дорожку (трэк) компакт-диска можно сохранить в файле размером от 3.5 до 5 МБ. MP3-файл (с расширением .mp3) может также содержать информацию о самом файле, например имя артиста, графику (обычно обложку CD), адрес URL для получения дополнительной информации и др.


Еще в середине 90-х годов прошлого века студенты колледжей в США стали использовать технологию MP3 для обмена записями и она быстро распространилась в студенческой мире. Однако всеобщее признание MP3 задержалось до осени 1998 г., когда Ассоциация RIAA (Recording Industry Association of America) решила решила предъявила иск компании Diamond Multimedia за распространение плейера Rio. Фактически плейер представлял собой запоминающее устройство (флэш-память емкостью 32 МБ), которое в течение часа воспроизводило музыку, записанную в формате MP3. Отсутствие движущихся компонентов позволяло плейеру работать в течение 15 часов на одной щелочной батарее типа АА. Иск требовал запрещения распространения Rio, но суд не удовлетворил его, посчитав, что Rio не является "устройством записи цифрового звука" и на него не распространяются ограничения Акта US 1992 Audio Home Recording Act. Однако громкий судебный процесс способствовал широкому использованию MP3-файлов в Internet.

Большинство MP3-файлов создается из оригинального материала со звукового CD. Процесс состоит из двух этапов. На первом этапе производится преобразование дорожек формата CD-DA цифрового звука в формат WAV. Этот обязательный этап оказывается очень важным. Имеются программы, которые могут создавать MP3 непосредственно с CD, но они реализуют это, выполняя на начальном шаге извлечение звука с CD. Задача решается специализированными программами, которые обычно называются CD-Rippers. Программа CD-Ripper считывает дорожки звукового CD и записывает их на жесткий диск как файлы с расширением .wav. В формате WAV 4-минутная дорожка обычно занимает от 40 до 50 МБ, поэтому для преобразования всего компакт-диска требуется большое дисковое пространство.

Второй этап процесса заключается в преобразовании файлов .wav в формат .mp3. Для этого этапа также требуются специализированные программы, которые носят общее название MP3 Encoders. MP3-файлы можно получить с разными коэффициентами сжатия, что позволяет пользователям выбрать оптимальное соотношение между количеством и качеством. Обычно предоставляются такие опции:

  • "Качество CD" - сжатие 12:1.
  • "Близкое к CD качество" - сжатие 18:1.
  • "Качество FM-радио" (Real Audio) сжатие 70:1.

Большинство MP3-файлов в Internet закодировано с частотой 44 кГц и скоростью 128 Кб/с, что обеспечивает хороший компромисс между качеством и размером. Кодирование со скоростью 192 Кб/с обеспечивает очень высокое качество, но за счет значительного увеличения размеров файлов. Дорожки, записанные со скоростью 64 Кб/с и ниже дискретизируются с частотой 22 кГц. Обратный процесс - преобразование MP3-файлов в дорожки звукового CD - также состоит из двух этапов. Декодирование MP3-файла в WAV-файл выполняется специализированной программой, которая называется MP3 Decoder. Передачу WAV-файла на CD выполняют специальные приложения, записывающие на CD-R или CD-RW, например Easy CD Creator или WinonCD.

Конечно, в конце 90-х годов прошлого века формат MP3 был заметным явлением, но, по-видимому, вскоре его вытеснят более совершенные форматы. Сейчас уже известно несколько форматов, которые обеспечивают лучшее сжатие и сравнимое качество. Например, формат усовершенствованного сжатия звука (Advanced Audio Compression - AAA) позволяет получать файлы, размеры которых на 30% - 40% меньше размеров MP3-файлов при одинаковом качестве звучания.






Наверх