Процессоры компаний Cyrix и AMD
Фирма Intel много лет занимала лидирующие позиции по производству процессоров для РС. Ее доминированию на этом рынке с 1989 г., когда появился процессор 486, стали серьезно угрожать две компании - Cyrix и Advanced Micro Devices (AMD).
Компания AMD давно выпускала процессоры для РС, начиная с процессора 8088, который применялся в первом IBM PC, и кончая процессором седьмого поколения Athlon. Утверждение о том, что процессор Athlon представляет собой первый случай в истории семейства x86, когда фирма Intel уступила лидерство другой компании, не совсем точное. Еще десять лет назад процессор 386DX-40 компании AMD превосходил процессор Intel 486SX по производительности и стоимости.
В самом начале 90-х годов прошлого века компании AMD и Cyrix выпустили свои версии процессора 486DX, но их процессоры стали более известными с появления их клонов процессора 486DX2, один из которых копировал процессор 486DX2-66 (выпущенный фирмой Intel в 1992 г.), а второй имел более высокую внутреннюю частоту 80 МГц. Процессор 486DX2-80 работал с системной шиной 40 МГц и в отличие от процессоров Intel DX2 (которые работали с питанием +5 В) имел напряжение питания +3.3 В. Вскоре после этого компании AMD и Cyrix выпустили версии с утроением частоты своих процессоров 40 МГц 486, которые имели внутреннюю частоту синхронизации 120 МГц. Обе компании AMD и Cyrix ввели средства управления мощностью в процессоры с удвоением частоты, а фирма Intel последовала их примеру в процессоре DX4, который появился примерно через два года.
Несмотря на то, что фирма Intel прекратила выпуск процессора 486 после появления модели DX4-100, компании AMD и Cyrix продолжили эту линию. В 1995 г. компания AMD объявила процессор 5x86 с учетверением частоты 5x86, который фактически был процессором 486DX с внутренней частотой 133 МГц (частота системной шины составляла 33 МГц). Компания считала этот процессор сравнимым по производительности с новым процессором Pentium/75 фирмы Intel и назвала его 5x86-75. Однако во всех отношениях это был процессор 486DX, включая добавление L1-кэша емкостью 16 КБ, который компания Intel ввела в процессор DX4. Компания Cyrix последовала этому примеру своим процессором 5x86, который назывался M1sc, но этот процессор во многом отличался от процессора компании AMD. Фактически процессор M1sc обладал некоторыми возможностями процессора Pentium, хотя он и предназначался для материнских плат 486. Работая на частоте 100 МГц и 120 МГц, этот процессор имел 64-битовую шину данных, 6-ступенчатый конвейер (в отличие от 5-ступенчатого конвейера процессора DX4) и использовал технологию предсказания перехода для повышения скорости выполнения команд. Важно отметить, однако, что процессор Cyrix 5x86 появился после выпуска процессора Pentium, поэтому указанные возможности были полезнее для модернизации систем с процессорами 486, а не производства новых систем.
В годы после появления процессора Pentium разработки обоих производителей ориентировались на рынок массовых дешевых РС. Если компания Intel сконцентрировала теперь свои усилия на конструкции Slot 1 и Slot 2, целью обоих ее конкурентов стало достижение производительности новых разработок фирмы Intel по мере их появления без перехода к новым технологиям интерфейса процессора. В результате срок службы форм-фактора Socket 7 был значительно продлен. Производители материнских плат и чипсетов, кооперирующиеся с конкурентами фирмы Intel, позволили системам на базе Socket 7 предложить такие новинки, как передняя шина (FrontSide Bus - FSB) на частоту 100 МГц и поддержку ускоренного графического порта (Accelerated Graphics Port - AGP).
В середине 1999 г. произошли некоторые новые события, которые оказали заметное влияние на рынок процессоров в последующие годы. В августе компания Cyrix оставила рынок настольных РС, когда компания National Semiconductor продала права на процессоры x86 тайваньской компании VIA Technologies, которая производила чипсеты. Высоко интегрированные процессоры MediaGX остались за компанией National Semiconductor как часть нового семейства Geode систем на кристалле (system-on-a-chip), которое компания разрабатывала для рынка потребительских изделий.
Буквально через несколько дней компания VIA объявила о своем намерении приобрести компанию Centaur Technology, которая разрабатывала и производила процессоры WinChip семейства х86. Было неясно, связаны ли эти действия с намерением компании VIA стать серьезным конкурентом на рынке процессоров или с желанием конкурировать с компанией National Semiconductor на рынке систем на кристалле. До настоящего времени у производителей чипсетов нет технологии для семейства x86, которая позволила бы им выпускать дешевые чипсеты с повышенными уровнями функциональности на одном кристалле.
Еще одним серьезным событием стал перехват компанией AMD технологического
лидерства к фирмы Intel выпуском нового процессора Athlon (кодовое имя K7).
Фирма Intel объявила о задержке выпуска процессора Pentium III с технологией
0.18 мкм (Coppermine) примерно в то же время, когда компания AMD выпустила новый
процессор. Будет интересно посмотреть, воспользуется ли компания AMD
беспрецедентной возможностью доминировать на рынке мощных процессоров и как
повлияет Athlon на позиции компании в последующие годы.
Процессор Cyrix 6х86
Выпущенный в октябре 1995 г. процессор 6x86 был первым Pentium-совместимым процессором, разработанным совместно с отделением Microelectronics Division компании IBM. Первоначально объем продаж был небольшим, так как компания Cyrix установила слишком высокую цену, ошибочно считая, что при аналогичной производительности с Pentium цена также должна быть высокой. После снижения цены дешевый высокопроизводительный процессор занял заметное место на рынке.
Поскольку процессор 6x86 обеспечивал эквивалентный Pentium уровень производительности при меньшей частоте синхронизации, компания Cyrix вместе с группой других компаний разработала альтернативу традиционной системе рейтинга на основе частоты синхронизации. Этот рейтинг Processor Performance, или P-rating, является стандартизованным показателем производительности на основе приложений. Процессоры компании Cyrix традиционно работали на меньшей частоте, чем показывал их P-rating, без заметного ухудшения производительности. Например, процессор P133+ работает на частоте 110 МГц, а процессоры P150+ и P166+ работают на частотах 120 МГц и 133 МГц, соответственно.
Высокая производительность процессора 6x86 достигнута благодаря усовершенствованиям архитектуры процессора, которые позволили ему обращаться к внутренним кэшу и регистрам за один такт синхронизации (в процессоре Pentium обращения к кэшу занимают не менее двух тактов). Кроме того, L1-кэш процессора 6x86 был унифицированным, а не состоял из двух отдельных секций для команд и данных. Такая унифицированная модель может хранить команды и данные в любой пропорции, что обеспечивает коэффициент попаданий в кэше на уровне 90%.
Кроме того, процессор 6x86 имеет несколько аналогий с процессором Pentium Pro. Этот суперскалярный суперконвейерный процессор устанавливается в сокет Socket 7 процессора Pentium P54C. Процессор 6x86 содержал 3.5 млн транзисторов и производился по технологии 0.5 мкм (пять слоев). Ядро имело питание +3.3 В, а схемы ввода-вывода +5 В.
В процессоре 6x86 были следующие одинаковые с процессором Pentium средства:
суперскалярная архитектура, 80-битовое FPU, L1-кэш 16 КБ и режим управления
системой (System Management Mode - SMM). Однако он имел и несколько важных
отличий. Процессор 6x86 является суперконвейерным, т.е. в нем есть семь, а не
пять, ступеней конвейера (Prefetch, два Decode, два Address Generation, Execute
и Write-back), чтобы ускорить прохождение информации и избежать простоев.
Имеется также средство переименования регистров (Register Renaming),
обеспечивающее временное хранение данных для мгновенной доступности данных без
ожидания обращения процессора к L1-кэшу или системной памяти.
Новые архитектурные средства включали в себя удаление зависимости от данных, предсказание разветвления по нескольким направлениям и выполнение по предположению. Благодаря этим средствам предотвращается простой конвейера путем предоставления результатов команд: предсказание требований, выполнение команд с более высокой точностью и разрешение быстрым командам нарушать порядок конвейера, не нарушая ход программы. Все эти средства позволили процессору 6х86 превысить производительность Pentium с одинаковой рабочей частотой.
Важным достоинством 6x86 была обработка кода. Он обрабатывает код в "естественном режиме" и полностью оптимизирует CISC-систему команд; это относится 16- и 32-битовому коду. Процессор Pentium также делает это, но в отличие от Pentium Pro требует преобразовывать CISC-команды в RISC-микрооперации до передачи в конвейеры. Следовательно, процессор 6x86 в отличие от Pentium Pro не изменяет производительности при выполнении 16- или 32-битового кода. С другой стороны, процессор Pentium Pro разрабатывался как чисто 32-битовый процессор и 16-битовые команды могли долго простаивать в конвейере.
В результате все эти дополнительные архитектурные новинки обеспечивают процессору Cyrix 6x86 важнейшее преимущество: лучшая производительность при меньшей частоте синхронизации. При сравнении с процессором Pentium по тактам процессор 6x86 оказывается более эффективным.
Однако у первых процессоров 6x86 было и несколько проблем, в частности,
перегрев, плохая производительность для вычислений с плавающей точкой и
несовместимости с Windows NT. Они препятствовали успеху процессора 6x86 и его
преобладание над Pentium оказалось недолгим и практически закончилось в начале
1997 г., когда фирма Intel выпустила процессоры Pentium с расширениями MMX.
Процессор Cyrix MediaGX
Появление процессора MediaGX в феврале 1997 г. определило первую за десятилетие новую архитектуру РС и открыло новую сферу рынка - дешевые "Базовые РС". Этот рынок стремительно развивался и для него важнейшим компонентами оказались технология процессора компании Cyrix и системные новинки.
Чем больше обработки производится в самом процессоре РС, тем выше общая производительность системы. В традиционном компьютере процессор обрабатывает данные на уровне сотен МГЦ, а шина, которая передает данные между другими компонентами, работает только с половинной скоростью или даже меньше. Следовательно, на передачи данных в процессор и из процессора расходуется много времени, поэтому потенциально возникает "простой" из-за данных. В технологии MediaGX компания Cyrix ликвидировала это узкое место.
Архитектура MediaGX интегрирует функции графики и звука, интерфейс шины PCI и контроллер памяти в процессорном блоке, устраняя потенциальные системные конфликты и проблемы конфигурирования конечных пользователей. Процессорный блок состоит из микросхемы собственно процессора MediaGX и вспомогательной микросхемы MediaGX Cx5510. Для процессора требуется фирменный сокет, рассчитанный на специально спроектированную материнскую плату.
Процессор MediaGX является x86-совместимым процессором, который прямо
подключается к шине PCI и памяти EDO DRAM по выделенной 64-битовой шине данных.
Компания Cyrix посчитала, что специальный способ уплотнения для шины данных
делает ненужным L2-кэш. Однако в процессоре имеется единый L1-кэш емкостью 16
КБ, аналогичный кэшу стандартного процессора Pentium.
Графику обрабатывает специальный конвейер в самом процессоре и дисплейный контроллер также реализован в главном процессоре. Видеопамяти нет и буфер кадра находится в основной памяти без ухудшения производительности, ассоциируемой с традиционной унифицированной архитектурой памяти (Unified Memory Architecture (UMA), вместо которой используется технология сжатия отображения (Display Compression Technology - DCT) компании Cyrix. Операции над данными VGA реализованы аппаратно, но регистрами VGA управляет программа архитектуры виртуальной системы (Virtual System Architecture - VSA).
Вспомогательная микросхема MediaGX Cx5510 содержит аудио-контроллер и по-прежнему использует программу VSA для имитации функциональности стандартных звуковых микросхем. Он также обеспечивает мост к шине ISA, интерфейсу IDE и портам ввода-вывода. Он же связывает процессор MediaGX через шину PCI с шиной ISA, служит интерфейсом с IDE и портами ввода-вывода, а также выполняет традиционные функции чипсета.
После того, как компанию Cyrix в ноябре 1997 г. приобрела компания National
Semiconductor, было решено не конкурировать с фирмой Intel и сфокусировать
усилия на снижении стоимости РС, совершенствуя технологию MediaGX "РС на
кристалле". Летом 1998 г. были выпущены процессоры MediaGX по технологии 0.25
мкм с рабочими частотами 233 МГц и 266 МГц.
Процессор Cyrix 6x86MX
Ответом компании Cyrix на технологию MMX фирмы Intel был процессор 6x86MX, выпущенный в середине 1997 г. незадолго до приобретения компании Cyrix компанией National Semiconductor. Новый процессор был рассчитан на формат Socket 7, что позволило снизить расходы производителям РС, а также потребителям, продлевая срок службы имеющихся у них чипсетов и материнских плат.
Архитектура нового процессора практически повторяла архитектуру его предшественника, но были добавлены MMX-команды, несколько улучшено устройство с плавающей точкой, емкость единого L1-кэша увеличена до 64 КБ и модернизировано устройство управления памятью. Двухконвейерная схема аналогична схеме процессора Pentium, но оказалась проще и более гибкой.
Процессор 6x86MX пользовался успехом на рынке, причем процессор 6x86MX/PR233
на частоте 187 МГц работал быстрее процессоров Pentium II и K6 с частотой 233
МГц. Кроме того, процессор 6x86MX стал также первым процессором, который работал
с внешней шиной на частоте 75 МГц с соответствующим повышением
производительности. Однако, как это было и с предыдущими процессорами компании
Cyrix, производительность с плавающей точкой 6x86MX значительно уступала
конкурирующим процессорам, а это снижало эффективность приложений трехмерной
графики.
Процессор Cyrix MII
Процессор MII представляет собой эволюцию процессора 6x86MX, рассчитанную на
более высокие рабочие частоты. Летом 1998 г. компания National Semiconductor
выпустила процессоры MII-300 и MII-333 по технологии 0.25 мкм, а целью компании
был переход на технологию 0.18 мкм в концу 1999 г.
Процессор AMD K6
Много лет компания Advanced Micro Devices (AMD), как и компания Cyrix, выпускала процессоры 286, 386 и 486, которые были клонами разработок фирмы Intel. Процессор К5 был первым x86-процессором, который компания разрабатывала самостоятельно и с которым она связывала большие надежды. Однако он имел ограниченный успех, который объяснялся отсутствием самостоятельной ниши на рынке, а не проблемами в самом процессоре.
Однако приобретение в середине 1996 г. компанией AMD одного из калифорнийских конкурентов позволило ей лучше подготовиться к следующему "сражению" с фирмой Intel. Семейство К6 MMX-совместимых процессоров было выпущено в середине 1997 г., на несколько недель опередив выпуск процессора Cyrix 6x86MX.
Процессор К6 производится по пятислойной технологии 0.35 мкм и почти на 20% меньше Pentium Pro, но содержит на 3.3 млн транзисторов больше (8.8 млн вместо 5.5 млн). Большинство дополнительных транзисторов приходится на L1-кэш емкостью 64 КБ, который разделен на кэш команд и кэш данных. Оба этих кэша представляют собой двухпортовый кэш с обратной записью. Емкость L1-кэша процессора К6 в четыре раза больше по сравнению с Pentium Pro и вдвое больше, чем в процессорах Pentium MMX и Pentium II.
Процессор K6 поддерживает технологию MMX, включая 57 новых х86-команд, направленных на более эффективное выполнение мультимедийных программ. Как и процессор Pentium Pro, процессор K6 использует многое из RISC-разработок. В нем реализована суперскалярная микроархитектура RISC86. Процессор декодирует каждую команду х86 в последовательность более простых операций, которые затем выполняются с использованием типичных RISC-принципов - выполнение с изменением порядка, переименование регистров, предсказание разветвления, ретрансляция данных и выполнение по предположению.
Процессор K6 был выпущен с рабочими скоростями 166 МГц, 200 МГц и 233 МГц.
Его производительность была близка к производительности процессора Pentium Pro с
максимальным L2-кэшем 512 КБ и одинаковой рабочей частотой. Как и у процессора
Cyrix 6x86MX, но в меньшей степени, производительность с плавающей точкой
процессора К6 была меньше, чем у процессоров Pentium Pro и Pentium II. Однако
массовый выпуск процессора К6 в конце 1997 г. и начале 1998 г. сдерживал переход
компании AMD на технологию 0.25 мкм. Этот переход вызвал нехватку процессоров с
частотами 200 МГц и 233 МГц, а также препятствовал выпуску процессора с частотой
300 МГц.
Платформа Super7
Когда в середине 1998 г. фирма Intel прекратила выпуск процессора MMX, она фактически полностью оставила рынок Socket 7 своим конкурентам, в основном, компаниям AMD и Cyrix. Обе компании решили продлить жизнь "устаревшего" форм-фактора. Намерение компании AMD соответствовать архитектуре Slot 1 фирмы Intel на платах с Socket 7 показал выпуск в мае 1998 г. процессора К6-2 со значительно усовершенствованной архитектурой.
Компания AMD назвало это намерение инициативой платформы Super7 и
поставила цель продлить существование платформы в течение 1999 и 2000 годов.
Разработанная компанией AMD и ее партнерами платформа Super7 превосходит Socket
7 за счет введения интерфейсов шин 100 МГц и 95 МГц и спецификации ускоренного
графического порта (Accelerated Graphics Port - AGP) и добавления поддержки
таких новых средств, как память SDRAM на 100 МГц, универсальная последовательная
шина (Universal Serial Bus - USB) и Ultra DMA. Последними новинками семейства
процессоров AMD-K6 стали поддержка заднего L2-кэша с полной скоростью и введение
необязательного L3-кэша.
Процессор AMD K6-2
Процессор AMD K6-2 содержит на кристалле 9.3 млн транзисторов и производится по пятислойной технологии 0.25 мкм. Конструктивно он оформлен в 321-контактной керамической матрице штырьковых выводов (Ceramic Pin Grid Array - CPGA), совместимой с платформой 100 МГц Super7.
Процессор K6-2 имеет эффективную RISC86-микроархитектуру, большой L1-кэш 64
КБ (двухпортовый кэш данных емкостью 32 КБ, кэш команд емкостью 32 КБ и
дополнительный кэш предварительного декодирования - predecode cache) и
улучшенное операционной устройство с плавающей точкой. С учетом критики
процессора К6 повышена скорость выполнения MMX-команд. Первая версия процессора,
выпущенная в середине 1998 г. работала на частоте 300 МГц, а к началу 1998 г.
рабочая частота была повышена до 450 МГц.
Еще одним значительным шагом вперед стали возможности трехмерной графики, которые реализованы в виде технологии 3DNow! В нее входит новый набор из 21 команды, который улучшают стандартные MMX-команды, уже включенные в архитектуру К6. Благодаря новым командам резко ускоряется выполнение операций, необходимых в приложениях трехмерной графики.
Технология 3DNow!
Выпуском процессора K6-2 в мае 1998 г. компания AMD опередила фирму Intel,
которая выпустила аналогичную технологию Katmai только почти через год - в
первой половине 1999 г. К концу марта 1999 г. число РС с поддержкой технологии
3DNow! составило более 14 млн по всему миру.
Повышая возможности процессора выполнять вычисления с плавающей точкой, технология 3DNow! ликвидирует растущий разрыв в производительности между процессором и графическим акселератором и устраняет узкое место в начале графического конвейера. Благодаря этому значительно повышается производительность трехмерных и мультимедийных приложений.
Можно считать, что обработка в графическом конвейере состоит из четырех этапов:
- Физика: Процессор выполняет физические расчеты с плавающей точкой для создания моделей реального мира и объектов в этом мире.
- Геометрия: Затем процессор трансформирует математические представления объектов в трехмерные представления, используя соотношения трехмерной геометрии, выполняя множество расчетов с плавающей точкой.
- Настройка: Процессор запускает процесс создания перспективы, необходимой для трехмерного вида, а графический акселератор завершает его.
- Приведение (рендеринг - rendering): Наконец, графический акселератор применяет реалистические текстуры к сформированным компьютером объектам, производя "попикселные" расчеты цвета, тени и позиции.
Каждая команда 3DNow! обрабатывает два операнда с плавающей точкой и микроархитектура процессора К6-2 позволяет выполнить две команды 3DNow! в такте синхронизации, а всего четыре операции с плавающей точкой в такте синхронизации. Мультимедийные устройства процессора К6-2 объединяют существующие MMX-команды, которые ускоряют целочисленные операции, с новыми командами 3DNow! и оба типа команд можно выполнять одновременно. Конечно, при наличии графических карт, которые аппаратно реализуют трехмерные операции, значительная часть трехмерного приведения производится вне процессора. Однако даже при наличии многих аппаратных решений трехмерной графики все остается масса сложной обработки с плавающей точкой на начальных этапах конвейера трехмерной графики - в основном, генерирование сцены и геометрические преобразования, а также настройка (подготовка - setup) треугольников. Архитектура Р6 фирмы Intel, реализованная в процессорах Pentium II и Celeron, всегда была особенно сильной в этой области, оставляя компании AMD, Cyrix и IBM позади. Новые команды 3DNow! восстанавливают баланс с SIMD-операциями с плавающей точкой (Single Instruction Multiple Data - один поток команд - много потоков данных) для ускорения настройки трехмерной геометрии и декодирования MPEG.
Очень широкий диапазон приложений может эффективно использовать преимущества
технологии 3DNow!, которая лицензирована компаниями Cyrix и IDT/Centaur для
будущих процессоров. Наряду с играми можно отметить системы автоматизированного
проектирования, распознавание речи и программное декодирование DVD.
Производительность повышается еще более при использовании DirectX 6.0,
выпущенного компанией Microsoft летом 1998 г. Здесь имеются процедуры для
распознавания и "выжимания" максимума из новой системы команд.
Процессор AMD K6-III
В феврале 1999 г. компания AMD объявила о начале массовых поставок процессора AMD K6-III (кодовое имя Sharptooth) с рабочей частотой 400 МГц. Важнейшей новинкой этого процессора стала организация трехуровневого кэша (TriLevel Cache).
Традиционно в процессорах РС применяются кэши двух уровней:
- L1-кэш, который обычно размещается на кристалле процессора.
- L1-кэш, который может находиться либо внешне на материнской плате или как модуль в слоте, либо внутренне на кристалле в виде заднего L2-кэша.
Для подсистемы кэша простейшее правило заключается в том, что чем больше и быстрее кэш, тем выше производительность. С учетом преимуществ большого и быстрого кэша в современных приложениях принцип TriLevel Cache вводит несколько архитектурных новинок в подсистему кэша, предназначенных для повышения производительности РС, которые опираются на платформу Super7:
- Внутренний L2-кэш емкостью 256 КБ с обратной записью, который работает с полной скоростью процессора AMD-K6-III и дополняет L1-кэш емкостью 64 КБ, являющийся стандартным во всех процессорах семейства AMD-K6.
- Многопортовая схема внутреннего кэша, обеспечивающая одновременное выполнение 64-битовых операций считывания и записи в оба L1-кэш и L2-кэш.
- 4-направленный ассоциативный по множеству L2-кэш, обеспечивающий оптимальное управление данными.
- Передняя шина с частотой 100 МГц к внешнему кэшу на материнской плате Super7, имеющему емкость от 512 КБ до 2048 КБ.
Схема многопортового внутреннего кэша процессора AMD-K6-III позволяет обоим L1-кэшу и L2-кэшу одновременно выполнять 64-битовые операции считывания и записи за один такт синхронизации. Такая многопортовая схема обеспечивает более быструю и эффективную обработку данных по сравнению со схемой без портов. В дополнение к этой многопортовой схеме ядро процессора AMD-K6-III может обращаться к обоим кэшам одновременно, что еще более повышает общую производительность процессора.
Компания AMD объявила, что при наличии полностью конфигурированного L3-кэша
процессор K6-III имеет превосходство по размеру кэша на 435% по сравнению с
процессором Pentium III, обеспечивая значительно более высокую
производительность.
Процессор AMD Athlon
Выпуск процессора Athlon летом 1999 г. стал крупным успехом компании AMD. Она не только первой выпустила процессор седьмого поколения (ядро Athlon имеет достаточно радикальных архитектурных отличий от процессоров Pentium II/III и K6-III, чтобы считаться процессором нового поколения), но и перехватила технологическое лидерство у компании Intel. На кристалле площадью 102 кв. мм размещается примерно 22 млн транзисторов. Основными компонентами процессора являются:
- Несколько дешифраторов: Три дешифратора команд x86 преобразуют команды х86 в макрооперации MacroOP фиксированной длины для повышения пропускной способности по командам. Вместо выполнения команд х86, имеющих длину о одного до 15 байтов, процессор Athlon выполняет MacroOP фиксированной длины, сохраняя эффективность кодирования команд в программах для процессоров x86.
- Устройство управления командами (Instruction Control Unit - ICU): Когда MacroOP декодированы, до трех MacroOP в такте диспетчируются устройству управления командами. Оно представляет собой 72-элементный буфер переупорядочивания (ReOrder Buffer - ROB), который управляет выполнением и удалением всех MacroOP, выполняет переименование регистров для операндов, а также управляет всеми особыми случаями и операциями удаления команд. Устройство ICU диспетчирует MacroOP нескольким планировщикам операционных устройств процессора.
- Операционный конвейер (Execution Pipeline:) Процессор Athlon содержит 18-элементный планировщик генерирования целочисленных и адресных MacroOP , а также 36-элементный планировщик устройства с плавающей точкой (FPU)) и мультимедиа. Эти планировщики выдают MacroOP в девять независимых операционных конвейеров - три для целочисленных вычислений, три для адресных вычислений и три для выполнения команд MMX, 3DNow! и команд х87 с плавающей точкой.
- Суперскалярное FPU: Предыдущие процессоры компании AMD по вычислениям с плавающей точкой уступали процессорам фирмы Intel. Эта проблема благополучно решена в процессоре Athlon, который имеет суперскалярную машину, опирающуюся на три конвейерных операционных устройства (FMUL, FADD и FSTORE). Термин суперскалярный (superscalar) относится к возможности процессора выполнять несколько команд в такте синхронизации; такие процессоры существовали и ранее, в процессоре Athlon суперскалярная технология впервые реализована для подсистемы FPU. Суперскалярную производительность FPU процессора Athlon несколько снижает конвейеризация, но все же Athlon может формировать в такте синхронизации до четырех 32-битовых результатов с плавающей точкой в такте синхронизации, а это соответствует при частоте 600 МГц пиковой производительности в 2.4 миллиарда операций с плавающей точкой в секунду.
- Предсказание перехода (Branch Prediction): Процессор имеет сложную логику динамического предсказания разветвления, которая минимизирует или устраняет задержки в командах переходов (безусловные переходы, вызовы и возвраты), встречающихся в программах для процессоров семейства x86.
- Системная шина: Системная шина процессора Athlon является первой системной шиной с частотой 200 МГц для платформы x86. Опирающаяся на шинный протокол EV6 процессора Alpha, передняя шина (FrontSide Bus - FSB) потенциально допускает увеличение частоты до 400 МГц и выше. В отличие от конструкции разделяемой шины симметричной мультиообработки (Symmetric Multi-Processing - SMP) процессора Pentium III она использует архитектуру точка-точка, обеспечивая высокую пропускную способность для одно= и многопроцессорных платформ x86.
- Архитектура кэша: Архитектура кэша процессора Athlon представляет собой значительный шаг вперед по сравнению с обычными процессорами шестого поколения. L1-кэш имеет емкость 128 КБ (в четыре раза больше по сравнению с процессором Pentium III), а контроллер L2-кэша поддерживает емкость от 512 КБ до 8 МБ и для кэша используется скоростная 64-битовая задняя шина.
- Расширение команд 3DNow!: В ответ на Streaming SIMD Extensions процессора Pentium III реализация 3DNow! в процессоре Athlon модернизирована путем добавления новых 24 команд к первой 21 команде, причем 19 команд улучшают целочисленные MMX-расчеты передачи данных в потоковых приложениях Internet, а пять команд предназначены для программного модема и воспроизведения музыки Dolby Digital и MP3.
Для процессора Athlon применяется фирменный модуль Slot A, который механически совместим с материнскими платами, имеющими Slot 1, но использует другой электрический интерфейс, поэтому процессоры Athlon не работают на материнских платах с Slot 1. Slot A рассчитан на электрическое подключение к системной шине 200 МГц, опирающейся на шинный протокол Alpha EV6, что обеспечивает значительное повышение производительности по сравнению с инфраструктурой Slot 1. Предоставив свой оптимизированный чипсет AMD-750, компания AMD работает с лидирующими поставщиками чипсетов, чтобы помочь им освоить выпуск чипсетов, оптимизированных для систем с процессором Athlon.
Вначале процессор Athlon работал на частотах 650, 600, 550 и 500 МГц и производился по технологии 0.25 мкм. К концу 1999 г. частота процессора была повышена до 750 МГц и процессор стал производиться по технологии 0.18 мкм. Однако вскоре фирма Intel выпустила процессор Pentium III на 800 МГц. В начале 2000 г. компания AMD вновь вышла в лидеры, выпустив процессоры с рабочими частотами 800 МГц и 850 МГц, а через несколько недель взяла барьер в 1 ГГЦ. Вскоре появились процессоры Athlon с медными межсоединениями.
Чипсет AMD-750
Чипсет AMD-750 состоит из двух физических устройств: системного контроллера AMD-751 и контроллера периферийной шины AMD-756.
Важнейшими возможностями системного контроллера AMD-751 являются:
1. Поддержка интерфейса системной шины процессора Athlon, первой
системной шины на частоту 200 МГц для платформы x86.
2. Системная архитектура, оптимизированная для процессора Athlon седьмого
поколения.
3. Соответствие интерфейсу шины PCI 2.2 с поддержкой до шести ведущих
шины PCI.
4. Поддержка модулей DIMM памяти SDRAM емкостью до 768 МБ на шине PC-100.
5. Соответствие спецификации AGP 2.0 для режимов 1x и 2x.
6. Оптимизация на повышение системной производительности в системах с
процессором Athlon.
Важнейшими возможностями контроллера периферийной шины AMD-756 являются:
1. Улучшенный режим контроллера ведущего шины IDE с поддержкой Ultra
DMA-33/66.
2. Поддержка технологии Plug-n-Play, а также стандартов управления
мощностью ACPI 1.0 APM 1.2.
3. Соответствующий PC97 мост шин PCI-ISA и интегрированный контроллер
шины ISA/
4. Интегрированный контроллер шины USB с корневым хабом и четырьмя
портами.
5. Поддержка устаревшего контроллера мыши и клавиатуры.
Процессор Thunderbird
В середине 2000 г. компания AMD выпустила улучшенную версию процессора Athlon с
кодовым именем Thunderbird. В нем L2-кэш емкостью 512 КБ заменен кэшем емкостью
256 КБ, который размещен на кристалле процессора и работает с полной частотой
процессора. Помимо повышения производительности переход к кэшу на кристалле
позволил компании AMD перейти от процессоров в слоте к форм-фактору с сокетом -
для процессора Thunderbird разработан 462-контактный сокет, названный Socket A.
Поддерживающий память PC133, улучшенный процессор Athlon первоначально работал
на шести частотах от 750 МГц до 1 ГГц и был рассчитан на слот Slot A (только для
производителей комплектного оборудования - OEM) и новый Socket A. Позднее были
выпущены версии процессора на частоты 1.1 ГГц и 1.2 ГГц только для форм-фактора
Socket A.
Процессор Duron
Несмотря на то, что компания AMD стала выпускать свой процессор K6-III, рассчитанный на Socket 7, только для мобильных РС, на рынке дешевых процессоров доминировали процессоры семейства Celeron фирмы Intel. В середине 2000 г. компания AMD решила вторгнуться на этот рынок, объявив новое семейство процессоров Duron.
Процессор Duron опирается на своего более мощного "кузена" - процессор Athlon. Название Duron происходит от латинских слов durare (последний) и on (устройство). Процессор имеет L1-кэш емкостью 128 КБ/64 КБ, размещенный на кристалле, переднюю системную шину на частоту 200 МГц и поддерживает улучшенную технологию 3DNow! L2-кэш емкостью 64 КБ уступает L2-кэшам процессора Athlon (256 КБ) и процессора Celeron (128 КБ). Компания AMD считает, что такой кэш обеспечивает приемлемую производительность и в тоже время позволяет поставлять процессор по более низкой цене по сравнению с процессором Celeron.
Процессор Duron производится по технологии 0.18 мкм. Первые модели процессора
имели рабочую частоту 600 МГц, 650 МГц и 700 МГц. Процессор рассчитан только на
форм-фактор Socket A.
Световой транспорт данных
Разработанный компанией AMD световой транспорт данных (Lightning Data Transport - LDT) представляет собой внутреннее соединение между кристаллами, которое обеспечивает намного более высокую пропускную способность для ввода-вывода, сопроцессорной и мультипроцессорной обработки. LDT поддерживает однонаправленные связи точка-точка в каждом направлении и способен достичь пропускной способности до 6.4 ГБ/с на соединение. Фактически пропускная способность является переменной и согласовывается при инициализации. LDT реализует более чем 20-кратное повышение пропускной способности по сравнению с современными системными взаимосвязями, способными передавать до 266 МБ/с.
На рисунке приведена одна из топологий, которые улучшает LDT. Он позволяет нескольким микросхемам North Bridge (каждая имеет несколько процессоров Athlon, подключенных через стандартную шину EV6) взаимодействовать друг с другом по общей скоростной шине. Микросхемы North Bridge можно соединить с микросхемами South Bridge или другими интерфейсными контроллерами с помощью такой же шины LDT.
LDT можно рассматривать как дополнение внешне видимых стандартных шин,
например PCI и последовательного ввода-вывода, которое обеспечивает очень
быстрое соединение обеих шин. Повышенная производительность ввода-вывода LDT и
большая пропускная способность повысят общую системную производительность
серверов, рабочих станций и РС на базе процессора Athlon. Двунаправленный
чипсет, который включает в себя межсоединение LDT, должен появиться на рынке в
середине 2001 г.
Процессор Hammer
По-видимому, вдохновленная своим технологическим лидерством в производстве процессора седьмого поколения Athlon, компания AMD в октябре 1999 г. объявила свое видение поддержки 64-битовых кода и адресации памяти, которое совершенно отличается от архитектуры IA-64 фирмы Intel.
IA-64 является совершенно новой архитектурой, а компания AMD предложила расширить существующую архитектуру x86 с включением 64-битовых вычислений. Это предоставит возможность пользователям продолжать применять с имеющимися 32-битовыми приложениями, а при необходимости перейти к 64-битовым приложениям. Спецификация процессора x86-64 под кодовым именем Sledgehammer ("кувалда"), которое было сокращено до Hammer ("молоток"), была объявлена в середине 2000 г. Процессор Hammer расширяет архитектуру x86 с включением 64-битового режима, который имеет 64-битовое адресное пространство и 64-битовое пространство данных - будущие процессоры смогут определять, какой режим необходим и действовать соответственно. Система команд будет расширена с включением таких операций, как предвыборка команд и данных.
Компания AMD считает, что ее более консервативный переход к 64-битовым компьютерам имеет несколько преимуществ по сравнению с архитектурой IA-64 фирмы Intel:
- Полная естественная поддержка 64- и 32-битовых приложений.
- Меньшее потребление мощности и, как следствие, более высокие рабочие частоты.
- Потенциальная возможность формирования на одном кристалле нескольких процессоров x86-64.
- Не требуется разработка новых сложных компиляторов.
- Меньшая стоимость.
В конце 2000 г. компания AMD выпустила имитатор (симулятор - simulator) SimNow! - приложение, которое предоставляет возможность поставщикам BIOS, разработчикам инструментальных средств, разработчикам операционных систем и приложений оценить технологию x86-64 на реальном программном коде до поставки процессоров Hammer. Планы выпуска этого процессора будут объявлены в конце 2001 г.