Процессор с поддержкой инструкций sse2 что это

Приветствую! Если вы ищете информацию о SSE2, значит наверняка столкнулись с тем, что на вашем ПК не хочет запускаться какая-нибудь важная программа или игра. И это неудивительно, потому что мало кто задумывается об инструкциях CPU, пока не сталкивается с их недостатком. А далее я расскажу, что это такое и как узнать поддерживает ли процессор SSE2.

Что такое SSE2

В материале об архитектурах ЦП я уже упоминал об этой технологии. Ведь она стала одной из главных инструкций, которую выполняют все современные CPU. Она относится к числу базовых, то есть тех, что заставляют CPU решать основные задачи — вычисления, перенос данных и многое другое.

Есть ещё дополнительные, которые расширяют возможности устройства для решения конкретных задач, например, связанные с обработкой аудио, видео или изображений.

Напомню основное. Инструкции необходимы процессору для работы с программами. Ведь вне зависимости от сложности, каждая программа, даже операционная система, представляет собой набор команд. Если ЦП знает такие же инструкции, какие содержит программа, которую вы пытаетесь запустить, вы сможете рассчитывать на результат. Если же подходящих наборов команд у CPU не найдётся, при запуске ПО вы получите ошибку.

SSE2 расширяет возможности предшественницы, SSE, добавляя к имеющимся 70 командам ещё 144 новых. Так она оптимизирует основные возможности SSE и добавляет новые от устаревшей MMX.

Какие процессоры поддерживают технологию SSE

SSE поддерживают многие процессоры, так как долгое время она была ключевой и на неё опирались производители всей электроники. Поэтому под неё выпущено много всего из того, что ещё отлично работает, а потом пользователи не торопятся «обновляться». Но улучшенная технология встречается всё чаще, уже создав заметный перевес в свою сторону, и только усиливая его с годами.

Поэтому вы можете найти её на всех ЦП, поддерживающих х86-64 и не поддерживающих IA-32. Среди них:

  • Все Intel, выпущенные после Pentium 4. То есть, все Intel Core, Xeon, Celeron и другие, вплоть до Intel Atom, в том числе и с разрядностью 32 бита.
  • Все AMD начиная с Athlon 64. Например, AMD Sempron 64, Turion 64 и другие, а также линейки AMD FX, Phenom, и, конечно, Ryzen.

Если интересны не только широко распространённые модели, то VIA начиная с C3, а также Transmeta свежее Crusoe, тоже сделаны с поддержкой этой инструкции. И это далеко не весь список, который только увеличивается.

Важна ли поддержка SSE2 процессором

Так как SSE2 — базовая инструкция, без неё центральному процессору будет сложно выполнять все задачи, которые вы перед ним поставите. Всё современное ПО, в том числе и операционные системы, делаются с расчётом на то, что у CPU будет поддержка технологии SSE2. Ведь только так он сможет обработать нужный объём данных и сделать это настолько быстро, насколько нужно пользователю.

Если поддержки этой технологии не будет, вы не сможете установить Windows лучше Windows 8, вам будут не доступны новые версии профессиональных программ, большинство новых игр. Даже браузеры не запустятся, так как эту инструкцию требуют те же Google Chrome, Yandex Browser и другие.

Кстати, многие сталкиваются с ошибками насчёт недостатка каких-то наборов команд именно когда устанавливают современные браузеры, потому что под хорошие игры или профессиональный софт нередко сначала обновляется железо, и все эти проблемы исчезают сами собой.

Как узнать поддерживает ли центральный процессор SSE2

К счастью, узнать, поддерживает ли ваш процессор инструкцию SSE2, очень легко. Вы можете сделать это как с помощью софта, так и просто вручную. Если вам больше нравится искать информацию самостоятельно, отправляйтесь на официальный сайт производителя ЦП. Там должны быть данные обо всех выпущенных моделях, и зная название своей, вы без труда найдёте нужный раздел с характеристиками. Иногда там расписывают все наборы команд.

Если на официальном сайте ничего не найдётся, установите простую утилиту CPU-Z. На её скачивание и установку вы потратите не более 5 минут, а прямо на первой странице будет строчка «Instructions». Там будут написаны все инструкции, так что вы сразу поймёте, каких не хватает, чтобы запустить желаемый софт или игру.

Показать эту информацию могут и другие программы с похожими функциями, просто CPU-Z пользоваться проще всего.

Что делать, если SSE2 не поддерживается

Случается, что у ЦП нет поддержки нужной технологии, а вам очень нужно, чтобы она была. И здесь я могу посоветовать лишь один путь — купить новый процессор. Рад бы предложить более простой и дешёвый метод, но его нет, так как наборы команд для CPU задаются на стадии производства. И их нельзя просто отключать, добавлять и обновлять.

Иногда рекомендуют просто не пользоваться теми программами и играми, что требуют улучшенных технологий, и искать версии, подходящие под возможности вашего ЦП. Но долго с таким подходом не продержишься, всё равно проблема вернётся, так как софт оказывается всё требовательнее. Хотя, если у вас возникли трудности только с браузером, можно действительно попробовать установить что-то попроще, но для этого сначала придётся поискать подходящую версию.

Вы можете подробнее узнать о характеристиках SSE2 и других наборах команд отдельно, ведь тема пусть и непростая, но очень интересная. Я лишь слегка коснулся её в материале об инструкциях процессоров, но вы можете использовать его как отправную точку. И это далеко не всё, о чём я уже рассказывал насчёт CPU. Так что вы можете посмотреть как уже выпущенные статьи, так и подписаться на мои соцсети, чтобы не упустить ничего нового. Увидимся!

С уважением, автор блога Андрей Андреев.

Любой компьютер — это очень сложное устройство, которое состоит из десятков модулей. Сегодня мы разберём, какие процессоры работают и поддерживают инструкцию SSE2. А также что они собой представляют.

Содержание

  1. Что такое SSE2?
  2. Какие процессоры поддерживают технологию SSE
  3. Устройства, которые не имеют инструкций SSE2
  4. Проверка наличия SSE2 в процессоре на ПК

Что такое SSE2?

SSE2 являются SIMD — эта аббревиатура с английского языка переводится, как единая инструкция и множество данных. SIMD — это своего рода поток команд, который реализует параллелизм при работе с данными. Без них компьютеры нового поколения не смогли бы выполнять одновременно сотни процессов.

Фото ноутбуков

Набор был разработан инженерами компании Intel. Главная его цель — расширить возможности процессоров.

Без них компьютер лишается следующих возможностей:

  • SSE2 содержит команды по управлению кэшем, которые минимизируют заполнение памяти данными, тщательно сортируют их;
  • Сложные формулы для вычисления и преобразования чисел;
  • Инструкции для вычисления скалярных данных и для работы с упакованными данными;
  • Содержит набор инструкций для работы с потоковыми данными. Использует новые методы вычислений, которые эффективнее инструкций MMX;
  • SSE2 дополнила прошлую первую версию инструкций, добавив 144 новых команд;
  • И многое другое.

SIMD представляет собой процессор, который часто называют контроллером. Практически во всех случаях он является главным и содержит дополнительные модули, в которых происходит обработка данных или числовые вычисления. Сам процессор ничего не вычисляет, он лишь даёт указания своим подопечным, чем им необходимо заниматься в данный момент. То есть играет роль аналитика и управляющего.

SIMD-процессор

В свою очередь каждый управляемый модуль имеет собственную память. Когда основной процессор получает команду к вычислению, он переправляет её всем вычислительным элементам. После чего каждый свободный элемент принимается за работу. Подобную архитектуру используют в создании компьютерных процессоров не только Intel, но и AMD.

Читайте также: CUDA error — cannot allocate big buffer for DAG как исправить.

Какие процессоры поддерживают технологию SSE

Несмотря на то, что уже есть более усовершенствованные инструкции (SSE3, SSSE3), процессоры, поддерживающие инструкцию SSE2, также до сих пор применяют. Более того, если в процессоре вашего компьютера она будет отсутствовать, вы не сможете установить на него Windows версии 8.1 и выше. А также текстовый процессор Word версии 2013 года или позднее.

Программа Word

Впервые компания Intel использовала SSE2 в Pentium 4. И с тех пор практически каждая модель процессора содержит её. Поэтому сегодня сложно найти контроллер без инструкции.

Поддержка SSE2: Пояснение:
Осуществляется в разных процессорах 32 и 64 бит. Инструкции есть в линейках AMD K8 — серии AMD Ryzen, Ruion 64, Athlon 64, FX, Phenom, Sempron.
Практически во всех Intel Core i3, Core i5, Corei7, Duo-Core, а также процессоры, которые поддерживают технологию NetBurst (Celeron D, Xeon, Pentium 4, Celeron).
В более бюджетных моделях. Intel Atom, Pentium M и процессора Celeron M.

Процессоры Intel

Вполне возможно, что вскоре будут разработаны новые инструкции, которые придут на смену старым. В этом случае SSE2 исчезнет из списка так же, как и её предшественник.

Это может быть полезным: SM контроллер шины — что это за драйвер.

Устройства, которые не имеют инструкций SSE2

Инструкции SSE2 были разработаны и внедрены в тридцати двух битные процессоры Intel или являются их усовершенствованием. Поэтому компьютерные процессоры, созданные на базе другой архитектуры (например, 16 бит) их не поддерживают. Поскольку SSE2 была разработана и внедрена в Pentium 4, то поддержка отсутствует в процессорах, выпущенных компанией до этой версии. А также нет инструкций в AMD Athlon 64. И некоторые других (Crusoe).

Процессор Crusoe

Проверка наличия SSE2 в процессоре на ПК

Чтобы определить поддержку данной инструкции на своём компьютере, необходимо воспользоваться утилитой для отображения информации о процессоре. Подобных существует очень много, самой простой является CPU-Z, которую можно загрузить бесплатно с официального сайта https://www.cpuid.com/.

Кнопка для загрузки CPU-Z

На главной странице нажмите на кнопку «Download» в окне программы для Windows. Программа очень компактна, её установочный пакет размером всего 1.9 Мб.

Линки на скачивание

После установки запустите утилиту и выберите вкладку «CPU» в том случае, если программа по умолчанию открыла другую.

Программа CPU-Z

Выберите вкладку CPU

На данной странице будет отображаться основная информацию о процессоре вашего компьютера. А именно: название, серия, кодовое название, спецификации и технологии. Инструкции находятся в соответствующей строке «Instruction». На иллюстрации видно, что текущий процессор имеет инструкции: SSE, SSE2, SSE3, AMD-V, x86-64, MMX, 3D-NOW!.

Строка с инструкциями

Если вы покупаете процессор в магазине или в интернете, то эту информацию можно узнать у консультанта. Все процессоры, которые имеют поддержку инструкций (в том числе, SSE2), в интернет-магазине можно найти на странице с подробной информацией.

Информация о процессоре

Например, на страницах популярного AliExpress достаточно выбрать модель процессора из списка, и найти эту информацию не составит труда.

Какие процессоры поддерживают SSE2

Насколько важна поддержка инструкций SSE2 процессором и как узнать поддерживает ли их мой процессор?

SSE2 это набор инструкций, который определяет возможности того или иного процессора. Был разработан компанией Intel в 2000 году и включен в состав процессоров Pentium 4. Пришел на смену набору SSE, расширив список команд с 70 до 144.

история обновления SSE

Развитие SSE

C тех далеких времен вышло несколько более свежих версий этого набора инструкций.

На компьютер без поддержки SSE2 невозможно установить Windows 8 и более поздние версии этой операционной системы, Microsoft Office 2013 также требует поддержку SSE2 и практически все современные браузеры, включая Google Chrome и Mozilla Firefox.

Все больше программ обновляется до версий, которым необходимо наличие этого набора команд в процессоре компьютера.

Какие процессоры имеют поддержку SSE2?

У Intel данный набор инструкций впервые был внедрен на семейство процессоров Pentium 4 в 2000 году. Следовательно все процессоры, выпущенные позже, а это Pentium 4, Xeon, Celeron, Celeron D, Pentium M, Celeron M, Pentium D, Intel Atom, Core i3, i5, i7 поддерживают данный набор инструкций.

AMD внедрила SSE2 на свои процессоры впервые в 2003 году, когда была представлена архитектура AMD K8. Сюда входят все Athlon 64, Athlon 64 X2,  Sempron 64, Turion 64. Поэтому если ваш AMD процессор выпущен в 2003 и позднее, то с 99% вероятностью он поддерживает SSE2.

Как узнать поддерживает ли процессор SSE2?

Во первых, при попытке установить на компьютер с процессором без поддержки SSE2 последнюю версию браузера Chrome или Mozilla Firefox будет появляться ошибка с текстом “This program requires a computer that supports SSE2 instructions”. В ней говорится, что для данной программы нужен процессор с поддержкой SSE2.

Эту ошибку можно будет наблюдать при попытке установить или запустить любую другую игру или программу, для которой необходима поддержка данного набора команд.

Также вы можете скачать бесплатную программу CPU-Z, запустив которую можно посмотреть какие наборы команд доступны для использования на вашем процессоре.

как узнать поддерживает ли мой процессор SSE2

Просмотр поддерживаемых инструкций процессором в программе CPU-Z

Что делать, если SSE2 не поддерживается?

Самый правильный вариант – обновлять компьютер (установить процессор с поддержкой SSE2, если это возможно) или приобрести новый.

Также можно попробовать поискать более ранние версии той программы, которая требует поддержку этого набора команд.

From Wikipedia, the free encyclopedia

SSE2 (Streaming SIMD Extensions 2) is one of the Intel SIMD (Single Instruction, Multiple Data) processor supplementary instruction sets introduced by Intel with the initial version of the Pentium 4 in 2000. It extends the earlier SSE instruction set, and is intended to fully replace MMX. Intel extended SSE2 to create SSE3 in 2004. SSE2 added 144 new instructions to SSE, which has 70 instructions. Competing chip-maker AMD added support for SSE2 with the introduction of their Opteron and Athlon 64 ranges of AMD64 64-bit CPUs in 2003.

Features[edit]

Most of the SSE2 instructions implement the integer vector operations also found in MMX. Instead of the MMX registers they use the XMM registers, which are wider and allow for significant performance improvements in specialized applications. Another advantage of replacing MMX with SSE2 is avoiding the mode switching penalty for issuing x87 instructions present in MMX because it is sharing register space with the x87 FPU. The SSE2 also complements the floating-point vector operations of the SSE instruction set by adding support for the double precision data type.

Other SSE2 extensions include a set of cache control instructions intended primarily to minimize cache pollution when processing infinite streams of information, and a sophisticated complement of numeric format conversion instructions.

AMD’s implementation of SSE2 on the AMD64 (x86-64) platform includes an additional eight registers, doubling the total number to 16 (XMM0 through XMM15). These additional registers are only visible when running in 64-bit mode. Intel adopted these additional registers as part of their support for x86-64 architecture (or in Intel’s parlance, «Intel 64») in 2004.

Differences between x87 FPU and SSE2[edit]

FPU (x87) instructions provide higher precision by calculating intermediate results with 80 bits of precision, by default, to minimise roundoff error in numerically unstable algorithms (see IEEE 754 design rationale and references therein). However, the x87 FPU is a scalar unit only whereas SSE2 can process a small vector of operands in parallel.

If code designed for x87 is ported to the lower precision double precision SSE2 floating point, certain combinations of math operations or input datasets can result in measurable numerical deviation, which can be an issue in reproducible scientific computations, e.g. if the calculation results must be compared against results generated from a different machine architecture. A related issue is that, historically, language standards and compilers had been inconsistent in their handling of the x87 80-bit registers implementing double extended precision variables, compared with the double and single precision formats implemented in SSE2: the rounding of extended precision intermediate values to double precision variables was not fully defined and was dependent on implementation details such as when registers were spilled to memory.

Differences between MMX and SSE2[edit]

SSE2 extends MMX instructions to operate on XMM registers. Therefore, it is possible to convert all existing MMX code to an SSE2 equivalent. Since an SSE2 register is twice as long as an MMX register, loop counters and memory access may need to be changed to accommodate this. However, 8 byte loads and stores to XMM are available, so this is not strictly required.

Although one SSE2 instruction can operate on twice as much data as an MMX instruction, performance might not increase significantly. Two major reasons are: accessing SSE2 data in memory not aligned to a 16-byte boundary can incur significant penalty, and the throughput of SSE2 instructions in older x86 implementations was half that for MMX instructions. Intel addressed the first problem by adding an instruction in SSE3 to reduce the overhead of accessing unaligned data and improving the overall performance of misaligned loads, and the last problem by widening the execution engine in their Core microarchitecture in Core 2 Duo and later products.

Since MMX and x87 register files alias one another, using MMX will prevent x87 instructions from working as desired. Once MMX has been used, the programmer must use the emms instruction (C: _mm_empty()) to restore operation to the x87 register file. On some operating systems, x87 is not used very much, but may still be used in some critical areas like pow() where the extra precision is needed. In such cases, the corrupt floating-point state caused by failure to emit emms may go undetected for millions of instructions before ultimately causing the floating-point routine to fail, returning NaN. Since the problem is not locally apparent in the MMX code, finding and correcting the bug can be very time consuming. As SSE2 does not have this problem and it usually provides much better throughput and provides more registers in 64-bit code, it should be preferred for nearly all vectorization work.

Compiler usage[edit]

When introduced in 2000, SSE2 was not supported by software development tools. For example, to use SSE2 in a Microsoft Visual Studio project, the programmer had to either manually write inline-assembly or import object-code from an external source. Later the Visual C++ Processor Pack added SSE2 support to Visual C++ and MASM.

The Intel C++ Compiler can automatically generate SSE4, SSSE3, SSE3, SSE2, and SSE code without the use of hand-coded assembly.

Since GCC 3, GCC can automatically generate SSE/SSE2 scalar code when the target supports those instructions. Automatic vectorization for SSE/SSE2 has been added since GCC 4.

The Sun Studio Compiler Suite can also generate SSE2 instructions when the compiler flag -xvector=simd is used.

Since Microsoft Visual C++ 2012, the compiler option to generate SSE2 instructions is turned on by default.

CPU support[edit]

SSE2 is an extension of the IA-32 architecture, based on the x86 instruction set. Therefore, only x86 processors can include SSE2. The AMD64 architecture supports the IA-32 as a compatibility mode and includes the SSE2 in its specification.[1][2] It also doubles the number of XMM registers, allowing for better performance. SSE2 is also a requirement for installing Windows 8[3] (and later) or Microsoft Office 2013 (and later) «to enhance the reliability of third-party apps and drivers running in Windows 8».[4]

The following IA-32 CPUs support SSE2:

  • Intel NetBurst-based CPUs (Pentium 4, Xeon, Celeron, Pentium D, Celeron D)
  • Intel Pentium M and Celeron M
  • Intel Atom
  • AMD Athlon 64
  • Transmeta Efficeon
  • VIA C7

The following IA-32 CPUs were released after SSE2 was developed, but did not implement it:

  • AMD CPUs prior to Athlon 64, such as Athlon XP
  • VIA C3
  • Transmeta Crusoe
  • Intel Quark

See also[edit]

  • SSE2 instructions

References[edit]

  1. ^ Matz, Michael; Hubicka, Jan; Jaeger, Andreas; Mitchell, Mark (January 2010). «System V Application Binary Interface — AMD64 Architecture Processor Supplement — Draft Version 0.99.4» (PDF). Retrieved April 26, 2013.[permanent dead link]
  2. ^ Fog, Agner. «Optimizing software in C++: An optimization guide for Windows, Linux and Mac platforms» (PDF). Archived (PDF) from the original on April 8, 2013. Retrieved April 26, 2013.
  3. ^ «DirectXMath Programming Guide/Library Internals». Archived from the original on July 2, 2019. Retrieved July 2, 2019.
  4. ^ Microsoft Corporation. «What is PAE, NX, and SSE2 and why does my PC need to support them to run Windows 8 ?». Archived from the original on April 11, 2013. Retrieved March 19, 2013.




Процессор не поддерживает MMX

Однако такие исключения встречаются редко и в большинстве случав программа, взамен отсутствующих SIMD, будет использовать универсальные (genegic) х86 инструкции. При этом мы не получим никакого повышения быстродействия, но и снижения производительности (по сравнению с обычным кодом) также не будет.

Поскольку каждый производитель процессоров по-своему улучшал архитекутуру, развитие микропроцессоров сопровождалось появлением нескольких вариантов SIMD расширений. Основные из них мы рассмотрим ниже.

MMX-расширение появилось в Pentium MMX (P55, январь 1997) и включало в себя 57 новых команд, предназначенных для обработки звуковых и видеосигналов. Позднее их поддержка появилась в K6 (Little Foot) от AMD и в 6х86MX от Cyrix.

MMX-расширение микропроцессора Pentium предназначено для поддержки приложений, ориентированных на работу с большими массивами данных целого типа, над которыми выполняются одинаковые операции. С данными такого типа обычно работают мультимедийные, графические, коммуникационные программы. По этой причине данное расширение архитектуры микропроцессоров Intel и названо
MultiMedia eXtensions (MMX), что переводится как мультимедиа расширения.

Основа программной компоненты – система команд MMX-расширения (те самые 57 новых команд) и четыре новых типа данных. MMX-команды являются естественным дополнением основной системы команд микропроцессора. Основным принципом их работы является одновременная обработка нескольких единиц однотипных данных одной командой. Основа аппаратной компоненты – 8 MMX регистров, каждый размером в 64 бит = 8 байт. MMX работает только с целыми числами; поддерживаются данные размером в 1, 2, 4 или 8 байт. То есть, один MMX регистр может содержать 8, 4, 2 или 1 операнд соответственно.




Формат регистра ММХ

На самом деле эти регистры не являются новыми, а MMX-расширение использует регистры сопроцессора (FPU). Как известно, регистры сопроцессора стека имеют размерность 80 бит, что касается MMX регистров, то их разрядность только 64 бита. Поэтому, когда регистры сопроцессора играют роль MMX-регистров, то доступными являются лишь их младшие 64 бита. К тому же, при работе стека сопроцессора в режиме MMX-расширения, он рассматривается не как стек, а как обычный регистровый массив с произвольным доступом. Таким образом, можно сказать, что расширения MMX реализованы в виде дополнительного pежима, в который процессор может переключаться из обычного pежима работы. Регистровый стек сопроцессора не может одновременно использоваться и по своему прямому назначению и как MMX-расширение, поэтому необходимо заботиться о его разделении и корректной работе с ним. Такое совмещение может снизить эффективность работы в случае попеременного использования обычных вычислений с плавающей точкой и работы в режиме MMX.

Данные, содержащиеся в MMX-регистрах, можно покомпонентно складывать, умножать, вычитать, выполнять разнообразные специфические, необходимые для мультимедиа приложений, операции, вроде сложения без переполнения, вычисления среднего арифметического и производить логические операции с битами (побитовый and, or, xor). Делить, правда, нельзя, есть ещё ограничения. Но многие операции можно делать на порядок быстрее, даже больше. Однако, применение MMX в особенности требует специальной ручной оптимизации, никакой компилятор тут существенно не поможет. Под MMX, например, оптимизируются разнообразные кодеки аудио файлов, алгоритмы работы которых хорошо сочетаются с MMX. Причём, не вся программа целиком, а небольшая часть, выполняющая основную работу, и это обстоятельство упрощает оптимизацию.

SSE

Данное расширение появилось в Pentium III (ядро Katmai, сентябрь 1999) и насчитывало 70 новых команд. Позднее в Athlon XP (начиная с Palomino) его стали поддерживать и процессоры AMD. Аббревиатура SSE расшифровывается как
Streaming SIMD Extensions (потоковые SIMD расширения).

SSE интересно прежде всего тем, что оперирует с данными вещественного типа, которые используются в геометрических расчётах, то есть, приложениях трёхмерной графики, компьютерных играх, редакторах вроде 3DStudioMax, и многих других. С тех пор как в компьютерных играх вроде Quake текстурирование треугольников стало производиться при помощи видеоускорителей, большая надобность в целочисленных вычислениях отпала. На первое место вышла скорость операций с плавающей точкой, вроде перемножения вещественного вектора на вещественную матрицу.

При внедрении SSE процессор получил в дополнение к стандартным регистрам архитектуры x87 8 новых больших регистров размером по 128 бит, в каждом из которых содержится 4 32-битных вещественных числа. С четвёрками операндов можно покомпонентно производить следующие операции: сложить две четвёрки чисел, вычесть, перемножить, разделить. Вычислить одновременно 4 (обратных) квадратных корня, точно или приближённо. Ещё можно тасовать содержимое регистров, перекладывать данные из одних частей регистра в другие и производить некоторые другие аналогичные операции. Однако перемещение данных происходит не быстрее их сложения, так что эффективное использование SSE возможно только на подготовленных правильно упакованных данных.

Если посчитать, что SSE-операция заменяет 4 аналогичных обыкновенных, то при оптимизации можно получить прирост производительности в 4 раза. Если быть более точным, то даже несколько больше, за счёт использования новых больших регистров. Однако, далеко не все вычисления можно эффективно оптимизировать под SSE. Как пример «хорошей» задачи следует привести умножение четырёхмерной матрицы на четырёхмерный вектор. Ускорение четырёхкратное без особых затрат.

В первую очередь использование SSE позволяет современным процессорам при выполнении трансформации вершин треугольников, составляющих трёхмерную сцену, успешно соревноваться с видеоускорителями. Другое дело, что у процессора много других задач, и лучше его по возможности разгрузить, чтобы он работал параллельно с видеоускорителем, и каждый выполнял свою задачу.

SSE2

Следующее расширение, являющееся логическим продолжением MMX и SSE появилось в Pentium 4 (начиная с Willamette). В Athlon 64 появилось начиная с Clawhammer.

В данное расширение включены 144 команды SSE2, ориентированные, в первую очередь, на работу с потоковыми данными. Подобно Pentium III, они также оперируют со 128-битными регистрами, но уже не только с четверками чисел одинарной точности, но и с любыми другими типами данных, которые умещаются в 128 бит. Это пары вещественных чисел двойной точности, шестнадцать однобайтовых целых, восьмерки двухбайтовых целых, пары восьмибайтовых целых etc. В результате получился некий симбиоз MMX и SSE.

Теперь те же 8 больших 128-битных регистров уже можно интерпретировать как содержащие не четыре 32-битных вещественных числа, а два 64-битных вещественных числа повышенной точности. Числа с повышенной точностью используются в тех случаях, когда вычисления с обычной точностью приводят к большим погрешностям. Все операции перенеслись с SSE, только работают не с четвёркой пар операндов, а с двойкой пар операндов.

В SSE2 регистры по сравнению с MMX удвоились, то есть, там стало помещаться не, например, 8 чисел, а 16. Поскольку скорость выполнения инструкций не изменилась, при оптимизации под SSE2 программа запросто получала двукратный прирост производительности. Надо отметить ещё следующее обстоятельство. Если программа уже была оптимизирована под MMX, то оптимизация под SSE2 даётся сравнительно легко в силу сходности системы команд.

SSE3

Следующий набор появился в Pentium 4 начиная с Prescott и Athlon 64 начиная с Venice. Это расширение, имевшее поначалу имело рабочее название
Prescott New Instruction, но получившее в итоге не совсем верное с технической точки зрения название SSE3, призвано облегчить оптимизацию программ под SSE и SSE2. Причём, в первую очередь, сделать более легкой полностью автоматическую оптимизацию программ средствами компилятора. То есть, для оптимизации необходимо будет просто перекомпилировать программу.

Некорректность названия SSE3 объясняется тем, что в отличие от других SIMD инструкций, где операции (например сложение) выполняются вертикально, здесь появилась возможность горизонтального выполнения операций.




Вертикальное сложение




Горизонтальное сложение

Таким образом в SSE3 появились удобные команды горизонтального последовательного сложения и вычитания операндов, а также другие разнообразные вспомогательные команды, облегчающие работу с данными.

SSE4 *

Данный набор появился в новейших процессорах Intel Core 2. Конкретная информация по этим инструкциям пока отсутствует.

Кстати стоит отметить, что в новых интеловских процессорах появилась технология Intel Advanced Digital Media Boost, суть которой в ускорении выполнения SIMD инструкций. Если раньше каждая инструкция выполнялась за два такта (один такт для обработки старших 64 бит, а второй такт для младших), то теперь выполнение этой инструкции занимает один такт. Налицо двукратное ускорение, что должно сказываться на работе программ, оптимизированных под этот набор инструкций.

*Обновлено: информация о наборе инструкций SSE4 оказалась преждевременной, на самом деле SSE4 появится в процессорах поколения Penryn, которые предположительно должны появиться в четвертом квартале 2007 года.

3DNow!

Различают три поколения этого расширения инструкций: 3DNow!, Enhanced 3DNow! и 3DNow! Professional, однако очень часто их все называют просто 3DNow!

Набор инструкций 3DNow! появился в AMD K6-2 (Chomper). Данный набор, состоящий из 21 команды, был оптимизирован для еще более узкой области, нежели «универсально-мультимедийный» Intel MMX, а именно: для наиболее ресурсоемких расчетов, связанных с 3D-графикой. Даже в самом названии этого набора (3DNow!) отразилась область его применения. Это расширение во многом сходно с SSE, но так же имеет и значительные отличия. Регистров так же 8, но они размером не 128 бит, а 64. Соответственно, в них помещается не 4 числа, а только 2. Имеется аналогичный SSE набор арифметических операций с регистрами. Сложить-умножить-разделить две пары операндов и т.п. Есть и операции нахождения (обратного) квадратного корня, точные и более быстрые приближённые. Однако, есть ещё одно важное отличие расширения 3DNow! Можно складывать между собой содержимое одного регистра. То есть, так же как и в SSE3, производить не только вертикальные операции, но и горизонтальные.

Другое важное обстоятельство, говорящее в пользу 3DNow!, это возможность достаточно эффективной автоматической оптимизации средствами компилятора. SSE слишком громоздко — размеры регистров большие — для автоматической организации данных. На коде, наполненном вычислениями с плавающей точкой, можно было бы бесплатно получить примерно полуторный прирост производительности.

В дальнейшем изменения блока 3DNow! произошли в К7. Он, как и раньше, работал с 64-битными регистрами, в которых находились пары вещественных чисел одинарной точности, зато его набор команд расширился еще на 24 инструкции (Enhanced 3DNow!). Последнее расширение этого набора до 3DNow! Professional появилось в ядре Thoroughbred.

На развитие набора 3DNow! негативно повлияло то, что у AMD первое время отсутствовал оптимизирующий компилятор, к тому же разработчики программ не торопились оптимизировать свои программы под эти инструкции.

Оценка прироста производительности.

Для того, чтобы определить, какой прирост быстродействия дают SIMD-инструкции было решено провести тестирование. Мы должны сравнить быстродействие программы в двух режимах (или двух программ): с оптимизацией под SIMD-инструкции и без нее. Это возможно в двух случаях: при использовании двух версий одной и той же программы (одна версия оптимизирована, а другая нет) или при наличии в программе функции отключения оптимизации. Однако здесь я столкнулся с проблемой – программ, имеющих такую фичу крайне мало
. В случае с различными версиями одной программы, просматривая Changelog было обнаружено, что практически всегда наряду с включением поддержки SIMD-инструкций, в новой версии появлялись какие-либо дополнительные оптимизации. В таком случае сравнение программ разных версий представляется некорректным с точки зрения поставленной цели.

После продолжительного поиска необходимые бенчмарки были найдены. Все они имеют возможность включать/отключать оптимизацию под определнные виды инструкций. Итак, тесты условно были поделены на четыре группы:

1.Видео: кодек XviD 1.1.0, MSU Deblocking Filter v2.2 (фильтр для VirtualDub)

2.Аудио: Lame 3.97 b2.

3.Синтетика: Sandra 2007, CPU RightMark 2003B.

4.Игры: Doom 3 ,Quake 4.

Тестовая конфигурация:

Материнская плата: Gigabyte GA-8I945P-G, BIOS v.F10

Процессор: Intel Pentium 4 630@3.600 MHz

Система охлаждения: TT Big Typhoon

Оперативная память: 512 Mb DDR2–667@638 Samsung Original (5-5-4-14), 512 Mb DDR2–667@638 Hynix (5-5-4-14)

Видеокарта: PCI-E Palit GeForce 6600GT@585/551 MHz

Дисковая подсистема: 160Gb SATA-II SAMSUNG HD160JJ, 40Gb Ultra-ATA/100 Seagate Barracuda ST340014A

Software: Windows XP SP2, ForceWare 91.28

Видео




XviD 1.1.0




MSU Deblocking Filter v2.2

Кодеком Xvid кодировался 160 MB файл из формата mpeg2. Перед фильтром MSU Deblocking стояла задача обработки 80 MB файла без последующего сжатия. Оба теста проводились в VirtualDub 1.6.15. Измерялось время выполнения в секундах. Как видно из результатов, использование оптимизации дает более чем двукратный прирост производительности
. Особенно впечатляет ускорение c MMX и SSE. Малый прирост у SSE2 можно списать под плохую оптимизацию кодека.

Аудио




Lame 3.97 b2

Данный аудиокодек хоть и не обладает графическим интерфейсом, но имеет большое число настраиваемых параметров через командную строку. Для отключения оптимизации используется флаг —noasm xxx (где xxx – отключаемый набор инструкций). В формат mp3 преобразовывался 400 MB wav файл. Прирост не такой большой, как в случае с видео, но все же ускорение в 1,5 раза можно назвать успехом. Особенно сильна ”заточка” под MMX, что не удивительно ведь данное расширение создавалось специально для мультимедиа.

Синтетические тесты




Sandra 2007, Whetstone




Sandra 2007, Dhrystone




CPU RightMark 2003B, Math




CPU RightMark 2003B, Rendering

C Сандрой все понятно: при прогоне арифметического теста, прирост в тесте с FPU объясняется увеличением объема обрабатываемых данных (за счет увеличенного размера SIMD-регистров), а его отсутствие в тесте АЛУ тем, что SSE2 и SSE3 предназначены для операций с плавающей запятой.

Тест CPU RightMark достаточно редко встречается в обзорах, и я не удивлюсь если о нем слышали немногие (я сам только недавно его ”выловил”). Тест моделирует поведение притягивающихся и отталкивающих шаров в пространстве. Сам он представляет собой, по сути, два теста, объединенных в один. Модуль решателя (solver) рассчитывает физику взаимодействия тел, а модуль рендеринга (render) отображает это взаимодействие на экране. Нагрузку можно изменять и на модуль решателя (увеличивая количество рассчитываемых объектов), и на модуль рендеринга (изменяя количество источников света и качество текстур). В обоих модулях можно настраивать то, какие инструкции будут использованы при решении задачи. Тест больше оптимизирован под SSE/SSE3, поскольку требуется рассчитывать координаты объектов и силы их взаимодействия.

Игры




Doom3, Low Quality




Doom 3, Ultra Quality 2xAA, 4xAF




Quake 4, Low Quality




Quake 4, Ultra Quality 2xAA, 4xAF

Из игр только последние версии Doom и Quake позволяют отключать оптимизацию под SIMD-инструкции. Делается это в консольной командой com_ForceGenericSimd. Тесты проводились при разрешении 1024*768, при минимальном и максимальном (с 2xAA и 4xAF) качестве. При этом настройки антиалиасинга и анизотропной фильтрации принудительно выставлялись в настройках драйвера видеокарты. Для тестирования Doom 3 использовалось стандартное demo1, для Q4 была записана демка на уровне Air Defence Trenches. Демо прогонялись четыре раза, вычислялось среднее арифметическое последних трех прогонов.

Как и ожидалось прирост от использования SIMD-инструкций в играх мал, и он тем меньше, чем лучше настройки графики.

Заключение

Как видно оптимизация приложений под SIMD-инструкции приносит свои плоды в виде повышения производительности. Прирост состоит от нескольких процентов играх, до полутора-двух раз при обработке видео и звука. Насколько же хороша оптимизация и во сколько секунд/fps/попугаев она выльется зависит и от создателей процессоров, и от производителей программного обеспечения. При их тесном сотрудничестве производительность компьютеров будет повышаться, а это именно то, что нам и надо
.

Напоследок хочу привести таблицу десктопных ядер от Intel и AMD с указанием поддерживаемых наборов инструкций.

Ядро MMX SSE SSE2 SSE3 SSE4 3DNow!
P54
P55 +
Covington +
Mendocino +
Klamath +
Deschutes +
Katmai + +
Coppermine + +
Tualatin + +
Willamette + + +
Northwood + + +
Prescott + + + +
Prescott-2M + + + +
Smithfield + + + +
Presler + + + +
Core 2 + + + +
5K86
Little Foot +
Chomper + +
Sharptooth + +
Pluto + +
Orion + +
Spitfire + +
Morgan + + +
Thunderbird + +
Palomino + + +
Thoroughbred + + +
Barton + + +
Thorton + + +
Applebred + + +
Sledgehammer + + + +
Clawhammer + + + +
Paris + + + +
Palermo + + + + +
Newcastle + + + +
Venice + + + + +
San Diego + + + + +
Winchester + + + +
Manchester + + + + +
Toledo + + + + +
Manila + + + + +
Orleans + + + + +
Windsor + + + + +

При написании статьи использовались материалы с сайтов overclockers.ru, ferra.ru, fcenter.ru, thg.ru, ixbt.com, intel.com, 3dnews.ru.

С уважением, Таболин Юра aka olddanmer

Вопросы и предложения мылить на danmer@udm.ru

Понравилась статья? Поделить с друзьями:
  • Инструкция по ремонту двс ямз 238
  • An motors ar 1 500 инструкция
  • Эссе про руководство
  • Лв 185 руководство по эксплуатации
  • Под руководством кого была разработана технология деятельностного метода