23.05.2022

Презентация процессоров Intel Sandy Bridge: модельный ряд и архитектурные особенности. ⇡ Микроархитектура Sandy Bridge: с высоты птичьего полёта


В рамках прошедшего 13-15 сентября форума IDF 2010 компания Intel впервые огласила подробности новой процессорной микроархитектуры, известной под кодовым наименованием Sandy Bridge. Собственно, процессор Sandy Bridge демонстрировался еще на прошлогоднем форуме IDF 2009, но подробности новой микроархитектуры тогда не сообщались (разве что самые общие сведения). Сразу оговоримся, что далеко не все ее подробности стали достоянием гласности и сейчас. Кое-что компания хочет оставить в секрете до официального анонса, который должен состояться в самом начале следующего года. В частности, не разглашаются подробности относительно производительности новых процессоров, модельного ряда, а также некоторых особенностей архитектуры.
Итак, давайте поближе познакомимся с новой микроархитектурой Sandy Bridge, а также с особенностями процессоров на ее базе, которые в дальнейшем мы будем называть процессорами Sandy Bridge.

Кратко о процессорах Sandy Bridge

Все процессоры с кодовым наименованием Sandy Bridge первоначально будут производиться по 32-нм техпроцессу. В дальнейшем, когда состоится переход на 22-нм техпроцесс, процессоры на базе микроархитектуры Sandy Bridge получат кодовое наименование Ivy Bridge (рис. 1).

Рис. 1. Эволюция семейств процессоров Intel и процессорных микроархитектур

Процессоры Sandy Bridge, точно так же, как процессоры Westmere, образуют в настольном и мобильном сегментах три семейства: Intel Core i7, Intel Core i5 и Intel Core i3, однако логотипы этих процессоров несколько изменятся (рис. 2). Если точнее, то речь идет о втором поколении (2 nd Generation) семейств Intel Core.

Рис. 2. Новые логотипы процессоров Sandy Bridge

Известно, что система маркировки процессоров полностью изменится, но на форуме IDF 2010 ничего не сообщалось относительно новой системы обозначения моделей процессоров.

По неофициальным данным, процессоры Sandy Bridge будут маркироваться четырехзначным числом, причем первая цифра - 2 - означает второе поколение семейства Intel Core. То есть будет, к примеру (опять-таки, по неофициальным данным), процессор Intel Core i7-2600 или Intel Core i5-2500. В семействах Intel Core i7 и Intel Core i5 будут процессоры как с заблокированным коэффициентом умножения, так и с разблокированным, причем последние будут обозначаться буквой K (Intel Core i7-2600K, Intel Core i5-2500K).

Основные различия между семействами Intel Core i7, Intel Core i5 и Intel Core i3 будут заключаться в размере кэша L3, количестве ядер и поддержке технологий Hyper-Threading и Turbo Boost.

Процессоры семейства Intel Core i7 будут четырехъядерными с поддержкой технологий Hyper-Threading и Turbo Boost, а размер кэша L3 составит 8 Мбайт.

Процессоры семейства Intel Core i5 будут четырехъядерными, но не будут поддерживать технологию Hyper-Threading. Ядра этих процессоров будут поддерживать технологию Turbo Boost, а размер кэша L3 составит 6 Мбайт.

Процессоры семейства Intel Core i3 будут двухъядерными с поддержкой технологии Hyper-Threading, но без поддержки технологии Turbo Boost. Размер кэша L3 в этих процессорах составит 3 Мбайт.

После оглашения неофициальных сведений перейдем к достоверным данным.

Все новые процессоры Sandy Bridge получат новый процессорный разъем LGA 1155 и, естественно, будут несовместимы с материнскими платами на базе чипсетов Intel 5-й серии. Собственно, для процессоров Sandy Bridge будут предназначены системные платы на базе нового чипсета Intel 6-й серии. Новшеством этих однокристальных чипсетов станет поддержка двух портов SATA 6 Гбит/с (SATA III), а также полноскоростных линий PCI Express 2.0 (с частотой 5 ГГц). А вот интегрированного в чипсет контроллера USB 3.0 пока не будет.

Впрочем, вернемся к процессорам Sandy Bridge. Новый процессорный разъем LGA 1155 потребует, по всей видимости, и новых кулеров, так как кулеры под разъем LGA 1156 будут несовместимы с разъемом LGA 1155. Впрочем, это лишь наша догадка, основанная на простой логике. В конце концов, должна же компания Intel как­то стимулировать выпуск новых моделей кулеров, дабы производители кулеров не загнулись окончательно.

Отличительной особенностью всех процессоров Sandy Bridge станет наличие в них интегрированного графического ядра нового поколения. Причем если в процессорах предыдущего поколения (Clarkdale и Arrandale) вычислительные ядра процессора и графическое ядро размещались на разных кристаллах и, более того, производились по разным техпроцессам, то в процессорах Sandy Bridge все компоненты процессора будут выпускаться по 32-нм техпроцессу и размещаться на одном кристалле.

Важно подчеркнуть, что идеологически графическое ядро процессора Sandy Bridge можно рассматривать как пятое ядро процессора (в случае четырехъядерных процессоров). Причем графическое ядро, так же как и вычислительные ядра процессора, имеет доступ к кэшу L3.

Точно так же, как процессоры предыдущего поколения Clarkdale и Arrandale, процессоры Sandy Bridge будут иметь интегрированный интерфейс PCI Express 2.0 для использования дискретных видеокарт. Причем все процессоры поддерживают 16 линий PCI Express 2.0, которые могут быть сгруппированы либо как один порт PCI Express x16, либо как два порта PCI Express x8.

Также нужно отметить, что все процессоры Sandy Bridge будут иметь интегрированный двухканальный контроллер памяти DDR3. Вариантов с трехканальным контроллером памяти пока выпускать не планируется. Связано это с тем, что модельный ряд процессоров Sandy Bridge не будет охватывать сегмент топовых настольных процессоров. Топовым настольным процессором станет новая модель шестиядерного процессора Gulftown (Intel Core i7-990X), а модельный ряд процессоров Sandy Bridge будет ориентирован на производительные, массовые и бюджетные ПК.

Еще одна особенность процессоров на базе микроархитектуры Sandy Bridge заключается в том, что вместо шины QPI (Intel QuickPath Interconnect), которая ранее использовалась для связи отдельных компонентов процессора друг с другом, теперь применяется принципиально иной интерфейс, называемый кольцевой шиной (Ring Bus), которую мы подробно рассмотрим далее.

Вообще, нужно отметить, что архитектура процессора Sandy Bridge подразумевает модульную, легко масштабируемую структуру (рис. 3).

Рис. 3. Модульная структура процессора Sandy Bridge

Еще одна особенность микроархитектуры Sandy Bridge заключается в том, что в ней реализована поддержка набора инструкций Intel AVX (Intel Advanced Vector Extension).

Intel AVX представляет собой новый набор расширений для архитектуры Intel, предусматривающий 256-битные векторные вычисления с плавающей запятой на базе SIMD (Single Instruction, Multiple Data).

Intel AVX предполагает комплексное расширение архитектуры набора команд для микроархитектуры Intel 64 и обладает следующими особенностями:

  • поддержка векторных данных с большей разрядностью (до 256 бит);
  • эффективная схема кодирования инструкций, поддерживающая синтаксис команд с тремя и четырьмя операндами;
  • гибкая среда программирования, предусмат­ривающая различные возможности - от инструкций обработки переходов до сниженных требований к выравниванию смещений в памяти;
  • новые примитивы для манипулирования данными и ускорения арифметических вычислений, включая трансляцию (broadcast), перестановку (permute), одновременное умножение и сложение (fused-multiply-add, FMA) и др.

Учитывая тот факт, что новый набор команд Intel AVX может использоваться любыми приложениями, в которых значительная доля вычислений приходится на операции SIMD, наибольший прирост производительности новая технология даст для тех из них, что преимущественно выполняют вычисления с плавающей запятой и могут быть распараллелены. В качестве примера можно назвать программы обработки звука и аудиокодеки, программы для редактирования изображений и видео, приложения для моделирования и финансового анализа, а также промышленные и инженерные приложения.

Говоря о процессорной микроархитектуре Sandy Bridge, нужно отметить, что она является развитием микроархитектуры Nehalem или Intel Core (поскольку микроархитектура Nehalem - это развитие микроархитектуры Intel Core). Различия между Nehalem и Sandy Bridge довольно существенные, однако назвать эту микроархитектуру принципиально новой, какой в свое время была микроархитектура Intel Core, всё же нельзя. Это именно модифицированная микроархитектура Nehalem.

Теперь более подробно ознакомимся с новшествами микроархитетуры Sandy Bridge и ее отличиям от Nehalem.

Ядро процессора на базе микроархитектуры Sandy Bridge

Прежде чем перейти к рассмотрению различий микроархитектур Sandy Bridge и Nehalem, напомним, что схема любого процессора подразумевает наличие нескольких конструктивных элементов: L1-кэша данных и команд, предпроцессора (Front End) и постпроцессора, называемого также блоком исполнения команд (Execution Engine).

Процесс обработки данных включает следующие этапы. Сначала инструкции и данные забираются из кэша L1 (этот этап называется выборкой). После этого выбранные из кэша инструкции декодируются в понятные для процессора машинные примитивы (микрооперации). Данная процедура называется декодированием. Далее декодированные команды поступают на исполнительные блоки процессора и выполняются, а результат записывается в память.

Процессы выборки инструкций из кэша, их декодирование и продвижение к исполнительным блокам осуществляются в предпроцессоре, а процесс выполнения команд - в постпроцессоре.

Теперь более подробно рассмотрим ядро процессора Sandy Bridge и сравним его с ядром Nehalem. При работе ядра процессора на базе микроархитектуры Nehalem или Sandy Bridge инструкции x86 выбираются из кэша инструкций L1 (Instruction Сache) размером 32 Кбайт (кэш 8-канальный). Команды загружают из кэша блоками фиксированной длины, из которых выделяются инструкции, направляемые на декодирование. Поскольку инструкции x86 имеют переменную длину, а блоки, которыми команды загружаются из кэша, - фиксированную, при декодировании команд нужно определить границы между отдельными командами.

Информация о размерах команд хранится в кэше инструкций L1 в специальных полях (по 3 бита информации на каждый байт инструкций). В принципе, эту информацию для определения границ команд можно было бы использовать в самом декодере непосредственно в процессе декодирования команд. Однако это неизбежно отразилось бы на скорости декодирования, да и нельзя было бы декодировать одновременно несколько команд. Поэтому перед декодированием производится выделение команд из выбранного блока. Данная процедура называется предварительным декодированием (PreDecode). Процедура предварительного декодирования позволяет поддерживать постоянный темп декодирования независимо от длины и структуры команд.

Процессоры с микроархитектурой Nehalem и Sandy Bridge производят выборку команд 16-байтными блоками, то есть за каждый такт из кэша загружается 16-байтный блок команд.

После операции выборки команды организуются в очередь (Instruction Queue), а затем передаются в декодер. При декодировании (Decode) команды преобразуются в машинные микрооперации фиксированной длины (обозначаются как micro-ops или uOps).

Декодер ядра процессора с микроархитектурой Sandy Bridge не претерпел изменений. Точно так же, как в микроархитектуре Nehalem, он является четырехканальным и может декодировать в каждом такте до четырех инструкций x86. Как уже отмечалось, в микроархитектурах Nehalem и Sandy Bridge за каждый такт из кэша загружается 16-байтный блок команд, из которого в процессе предварительного декодирования выделяются отдельные команды. В принципе, длина одной команды может достигать 16 байт. Однако средняя длина команд составляет 4 байта. Поэтому в среднем в каждом блоке загружаются четыре команды, которые при использовании четырехканального декодера одновременно декодируются за один такт.

Четырехканальный декодер состоит из трех простых декодеров, которые декодируют прос-тые инструкции в одну микрооперацию, и одного сложного, способного декодировать одну инструкцию в четыре микрооперации (декодер типа 4-1-1-1). Для еще более сложных инструкций, которые декодируются в более чем четыре микрооперации, сложный декодер соединен с блоком uCode Sequenser, применяемым для декодирования подобных инструкций.

Естественно, декодирование четырех инструкций за такт возможно только в том случае, если в одном 16-байтном блоке содержится не менее четырех инструкций. Однако существуют команды и длиннее 4 байт, и при загрузке нескольких таких команд в одном блоке эффективность декодирования снижается.

При декодировании инструкций в микроархитектурах Nehalem и Sandy Bridge применяются две интересные технологии - Macro-Fusion и Micro-Fusion.

Macro-Fusion - это слияние двух x86-инструкций в одну сложную микрооперацию micro-op. В предыдущих версиях процессорной микроархитектуры каждая инструкция в формате x86 декодировалась независимо от остальных. При использовании технологии Macro-Fusion некоторые пары инструкций (например, инструкция сравнения и условного перехода) при декодировании могут быть слиты в одну микрооперацию, которая в дальнейшем будет выполняться именно как одна микрооперация. Отметим, что для эффективного поддержания технологии Macro-Fusion в микроархитектурах Nehalem и Sandy Bridge применяются расширенные блоки ALU (Arithmetical Logic Unit), которые способны поддержать выполнение слитых микроопераций. Отметим также, что в случае применения технологии Macro-Fusion за каждый такт процессора может декодироваться только четыре инструкции (в четырехканальном декодере), а при использовании технологии Macro-Fusion в каждом такте может считываться пять инструкций, которые преобразуются в четыре за счет слияния и подвергаются декодированию.

Отметим, что технология Macro-Fusion использовалась и в микроархитектуре Intel Core, однако в микроархитектуре Nehalem был расширен набор x86-инструкций, для которого возможно слияние в одну микрооперацию. Кроме того, в микроархитектуре Intel Core слияние x86-инструкций не поддерживалось для 64-битного режима работы процессора, то есть технология Macro-Fusion реализовывалась только в 32-битном режиме. В архитектуре Nehalem это узкое место было устранено и операции слияния работают как в 32-, так и в 64-битном режиме процессора. В микроархитектуре Sandy Bridge набор x86-инструкций, для которых возможна операция слияния, был расширен еще больше.

Micro-Fusion - это слияние двух микроопераций (не x86-инструкций, а именно микроопераций) в одну, содержащую два элементарных действия. В дальнейшем две такие слитые мик­рооперации обрабатываются как одна, что позволяет уменьшить количество обрабатываемых микроопераций и тем самым увеличить общее количество инструкций, исполняемых процессором за один такт. Понятно, что операция слияния двух микроопераций возможна далеко не для всех пар микроопераций. В микроархитектуре Sandy Bridge используется точно такая же операция Micro-Fusion (для того же набора микрооперация), как и в микроархитектуре Nehalem.

Говоря о процедуре выборки программных инструкций в микроархитектуре Nehalem, необходимо отметить наличие блока обнаружения программных циклов (Loop Stream Detector), который принимает участие в процессе выборки инструкций и позволяет избежать повторов в выполнении одних и тех же операций. Loop Stream Detector (LSD) используется и в микроархитектуре Intel Core, однако он отличается от LSD в Nehalem. Так, в архитектуре Intel Core применяется буфер LSD на 18 инструкций, причем располагается он до декодера. То есть в архитектуре Intel Core могут отслеживаться и распознаваться только циклы, содержащие не более 18 инс­трукций. При обнаружении программного цикла инструкции в цикле пропускают фазы выборки (Fetch) и предсказания ветвлений в программе (Branch Prediction), а сами команды генерируются и поступают в декодер из буфера LSD. С одной стороны, это позволяет снизить энергопотребление ядра процессора, а с другой - обойти фазу выборки команд. Если в цикле насчитывается более 18 инструкций, то каждый раз инструкции будут проходить все стандартные шаги.

В микроархитектуре Nehalem блок обнаружения циклов расположен не перед, а за декодером и рассчитан на 28 уже декодированных инструкций. Поскольку LSD хранит уже декодированные инструкции, они будут «пропускать» не только фазу предсказания ветвлений и выборки, как раньше, но и фазу декодирования (фактически на время выполнения программного цикла отключается предпроцессор процессора). Таким образом, в Nehalem инструкции в цикле проходят через конвейер быстрее и чаще, а энергопотребление ниже, чем в архитектуре Intel Core (рис. 4).

Рис. 4. LSD-буфер в микроархитектурах Intel Core и Nehalem

В микроархитектуре Sandy Bridge разработчики пошли еще дальше: вместе с LSD-буфером на 28 микрооперайий применили кэш декодированных микроопераций (Decoded Uop Cache) - рис. 5. В кэш поступают все декодированные микрооперации. Кэш декодированных микроопераций рассчитан приблизительно на 1500 микроопераций (видимо, речь идет о микрооперациях средней длины), что эквивалентно примерно 6-килобайтному кэшу x86-инструкций.

Рис. 5. Кэш декодированных микроопераций в микроархитектуре Sandy Bridge

Концепция кэша декодированных микро­операций заключается в том, чтобы сохранять в нем последовательности микроопераций. Кэш микроопераций работает не на уровне одной инструкции, а на уровне 32-байтного блока микроопераций. Весь кэш разделен на 32 набора, по 8 линий в каждом. На каждую линию приходится до 6 микроопераций. До 3 линий (18 микроопераций) могут быть привязаны к 32-байтному блоку. Тегирование происходит по указателю инструкции (IP). Сверка указателя предсказанной инструкции идет параллельно как в кэше инструкций, так и кэше микроопераций, и если происходит попадание, из кэша микроопераций вылавливаются линии, составляющие 32-байтный блок, и помещаются в очередь. В этом случае нет необходимости снова проводить выборку и декодирование.

Эффективность использования кэша декодированных микроопераций во многом зависит от эффективности блока предсказания ветвлений (Branch Prediction Unit, BPU). Напомним, что блок предсказания ветвлений применяется во всех современных процессорах, причем в процессорах Sandy Bridge он существенно улучшен в сравнении с BPU в микроархитектуре Nehalem (рис. 6).

Рис. 6. Блок предсказания ветвлений (Branch Prediction Un) в микроархитектуре Sandy Bridge

Чтобы понять, почему блок предсказания ветвлений столь важен в процессоре и как он влияет на производительность, напомним, что фактически в любой более­менее сложной программе есть команды условного перехода. Команда такого условного перехода означает следующее: если некоторое условие верно, то нужно перейти к выполнению программы, начиная с одного адреса, а если нет - то с другого. С точки зрения процессора команда условного перехода является своеобразным камнем преткновения. Действительно, ведь до тех пор, пока не выяснится, верно условие перехода или нет, процессор не знает, какую часть программного кода исполнять дальше, а следовательно, вынужден простаивать. Во избежание этого как раз и используется блок предсказания ветвлений, который пытается угадать, на какой участок программного кода укажет команда условного перехода, еще до того, как она будет исполнена. На основе предсказания ветвлений производится выборка соответствующих 86-инструкций из кэша L1 или из кэша декодированных микроопераций.

Когда команда условного перехода встречается впервые, то применяется так называемое статическое предсказание. По сути, BPU прос-то угадывает, какая программная ветвь будет выполняться далее. Причем в основе статического предсказания лежит предположение, что большинство обратных ветвлений происходит в повторяющихся циклах, когда инструкция ветвления используется для определения продолжения цикла или выхода из него. Чаще всего цикл продолжается, так что процессор будет снова повторно выполнять код цикла. По этой причине статическое предсказание считает, что все обратные ветвления всегда выполняются.

По мере того как накапливается статистика результатов различных условных переходов (предыстория условных переходов), задействуется алгоритм динамического предсказания ветвлений, который как раз и основан на анализе статистики результатов условных переходов, совершенных ранее. В алгоритмах динамического предсказания ветвлений используются таблица хранения истории предсказания ветвлений (Branch History Table, BHT) и таблица хранения адресов инструкций (Branch Target Buffer, BTB). В эти таблицы записывается информация о результатах уже выполненных ветвлений. В BHT содержатся все условные переходы за несколько последних циклов. Кроме того, здесь хранятся биты, показывающие вероятность повторного выбора той же самой ветви. Биты расставляются на основании статистики предыдущих переходов. В стандартной бимодальной (2-битной) схеме существует четыре вероятности: ветвь часто выполняется (strongly taken), ветвь выполняется (taken), ветвь не выполняется (not taken) и ветвь часто не выполняется (strongly not taken).

Для того чтобы вынести решение о спекулятивном выполнении ветви, устройство должно знать точное местоположение кода в кэше L1 по направлению ветвления - назовем его целью ветвления. Цели уже выполненных ветв-лений хранятся в BTB. Когда выполняется ветвление, BPU просто берет цель ветвления из таблицы и указывает препроцессору начать выборку инструкций по этому адресу.

Понятно, что достоверность предсказания перехода зависит от размера BHT- и BTB-таблиц. Чем больше записей в этих таблицах, тем выше достоверность предсказания.

Следует отметить, что вероятность правильного предсказания ветвлений в современных процессорах очень высока (порядка 97-99%) и борьба фактически идет уже за доли процента.

Улучшений BPU в микроархитектуре Sandy Bridge несколько. Во­первых, вместо того чтобы для каждой ветви перехода использовать свою вероятность в таблице BHT, одна и та же вероятность применяется одновременно для нескольких ветвей. В результате удается оптимизировать BHT-таблицу, что сказывается на повышении достоверности предсказания переходов.

Второе улучшение BPU в микроархитектуре Sandy Bridge заключается в оптимизации BTB-таблицы. Если раньше в ВТВ для задания всех адресов переходов (branch targets) использовалось фиксированное число бит, что приводило к неоправданной трате места, то теперь количество бит, применяемых для задания адреса перехода, зависит от самого адреса. Фактически это позволяет сохранять в таблице больше адресов и тем самым повышать достоверность предсказания.

Более точных данных о размерах таблиц BHT и BTB пока нет.

Итак, об изменениях в предпроцессоре микроархитектуры Sandy Bridge (кэш декодированных микроопераций и обновленный блок предсказания ветвлений) мы рассказали. Пойдем дальше.

После процесса декодирования x86-инструкций начинается этап их исполнения. Первоначально происходит переименование и распределение дополнительных регистров процессора (блок Allocate/Rename/ Retirement), которые не определены архитектурой набора команд.

Переименование регистров позволяет добиться внеочередного исполнения команд. Идея переименования регистров заключается в следующем. В архитектуре x86 количество регистров общего назначения сравнительно невелико: доступно восемь регистров в 32-битном режиме и 16 регистров в 64-битном. Представим, что исполняемая команда дожидается загрузки значений операндов в регистр из памяти. Это долгая операция, и хорошо бы на это время позволить использовать этот регистр для другой команды, операнды которой находятся ближе (например, в кэше первого уровня). Для этого временно переименовывается «ждущий» регистр и отслеживается история переименования. А «готовому к работе» регистру присваивается стандартное имя, чтобы снабженную операндами команду исполнить прямо сейчас. При поступлении данных из памяти обращаются к истории переименования и возвращают изначальному регистру его законное имя. Иными словами, техника переименования регистров позволяет сократить простои, а ведение истории переименования применяется для нивелирования конфликтов.

На следующем этапе (буфер переупорядочения - ReOrder Buffer, ROB) происходит переупорядочение микроопераций не в порядке их поступления (Out-of-Order), чтобы впоследствии можно было реализовать их более эффективное выполнение на исполнительных блоках. Отметим, что буфер переупорядочения ReOrder Buffer и блок отставки (Retirement Unit) совмещены в едином блоке процессора, но первоначально производится переупорядочение инструкций, а блок Retirement Unit включается в работу позже, когда надо выдать исполненные инструкции в заданном программой порядке.

В микроархитектуре Nehalem в свое время был увеличен размер буфера переупорядочения в сравнении с размером буфера переупорядочения в микроархитектуре Intel Core. Так, если в Intel Core он был рассчитан на 98 микроопераций, то в Nehalem можно размещать уже 128 микроопераций.

Далее происходит распределение микро­операций по исполнительным блокам. В блоке процессора Reservation Station формирует очереди микроопераций, в результате чего микрооперации попадают на один из портов функциональных устройств (dispatch ports). Этот процесс называется диспетчеризацией (Dispatch), а сами порты выполняют функцию шлюза к функциональным устройствам.

После того как микрооперации пройдут порты диспетчеризации, они направляются в соответствующие функциональные блоки для дальнейшего выполнения.

В микроархитектуре Sandy Bridge кластер Allocate/Rename/Retirement (Out-of-Order Cluster) был существенно изменен. В микроархитектурах Intel Core и Nehalem каждая микро­операция имеет копию операнда или операндов, которые ей требуются. Фактически это означает, что блоки кластера внеочередного выполнения команд должны быть достаточно большого размера, поскольку должны вмещать микрооперации вместе с необходимыми для них операндами. В архитектуре Nehalem операнды могли иметь размер 128 бит, но с введением расширения AVX размер операнда может составлять 256 бит, что требует увеличить в два раза размеры всех блоков кластера внеочередного выполнения команд.

Однако вместо этого в микроархитектуре Sandy Bridge используется физический регистровый файл (Physical Register File, PRF), в котором хранятся операнды микроопераций (рис. 7). Это дает возможность самим микрооперациям сохранять лишь указатели на операнды, но не сами операнды. С одной стороны, такой подход позволяет снизить энергопотребление процессора, поскольку перемещение по конвейеру микроопераций вместе с их операндами требует существенных затрат энергопотребления. С другой стороны, применение физического регистрового файла помогает сэкономить место на кристалле, а высвободившееся пространство использовать для увеличения размеров буферов кластера внеочередного выполнения команд (Load Buffers, Store Buffers, Reorder Buffers) - см. таблицу . В микроархитектуре Sandy Bridge физический регистровый файл для целочисленных операндов (PRF Integer) рассчитан на 160 записей, а для операндов с плавающей запятой (PRF Float Point) - на 144 записи.

Рис. 7. Использование физических регистровых файлов в микроархитектуре Sandy Bridge

В архитектуре Sandy Bridge подверглись существенной переработке и исполнительные блоки ядра процессора. Собственно, портов функциональных устройств, как и прежде, шесть (три вычислительных и три для работы с памятью), однако их назначение, как и назначение самих исполнительных блоков, изменилось (рис. 8). Напомним, что процессор на базе микроархитектуры Nehalem способен выполнять до шести операций за один такт. При этом возможно осуществление одновременно трех вычислительных операций и трех операций с памятью.

Рис. 8. Исполнительные блоки в микроархитектуре Sandy Bridge

В архитектуре Sandy Bridge три исполнительных устройства позволяют проводить уже восемь операций с данными FP (Float Point) или две операции с 256-битными AVX-данными за такт.

В микроархитектуре Sandy Bridge изменились не только три исполнительных устройства, но и функциональные блоки для операций с памятью. Напомним, что в микроархитектуре Nehalem было три порта для работы с памятью: Load (загрузка данных), Store address (хранение адреса), Store data (хранение данных) - рис. 9.

Рис. 9. Исполнительные блоки для работы с памятью в микроархитектуре Nehalem

В микроархитектуре Sandy Bridge также используются три порта для работы с памятью, однако два порта стали универсальными и могут не только реализовывать загрузку данных (Load), но и сохранять адрес (Store address). Третий порт не изменился и предназначен для хранения данных (Store data) - рис. 10.

Рис. 10. Исполнительные блоки для работы с памятью в микроархитектуре Sandy Bridge

Соответственно увеличилась пропускная способность взаимодействия с кэшем данных L1. Если в микроархитектуре Nehalem за каждый такт между кэшем данных L1 и исполнительными блоками для работы с памятью могло передаваться 32 байт данных, то в микроархитектуре Sandy Bridge - уже 48 байт (два запроса на чтение по 16 байт (128 бит) и один запрос на запись до 16 байт данных).

В заключение описания ядра процессора на базе микроархитектуры Sandy Bridge сведем всё воедино. На рис. 11 показана структурная схема ядра процессора на базе микроархитектуры Sandy Bridge. Желтым цветом отмечены измененные или новые блоки в микроархитектуре Sandy Bridge, а синим - блоки, присутствующие как в микроархитектуре Nehalem, так и в Sandy Bridge.

Рис. 11. Отличия микроархитектуры Sandy Bridge от микроархитектуры Nehalem
(общие блоки отмечены синим цветом, измененные или новые блоки
в микроархитектуре Sandy Bridge - желтым)

Кольцевая шина в микроархитектуре Sandy Bridge

В микроархитектуре Nehalem взаимодействие между каждым кэшем L2 и разделяемым между всеми ядрами кэшем L3 осуществлялось по внутренней специальной шине процессора, насчитывающей порядка тысячи контактов, а взаимодействие между отдельными блоками процессора (контроллером памяти, графическим контроллером и т.д.) - по шине QPI. В микроархитектуре Sandy Bridge на смену шине QPI, а также шине взаимодействия L2- и L3-кэшей пришла новая кольцевая шина (Ring Bus) - рис. 12. Она позволяет организовать взаимодействие между кэшами L2 каждого ядра процессора и кэшем L3, а также реализует доступ графического ядра (GPU) и блока видеокодирования (video transcoding engine) к кэшу L3. Кроме того, по этой же кольцевой шине реализуется доступ к контроллеру памяти. Попутно отметим, что теперь компания Intel называет кэш L3 кэшем последнего уровня (Last Level Cache, LLC), а кэш L2 - промежуточным кэшем (Middle Level Cache, MLC).

Рис. 12. Кольцевая шина в микроархитектуре Sandy Bridge

Кольцевая шина объединяет в себе четыре отдельные шины: кольцевую шину данных (Data ring) разрядностью 256 бит (32 байт), кольцевую шину запросов (Request ring), шину подтверждений (Acknowledge ring) и следящую шину (Snoop ring).

Использование кольцевой шины позволило снизить латентность кэша L3. Так, в процессорах предыдущего поколения (Westmere) латентность доступа к кэшу L3 составляет 36 циклов, а в процессорах Sandy Bridge - 26-31 цикл. Кроме того, теперь L3-кэш работает на частоте ядра (в процессорах Westmere частота работы кэша L3 не соответствовала частоте ядра).

Весь L3-кэш разбит на отдельные участки, каждый из которых ассоциирован с отдельным ядром процессора. В то же время каждому ядру доступен весь кэш L3. Каждый из выделенных участков кэша L3 наделен агентом доступа к кольцевой шине. Аналогичные агенты доступа есть у кэшей L2 каждого ядра процессора, у графического ядра и у системного агента, реализующего обмен данными с контроллером памяти.

В заключение отметим, что кэш L3 в микроархитектуре Sandy Bridge остался полностью инклюзивным (включающим) по отношению к кэшам L2 (как и в микроархитектуре Nehalem).

Графическое ядро в микроархитектуре Sandy Bridge

Одно из главных нововведений в микроархитектуре Sandy Bridge - это новое графическое ядро. Как мы уже отмечали, в отличие от графического ядра в процессорах Clarkdale/Arrandale, оно расположено на одном кристалле с вычислительными ядрами процессора и, кроме того, имеет доступ через кольцевую шину к кэшу L3. Причем, как ожидается, производительность нового графического ядра будет примерно вдвое выше производительности графического ядра в процессорах Clarkdale/Arrandale. Конечно, графическое ядро в процессорах Sandy Bridge не может сравниться по производительности с дискретной графикой (кстати, поддержка DirectX 11 для нового ядра даже не заявлена), но справедливости ради отметим, что это ядро и не позиционируется как игровое решение.

Новое графическое ядро может содержать (в зависимости от модели процессора) 6 или 12 исполнительных блоков (Execution Unit, EU), которые, впрочем, нельзя сравнивать с унифицированными шейдерными процессорами в графических процессорах NVIDIA или AMD, где их насчитывается несколько сотен (рис. 13). Данное графическое ядро ориентировано прежде всего не на 3D-игры, а на аппаратное декодирование и кодирование видео (включая HD-видео). То есть в конфигурацию графического ядра входят аппаратные декодеры. Их дополняют средства изменения разрешения (scaling), шумоподавления (denoise filtering), обнаружения и удаления чередования строк (deinterlace/film-mode detection) и фильтры улучшения детализации. Постобработка, позволяющая улучшить изображение при воспроизведении, включает функции STE (улучшение передачи телесных тонов), ACE (адаптивное повышение контраста) и TCC (общее управление цветом).

Рис. 13. Блок-схема графического ядра в микроархитектуре Sandy Bridge

Мультиформатный аппартный кодек поддерживает форматы MPEG-2, VC1 и AVC, выполняя все этапы декодирования с помощью специализированных аппаратных средств, тогда как в интегрированных графических процессорах текущего поколения эту функцию осуществляют универсальные исполнительные блоки EU.

Новый режим Intel Turbo Boost

Одной из примечательных особенностей процессоров Sandy Bridge станет поддержка нового режима Turbo Boost. Напомним, что смысл технологии Turbo Boost заключается в динамическом разгоне при определенных условиях тактовых частот ядер процессора.

Для реализации технологии Turbo Boost в процессоре предусмотрен специальный функциональный блок PCU (Power Control Unit), который отслеживает уровень загрузки ядер процессора, температуру процессора, а также отвечает за энергопитание каждого ядра и регулирование его тактовой частоты. Составной частью PCU является так называемый Power Gate (затвор), который применяется для перевода каждого ядра процессора по отдельности в режим энергопотребления C6 (фактически Power Gate отключает или подключает ядра процессора к линии питания VCC).

В процессорах Clarkdale и Arrandale режим Turbo Boost реализован следующим образом. В том случае, если какие­то ядра процессора оказываются незагруженными, они попросту отключаются от линии питания с использованием блока Power Gate (их энергопотребление при этом равно нулю). Соответственно тактовую частоту и напряжение питания оставшихся загруженных ядер можно динамически увеличить на несколько ступеней (по 133 МГц), но так, чтобы энергопотребление процессора не превысило его TDP. То есть фактически сэкономленное за счет отключения нескольких ядер энергопотребление используется для разгона оставшихся ядер, но так, чтобы увеличение энергопотребления в результате разгона не превышало сэкономленного энергопотребления. Более того, режим Turbo Boost реализуется и в том случае, когда изначально загружаются все ядра процессора, но при этом его энергопотребление не превышает значение TDP.

В мобильных процессорах Arrandale с интегрированным графическим ядром технология Turbo Boost распространяется не только на ядра процессора, но и на графическое ядро. То есть, в зависимости от текущей температуры и энергопотребления, разгоняться будут не только ядра процессора, но и графическое ядро. К примеру, если в каком­то приложении основная нагрузка ложится на графический процессор, а ядра процессора остаются недозагруженными, то сэкономленное TDP будет использоваться для разгона графического ядра, но так, чтобы не был превышен лимит по TDP графического ядра.

Поскольку в процессорах Sandy Bridge (и в настольных, и в мобильных) графическое ядро является, по сути, таким же ядром процессора, как и вычислительные ядра, технология Turbo Boost будет распространяться как на вычислительные ядра, так и на графическое ядро. Кроме того (и в этом заключается основное новшество), в новой версии режима Turbo Boost предусмотрена возможность превышения TDP процессора при разгоне ядер на короткое время.

Дело в том, что при превышении TDP процессор перегревается не сразу, а по истечении определенного промежутка времени. Учитывая, что во многих приложениях загрузка процессора на 100% происходит скачкообразно и лишь на протяжении очень малых промежутков времени, в эти периоды тактовую частоту процессора вполне можно разгонять так, чтобы был превышен предел по TDP.

В процессорах Sandy Bridge в режиме Turbo Boost предусмотрена возможность превышения TDP на протяжении вплоть до 25 секунд (рис. 14).

Заключение

Подведем итог нашего обзора микроархитектуры Sandy Bridge. Эта новая микроархитектура представляет собой существенно переработанный вариант микроархитектуры Nehalem. Среди нововведений - использование кэша декодированных микроопераций, переработанный блок предсказания ветвлений, применение физического регистрового файла, увеличенный размер буферов кластера внеочередного выполнения команд, улучшенные исполнительные блоки процессора и блоки для работы с памятью. Кроме того, в процессорах Sandy Bridge используется кольцевая шина для доступа ядер процессора к кэшу L3 и памяти. Также процессоры Sandy Bridge получили новое, более производительное графическое ядро, которое имеет доступ к кэшу L3.

Кроме того, в процессорах Sandy Bridge реализован новый режим Turbo Boost, позволяющий выжать из процессора максимум производительности.


1. Микроархитектура Sandy Bridge: кратко

Чип Sandy Bridge – это двух-четырёхъядерный 64-битный процессор ●с изменяемой(out-of-order) последовательностью исполнения команд, ●c поддержкой двух потоков данных на ядро (HT), ● c исполнением четырёх команд за такт; ● с интегрированным графическим ядром и интегрированным контроллером памяти DDR3; ● с новой кольцевой шиной, ● поддержкой 3- и 4-операндных (128/256-битных) векторных команд расширенного набора AVX (Advanced Vector Extensions); производство которого налажено на линиях с соблюдением норм 32-нм технологического процесса Intel.

Так, одним предло-жением можно оха-рактеризовать новое поколение процес-соров Intel Core 2 для мобильных и настольных систем, с поставкой c 2011 г.

МП Intel Core II на базе МА Sandy Bridge поставляются в новом 1155 контактном конструктиве LGA1155 под новые системные платы на чипсетах Intel 6 Series с наборами системной логики (Intel B65 Express, H61 Express, H67 Express, P67 Express, Q65 Express, Q67 Express и 68 Express, Z77).


Примерно такая же микроархитектура актуальна и для серверных решений Intel Sandy Bridge-E с отличиями в виде большего количества процессорных ядер (до 8), процессорного разъёма LGA2011 , большего объёма кеша L3, увеличенного количества контроллеров памяти DDR3 и поддержкой PCI-Express 3.0.

Предыдущее поколение, микроархитектура Westmere представляла собой конструкцию из двух кристаллов : ● 32-нм процессорного ядра и ● дополнительного 45-нм «сопроцессора» с графическим ядром и контроллером памяти на борту, размещённых на единой подложке и производящих обмен данными посредством шины QPI, т.е. интегрированную гибридную микросхему (в центре).

При создании МА Sandy Bridge разработ-чики разместили все элементы на едином 32-нм кристалле, отказа-вшись при этом от классического вида шины в пользу новой кольцевой шины.

Суть архитектуры Sandy Bridge осталась прежней - ставка на увеличении суммарной производительности процессора за счёт улучшения «индивидуа-льной» эффективности каждого ядра.



Структуру чипа Sandy Bridge можно условно разделить на следующие основные элементы : ■ процессорные ядра, ■ графическое ядро, ■кеш-память L3 и ■ «системный агент» (System Agent). Опишем назначение и особенности реализации каждого из элементов этой структуры.

Вся история модернизации процессорных микроархитектур Intel последних лет связана с последовательной интеграцией в единый кристалл всё большего количества модулей и функций, ранее располагавшихся вне МП : в чипсете, на материнской плате и т.д. По мере увеличения производительности процессора и степени интеграции чипа, требования к пропус-кной способности внутренних межкомпонентных шин росли опережающими темпами. Ранее обходились межкомпонентными шинами с перекрёстной топологией – и было достаточно.

Однако эффективность такой топологии высока лишь при небольшом количестве компонентов, принимающих участие в обмене данными. В Sandy Bridge для повышения общей производительности системы обратились к кольцевой топологии 256-битной межкомпонентной шины на основе новой версии QPI (QuickPath Interconnect).

Шина служит для обмена данными между компонентами чипа :


● 4-мя МП ядрами x86,

● графическим ядром,

● кешем L3 и

● системным агентом.


Шина состоит из 4-х 32-байтных колец :

■ шины данных (Data Ring), ■ шины запросов (Request Ring),

■ шины мониторинга состояния (Snoop Ring) и ■ шины подтверждения (Acknowledge Ring).


Управление шинами осуществляется с помощью коммуника-ционного протокола распределённого арбитража , при этом конвейерная обработка запросов происходит на тактовой частоте процессорных ядер, что придаёт МА дополнительную гибкость при разгоне. Производительность шины оценивается в 96 Гбайт/с на соединение при тактовой частоте 3 ГГц , что в 4 раза превышает показатели процессоров Intel предыдущего поколения.

Кольцевая топология и организация шин обеспечивает ●минимальную латентность при обработке запросов, ●максимальную производительность и ●отличную масштабируемость технологии для версий чипов с различным количеством ядер и других компонентов.

В перспективе к кольцевой шине может быть "подключено" до 20 процессорных ядер на кристалл, и подобный редизайн может производиться очень быстро, в виде гибкой и оперативной реакции на текущие потребности рынка.

Кроме того, физически кольцевая шина располагается непосредственно над блоками кеш-памяти L3 в верхнем уровне металлизации, что упрощает разводку дизайна и позволяет сделать чип более компактным.

В эти дни компания Intel представляет миру долгожданные процессоры Sandy Bridge , архитектура которых заранее была окрещена как революционная. Но не только процессоры стали новинками этих дней, а и все сопутствующие компоненты новых настольной и мобильной платформ.

Итак, на этой неделе анонсировано аж 29 новых процессоров, 10 чипсетов и 4 беспроводных адаптера для ноутбуков и настольных рабочих и игровых компьютеров.

К мобильным новинкам относятся:

    процессоры Intel Core i7-2920XM, Core i7-2820QM, Core i7-2720QM, Core i7-2630QM, Core i7-2620M, Core i7-2649M, Core i7-2629M, Core i7-2657M, Core i7-2617M, Core i5-2540M, Core i5-2520M, Core i5-2410M, Core i5-2537M, Core i3-2310M;

    чипсеты Intel QS67, QM67, HM67, HM65, UM67 Express;

    беспроводные сетевые контроллеры Intel Centrino Advanced-N + WiMAX 6150, Centrino Advanced-N 6230, Centrino Advanced-N 6205, Centrino Wireless-N 1030.

В настольном же сегменте появятся:

    процессоры Intel Core i7-2600K, Core i7-2600S, Core i7-2600, Core i5-2500K, Core i5-2500S, Core i5-2500T, Core i5-2500, Core i5-2400, Core i5-2400S, Core i5-2390T, Core i5-2300;

    чипсеты Intel P67, H67, Q67, Q65, B65 Express.

Но сразу же стоит отметить, что анонс новой платформы не является одночастным для всех моделей процессоров и чипсетов – с начала января доступны только решения класса «майнстрим», а большинство более массовых и не таких дорогих появятся в продаже немного позднее. Вместе с выпуском настольных процессоров Sandy Bridge представлен и новый процессорный разъем для них LGA 1155 . Таким образом, новинки не дополняют модельный ряд Intel Core i3/i5/i7, а являются заменой для процессоров под LGA 1156, большинство из которых теперь становятся совсем неперспективным приобретением, ибо в ближайшее время их выпуск вообще должен прекратиться. И только для энтузиастов до конца года Intel обещает продолжать выпуск старших четырехъядерных моделей на ядре Lynnfield.

Однако, судя по «роадмапу» платформа долгожитель Socket T (LGA 775) все еще будет оставаться актуальной как минимум до середины года, являясь основой для систем начального уровня. Для наиболее же производительных игровых систем и настоящих энтузиастов до конца года будут актуальны процессоры на ядре Bloomfield по разъем LGA 1366. Как видим, жизненный цикл двухъядерных процессоров с «интегрированным» графическим адаптером на ядре Clarkdale оказался очень коротки, всего один год, но именно они «протоптали» дорожку для представленных «сегодня» Sandy Bridge, приучив потребителя к мысли, что в процессоре может быть интегрирован не только контроллер памяти, а и видеокарта. Теперь же пришло время не просто выпустить более быстрые версии подобных процессоров, серьезно обновить архитектуру, чтобы обеспечить заметное увеличение их эффективности.

Ключевыми особенностями процессоров архитектуры Sandy Bridge являются:

    выпуск с соблюдением 32 нм техпроцесса;

    заметно увеличившаяся энергоэффективность;

    оптимизированная технология Intel Turbo Boost и поддержка Intel Hyper-Threading;

    значительное увеличение производительности встроенного графического ядра;

    реализация нового набора инструкций Intel Advanced Vector Extension (AVX) для ускорения обработки вещественных чисел.

Но все вышеуказанные нововведения не обеспечивали бы возможности говорить о действительно новой архитектуре, если бы все это не было реализовано теперь в пределах одного ядра (кристалла), в отличие от процессоров на ядре Clarkdale.

Естественно, чтобы все узлы процессора заработали согласовано, нужно было организовать быстрый обмен информацией между ними – важным архитектурным нововведением стала кольцевая шина Ring Interconnect.

Объединяет же Ring Interconnect через кэш-память L3, теперь называемую LLC (Last Level Cache), процессорные ядра, графическое ядро и системный агент (System Agent), включающий в себя контроллер памяти, контроллер шины PCI Express, контроллер DMI, модуль управления питанием и другие контроллеры и модули, ранее имеющие объединенные названием «uncore».

Кольцевая шина Ring Interconnect является следующим этапом развития шины QPI (QuickPath Interconnect), которая после «обкатки» в серверных процессорах с обновленной 8-ядерной архитектурой Nehalem-EX, перекочевала и в ядро процессоров для настольных и мобильных систем. Посредством Ring Interconnect образуются четыре 32-разрядных кольца для шин Данных (Data Ring), Запросов (Request Ring), Мониторинга состояния (Snoop Ring) и Подтверждения (Acknowledge Ring). Функционирует кольцевая шина на частоте ядер, поэтому её пропускная способность, задержки и энергопотребление полностью зависят от частоты работы вычислительных блоков процессора.

Кэш-память третьего уровня (LLC - Last Level Cache) является общей для всех вычислительных ядер, графического ядра, системного агента и других блоков. При этом графический драйвер определяет какие потоки данных разместить в кэш-памяти, но и любой другой блок может получить доступ ко всем данным в LLC. Специальный механизм контролирует распределение кэш-памяти, чтобы не возникло коллизий. В целях ускорения работы для каждого из процессорных ядер выделен «свой» сегмент кэш-памяти, к которому оно имеет прямой доступ. Каждый такой сегмент включает независимый контроллер доступа к шине Ring Interconnect, но при этом ведется постоянное взаимодействие с системным агентом, который производит общее управление кэш-памятью.

Системный агент (System Agent), по сути, является встроенным в процессор «северным мостом» и объединяет контроллеры шин PCI Express, DMI, оперативной памяти, блок обработки видео (медиапроцессор и управление интерфейсами), диспетчер питания и другие вспомогательные блоки. С остальными узлами процессора системный агент взаимодействует через кольцевую шину. Кроме упорядочения потоков данных, системный агент следит за температурой и загрузкой различных блоков, и через Power Control Unit обеспечивает управление напряжением питания и частотами, дабы обеспечить наилучшую энергоэффективность при высокой производительности. Здесь же можно отметить, что для питания новых процессоров нужно трехкомпонентный стабилизатор питания (или двух, если встроенное видеоядро останется неактивным) – отдельно для вычислительных ядер, системного агента и интегрированной видеокарты.

Встроенная в процессор шина PCI Express соответствует спецификации 2.0 и насчитывает 16 линий для возможности увеличения мощности графической подсистемы при помощи мощного внешнего 3D-ускорителя. В случае использования старших наборов системной логики и согласования лицензионных вопросов эти 16 линий могут быть разделены на 2 или три слота в режимах 8x+8x или 8x+4x+4x соответственно для NVIDIA SLI и/или AMD CrossFireX.

Для обмена данными с системой (накопителями, портами ввода-вывода, периферией, контроллеры которых находятся в чипсете) используется шина DMI 2.0, позволяющая прокачать до 2 ГБ/с полезной информации в обоих направлениях.

Важной частью системного агента является встроенный в процессор двухканальный контроллер памяти DDR3, номинально поддерживающий модули на частоте 1066-1333 МГц, но при использовании в материнских платах на чипсете Intel P67 Express без проблем обеспечивающий функционирование модулей на частоте до 1600 и даже 2133 МГц. Размещение контроллера памяти в одном кристалле с процессорными ядрами (ядро Clarkdale состояло из двух кристаллов) должно уменьшить латентность памяти и, соответственно, увеличить производительность системы.

Отчасти благодаря расширенному мониторингу параметров всех вычислительных ядер, кэш-памяти и вспомогательных блоков, который реализован в Power Control Unit, в процессорах Sandy Bridge появилась усовершенствованная технология Intel Turbo Boost 2.0. Теперь, в зависимости от нагрузки и выполняемых задач, ядра процессора при высокой необходимости могут ускоряться даже с превышением теплового пакета, как при обычном ручном разгоне. Но системный агент будет следить за температурой процессора и его компонентов, и когда будет зафиксирован «перегрев» частоты узлов будут постепенно уменьшаться. Однако в настольных процессорах лимитировано время работы в сверхускоренном режиме, т.к. здесь значительно легче организовать в разы более эффективное охлаждение, чем «боксовый» кулер. Такой «овербуст» позволит получить прибавку производительности в критичные для системы моменты, что должно создать у пользователя впечатление работы с более мощной системой, а также уменьшить время ожидания реакции системы. Также Intel Turbo Boost 2.0 гарантирует, что и в настольных компьютерах встроенное видеоядро имеет динамическую производительность.

Архитектура процессоров Sandy Bridge подразумевает не только изменения в структуре межкомпонентного взаимодействия и улучшение возможностей и энергоэффективности этих компонентов, но и внутренние изменения в каждом вычислительном ядре. Если отбросить «косметические» улучшения, то наиболее важными окажутся следующие:

    возврат к выделению кэш-памяти для примерно 1,5 тысяч декодированных микроопераций L0 (использовался в Pentium 4), являющейся обособленной частью L1, что позволяет одновременно обеспечить более равномерную загрузку конвейеров и снизить энергопотребление вследствие увеличения пауз в работе достаточно сложных схем декодеров операций;

    повышение эффективности блока предсказания ветвлений вследствие увеличение емкости буферов адресов результатов ветвления, истории команд, истории ветвлений, что увеличило эффективность конвейеров;

    увеличение емкости буфера переупорядоченных команд (ROB - ReOrder Buffer) и повышение эффективности этой части процессора благодаря внедрению физического регистрового файла (PRF – Physical Register File, тоже характерной особенности Pentium 4) для хранения данных, а также расширение других буферов;

    удвоение емкости регистров для работы с потоковыми вещественными данными, что в ряде случаев может обеспечить в два раза большую скорость выполнения операций, их использующих;

    увеличение эффективности исполнения инструкций шифрования для алгоритмов AES, RSA и SHA;

    введение новых векторных инструкций Advanced Vector Extension (AVX);

  • оптимизацию работы кэш-памяти первого L1 и второго L2 уровней.

Важной особенностью графического ядра процессоров Sandy Bridge является то, что оно теперь находится в одном кристалле с остальными блоками, а управление его характеристиками и слежение за состоянием выполняет на аппаратном уровне системный агент. При этом блок обработки медиаданных и формирования сигналов для видеовыходов вынесен в этот самый системный агент. Такая интеграция обеспечивает более тесное взаимодействие, меньшие задержки, большую эффективность и т.д.

Однако самой архитектуре графического ядра не так много изменений, как того хотелось бы. Вместо ожидаемой поддержки DirectX 11 была просто добавлена поддержка DirectX 10.1. Соответственно и не многие приложения с поддержкой OpenGL ограничены аппаратной совместимостью только с 3-й версией спецификации этого свободного API. При этом, хотя и говорится об усовершенствовании вычислительных блоков, но их осталось столько же – 12, и то только для старших процессоров. Однако увеличение тактовой частоты до 1350 МГц обещает заметный прирост производительности в любом случае.

С другой стороны, создать встроенное видеоядро с действительно высокой производительностью и функциональностью для современных игр при невысоком его энергопотреблении очень тяжело. Поэтому отсутствие поддержки новых API повлияет лишь на совместимость с новыми играми, а производительность при действительно большом желании комфортно играть нужно будет наращивать с помощью дискретного 3D-ускорителя. А вот расширение функциональности при работе с мультимедийными данными, в первую очередь при кодировании и декодировании видео в рамках Intel Clear Video Technology HD, можно причислить к достоинствам Intel HD Graphics II (Intel HD Graphics 2000/3000).

Обновленный медиапроцессор позволяет разгрузить процессорные ядра при кодировании видео в форматах MPEG2 и H.264, а также расширяет набор пост-процессинговых функций аппаратной реализацией алгоритмов для автоматической подстройки контрастности изображения (ACE – Adaptive Contrast Enhancement), корректировки цветов (TCC – Total Color Control) и улучшения отображения кожи (STE – Skin Tone Enhancement). Повышает перспективность использования встроенной видеокарты реализованная поддержка интерфейса HDMI версии 1.4, совместимой с Blu-ray 3D (Intel InTru 3D).

Все выше перечисленные архитектурные особенности обеспечивают новому поколению процессоров заметное превосходство по быстродействию над моделями предыдущего поколения, как в вычислительных задачах, так и при работе с видео.

В итоге платформа Intel LGA 1155 становится более производительной и функциональной, приходя на смену LGA 1156.

Если подытожить, то процессоры семейства Sandy Bridge спроектированы для решения очень широкого круга задач при высокой энергоэффективности, что должно их сделать действительно массовыми в новых производительных системах, особенно когда в продаже появятся более доступные модели в широком ассортименте.

В ближайшее время постепенно покупателям станут доступны 8 процессоров для настольных систем разного уровня: Intel Core i7-2600K, Intel Core i7-2600, Intel Core i5-2500K, Intel Core i5-2500, Intel Core i5-2400, Intel Core i5-2300, Intel Core i3-2120 и Intel Core i3-2100. Модели с индексом K отличаются свободным множителем и более быстрым встроенным видеоадаптером Intel HD Graphics 3000.

Также для критичных к энергопотреблению систем выпущены энергоэффективные (индекс S) и высокоэнергоэффективные (индекс T) модели.

Для поддержки новых процессоров уже сегодня доступны материнские платы на чипсетах Intel P67 Express и Intel H67 Express, в а недалеком будущем ожидаются на Intel Q67 Express и Intel B65 Express, ориентированные на корпоративных пользователей и малый бизнес. Все эти чипсеты наконец-то начали поддерживать накопители с интерфейсом SATA 3.0, хотя и не всеми портами. А вот поддержки, казалось бы даже более востребованной шины USB 3.0 в них нет. Интересными особенностями новых чипсетов для обычных материнских плат стало то, что в них отказались от поддержки шины PCI. Кроме того, теперь тактовый генератор встроен в чипсет и управлять его характеристиками без последствий для стабильности работы системы можно лишь в очень небольшом диапазоне, если повезет то всего ±10 МГц, а на практике и того меньше.

Также нужно отметить, что разные чипсеты оптимизированы под использование с разными процессорами в системах, предназначенных для различных целей. То есть Intel P67 Express от Intel H67 Express отличается не только отсутствием поддержки работы со встроенным видео, но и расширенными возможностями для «оверклокинга» и тюнинга производительности. В свою очередь Intel H67 Express вообще не замечает свободный множитель у моделей с индексом K.

А ведь вследствие архитектурных особенностей, разгон процессоров Sandy Bridge пока возможен только с помощью множителя, если это модель K-серии. Хотя к некоторой оптимизации и «овербусту» склонны все модели.

Таким образом, временно для создания иллюзии работы на очень мощном процессоре даже модели с заблокированным множителем способны на заметное ускорение. Время такого ускорения для настольных систем, как было упомянуто выше, ограничено аппаратно, а не только температурой, как в мобильных ПК.

После представления всех архитектурных особенностей и нововведений, а также обновленных фирменных технологий, остается только еще раз просуммировать, чем же Sandy Bridge такие инновационные и напомнить о позиционировании.

Для высокопроизводительных и массовых производительных систем в ближайшее время можно будет купить процессоры серий Intel Core i7 и Intel Core i5, которые между собой отличаются поддержкой технологии Intel Hyper-Threading (для четырехъядерных моделей Intel Core i5 она отключена) и объемом кэш-памяти третьего уровня. Для более экономных покупателей представлены новые модели Intel Core i3, которые имеют в 2 раза меньше вычислительных ядер, хоть и с поддержкой Intel Hyper-Threading, всего 3 МБ кэш-памяти LLC, не поддерживают Intel Turbo Boost 2.0 и все укомплектованы Intel HD Graphics 2000.

В середине года для массовых систем будут представлены процессоры Intel Pentium (от этого бренда очень тяжело отказаться, хотя еще год назад это пророчили) на основе очень упрощенной архитектуры Sandy Bridge. Фактически эти процессоры для «рабочих лошадок» будут напоминать по возможностям еще вчера актуальные Core i3-3xx на ядре Clarkdale, т.к. практически всех функций, присущих старшим моделям для LGA 1155, они лишатся.

Остается отметить, что выпуск процессоров Sandy Bridge и целой настольной платформы LGA 1155 стал очередным «Так» в рамках концепции Intel «Тик-Так», т.е. серьезным обновлением архитектуры для выпуска по уже отлаженному 32 нм техпроцессу. Примерно через год нас будут ждать процессоры Ivy Bridge с оптимизированной архитектурой и выполненные по 22 нм техпроцессу, которые, наверняка, снова будут иметь «революционную энергоэффективность», но, надеемся, не упразднят процессорный разъем LGA 1155. Что ж, подождем – увидим. А пока у нас есть минимум год на изучение архитектуры Sandy Bridge и её всестороннее тестирование, к чему и собираемся приступить уже в ближайшие дни .

Статья прочитана 14947 раз(а)

Подписаться на наши каналы

Кольцевая шина. Состоит из спаянных колец, покрыва­ющих зубы с вестибулярной стороны в виде полоски, и расположена в окклюзионной части коронки ближе к режущему краю (рис. 26). С язычной стороны кольцо расширяется и перекрывает зубной бугорок. Кольца, как правило, готовятся из штампованных коронок, однако вариантом подобной шины может быть цельнолитая конструкция. При подготовке зубов отшлифовываются межзубные контактные пункты на толщину штампованной коронки до нижнего края кольца. Для этого предварительно на диагностической модели химическим карандашом обозначаются границы колец, которые в последующем служат ориентиром при препарировании зубов. Сепарация контактных поверхностей, обращенных друг к другу, проводится на толщину двух колец. Режущий край оставляется открытым и это обстоятельство требует особой тщательности в определении показаний к применению этой шины. Выраженная вертикальная подвижность зубов, не зак­рытых со стороны режущего края, может быть причиной рассасывания цемента и нарушения фиксации шины. Кроме того, при резко выраженной анатомической форме нижних передних резцов требуется отшлифовывание довольно значительного слоя твердых тканей с контактных поверхностей до ниж­него края кольца, что затрудняет восстановление контактных поверхностей на штампованной заготовке кольца и снижает точность прилегания кольца к поверхности зуба. Это также может быть причиной рассасывания фиксирующего цемента и развития кариеса.

Технология шины заключается в следующем. В первое посещение после тщательного обследования и составления плана шинирования следует снять оттиски альгинатной массой для изготовления диагностических гипсовых моделей. В параллелометре определяется топография межевой линии, модели фиксируют в артикуляторе и наносят рисунок коль­цевой шины. На этой же модели осуществляется фантомное препарирование шинируемых зубов. В следующее посещение под анестезией препарируют зубы, строго соблюдая границы фантомного препарирования. Для изготовления колец вновь снимают оттиск с помощью альгинатной массы. Снятие двойного оттиска у пациентов с заболеваниями пародонта может быть затруднено из-за подвижности отдельных зубов и опасности их удаления. По полученным оттискам отливают гипсовые рабочие модели, которые используют для изготовле­ния штампованных заготовок будущих колец. Полученные штампованные коронки используют для изготовления колец, которые проверяют в полости рта больного и если они отвечают требованиям вместе с ними снимают оттиск для перевода колец на гипсовую модель. Перед снятием оттиска контактные поверхности обращенных друг к другу колец зачищают от окалины для последующей спайки колец на гипсовой модели без предварительного их снятия, что обеспечивает точность их взаимного расположения при изготовлении шины. Готовую шину после спайки колец подвергают отбеливанию, полируют и фиксируют в полости рта больного специальными цементами.

К недостаткам кольцевой шины относятся: 1 - нарушение эстетики естественных зубов, часть которых закрыта металлическим кольцом; 2 - наличие припоя нередко приводит к его окислению и изменению цвета в виде потемнения, особенно часто это наблюдается у пациентов с повышенной кислотностью желудочного сока; 3 - отсутствие шинирующего эффекта при вертикальной нагрузке; 4 - шина требует применения цементов, весьма устойчивых к воздействию ротовой жидкости (если это условие не соблюдается, возникает опасность поражения зубов кариесом и нарушения фиксации шины).

Рис. 26. Кольцевая шина: а - вид с губной стороны; б - вид с язычной стороны; в - общий вид кольца; г - схема подготовки зуба: пунктирная линия обозначает край кольца; слева показано чрезмерное удаление твердых тканей с контактной поверхности; справа - правильное препарирование, когда выступающие над нижней границей кольца твердые ткани удалены точно до обозначенной пунктирной линии; д, е - границы препарирования (вид спереди и сверху)

Полукольцевая шина. Конструктивно шина построена на том же принципе, что и кольцевая. Однако с целью повышения эстетических свойств шины средняя часть кольца с губной стороны удаляется и, таким образом, вестибулярная поверхность зуба в ее средней части освобождается от металла (рис. 27). Таким образом, на губной поверхности остаются короткие плечи в виде ленточных кламмеров, охватывающих зубы полностью с язычной стороны и частично с вестибулярпой. Наилучший шинирующий эффект достигается при включении в шину полных опорных коронок, покрывающих крайние зубы - клыки. С технологической точки зрения шина наиболее практична при изготовлении цельнолитой конструкции, поскольку штампованные полукольца не обладают необходимой для шинирования жесткостью. Кроме того, в настоящее время появилась возможность покрывать литые полукольца декоративным материалом - керамикой, что делает шину весьма выгодной в эстетическом отношении

Рис. 27. Полукольцевая шипа: а - вид с вестибулярной стороны; б - вид с язычной стороны

Колпачковая шина. Система спаянных колпачков, покрывающих режущий край, контактные поверхности зуба, а на язычной поверхности достигающих зубного бугорка, обозначается как колпачковая шина (рис. 28). Препарированию подвергаются режущий край и контактные поверхности на толщину колпачка. С губной стороны край колпачка может быть расположен сверху на твердых тканях зуба или заканчиваться на специально сформированном уступе. Второй вариант предпочтительнее, поскольку край колпачка оказывается лежащим на одном уровне с примыкающими к нему твердыми тканями, то есть заподлицо. В первом варианте край колпачка часто ощущается пациентами, может травмировать окружающую его подвижную слизистую оболочку полости рта и требует создания фальца при переходе края кол­пачка в твердые ткани зуба. Колпачки могут изготавливаться двумя способами: 1) из штампованных коронок, 2) цельнолитые. Второй вариант считается более совершенным, по­скольку возрастает точность всей шинирующей конструкции, а значит повышается ее шинирующий эффект, и, кроме того, появляется возможность облицовывать литую конструкцию керамикой. Для лучшей устойчивости шину объединяют с полными коронками (металлоакриловыми или металлокера-мическими), покрывающими крайние наиболее устойчивые зубы - клыки или премоляры. Последовательность изготовления та же, что и при изготовлении кольцевой шины.

Рис. 28. Колпачковая шина: а - вид с губной стороны; б - вид с язычной стороны; в - слой удаляемых твердых тканей под колпачковую шину; г - штампованный колпачок; д - препарирование под литой колпачок; с - конструкция литого колпачка с облицовкой режущего края

Шины, применяемые на витальных зубах, имеют одно главное преимущество - сохраняется жизнеспособность пульпы, а значит не создаются условия для изменения реактивности в тканях пародонта. Однако нередко, вследствие близости пульпы, особенно при стирании части режущей и жевательных поверхностей зубов, применении сложной конструкции шины, требующей формирования глубоких полостей, требуется предварительное депульпирование зубов. Конечно, при наличии депулышрованных зубов изготовление шин значительно облегчается. Ниже мы рассмотрим именно такие конструкции, которые применяются на дсвитализироваиных зубах.

При применении несъемных конструкций шин следует строго соблюдать правила размещения края шин, расположенных вблизи десиевого края. Последний не должен травмироваться шиной. Для этого край коронки следует минимально погружать в десневую бороздку, а для предупреждения возможного давления на десну применять методику препарирования зубов с уступом практически на уровне с ней. Щадящее отношение к больному пародонту при приме­нении несъемных шин благотворно сказывается на течении заболевания пародонта и не является препятствием для консервативной и хирургической терапии. Кроме того, важным с точки зрения предупреждения травмы десиевого края является метод получения оттисков. Мы считаем наиболее оптимальным в этом случае снимать оттиски для изготовления шинирующих конструкций наиболее эластичными альгинатными материалами, позволяющими при подвижных зубах избежать случайного удаления зубов вместе с оттиском. Встречающиеся в специальной литературе рекомендации снимать двуслойные оттиски с помощью силиконовых оттискных материалов, даже с предварительным шинированием, как показывают наблюдения, не приемлемы, так как снятие двуслойных оттисков может быть причиной удаления подвижных зубов.

СЪЕМНЫЕ ШИНЫ

В вопросе о способах шинирования зубов существуют разные точки зрения. Одни авторы считают оправданным преимущественное использование несъемных шин, а другие, наоборот, отдают препочтение съемным шинам и шинирую­щим конструкциям съемных протезов . Причем шинирование съемными конструкциями может использоваться как при интактных зубных рядах, так и при частичной потере зубов.

При необходимости же замены удаленных зубов искусственными реставрация съемной шины может быть проведена без замены всей конструкции.

Съемные шины обеспечивают надежную стабилизацию прежде всего в вестибуло-оральном и мезио-дистальном направлении. При этом исключается необходимость радикального препарирования зубов, создаются хорошие условия для гигиенического ухода и проведения медикаментозно-хирургического лечения как в подготовительный период, так и в процессе пользования съемной шинирующей конструкцией.

При ортопедическом лечении заболеваний пародонта с помощью съемных шин целесообразно выделять две группы больных:

с интактными зубными рядами; частичной потерей зубов.

Съемная шина Эльбрехта. Шина применяется при сохранившихся зубных рядах и построена по типу многозвеньевых кламмеров, обеспечивающих иммобилизацию зубов в горизонтальной плоскости, оставляя их незащищенными от действия вертикальной нагрузки, развивающейся при жевании. Элементы перекидных кламмеров, окклюзионных накладок и вестибулярных когтевидпых отростков позволяют достичь хорошего шинирующего эффекта.

Рис. 44. Съемная шина Эльбрехта: а - шина Эльбрехта (объяснение в тексте); б - разновидности многозвеньевого (непрерывного) кламмера: 1 - высокое положение кламмера (в верхней части язычной поверхности) каплевидной формы; 2 - расположение кламмера в средней части язычной поверхности; 3 - низкое положение кламмера (в придесневой половине язычной поверхности); 4 - кламмер в виде широкой полоски

Съемная шина с денто-альвеолярными кламмерами по В.Н. Копейкину. Съемная шина Эльбрехта была модифицирована В.Н. Копейкипым, который предложил для усиления ретенционпых свойств и достижения лучшего эстетического эффекта использовать Т-образные кламмеры Роуча. Многозвеньевые кламмеры в этой конструкции опушены ниже десневого края и в виде дуги располагаются па скате альвеолярных отростков передних отделов челюстей с вестибулярной и язычной сторон. От них к каждому переднему зубу отходят Т-образные кламмеры, плечи которых располагаются в зонах поднутрения. Шина может быть рекомендована при устойчивых или подвижных 0-1 степени передних зубах, когда шинирующие свойства удерживающих Т-образных клэммеров не будут оказывать вредного воздействия на больной пародонт (рис. 45). Для этого необходимо размещать плечи Т-образных кламмеров таким образом, чтобы они находились вне зоны поднутрения. Фиксирующие свойства шины обеспечиваются за счет введения в зону поднутрения тех литых плеч кламмеров, которые расположены на устойчивых зубах с наименее пораженным пародонтом. Эта шила так же, как и все остальные цельнолитые конструкции, должна отливаться с использованием огнеупорных моделей. Съемная шина Эльбрехта может быть усилена дугами, располагающимися на язычной поверхности ската альвеолярного отростка нижней челюсти или своде неба верхней (рис. а, б). Если подобная шинирующая конструкция применяется только для шинирования боковых зубов, достигается нарасагиттальная стабилизация (рис. в, г).

Рис. Съемные шины, усиленные дугами для нижней (а) и верхней челюсти (б). Конструкция шины для создания пара-сагиттальной стабилизации: в - на модели; г - общий вид шины

Рис. М. Съемная шипа с литой каппой для передних зубов: а - на гипсовой модели; б - каркас съемной шины

Рис. 48. Съемные шииы для передних зубов; а - съемная круговая шина; б - съемная шипа в виде непрерывного кламмера с когтевидиымн отростками

В целом при отсутствии нескольких зубов и выраженной патологии пародонта предпочтение отдают съемным протезам. Конструкция протеза подбирается строго индивидуально и требует нескольких посещений врача.

Съемная конструкция требует тщательного планирования и определенной последовательности действий:

Диагностика и обследование пародонта.

Подготовка поверхности зубов и получение слепков для будущей модели

Изучение модели и планирование конструкции шины

Моделирование восковой репродукции шины

Получение литейной формы и проверка точности каркаса на гипсовой модели

Проверка шины (шины-протеза) в полости рта

Окончательная отделка (полировка) шины

Здесь перечислены не все рабочие этапы, но даже этот перечень говорит о сложности процедуры изготовления съемной шины (шины-протеза). Сложность изготовления объясняет необходимость нескольких сеансов работы с пациентом и длительность по времени от первого до последнего посещения врача. Но результат всех усилий всегда один – восстановление анатомии и физиологии, приводящее к восстановлению здоровья и социальной реабилитации.

ВведениеЭтим летом компания Intel совершила странное: она умудрилась сменить целых два поколения процессоров, ориентированных на общеупотребительные персональные компьютеры. Сначала на смену Haswell пришли процессоры с микроархитектурой Broadwell, но затем в течение буквально пары месяцев они утратили свой статус новинки и уступили место процессорам Skylake, которые будут оставаться наиболее прогрессивными CPU как минимум ещё года полтора. Такая чехарда со сменой поколений произошла главным образом в связи с проблемами Intel, возникшими при внедрении нового 14-нм техпроцесса, который применяется при производстве и Broadwell, и Skylake. Производительные носители микроархитектуры Broadwell по пути в настольные системы сильно задержались, а их последователи вышли по заранее намеченному графику, что привело к скомканности анонса процессоров Core пятого поколения и серьёзному сокращению их жизненного цикла. В результате всех этих пертурбаций, в десктопном сегменте Broadwell заняли совсем узкую нишу экономичных процессоров с мощным графическим ядром и довольствуются теперь лишь небольшим уровнем продаж, свойственным узкоспециализированным продуктам. Внимание же передовой части пользователей переключилось на последователей Broadwell – процессоры Skylake.

Надо заметить, что в последние несколько лет компания Intel совсем не радует своих поклонников ростом производительности предлагаемых продуктов. Каждое новое поколение процессоров прибавляет в удельном быстродействии лишь по несколько процентов, что в конечном итоге приводит к отсутствию у пользователей явных стимулов к модернизации старых систем. Но выход Skylake – поколения CPU, по пути к которому Intel, фактически, перепрыгнула через ступеньку – внушал определённые надежды на то, что мы получим действительно стоящее обновление самой распространённой вычислительной платформы. Однако, ничего подобного так и не случилось: Intel выступила в своём привычном репертуаре. Broadwell был представлен общественности в качестве некого ответвления от основной линии процессоров для настольных систем, а Skylake оказались быстрее Haswell в большинстве приложений совсем незначительно .

Поэтому несмотря на все ожидания, появление Skylake в продаже вызвало у многих скептическое отношение. Ознакомившись с результатами реальных тестов, многие покупатели попросту не увидели реального смысла в переходе на процессоры Core шестого поколения. И действительно, главным козырем свежих CPU выступает прежде всего новая платформа с ускоренными внутренними интерфейсами, но не новая процессорная микроархитектура. И это значит, что реальных стимулов к обновлению основанных систем прошлых поколений Skylake предлагает немного.

Впрочем, мы бы всё-таки не стали отговаривать от перехода Skylake всех без исключения пользователей. Дело в том, что пусть Intel и наращивает производительность своих процессоров очень сдержанными темпами, с момента появления Sandy Bridge, которые всё ещё трудятся во многих системах, сменилось уже четыре поколения микроархитектуры. Каждый шаг по пути прогресса вносил свой вклад в увеличение производительности, и к сегодняшнему дню Skylake способен предложить достаточно существенный прирост в производительности по сравнению со своими более ранними предшественниками. Только чтобы увидеть это, сравнивать его надо не с Haswell, а с более ранними представителями семейства Core, появившимися до него.

Собственно, именно таким сравнением мы сегодня и займёмся. Учитывая всё сказанное, мы решили посмотреть, насколько выросла производительность процессоров Core i7 с 2011 года, и собрали в едином тесте старшие Core i7, относящиеся к поколениям Sandy Bridge, Ivy Bridge, Haswell, Broadwell и Skylake. Получив же результаты такого тестирования, мы постараемся понять, обладателям каких процессоров целесообразно затевать модернизацию старых систем, а кто из них может повременить до появления последующих поколений CPU. Попутно мы посмотрим и на уровень производительности новых процессоров Core i7-5775C и Core i7-6700K поколений Broadwell и Skylake, которые до настоящего момента в нашей лаборатории ещё не тестировались.

Сравнительные характеристики протестированных CPU

От Sandy Bridge до Skylake: сравнение удельной производительности

Для того, чтобы вспомнить, как же менялась удельная производительность интеловских процессоров в течение последней пятилетки, мы решили начать с простого теста, в котором сопоставили скорость работы Sandy Bridge, Ivy Bridge, Haswell, Broadwell и Skylake, приведённых к одной и той же частоте 4,0 ГГц. В этом сравнении нами были использованы процессоры линейки Core i7, то есть, четырёхъядерники, обладающие технологией Hyper-Threading.

В качестве основного тестового инструмента был взят комплексный тест SYSmark 2014 1.5, который хорош тем, что воспроизводит типичную пользовательскую активность в общеупотребительных приложениях офисного характера, при создании и обработке мультимедийного контента и при решении вычислительных задач. На следующих графиках отображены полученные результаты. Для удобства восприятия они нормированы, за 100 процентов принята производительность Sandy Bridge.



Интегральный показатель SYSmark 2014 1.5 позволяет сделать следующие наблюдения. Переход от Sandy Bridge к Ivy Bridge увеличил удельную производительность совсем незначительно – примерно на 3-4 процента. Дальнейший шаг к Haswell оказался гораздо более результативным, он вылился в 12-процентное улучшение производительности. И это – максимальный прирост, который можно наблюдать на приведённом графике. Ведь дальше Broadwell обгоняет Haswell всего лишь на 7 процентов, а переход от Broadwell к Skylake и вовсе наращивает удельную производительность лишь на 1-2 процента. Весь же прогресс от Sandy Bridge до Skylake выливается в 26-процентное увеличение производительности при постоянстве тактовых частот.

Более подробную расшифровку полученных показателей SYSmark 2014 1.5 можно посмотреть на трёх следующих графиках, где интегральный индекс производительности разложен по составляющим по типу приложений.









Обратите внимание, наиболее заметно с вводом новых версий микроархитектур прибавляют в скорости исполнения мультимедийные приложения. В них микроархитектура Skylake превосходит Sandy Bridge на целых 33 процента. А вот в счётных задачах, напротив, прогресс проявляется меньше всего. И более того, при такой нагрузке шаг от Broadwell к Skylake даже оборачивается небольшим снижением удельной производительности.

Теперь, когда мы представляем себе, что же происходило с удельной производительностью процессоров Intel в течение последних нескольких лет, давайте попробуем разобраться, чем наблюдаемые изменения были обусловлены.

От Sandy Bridge до Skylake: что изменилось в процессорах Intel

Сделать точкой отсчёта в сравнении разных Core i7 представителя поколения Sandy Bridge мы решили не просто так. Именно данный дизайн подвёл крепкий фундамент под всё дальнейшее совершенствование производительных интеловских процессоров вплоть до сегодняшних Skylake. Так, представители семейства Sandy Bridge стали первыми высокоинтегрированными CPU, в которых в одном полупроводниковом кристалле были собраны и вычислительные, и графическое ядра, а также северный мост с L3-кешем и контроллером памяти. Кроме того, в них впервые стала использоваться внутренняя кольцевая шина, посредством которой была решена задача высокоэффективного взаимодействия всех структурных единиц, составляющих столь сложный процессор. Этим заложенным в микроархитектуре Sandy Bridge универсальным принципам построения продолжают следовать все последующие поколения CPU без каких бы то ни было серьёзных корректив.

Немалые изменения в Sandy Bridge претерпела внутренняя микроархитектура вычислительных ядер. В ней не только была реализована поддержка новых наборов команд AES-NI и AVX, но и нашли применение многочисленные крупные улучшения в недрах исполнительного конвейера. Именно в Sandy Bridge был добавлен отдельный кеш нулевого уровня для декодированных инструкций; появился абсолютно новый блок переупорядочивания команд, основанный на использовании физического регистрового файла; были заметно улучшены алгоритмы предсказания ветвлений; а кроме того, два из трёх исполнительных порта для работы с данными стали унифицированными. Такие разнородные реформы, проведённые сразу на всех этапах конвейера, позволили серьёзно увеличить удельную производительность Sandy Bridge, которая по сравнению с процессорами предыдущего поколения Nehalem сразу выросла почти на 15 процентов. К этому добавился 15-процентный рост номинальных тактовых частот и отличный разгонный потенциал, в результате чего в сумме получилось семейство процессоров, которое до сих пор ставится в пример Intel, как образцовое воплощение фазы «так» в принятой в компании маятниковой концепции разработки.

И правда, подобных по массовости и действенности улучшений в микроархитектуре после Sandy Bridge мы уже не видели. Все последующие поколения процессорных дизайнов проводят куда менее масштабные усовершенствования в вычислительных ядрах. Возможно, это является отражением отсутствия реальной конкуренции на процессорном рынке, возможно причина замедления прогресса кроется в желании Intel сосредоточить усилия на совершенствовании графических ядер, а может быть Sandy Bridge просто оказался настолько удачным проектом, что его дальнейшее развитие требует слишком больших трудозатрат.

Отлично иллюстрирует произошедший спад интенсивности инноваций переход от Sandy Bridge к Ivy Bridge. Несмотря на то, что следующее за Sandy Bridge поколение процессоров и было переведено на новую производственную технологию с 22-нм нормами, его тактовые частоты совсем не выросли. Сделанные же улучшения в дизайне в основном коснулись ставшего более гибким контроллера памяти и контроллера шины PCI Express, который получил совместимость с третьей версией данного стандарта. Что же касается непосредственно микроархитектуры вычислительных ядер, то отдельные косметические переделки позволили добиться ускорения выполнения операций деления и небольшого увеличения эффективности технологии Hyper-Threading, да и только. В результате, рост удельной производительности составил не более 5 процентов.

Вместе с тем, внедрение Ivy Bridge принесло и то, о чём теперь горько жалеет миллионная армия оверклокеров. Начиная с процессоров этого поколения, Intel отказалась от сопряжения полупроводникового кристалла CPU и закрывающей его крышки посредством бесфлюсовой пайки и перешла на заполнение пространства между ними полимерным термоинтерфейсным материалом с очень сомнительными теплопроводящими свойствами. Это искусственно ухудшило частотный потенциал и сделало процессоры Ivy Bridge, как и всех их последователей, заметно менее разгоняемыми по сравнению с очень бодрыми в этом плане «старичками» Sandy Bridge.

Впрочем, Ivy Bridge – это всего лишь «тик», а потому особых прорывов в этих процессорах никто и не обещал. Однако никакого воодушевляющего роста производительности не принесло и следующее поколение, Haswell, которое, в отличие от Ivy Bridge, относится уже к фазе «так». И это на самом деле немного странно, поскольку различных улучшений в микроархитектуре Haswell сделано немало, причём они рассредоточены по разным частям исполнительного конвейера, что в сумме вполне могло бы увеличить общий темп исполнения команд.

Например, во входной части конвейера была улучшена результативность предсказания переходов, а очередь декодированных инструкций стала делиться между параллельными потоками, сосуществующими в рамках технологии Hyper-Threading, динамически. Попутно произошло увеличение окна внеочередного исполнения команд, что в сумме должно было поднять долю параллельно выполняемого процессором кода. Непосредственно в исполнительном блоке были добавлены два дополнительных функциональных порта, нацеленных на обработку целочисленных команд, обслуживание ветвлений и сохранение данных. Благодаря этому Haswell стал способен обрабатывать до восьми микроопераций за такт – на треть больше предшественников. Более того, новая микроархитектура удвоила и пропускную способность кеш-памяти первого и второго уровней.

Таким образом, улучшения в микроархитектуре Haswell не затронули лишь скорость работы декодера, который, похоже, на данный момент стал самым узким местом в современных процессорах Core. Ведь несмотря на внушительный список улучшений, прирост удельной производительности у Haswell по сравнению с Ivy Bridge составил лишь около 5-10 процентов. Но справедливости ради нужно оговориться, что на векторных операциях ускорение заметно гораздо сильнее. А наибольший выигрыш можно увидеть в приложениях, использующих новые AVX2 и FMA-команды, поддержка которых также появилась в этой микроархитектуре.

Процессоры Haswell, как и Ivy Bridge, сперва тоже не особенно понравились энтузиастам. Особенно если учесть тот факт, что в первоначальной версии никакого увеличения тактовых частот они не предложили. Однако спустя год после своего дебюта Haswell стали казаться заметно привлекательнее. Во-первых, увеличилось количество приложений, обращающихся к наиболее сильным сторонам этой архитектуры и использующих векторные инструкции. Во-вторых, Intel смогла исправить ситуацию с частотами. Более поздние модификации Haswell, получившие собственное кодовое наименование Devil’s Canyon, смогли нарастить преимущество над предшественниками благодаря увеличению тактовой частоты, которая, наконец, пробила 4-гигагерцовый потолок. Кроме того, идя на поводу у оверклокеров, Intel улучшила полимерный термоинтерфейс под процессорной крышкой, что сделало Devil’s Canyon более подходящими объектами для разгона. Конечно, не такими податливыми, как Sandy Bridge, но тем не менее.

И вот с таким багажом Intel подошла к Broadwell. Поскольку основной ключевой особенностью этих процессоров должна была стать новая технология производства с 14-нм нормами, никаких значительных нововведений в их микроархитектуре не планировалось – это должен был быть почти самый банальный «тик». Всё необходимое для успеха новинок вполне мог бы обеспечить один только тонкий техпроцесс с FinFET-транзисторами второго поколения, в теории позволяющий уменьшить энергопотребление и поднять частоты. Однако практическое внедрение новой технологии обернулось чередой неудач, в результате которых Broadwell досталась лишь экономичность, но не высокие частоты. В итоге те процессоры этого поколения, которые Intel представила для настольных систем, вышли больше похожими на мобильные CPU, чем на продолжателей дела Devil’s Canyon. Тем более, что кроме урезанных тепловых пакетов и откатившихся частот они отличаются от предшественников и уменьшившимся в объёме L3-кешем, что, правда, несколько компенсируется появлением расположенного на отдельном кристалле кэша четвёртого уровня.

На одинаковой с Haswell частоте процессоры Broadwell демонстрируют примерно 7-процентное преимущество, обеспечиваемое как добавлением дополнительного уровня кеширования данных, так и очередным улучшением алгоритма предсказания ветвлений вместе с увеличением основных внутренних буферов. Кроме того, в Broadwell реализованы новые и более быстрые схемы выполнения инструкций умножения и деления. Однако все эти небольшие улучшения перечёркиваются фиаско с тактовыми частотами, относящими нас в эпоху до Sandy Bridge. Так, например, старший оверклокерский Core i7-5775C поколения Broadwell уступает по частоте Core i7-4790K целых 700 МГц. Понятно, что ожидать какого-то роста производительности на этом фоне бессмысленно, лишь бы обошлось без её серьёзного падения.

Во многом именно из-за этого Broadwell и оказался непривлекательным для основной массы пользователей. Да, процессоры этого семейства отличаются высокой экономичностью и даже вписываются в тепловой пакет с 65-ваттными рамками, но кого это, по большому счёту, волнует? Разгонный же потенциал первого поколения 14-нм CPU оказался достаточно сдержанным. Ни о какой работе на частотах, приближающихся к 5-гигагерцовой планке речь не идёт. Максимум, которого можно добиться от Broadwell при использовании воздушного охлаждения пролегает в окрестности величины 4,2 ГГц. Иными словами, пятое поколение Core вышло у Intel, как минимум, странноватым. О чём, кстати, микропроцессорный гигант в итоге и пожалел: представители Intel отмечают, что поздний выход Broadwell для настольных компьютеров, его сокращённый жизненный цикл и нетипичные характеристики отрицательно сказались на уровне продаж, и больше компания на подобные эксперименты пускаться не планирует.

Новейший же Skylake на этом фоне представляется не столько как дальнейшее развитие интеловской микроархитектуры, сколько своего рода работа над ошибками. Несмотря на то, что при производстве этого поколения CPU используется тот же 14-нм техпроцесс, что и в случае Broadwell, никаких проблем с работой на высоких частотах у Skylake нет. Номинальные частоты процессоров Core шестого поколения вернулись к тем показателям, которые были свойственны их 22-нм предшественникам, а разгонный потенциал даже немного увеличился. На руку оверклокерам здесь сыграл тот факт, что в Skylake конвертер питания процессора вновь перекочевал на материнскую плату и снизил тем самым суммарное тепловыделение CPU при разгоне. Жаль только, что Intel так и не вернулась к использованию эффективного термоинтерфейса между кристаллом и процессорной крышкой.

Но вот что касается базовой микроархитектуры вычислительных ядер, то несмотря на то, что Skylake, как и Haswell, представляет собой воплощение фазы «так», нововведений в ней совсем немного. Причём большинство из них направлено на расширение входной части исполнительного конвейера, остальные же части конвейера остались без каких-либо существенных изменений. Перемены касаются улучшения результативности предсказания ветвлений и повышения эффективности блока предварительной выборки, да и только. При этом часть оптимизаций служит не столько для улучшения производительности, сколько направлена на очередное повышение энергоэффективности. Поэтому удивляться тому, что Skylake по своей удельной производительности почти не отличается от Broadwell, не следует.

Впрочем, существуют и исключения: в отдельных случаях Skylake могут превосходить предшественников в производительности и более заметно. Дело в том, что в этой микроархитектуре была усовершенствована подсистема памяти. Внутрипроцессорная кольцевая шина стала быстрее, и это в конечном итоге расширило полосу пропускания L3-кэша. Плюс к этому контроллер памяти получил поддержку работающей на высоких частотах памяти стандарта DDR4 SDRAM.

Но в итоге тем не менее получается, что бы там не говорила Intel о прогрессивности Skylake, с точки зрения обычных пользователей это – достаточно слабое обновление. Основные улучшения в Skylake сделаны в графическом ядре и в энергоэффективности, что открывает перед такими CPU путь в безвентиляторные системы планшетного форм-фактора. Десктопные же представители этого поколения отличаются от тех же Haswell не слишком заметно. Даже если закрыть глаза на существование промежуточного поколения Broadwell, и сопоставлять Skylake напрямую с Haswell, то наблюдаемый рост удельной производительности составит порядка 7-8 процентов, что вряд ли можно назвать впечатляющим проявлением технического прогресса.

Попутно стоит отметить, что не оправдывает ожиданий и совершенствование технологических производственных процессов. На пути от Sandy Bridge дo Skylake компания Intel сменила две полупроводниковых технологии и уменьшила толщину транзисторных затворов более чем вдвое. Однако современный 14-нм техпроцесс по сравнению с 32-нм технологией пятилетней давности так и не позволил нарастить рабочие частоты процессоров. Все процессоры Core последних пяти поколений имеют очень похожие тактовые частоты, которые если и превышают 4-гигагерцовую отметку, то совсем незначительно.

Для наглядной иллюстрации этого факта можно посмотреть на следующий график, на котором отображена тактовая частота старших оверклокерских процессоров Core i7 разных поколений.



Более того, пик тактовой частоты приходится даже не на Skylake. Максимальной частотой могут похвастать процессоры Haswell, относящиеся к подгруппе Devil’s Canyon. Их номинальная частота составляет 4,0 ГГц, но благодаря турбо-режиму в реальных условиях они способны разгоняться до 4,4 ГГц. Для современных же Skylake максимум частоты – всего лишь 4,2 ГГц.

Всё это, естественно, сказывается на итоговой производительности реальных представителей различных семейств CPU. И далее мы предлагаем посмотреть, как всё это отражается на быстродействии платформ, построенных на базе флагманских процессоров каждого из семейств Sandy Bridge, Ivy Bridge, Haswell, Broadwell и Skylake.

Как мы тестировали

В сравнении приняли участие пять процессоров Core i7 разных поколений: Core i7-2700K, Core i7-3770K, Core i7-4790K, Core i7-5775C и Core i7-6700K. Поэтому список комплектующих, задействованных в тестировании, получился достаточно обширным:

Процессоры:

Intel Core i7-2600K (Sandy Bridge, 4 ядра + HT, 3,4-3,8 ГГц, 8 Мбайт L3);
Intel Core i7-3770K (Ivy Bridge, 4 ядра + HT, 3,5-3,9 ГГц, 8 Мбайт L3);
Intel Core i7-4790K (Haswell Refresh, 4 ядра + HT, 4,0-4,4 ГГц, 8 Мбайт L3);
Intel Core i7-5775C (Broadwell, 4 ядра, 3,3-3,7 ГГц, 6 Мбайт L3, 128 Мбайт L4).
Intel Core i7-6700K (Skylake, 4 ядра, 4,0-4,2 ГГц, 8 Мбайт L3).

Процессорный кулер: Noctua NH-U14S.
Материнские платы:

ASUS Z170 Pro Gaming (LGA 1151, Intel Z170);
ASUS Z97-Pro (LGA 1150, Intel Z97);
ASUS P8Z77-V Deluxe (LGA1155, Intel Z77).

Память:

2x8 Гбайт DDR3-2133 SDRAM, 9-11-11-31 (G.Skill F3-2133C9D-16GTX);
2x8 Гбайт DDR4-2666 SDRAM, 15-15-15-35 (Corsair Vengeance LPX CMK16GX4M2A2666C16R).

Видеокарта: NVIDIA GeForce GTX 980 Ti (6 Гбайт/384-бит GDDR5, 1000-1076/7010 МГц).
Дисковая подсистема: Kingston HyperX Savage 480 GB (SHSS37A/480G).
Блок питания: Corsair RM850i (80 Plus Gold, 850 Вт).

Тестирование выполнялось в операционной системе Microsoft Windows 10 Enterprise Build 10240 с использованием следующего комплекта драйверов:

Intel Chipset Driver 10.1.1.8;
Intel Management Engine Interface Driver 11.0.0.1157;
NVIDIA GeForce 358.50 Driver.

Производительность

Общая производительность

Для оценки производительности процессоров в общеупотребительных задачах мы традиционно используем тестовый пакет Bapco SYSmark, моделирующий работу пользователя в реальных распространённых современных офисных программах и приложениях для создания и обработки цифрового контента. Идея теста очень проста: он выдаёт единственную метрику, характеризующую средневзвешенную скорость компьютера при повседневном использовании. После выхода операционной системы Windows 10 этот бенчмарк в очередной раз обновился, и теперь мы задействуем самую последнюю версию – SYSmark 2014 1.5.



При сравнении Core i7 разных поколений, когда они работают в своих номинальных режимах, результаты получаются совсем не такие, как при сопоставлении на единой тактовой частоте. Всё-таки реальная частота и особенности работы турбо-режима оказывает достаточно существенное влияние на производительность. Например, согласно полученным данным, Core i7-6700K быстрее Core i7-5775C на целых 11 процентов, но при этом его преимущество над Core i7-4790K совсем незначительно – оно составляет всего лишь порядка 3 процентов. При этом нельзя обойти вниманием и то, что новейший Skylake оказывается существенно быстрее процессоров поколений Sandy Bridge и Ivy Bridge. Его преимущество над Core i7-2700K и Core i7-3770K достигает 33 и 28 процентов соответственно.

Более глубокое понимание результатов SYSmark 2014 1.5 способно дать знакомство с оценками производительности, получаемое в различных сценариях использования системы. Сценарий Office Productivity моделирует типичную офисную работу: подготовку текстов, обработку электронных таблиц, работу с электронной почтой и посещение Интернет-сайтов. Сценарий задействует следующий набор приложений: Adobe Acrobat XI Pro, Google Chrome 32, Microsoft Excel 2013, Microsoft OneNote 2013, Microsoft Outlook 2013, Microsoft PowerPoint 2013, Microsoft Word 2013, WinZip Pro 17.5 Pro.



В сценарии Media Creation моделируется создание рекламного ролика с использованием предварительно отснятых цифровых изображений и видео. Для этой цели применяются популярные пакеты Adobe Photoshop CS6 Extended, Adobe Premiere Pro CS6 и Trimble SketchUp Pro 2013.



Сценарий Data/Financial Analysis посвящён статистическому анализу и прогнозированию инвестиций на основе некой финансовой модели. В сценарии используются большие объёмы численных данных и два приложения Microsoft Excel 2013 и WinZip Pro 17.5 Pro.



Результаты, полученные нами при различных сценариях нагрузки, качественно повторяют общие показатели SYSmark 2014 1.5. Обращает на себя внимание лишь тот факт, что процессор Core i7-4790K совсем не выглядит устаревшим. Он заметно проигрывает новейшему Core i7-6700K только в расчётном сценарии Data/Financial Analysis, а в остальных случаях либо уступает своему последователю на совсем малозаметную величину, либо вообще оказывается быстрее. Например, представитель семейства Haswell опережает новый Skylake в офисных приложениях. Но процессоры более старых годов выпуска, Core i7-2700K и Core i7-3770K, выглядят уже несколько устаревшими предложениями. Они проигрывают новинке в разных типах задач от 25 до 40 процентов, и это, пожалуй, является вполне достаточным основанием, чтобы Core i7-6700K можно было рассматривать в качестве достойной им замены.

Игровая производительность

Как известно, производительность платформ, оснащенных высокопроизводительными процессорами, в подавляющем большинстве современных игр определяется мощностью графической подсистемы. Именно поэтому при тестировании процессоров мы выбираем наиболее процессорозависимые игры, а измерение количества кадров выполняем дважды. Первым проходом тесты проводятся без включения сглаживания и с установкой далеко не самых высоких разрешений. Такие настройки позволяют оценить, насколько хорошо проявляют себя процессоры с игровой нагрузкой в принципе, а значит, позволяют строить догадки о том, как будут вести себя тестируемые вычислительные платформы в будущем, когда на рынке появятся более быстрые варианты графических ускорителей. Второй проход выполняется с реалистичными установками – при выборе FullHD-разрешения и максимального уровня полноэкранного сглаживания. На наш взгляд такие результаты не менее интересны, так как они отвечают на часто задаваемый вопрос о том, какой уровень игровой производительности могут обеспечить процессоры прямо сейчас – в современных условиях.

Впрочем, в этом тестировании мы собрали мощную графическую подсистему, основанную на флагманской видеокарте NVIDIA GeForce GTX 980 Ti. И в результате в части игр частота кадров продемонстрировала зависимость от процессорной производительности даже в FullHD-разрешении.

Результаты в FullHD-разрешении с максимальными настройками качества


















Обычно влияние процессоров на игровую производительность, особенно если речь идёт о мощных представителях серии Core i7, оказывается незначительным. Однако при сопоставлении пяти Core i7 разных поколений результаты получаются совсем не однородными. Даже при установке максимальных настроек качества графики Core i7-6700K и Core i7-5775C демонстрируют наивысшую игровую производительность, в то время как более старые Core i7 от них отстают. Так, частота кадров, которая получена в системе с Core i7-6700K превышает производительность системы на базе Core i7-4770K на малозаметный один процент, но процессоры Core i7-2700K и Core i7-3770K представляются уже ощутимо худшей основой геймерской системы. Переход с Core i7-2700K или Core i7-3770K на новейший Core i7-6700K даёт прибавку в числе fps величиной в 5-7 процентов, что способно оказать вполне заметное влияние на качество игрового процесса.

Увидеть всё это гораздо нагляднее можно в том случае, если на игровую производительность процессоров посмотреть при сниженном качестве изображения, когда частота кадров не упирается в мощность графической подсистемы.

Результаты при сниженном разрешении


















Новейшему процессору Core i7-6700K вновь удаётся показать наивысшую производительность среди всех Core i7 последних поколений. Его превосходство над Core i7-5775C составляет порядка 5 процентов, а над Core i7-4690K – около 10 процентов. В этом нет ничего странного: игры достаточно чутко реагируют на скорость подсистемы памяти, а именно по этому направлению в Skylake были сделаны серьёзные улучшения. Но гораздо заметнее превосходство Core i7-6700K над Core i7-2700K и Core i7-3770K. Старший Sandy Bridge отстаёт от новинки на 30-35 процентов, а Ivy Bridge проигрывает ей в районе 20-30 процентов. Иными словами, как бы ни ругали Intel за слишком медленное совершенствование собственных процессоров, компания смогла за прошедшие пять лет на треть повысить скорость работы своих CPU, а это – очень даже ощутимый результат.

Тестирование в реальных играх завершают результаты популярного синтетического бенчмарка Futuremark 3DMark.









Вторят игровым показателям и те результаты, которые выдаёт Futuremark 3DMark. При переводе микроархитектуры процессоров Core i7 c Sandy Bridge на Ivy Bridge показатели 3DMark выросли на величину от 2 до 7 процентов. Внедрение дизайна Haswell и выпуск процессоров Devil’s Canyon добавил к производительности старших Core i7 дополнительные 7-14 процентов. Однако потом появление Core i7-5775C, обладающего сравнительно невысокой тактовой частотой, несколько откатило быстродействие назад. И новейшему Core i7-6700K, фактически, пришлось отдуваться сразу за два поколения микроархитектуры. Прирост в итоговом рейтинге 3DMark у нового процессора семейства Skylake по сравнению с Core i7-4790K составил до 7 процентов. И на самом деле это не так много: всё-таки самое заметное улучшение производительности за последние пять лет смогли привнести процессоры Haswell. Последние же поколения десктопных процессоров, действительно, несколько разочаровывают.

Тесты в приложениях

В Autodesk 3ds max 2016 мы тестируем скорость финального рендеринга. Измеряется время, затрачиваемое на рендеринг в разрешении 1920x1080 с применением рендерера mental ray одного кадра стандартной сцены Hummer.



Ещё один тест финального рендеринга проводится нами с использованием популярного свободного пакета построения трёхмерной графики Blender 2.75a. В нём мы измеряем продолжительность построения финальной модели из Blender Cycles Benchmark rev4.



Для измерения скорости фотореалистичного трёхмерного рендеринга мы воспользовались тестом Cinebench R15. Maxon недавно обновила свой бенчмарк, и теперь он вновь позволяет оценить скорость работы различных платформ при рендеринге в актуальных версиях анимационного пакета Cinema 4D.



Производительность при работе веб-сайтов и интернет-приложений, построенных с использованием современных технологий, измеряется нами в новом браузере Microsoft Edge 20.10240.16384.0. Для этого применяется специализированный тест WebXPRT 2015, реализующий на HTML5 и JavaScript реально использующиеся в интернет-приложениях алгоритмы.



Тестирование производительности при обработке графических изображений происходит в Adobe Photoshop CC 2015. Измеряется среднее время выполнения тестового скрипта, представляющего собой творчески переработанный Retouch Artists Photoshop Speed Test, который включает типичную обработку четырёх 24-мегапиксельных изображений, сделанных цифровой камерой.



По многочисленным просьбам фотолюбителей мы провели тестирование производительности в графической программе Adobe Photoshop Lightroom 6.1. Тестовый сценарий включает пост-обработку и экспорт в JPEG с разрешением 1920x1080 и максимальным качеством двухсот 12-мегапиксельных изображений в RAW-формате, сделанных цифровой камерой Nikon D300.



В Adobe Premiere Pro CC 2015 тестируется производительность при нелинейном видеомонтаже. Измеряется время рендеринга в формат H.264 Blu-Ray проекта, содержащего HDV 1080p25 видеоряд с наложением различных эффектов.



Для измерения быстродействия процессоров при компрессии информации мы пользуемся архиватором WinRAR 5.3, при помощи которого с максимальной степенью сжатия архивируем папку с различными файлами общим объёмом 1,7 Гбайт.



Для оценки скорости перекодирования видео в формат H.264 используется тест x264 FHD Benchmark 1.0.1 (64bit), основанный на измерении времени кодирования кодером x264 исходного видео в формат MPEG-4/AVC с разрешением 1920x1080@50fps и настройками по умолчанию. Следует отметить, что результаты этого бенчмарка имеют огромное практическое значение, так как кодер x264 лежит в основе многочисленных популярных утилит для перекодирования, например, HandBrake, MeGUI, VirtualDub и проч. Мы периодически обновляем кодер, используемый для измерений производительности, и в данном тестировании приняла участие версия r2538, в которой реализована поддержка всех современных наборов инструкций, включая и AVX2.



Кроме того, мы добавили в список тестовых приложений и новый кодер x265, предназначенный для транскодирования видео в перспективный формат H.265/HEVC, который является логическим продолжением H.264 и характеризуется более эффективными алгоритмами сжатия. Для оценки производительности используется исходный 1080p@50FPS Y4M-видеофайл, который перекодируется в формат H.265 с профилем medium. В этом тестировании принял участие релиз кодера версии 1.7.



Преимущество Core i7-6700K над ранними предшественниками в различных приложениях не подлежит сомнению. Однако больше всего выиграли от произошедшей эволюции два типа задач. Во-первых, связанные с обработкой мультимедийного контента, будь то видео или изображения. Во-вторых, финальный рендеринг в пакетах трёхмерного моделирования и проектирования. В целом, в таких случаях Core i7-6700K превосходит Core i7-2700K не менее, чем на 40-50 процентов. А иногда можно наблюдать и гораздо более впечатляющее улучшение скорости. Так, при перекодировании видео кодеком x265 новейший Core i7-6700K выдаёт ровно вдвое более высокую производительность, чем старичок Core i7-2700K.

Если же говорить о том приросте в скорости выполнения ресурсоёмких задач, которую может обеспечить Core i7-6700K по сравнению с Core i7-4790K, то тут уже столь впечатляющих иллюстраций к результатам работы интеловских инженеров привести нельзя. Максимальное преимущество новинки наблюдается в Lightroom, здесь Skylake оказался лучше в полтора раза. Но это скорее – исключение из правила. В большинстве же мультимедийных задач Core i7-6700K по сравнению с Core i7-4790K предлагает лишь 10-процентное улучшение производительности. А при нагрузке иного характера разница в быстродействии и того меньше или же вообще отсутствует.

Отдельно нужно сказать пару слов и о результате, показанном Core i7-5775C. Из-за небольшой тактовой частоты этот процессор медленнее, чем Core i7-4790K и Core i7-6700K. Но не стоит забывать о том, что его ключевой характеристикой является экономичность. И он вполне способен стать одним из лучших вариантов с точки зрения удельной производительности на каждый ватт затраченной электроэнергии. В этом мы легко убедимся в следующем разделе.

Энергопотребление

Процессоры Skylake производятся по современному 14-нм технологическому процессу с трёхмерными транзисторами второго поколения, однако, несмотря на это, их тепловой пакет вырос до 91 Вт. Иными словами, новые CPU не только «горячее» 65-ваттных Broadwell, но и превосходят по расчётному тепловыделению Haswell, выпускаемые по 22-нм технологии и уживающиеся в рамках 88-ваттного теплового пакета. Причина, очевидно, состоит в том, что изначально архитектура Skylake оптимизировалась с прицелом не на высокие частоты, а на энергоэффективность и возможность использования в мобильных устройствах. Поэтому для того, чтобы десктопные Skylake получили приемлемые тактовые частоты, лежащие в окрестности 4-гигагерцевой отметки, пришлось задирать напряжение питания, что неминуемо отразилось на энергопотреблении и тепловыделении.

Впрочем, процессоры Broadwell низкими рабочими напряжениями тоже не отличались, поэтому существует надежда на то, что 91-ваттный тепловой пакет Skylake получили по каким-то формальным обстоятельствам и, на самом деле, они окажутся не прожорливее предшественников. Проверим!

Используемый нами в тестовой системе новый цифровой блок питания Corsair RM850i позволяет осуществлять мониторинг потребляемой и выдаваемой электрической мощности, чем мы и пользуемся для измерений. На следующем ниже графике приводится полное потребление систем (без монитора), измеренное «после» блока питания и представляющее собой сумму энергопотребления всех задействованных в системе компонентов. КПД самого блока питания в данном случае не учитывается. Для правильной оценки энергопотребления мы активировали турборежим и все имеющиеся энергосберегающие технологии.



В состоянии простоя качественный скачок в экономичности настольных платформ произошёл с выходом Broadwell. Core i7-5775C и Core i7-6700K отличаются заметно более низким потреблением в простое.



Зато под нагрузкой в виде перекодирования видео самыми экономичными вариантами CPU оказываются Core i7-5775C и Core i7-3770K. Новейший же Core i7-6700K потребляет больше. Его энергетические аппетиты находятся на уровне старшего Sandy Bridge. Правда, в новинке, в отличие от Sandy Bridge, есть поддержка инструкций AVX2, которые требуют достаточно серьёзных энергетических затрат.

На следующей диаграмме приводится максимальное потребление при нагрузке, создаваемой 64-битной версией утилиты LinX 0.6.5 с поддержкой набора инструкций AVX2, которая базируется на пакете Linpack, отличающемся непомерными энергетическими аппетитами.



И вновь процессор поколения Broadwell показывает чудеса энергетической эффективности. Однако если смотреть на то, сколько электроэнергии потребляет Core i7-6700K, то становится понятно, что прогресс в микроархитектурах обошёл стороной энергетическую эффективность настольных CPU. Да, в мобильном сегменте с выходом Skylake появились новые предложения с чрезвычайно соблазнительным соотношением производительности и энергопотребления, однако новейшие процессоры для десктопов продолжают потреблять примерно столько же, сколько потребляли их предшественники за пять лет до сегодняшнего дня.

Выводы

Проведя тестирование новейшего Core i7-6700K и сравнив его с несколькими поколениями предшествующих CPU, мы вновь приходим к неутешительному выводу о том, что компания Intel продолжает следовать своим негласным принципам и не слишком стремится наращивать быстродействие десктопных процессоров, ориентированных на высокопроизводительные системы. И если по сравнению со старшим Broadwell новинка предлагает примерно 15-процентное улучшение производительности, обусловленное существенно лучшими тактовыми частотами, то в сравнении с более старым, но более быстрым Haswell она уже не кажется столь же прогрессивной. Разница в производительности Core i7-6700K и Core i7-4790K, несмотря на то, что эти процессоры разделяет два поколения микроархитектуры, не превышает 5-10 процентов. И это очень мало для того, чтобы старший десктопный Skylake можно было бы однозначно рекомендовать для обновления имеющихся LGA 1150-систем.

Впрочем, к столь незначительным шагам Intel в деле повышения скорости работы процессоров для настольных систем стоило бы давно привыкнуть. Прирост быстродействия новых решений, лежащий примерно в таких пределах, – давно сложившаяся традиция. Никаких революционных изменений в вычислительной производительности интеловских CPU, ориентированных на настольные ПК, не происходит уже очень давно. И причины этого вполне понятны: инженеры компании заняты оптимизацией разрабатываемых микроархитектур для мобильных применений и в первую очередь думают об энергоэффективности. Успехи Intel в адаптации собственных архитектур для использования в тонких и лёгких устройствах несомненны, но адептам классических десктопов при этом только и остаётся, что довольствоваться небольшими прибавками быстродействия, которые, к счастью, пока ещё не совсем сошли на нет.

Однако это совсем не значит, что Core i7-6700K можно рекомендовать лишь для новых систем. Задуматься о модернизации своих компьютеров вполне могут обладатели конфигураций, в основе которых лежит платформа LGA 1155 с процессорами поколений Sandy Bridge и Ivy Bridge. В сравнении с Core i7-2700K и Core i7-3770K новый Core i7-6700K выглядит очень неплохо – его средневзвешенное превосходство над такими предшественниками оценивается в 30-40 процентов. Кроме того, процессоры с микроархитектурой Skylake могут похвастать поддержкой набора инструкций AVX2, который к настоящему моменту нашел достаточно широкое применение в мультимедийных приложениях, и благодаря этому в некоторых случаях Core i7-6700K оказывается быстрее гораздо сильнее. Так, при перекодировании видео мы даже видели случаи, когда Core i7-6700K превосходил Core i7-2700K в скорости работы более чем в два раза!

Есть у процессоров Skylake и целый ряд других преимуществ, связанных с внедрением сопутствующей им новой платформы LGA 1151. И дело даже не столько в появившейся в ней поддержке DDR4-памяти, сколько в том, что новые наборы логики сотой серии наконец-то получили действительно скоростное соединение с процессором и поддержку большого количества линий PCI Express 3.0. В результате, передовые LGA 1151-системы могут похвастать наличием многочисленных быстрых интерфейсов для подключения накопителей и внешних устройств, которые лишены каких-либо искусственных ограничений по пропускной способности.

Плюс к тому, оценивая перспективы платформы LGA 1151 и процессоров Skylake, в виду нужно иметь и ещё один момент. Intel не будет спешить с выводом на рынок процессоров следующего поколения, известных как Kaby Lake. Если верить имеющейся информации, представители этой серии процессоров в вариантах для настольных компьютеров появятся на рынке только в 2017 году. Так что Skylake будет с нами ещё долго, и система, построенная на нём, сможет оставаться актуальной в течение очень продолжительного промежутка времени.