Prezentace procesorů Intel Sandy Bridge: modelová řada a architektonické prvky. Nový režim Intel Turbo Boost

Před pár lety, za vlády značky Pentium, první výskyt ochranné známky Intel Core a stejnojmenná mikroarchitektura (Architecture 101), další generace mikroarchitektury Intel s pracovním názvem Gesher („most“ v hebrejštině) byla poprvé zmíněna na diapozitivech o budoucích procesorech, které se později transformovaly na Sandy Bridge.

V té dlouhé době dominance procesorů NetBurst, kdy se teprve začínaly rýsovat kontury budoucích jader Nehalem a my jsme se seznámili s vlastnostmi vnitřní struktury prvních zástupců mikroarchitektury Core - Conroe pro desktopové systémy, Merom - pro mobil a Woodcrest - pro server ...

Jedním slovem, když byla tráva zelená a před Sandy Bridge to bylo ještě jako před měsícem, už tehdy zástupci Intelu říkali, že půjde o zcela novou mikroarchitekturu procesoru. Takhle si řekněme dnes můžete představit tajemnou mikroarchitekturu Haswell, která se objeví po generaci Ivy Bridge, která zase příští rok nahradí Sandy Bridge.

Čím více se však blíží datum vydání nové mikroarchitektury, tím více se dozvídáme o jejích vlastnostech, tím více jsou podobnosti sousedních generací patrné a tím zjevnější je vývojová cesta změn v obvodech procesoru. Pokud skutečně existuje propast rozdílů mezi počátečními reinkarnacemi první architektury Core - Merom / Conroe a prvorozeným Core druhé generace - Sandy Bridge, pak současná nejnovější verze generace Core - jádro Westmere - a chystaná první verze generace Core uvažovaná dnes II – jádro Sandy Bridge, se může zdát podobné.

A přesto jsou rozdíly značné. Tak významné, že nyní můžeme konečně mluvit o konci 15leté éry mikroarchitektury P6 (Pentium Pro) a vzniku nové generace mikroarchitektury Intel.

⇡ Mikroarchitektura Sandy Bridge: pohled z ptačí perspektivy

Čip Sandy Bridge je čtyřjádrový 64bitový out-of-order procesor, podpora dvou datových toků na jádro (HT), čtyři instrukce na takt; s integrovaným grafickým jádrem a integrovaným řadičem paměti DDR3; s novou kruhovou sběrnicí, podporou vektorových instrukcí 3 a 4 operandů (128/256 bitů) AVX (Advanced Vector Extensions); jehož výroba byla zavedena na linkách v souladu s normami moderních 32 nm technologický postup Intel.

Tak lze ve zkratce jednou větou zkusit charakterizovat novou generaci procesorů Intel Core II pro mobilní a desktopové systémy, jejichž masové dodávky začnou ve velmi blízké budoucnosti.

Procesory Intel Core II založené na mikroarchitektuře Sandy Bridge budou dodávány v novém 1155pinovém designu LGA1155 pro nové základní desky založené na čipových sadách Intel řady 6.

Přibližně stejná mikroarchitektura bude relevantní pro serverová řešení Intel Sandy Bridge-EP, s výjimkou skutečných rozdílů ve formě většího počtu procesorových jader (až osm), odpovídající patice procesoru LGA2011, větší mezipaměti L3, zvýšeného počtu paměťových řadičů DDR3 a podpory PCI - Express 3.0.

Předchozí generace, mikroarchitektura Westmere od Arrandale a Clarkdale pro mobilní a stolní systémy, je design se dvěma matricemi – 32nm procesorové jádro a další 45nm „koprocesor“ s grafickým jádrem a paměťovým řadičem na desce, umístěné na jediném substrát a provádění výměny dat přes sběrnici QPI. Ve skutečnosti v této fázi inženýři Intel, využívající především předchozí vývoj, vytvořili jakýsi integrovaný hybridní mikroobvod.

Při vytváření architektury Sandy Bridge vývojáři dokončili integrační proces, který začal ve fázi vytváření Arrandale / Clarkdale a umístili všechny prvky na jeden 32nm čip, přičemž opustili klasický vzhled sběrnice QPI ve prospěch nové kruhové sběrnice. Podstata mikroarchitektury Sandy Bridge přitom zůstala v rámci předchozí ideologie Intelu, která sází na zvýšení celkového výkonu procesoru zlepšením „individuální“ účinnosti každého jádra.

Strukturu čipu Sandy Bridge lze rozdělit na tyto hlavní prvky: procesorová jádra, grafické jádro, L3 cache paměť a tzv. System Agent.

Obecně je struktura mikroarchitektury Sandy Bridge jasná. Naším dnešním úkolem je zjistit účel a vlastnosti implementace každého z prvků této struktury.

Kruhová sběrnice (Ring Interconnect)

Celá historie upgradů mikroarchitektury procesorů Intel v posledních letech je nerozlučně spjata se sekvenční integrací stále většího počtu modulů a funkcí, které byly dříve umístěny mimo procesor, do jediného čipu: v čipové sadě, na základní deska atd. V souladu s tím, jak se zvyšoval výkon procesoru a stupeň integrace čipů, požadavky na šířku pásma pro interní propojovací sběrnice rostly rychlejším tempem. Prozatím se i po zavedení grafického čipu do architektury čipu Arrandale/Clarkdale dalo vystačit s mezisložkovými sběrnicemi s obvyklou křížovou topologií – stačilo.

Účinnost takové topologie je však vysoká pouze s malým počtem komponent, které se účastní výměny dat. V mikroarchitektuře Sandy Bridge se vývojáři pro zlepšení celkového výkonu systému rozhodli obrátit na kruhovou topologii 256bitové propojovací sběrnice, vyrobené na základě nové verze technologie QPI (QuickPath Interconnect), rozšířené, vylepšeno a poprvé implementováno v architektuře serverového čipu Nehalem-EX (Xeon 7500) a také plánované pro použití ve spojení s architekturou čipu Larrabee.

Kruhová sběrnice ve verzi Sandy Bridge desktopu a mobilní systémy(Core II) se používá k výměně dat mezi šesti klíčovými součástmi čipu: čtyřmi procesorovými jádry x86, grafickým jádrem, mezipamětí L3 a systémovým agentem. Sběrnice se skládá ze čtyř 32bajtových kroužky: datové sběrnice (Data Ring), požadavkové sběrnice (Request Ring), sběrnice pro monitorování stavu (Snoop Ring) a potvrzovací sběrnice (Acknowledge Ring), v praxi to vlastně umožňuje rozdělit přístup k 64bajtovému rozhraní mezipaměti poslední úrovně do dvou různých balíčků. Sběrnice jsou řízeny komunikačním protokolem distribuovaného rozhodčího řízení, zatímco požadavky jsou pipelines na taktovací frekvenci jader procesoru, což dává architektuře další flexibilitu při přetaktování. Výkon kruhové sběrnice je hodnocen na úrovni 96 GB za sekundu na připojení při 3 GHz, což je ve skutečnosti čtyřikrát rychleji než předchozí generace procesorů Intel.

Kruhová topologie a organizace sběrnice zajišťuje minimální latenci při zpracování požadavků, maximální výkon a vynikající škálovatelnost technologie pro verze čipů s různým počtem jader a dalších komponent. Podle zástupců společnosti může být v budoucnu na kruhovou sběrnici „připojeno“ až 20 procesorových jader na čip a takový redesign, jak chápete, lze provést velmi rychle, formou flexibilní a rychlé reakce aktuálním potřebám trhu. Kruhová sběrnice je navíc fyzicky umístěna přímo nad bloky mezipaměti L3 v horní metalizační vrstvě, což zjednodušuje designové rozložení a umožňuje udělat čip kompaktnější.

L3 - mezipaměť poslední úrovně, LLC

Jak jste si již všimli, na slidech Intelu je L3 cache označována jako "Last Level Cache", tedy LLC - Last Level Cache. V mikroarchitektuře Sandy Bridge je L3 cache distribuována nejen mezi čtyři procesorová jádra, ale díky kruhové sběrnici i mezi grafické jádro a systémového agenta, který mimo jiné obsahuje modul hardwarová akcelerace grafický a video výstupní blok. Speciální trasovací mechanismus zároveň zabraňuje vzniku přístupových konfliktů mezi jádry procesoru a grafikou.

Každé ze čtyř procesorových jader má přímý přístup do „svého“ segmentu mezipaměti L3, přičemž každý segment mezipaměti L3 poskytuje poloviční šířku své sběrnice pro přístup k datové sběrnici, zatímco fyzické adresování všech čtyř segmentů mezipaměti zajišťuje jediný hashovací funkce. Každý segment L3 cache má svůj vlastní nezávislý řadič přístupu kruhové sběrnice, který je zodpovědný za zpracování požadavků na přidělení fyzických adres. Kromě toho řadič mezipaměti neustále interaguje se systémovým agentem ohledně neúspěšných volání do L3, řízení výměny dat mezi komponentami a volání bez mezipaměti.

Další podrobnosti o struktuře a fungování L3 cache paměti procesorů Sandy Bridge se podle potřeby objeví později v textu v procesu seznamování s mikroarchitekturou.

Systémový agent: řadič paměti DDR3, PCUjiný

Dříve se v terminologii Intelu místo definice System Agent vyskytovalo tzv. „Non-Kernel“ – Uncore, tedy „vše, co není zahrnuto v Core“, tedy L3 cache, grafika, paměťový řadič, další řadiče. jako PCI Express atd. Ze zvyku jsme většinu těchto prvků často nazývali severní můstek, přenesený z čipsetu do procesoru.

Systémový agent mikroarchitektury Sandy Bridge zahrnuje řadič paměti DDR3, jednotku řízení napájení (Power Control Unit, PCU), PCI-Express 2.0, řadiče DMI, jednotku výstupu videa atd. Stejně jako všechny ostatní prvky architektury systémový agent je připojen k celému systému prostřednictvím vysoce výkonné kruhové pneumatiky.

Architektura standardní verze systémového agenta Sandy Bridge předpokládá přítomnost 16 sběrnicových pruhů PCI-E 2.0, které lze také distribuovat do dvou sběrnic PCI-E 2.0 s 8 pruhy nebo jedné sběrnice PCI-E 2.0 s 8 pruhy. pruhy a dva PCI-E 2.0 na čtyřech linkách. Dvoukanálový paměťový řadič DDR3 se nyní „vrátil“ na čip (u čipů Clarkdale byl umístěn mimo čip procesoru) a s největší pravděpodobností bude nyní poskytovat výrazně nižší latenci.

Skutečnost, že se paměťový řadič v Sandy Bridge stal dvoukanálovým, pravděpodobně nepotěší ty, kteří již dokázali vyhodit spoustu peněz za přetaktovací sady tříkanálových pamětí DDR3. Stává se, že nyní budou relevantní sady pouze jednoho, dvou nebo čtyř modulů.

Pokud jde o návrat k dvoukanálovému schématu paměťového řadiče, máme několik úvah. Možná Intel začal připravovat mikroarchitektury pro práci s pamětí DDR4? Což vzhledem k odklonu od „hvězdné“ topologie k topologii „bod-bod“ bude ve verzích pro stolní a mobilní systémy z definice pouze dvoukanálové (pro servery budou použity speciální moduly multiplexerů) . To jsou však jen dohady, o samotném standardu DDR4 stále není dostatek informací pro sebevědomé domněnky.

Ovladač správy napájení umístěný v systémovém agentovi je zodpovědný za včasné dynamické škálování napájecích napětí a taktovací frekvence jader procesoru, grafického jádra, mezipaměti, řadiče paměti a rozhraní. Zvláště důležité je zdůraznit, že výkon a rychlost hodin jsou řízeny nezávisle pro procesorová jádra a grafické jádro.

Je implementována zcela nová verze technologie Turbo Boost, a to nejen díky tomuto řadiči řízení spotřeby. Faktem je, že v závislosti na aktuálním stavu systému a složitosti řešeného úkolu umožňuje mikroarchitektura Sandy Bridge technologii Turbo Boost „přetaktovat“ procesorová jádra a integrovanou grafiku na úroveň, která výrazně převyšuje TDP o dost. na dlouhou dobu. Opravdu, proč nevyužít této příležitosti pravidelně, když je chladicí systém ještě studený a může zajistit více odvodu tepla, než je již zahřátý?

kromě toho turbo technologie Boost nyní umožňuje pravidelně „přetaktovat“ všechna čtyři jádra nad limity TDP, za zmínku také stojí, že výkon a tepelný management grafických jader v čipech Arrandale / Clarkdale jsou ve skutečnosti pouze vestavěné, ale ne plně integrované do procesoru, bylo provedeno pomocí ovladače . Nyní, v architektuře Sandy Bridge, je tento proces přiřazen také řadiči PCU. Takto těsná integrace systému řízení napájecího napětí a frekvence umožnila uvést do praxe mnohem agresivnější scénáře fungování technologie Turbo Boost, kdy mohou v případě potřeby a za určitých podmínek fungovat jak grafika, tak všechna čtyři procesorová jádra. najednou při zvýšených hodinových frekvencích s výrazným přebytkem TDP, ale bez jakýchkoliv vedlejších účinků.

Jak nová verze technologie Turbo Boost implementovaná v procesorech Sandy Bridge je dokonale popsána v multimediální prezentaci uvedené v září na Intel Developer Forum v San Franciscu. Video níže, které zaznamenává tento okamžik prezentace, vám řekne o Turbo Boost rychleji a lépe než jakékoli převyprávění.

Jak efektivně bude tato technologie fungovat v sériově vyráběných procesorech, se teprve uvidí, ale to, co experti Intelu ukázali během uzavřené demonstrace schopností Sandy Bridge během dnů IDF v San Franciscu, je prostě úžasné: jak zvýšení taktovací frekvence, tak i odpovídající výkon procesoru a grafiky přitom může dosáhnout prostě fantastických úrovní.

Existuje informace, že u standardních chladicích systémů bude režim takového „přetaktování“ pomocí Turbo Boost a překročení TDP omezen v BIOSu na dobu 25 sekund. Ale co když výrobci základních desek mohou zaručit lepší odvod tepla pomocí nějakého exotického chladicího systému? Zde se otevírá prostor pro přetaktování...

Každé ze čtyř jader Sandy Bridge lze v případě potřeby nezávisle nastavit do režimu nízké spotřeby a grafické jádro lze také nastavit do režimu velmi nízké spotřeby. Kruhovou sběrnici a L3 cache, vzhledem k jejich distribuci mezi další zdroje, nelze deaktivovat, nicméně prstencová sběrnice má speciální ekonomický pohotovostní režim, když není zatížena, a tradiční technologie pro deaktivaci nepoužívaných tranzistorů, nám již známá, se používá pro mezipaměť L3 na předchozích mikroarchitekturách. Procesory Sandy Bridge v mobilních počítačích tedy poskytují dlouhou offline práce při napájení z baterie.

Mezi prvky systémového agenta patří také video výstup a moduly pro dekódování multimediálního hardwaru. Na rozdíl od svých předchůdců, kde bylo hardwarové dekódování přiřazeno grafickému jádru (o jeho schopnostech si povíme příště), nová architektura využívá pro dekódování multimediálních streamů samostatný, mnohem produktivnější a ekonomičtější modul, a to pouze v procesu kódování ( komprese) multimediálních dat, využívají se schopnosti shader jednotek grafického jádra a L3 cache.

V souladu se současnými trendy jsou poskytovány nástroje pro přehrávání 3D obsahu: hardwarový dekódovací modul Sandy Bridge dokáže snadno zpracovat dva nezávislé toky MPEG2, VC1 nebo AVC najednou ve Full HD rozlišení.

Dnes jsme se seznámili se strukturou nové generace mikroarchitektury Intel Core II s pracovním názvem Sandy Bridge, přišli na strukturu a princip fungování řady klíčových prvků tohoto systému: kruhové sběrnice, L3 cache paměti a systémového agenta, který zahrnuje řadič paměti DDR3, řídicí modul food a další komponenty.

To je však jen malá část nových technologií a nápadů implementovaných do mikroarchitektury Sandy Bridge, neméně působivé a rozsáhlé změny se dotkly architektury procesorových jader a integrovaného grafického systému. Náš příběh o Sandy Bridge tím tedy nekončí – na pokračování.


1. Mikroarchitektura Sandy Bridge: stručně

Čip Sandy Bridge je dvoujádrový čtyřjádrový 64bitový procesor s ●sekvencí provádění mimo pořadí, ●podporou dvou datových toků na jádro (HT), ● prováděním čtyř instrukcí na takt; ● s integrovaným grafickým jádrem a integrovaným řadičem paměti DDR3; ● s novou kruhovou sběrnicí, ● podpora vektorových příkazů AVX (Advanced Vector Extensions) se 3 a 4 operandy (128/256 bitů); jehož výroba je založena na linkách v souladu s normami 32nm technologického procesu společnosti Intel.

Jednou větou se tedy dá popsat nová generace procesorů Intel Core 2 pro mobilní a desktopové systémy dodávaná od roku 2011.

Intel Core II MP založený na Sandy Bridge MA přichází nově 1155 kontaktní konstrukce LGA1155 pro nové základní desky založené na čipových sadách Intel řady 6 s čipovými sadami (Intel B65 Express, H61 Express, H67 Express, P67 Express, Q65 Express, Q67 Express a 68 Express, Z77).


Přibližně stejná mikroarchitektura je relevantní pro serverová řešení Intel Sandy Bridge-E s rozdíly v podobě většího počtu procesorových jader (až 8), patice procesoru LGA2011, více mezipaměti L3, více řadičů paměti DDR3 a podpora PCI-Express 3.0.

Předchozí generace, mikroarchitektura Westmere byl design ze dvou krystalů: ● 32nm procesorové jádro a ● přídavný 45nm „koprocesor“ s grafickým jádrem a paměťovým řadičem na desce, umístěný na jediném substrátu a vyměňující si data přes QPI sběrnici, tzn. integrovaný hybridní čip (uprostřed).

Při vytváření MA Sandy Bridge vývojáři umístili všechny prvky na jediný 32nm krystal, přičemž opustili klasický vzhled autobusu ve prospěch nového kruhového autobusu.

Podstata architektury Sandy Bridge zůstala stejná – sázka na zvýšení celkového výkonu procesoru zlepšením „individuální“ účinnosti každého jádra.



Strukturu čipu Sandy Bridge lze rozdělit na následující podstatné prvky■ Procesorová jádra, ■ Grafické jádro, ■ Mezipaměť L3 a ■ Systémový agent. Popišme účel a vlastnosti implementace každého z prvků této struktury.

Celá historie upgradů mikroarchitektury procesorů Intel v posledních letech je spojena se sekvenční integrací do jediného krystalu rostoucího počtu modulů a funkcí, které byly dříve umístěny mimo MP: v čipsetu, na základní desce atd. S rostoucím výkonem procesoru a stupněm integrace čipu rostly požadavky na šířku pásma interních mezikomponentních sběrnic rychlejším tempem. Dříve si vystačili s mezisložkovými sběrnicemi s křížovou topologií – a to stačilo.

Účinnost takové topologie je však vysoká pouze s malým počtem komponent, které se účastní výměny dat. V Sandy Bridge se obrátili ke zlepšení celkového výkonu systému kruhová topologie 256bitová propojovací sběrnice na základě nová verze QPI(QuickPath Interconnect).

Pneumatika se používá pro výměna dat mezi součástmi čipu:


● 4 x 86 MP jádra,

● grafické jádro,

● L3 cache a

● systémový agent.


Sběrnice se skládá ze 4 32-byte kroužky:

■ datová sběrnice (Data Ring), ■ sběrnice požadavků (Request Ring),

■ Sběrnice pro monitorování stavu (Snoop Ring) a ■ Sběrnice pro potvrzení (Acknowledge Ring).


Pneumatiky jsou ovládány komunikační protokol distribuované arbitráže, zatímco zpracování požadavků pomocí pipeline probíhá na taktovací frekvenci jader procesoru, což poskytuje MA další flexibilitu při přetaktování. Výkon pneumatiky je hodnocen na 96 GB/s na připojení při taktovací frekvenci 3 GHz, což je 4krát více než u předchozí generace procesorů Intel.

Kruhová topologie a organizace sběrnice poskytuje ●nízkou latenci při zpracování dotazů, ●maximální výkon a ●výbornou škálovatelnost technologie pro verze čipů s různým počtem jader a dalších komponent.

V budoucnu lze kruhovou sběrnici „propojit“ až 20 procesorových jader na matrici a takové přepracování lze provést velmi rychle, formou flexibilní a citlivé reakce na aktuální potřeby trhu.

Kruhová sběrnice je navíc fyzicky umístěna přímo nad bloky mezipaměti L3 v horní metalizační vrstvě, což zjednodušuje designové rozložení a umožňuje udělat čip kompaktnější.

Intel v těchto dnech představuje světu dlouho očekávané procesory. Sandy Bridge, jehož architektura byla dříve pokřtěna jako revoluční. Novinkami dnešní doby se ale nestaly jen procesory, ale také všechny související komponenty nových desktopových a mobilních platforem.

Tento týden bylo tedy oznámeno až 29 nových procesorů, 10 čipsetů a 4 bezdrátové adaptéry pro notebooky a stolní pracovní a herní počítače.

Mezi mobilní inovace patří:

    Intel Core i7-2920XM, Core i7-2820QM, Core i7-2720QM, Core i7-2630QM, Core i7-2620M, Core i7-2649M, Core i7-2629M, Core i7-2657M, 24 Core i7-2657M, 561 Core i7 Core i5-2520M, Core i5-2410M, Core i5-2537M, Core i3-2310M;

    čipsety Intel QS67, QM67, HM67, HM65, UM67 Express;

    bezdrátový síťové ovladače Intel Centrino Advanced-N + WiMAX 6150, Centrino Advanced-N 6230, Centrino Advanced-N 6205, Centrino Wireless-N 1030.

V segmentu desktop se objeví:

    procesory Intel Core i7-2600K, Core i7-2600S, Core i7-2600, Core i5-2500K, Core i5-2500S, Core i5-2500T, Core i5-2500, Core i5-2400, Core i5-2400S 2390T, Core i5-2300;

    Čipové sady Intel P67, H67, Q67, Q65, B65 Express.

Ale okamžitě stojí za zmínku, že oznámení nová platforma není jednodílný pro všechny modely procesorů a čipsetů – od začátku ledna jsou k dispozici pouze mainstreamová řešení a většina těch populárnějších a ne tak drahých se objeví v prodeji o něco později. Spolu s uvedením desktopových procesorů Sandy Bridge je představena také nová patice pro ně. LGA 1155. Novinky tak nedoplňují sestavu Intel Core i3/i5/i7, ale jsou náhradou za procesory LGA 1156, z nichž většina se dnes stává zcela neperspektivními akvizicemi, protože v blízké budoucnosti by jejich výroba měla ustat úplně. A jen pro nadšence do konce roku Intel slibuje pokračování ve výrobě starších čtyřjádrových modelů založených na jádře Lynnfield.

Nicméně, soudě podle plánu, platforma Socket T (LGA 775) s dlouhou životností bude stále relevantní minimálně do poloviny roku a bude základem pro základní systémy. Pro nejproduktivnější herní systémy a opravdové nadšence budou až do konce roku relevantní procesory založené na jádru Bloomfield na patici LGA 1366. Jak vidíte, životní cyklus dvoujádrových procesorů s „integrovanou“ grafikou adaptér na jádře Clarkdale se ukázal jako velmi krátký, pouze jeden rok, ale „prošlapali“ cestu pro Sandy Bridge prezentovanou „dnes“, zvyklí spotřebitele na myšlenku, že nejen paměťový řadič, ale také grafická karta může být integrován do procesoru. Nyní je čas nejen uvolnit rychlejší verze takových procesorů, ale také vážně upgradovat architekturu, aby bylo dosaženo znatelného zvýšení jejich účinnosti.

Klíčové vlastnosti procesorů architektury Sandy Bridge jsou:

    uvolnění v souladu s procesní technologií 32 nm;

    znatelně zvýšená energetická účinnost;

    optimalizovaná technologie Intel Turbo Boost a podpora Intel Hyper-Threading;

    výrazné zvýšení výkonu integrovaného grafického jádra;

    implementace nové sady instrukcí Intel Advanced Vector Extension (AVX) pro urychlení zpracování reálných čísel.

Všechny výše uvedené novinky by ale neposkytovaly příležitost mluvit o skutečně nové architektuře, pokud by toto vše nyní nebylo implementováno v rámci jednoho jádra (krystalu), na rozdíl od procesorů založených na jádře Clarkdale.

Přirozeně, aby všechny procesorové uzly fungovaly ve shodě, bylo nutné zorganizovat rychlá výměna informace mezi nimi - důležitou architektonickou novinkou byla sběrnice Ring Interconnect.

Kombinuje Ring Interconnect přes mezipaměť L3, nyní nazývanou LLC (Last Level Cache), procesorová jádra, grafické jádro a systémového agenta (System Agent), který zahrnuje řadič paměti, řadič sběrnice PCI Express, řadič DMI, modul správy napájení a další řadiče. a moduly, dříve sjednocené názvem „uncore“.

Sběrnice Ring Interconnect je dalším stupněm ve vývoji sběrnice QPI (QuickPath Interconnect), která po „zaběhnutí“ serverové procesory s aktualizovanou 8jádrovou architekturou Nehalem-EX, migrovanou na jádro procesorů pro stolní a mobilní systémy. Ring Interconnect tvoří čtyři 32bitové kruhy pro sběrnice Data Ring, Request Ring, Snoop Ring a Acknowledge Ring. Kruhová sběrnice pracuje na frekvenci jader, takže její šířka pásma, zpoždění a spotřeba jsou zcela závislé na frekvenci procesorových jednotek procesoru.

Cache paměť třetí úrovně (LLC - Last Level Cache) je společná pro všechna výpočetní jádra, grafické jádro, systémového agenta a další bloky. V čem grafický ovladač určuje, které datové toky umístit do mezipaměti, ale jakýkoli jiný blok má přístup ke všem datům v LLC. Speciální mechanismus řídí rozložení vyrovnávací paměti, aby nedocházelo ke kolizím. Pro urychlení práce má každé z procesorových jader svůj segment cache paměti, ke kterému má přímý přístup. Každý takový segment obsahuje nezávislý přístupový řadič ke sběrnici Ring Interconnect, ale zároveň dochází k neustálé interakci se systémovým agentem, který provádí obecnou správu mezipaměti.

Systémový agent je ve skutečnosti zabudován do procesoru. Severní most“a integruje řadiče pro PCI Express, DMI, RAM, jednotku pro zpracování videa (procesor médií a ovládání rozhraní), správce napájení a další pomocné jednotky. Systémový agent komunikuje s ostatními uzly procesoru prostřednictvím kruhové sběrnice. Kromě zefektivnění datových toků systémový agent monitoruje teplotu a zatížení různých bloků a prostřednictvím jednotky Power Control Unit zajišťuje řízení napájecího napětí a frekvencí s cílem zajistit nejlepší energetickou účinnost při vysokém výkonu. Zde lze také poznamenat, že k napájení nových procesorů potřebujete třísložkový regulátor výkonu (nebo dva, pokud integrované video jádro zůstane neaktivní) – zvlášť pro výpočetní jádra, systémového agenta a integrovanou grafickou kartu.

Sběrnice PCI Express zabudovaná v procesoru odpovídá specifikaci 2.0 a má 16 linek pro možnost zvýšení výkonu grafického subsystému pomocí výkonného externího 3D akcelerátoru. V případě použití starších čipsetů a odsouhlasení licenčních záležitostí lze těchto 16 linek rozdělit do 2 nebo tří slotů v režimech 8x+8x, respektive 8x+4x+4x pro NVIDIA SLI a/nebo AMD CrossFireX.

Pro výměnu dat se systémem (mechaniky, I/O porty, periferie, jejichž řadiče jsou v čipsetu) slouží sběrnice DMI 2.0, která umožňuje přenášet až 2 GB/s užitečných informací v obou směrech.

Důležitou součástí systémového agenta je dvoukanálový paměťový řadič DDR3 zabudovaný v procesoru, který nominálně podporuje moduly na frekvenci 1066-1333 MHz, ale při použití v základních deskách založených na čipsetu Intel P67 Express zajišťuje chod modulů na frekvencích až 1600 a dokonce i 2133 MHz bez problémů. Umístění paměťového řadiče na stejný čip jako jádra procesoru (jádro Clarkdale se skládalo ze dvou čipů) by mělo snížit latenci paměti a patřičně zvýšit výkon systému.

Částečně díky pokročilému monitorování všech jader, mezipamětí a doplňků Power Control Unit jsou nyní procesory Sandy Bridge vybaveny vylepšenou technologií Intel Turbo Boost 2.0. Nyní, v závislosti na zátěži a prováděných úlohách, mohou být procesorová jádra zrychlena i při překročení tepelného balíčku, jako u běžného ručního přetaktování, když je potřeba vysoká. Systémový agent ale bude hlídat teplotu procesoru a jeho součástí a při zjištění „přehřívání“ se frekvence uzlů postupně sníží. Stolní procesory však mají v super-zrychleném režimu omezenou dobu běhu. zde je mnohem jednodušší zorganizovat mnohem efektivnější chlazení než „krabicový“ chladič. Takový „overboost“ vám umožní získat zvýšení výkonu v kritických okamžicích pro systém, což by mělo v uživateli vzbudit dojem, že pracuje s výkonnějším systémem, a také zkrátit dobu čekání na reakci systému. Také Intel Turbo Boost 2.0 zajišťuje, že in stolní počítače integrované video jádro má dynamický výkon.

Architektura procesorů Sandy Bridge implikuje nejen změny ve struktuře interkomponentní interakce a zlepšení schopností a energetické účinnosti těchto komponent, ale také vnitřní změny v každém výpočetním jádru. Pokud zahodíme „kosmetická“ vylepšení, nejdůležitější budou následující:

    návrat k alokaci vyrovnávací paměti pro cca 1,5 tisíce dekódovaných L0 mikrooperací (použito v Pentiu 4), což je samostatná část L1, což umožňuje současně zajistit rovnoměrnější zatížení pipelines a snížit spotřebu energie díky zvýšeným pauzám v provoz poměrně složitých operačních dekodérových obvodů;

    zvýšení účinnosti bloku predikce větvení díky zvýšení kapacity vyrovnávacích pamětí adres výsledků větvení, historie příkazů, historie větví, což zvýšilo efektivitu potrubí;

    zvýšení kapacity vyrovnávací paměti přeuspořádaných instrukcí (ROB - ReOrder Buffer) a zvýšení efektivity této části procesoru díky zavedení souboru fyzického registru (PRF - Physical Register File, také charakteristika Pentia 4) pro ukládání dat. , stejně jako rozšíření dalších vyrovnávacích pamětí;

    zdvojnásobení kapacity registrů pro práci se streamovanými reálnými daty, což může v některých případech zajistit dvojnásobnou rychlost provádění operací s jejich využitím;

    zvýšení efektivity provádění šifrovacích instrukcí pro algoritmy AES, RSA a SHA;

    zavedení nových vektorových instrukcí Advanced Vector Extension (AVX);

  • optimalizace vyrovnávací paměti první úrovně L1 a druhé úrovně L2.

Důležitou vlastností grafického jádra procesorů Sandy Bridge je, že je nyní umístěno na stejném čipu se zbytkem bloků a systémový agent řídí jeho charakteristiky a sleduje stav na hardwarové úrovni. Současně je do stejného systémového agenta umístěn blok pro zpracování mediálních dat a generování signálů pro video výstupy. Taková integrace poskytuje užší interakci, nižší zpoždění, vyšší efektivitu atd.

Samotná architektura grafického jádra však nemá tolik změn, jak bychom si přáli. Místo očekávané podpory DirectX 11 právě přibyla podpora DirectX 10.1. V souladu s tím není mnoho aplikací s podporou OpenGL omezeno na hardwarovou kompatibilitu pouze s 3. verzí specifikace tohoto bezplatného API. Přitom se sice mluví o vylepšení výpočetních jednotek, ale je jich stejný počet - 12 a to pak jen pro starší procesory. Zvýšení taktovací frekvence na 1350 MHz však každopádně slibuje znatelný nárůst výkonu.

Na druhou stranu je velmi obtížné vytvořit integrované video jádro s opravdu vysokým výkonem a funkčností pro moderní hry s jeho nízkou spotřebou. Nedostatečná podpora nových API se tedy projeví pouze na kompatibilitě s novými hrami, a pokud chcete hrát opravdu pohodlně, bude potřeba zvýšit výkon pomocí diskrétního 3D akcelerátoru. Mezi výhody Intel HD Graphics II (Intel HD Graphics 2000/3000) lze ale počítat i rozšíření funkčnosti při práci s multimediálními daty, především při kódování a dekódování videa v rámci Intel Clear Video Technology HD.

Aktualizovaný mediální procesor umožňuje odlehčit procesorová jádra při kódování videa ve formátech MPEG2 a H.264 a také rozšiřuje sadu funkcí následného zpracování o hardwarovou implementaci algoritmů pro automatickou úpravu kontrastu obrazu (ACE - Adaptive Contrast Enhancement), korekci barev ( TCC - Total Color Control) a zlepšit zobrazení pleti (STE - Skin Tone Enhancement). Zvyšuje vyhlídky na použití integrované grafické karty Implementovaná podpora rozhraní Verze HDMI 1.4 kompatibilní s Blu-ray 3D (Intel InTru 3D).

Všechny výše uvedené architektonické prvky poskytují nové generaci procesorů znatelnou převahu ve výkonu nad modely předchozí generace, a to jak ve výpočetních úlohách, tak při práci s videem.

V důsledku toho se platforma Intel LGA 1155 stává produktivnější a funkčnější a nahrazuje LGA 1156.

Abychom to shrnuli, rodina procesorů Sandy Bridge je navržena pro velmi širokou škálu úloh s vysokou energetickou účinností, díky čemuž by se měly stát skutečně mainstreamem v nových vysoce výkonných systémech, zvláště když budou dostupné dostupnější modely v širokém rozsahu.

V blízké budoucnosti bude zákazníkům postupně zpřístupněno 8 procesorů pro desktopové systémy různých úrovní: Intel Core i7-2600K, Intel Core i7-2600, Intel Core i5-2500K, Intel Core i5-2500, Intel Core i5-2400, Intel Core i5-2300, Intel Core i3-2120 a Intel Core i3-2100. Modely s indexem K se vyznačují volným násobičem a rychlejším integrovaným grafickým adaptérem Intel HD Graphics 3000.

Pro energeticky kritické systémy byly vydány také modely energeticky účinné (index S) a vysoce energeticky účinné (index T).

Pro podporu nových procesorů jsou již k dispozici základní desky založené na čipsetech Intel P67 Express a Intel H67 Express a v blízké budoucnosti se očekávají Intel Q67 Express a Intel B65 Express zaměřené na firemní uživatele a malé firmy. Všechny tyto čipsety konečně začínají podporovat disky s SATA rozhraní 3.0, i když ne všechny porty. Ale podpora, zdá se, ještě více populární USB 3.0 sběrnice, nemají. Zajímavostí nových čipsetů pro běžné základní desky je, že nepodporují sběrnici PCI. Nyní je navíc generátor hodin zabudován v čipsetu a jeho charakteristiku lze ovládat bez vlivu na stabilitu systému pouze ve velmi malém rozsahu, pokud budete mít štěstí, tak pouze ±10 MHz a v praxi ještě méně.

Je třeba také poznamenat, že různé čipové sady jsou optimalizovány pro použití s ​​různými procesory v systémech navržených pro různé účely. Intel P67 Express se tedy od Intel H67 Express liší nejen chybějící podporou práce s integrovaným videem, ale také pokročilými funkcemi pro přetaktování a ladění výkonu. Intel H67 Express si zase volného násobiče u modelů s indexem K vůbec nevšimne.

Ale kvůli architektonickým prvkům je přetaktování procesorů Sandy Bridge stále možné pouze pomocí násobiče, pokud se jedná o model řady K. Ačkoli všechny modely jsou náchylné k určité optimalizaci a „overboostu“.

Tak dočasně vytvořit iluzi práce na velmi výkonný procesor i modely s uzamčeným násobičem jsou schopny znatelné akcelerace. Doba takového zrychlení u desktopových systémů, jak je uvedeno výše, je omezena hardwarem, a nejen teplotou, jako u mobilních PC.

Po představení všech architektonických prvků a inovací, stejně jako aktualizovaných proprietárních technologií, zbývá jen znovu shrnout, proč je Sandy Bridge tak inovativní a připomenout vám umístění.

Pro vysoce výkonné a sériově vyráběné systémy bude možné v blízké budoucnosti zakoupit procesory řady Intel Core i7 a Intel Core i5, které se od sebe liší podporou technologie Intel Hyper-Threading (u čtyřjádrových modelů Intel Core i5 je zakázán) a mezipaměť L3. Pro ekonomičtější kupující jsou představeny nové modely Intel Core i3, které mají 2x méně výpočetních jader, ačkoli podporují Intel Hyper-Threading, pouze 3 MB LLC cache, nepodporují Intel Turbo Boost 2.0 a všechny jsou vybaveny Intel HD Grafika 2000.

V polovině roku budou představeny procesory Intel Pentium pro masové systémy (odmítnout tuto značku je velmi těžké, ačkoli se to před rokem předpovídalo) založené na velmi zjednodušené architektuře Sandy Bridge. Ve skutečnosti se tyto procesory pro „pracanty“ budou svými schopnostmi podobat současnému Core i3-3xx na jádře Clarkdale od r. ztratí téměř všechny funkce, které jsou vlastní starším modelům pro LGA 1155.

Zbývá podotknout, že vydání procesorů Sandy Bridge a celé desktopové platformy LGA 1155 se stalo dalším „Takem“ v rámci konceptu Intel „Tick-Tock“, tzn. velká aktualizace architektury pro vydání na již odladěné 32 nm procesní technologii. Zhruba za rok se dočkáme procesorů Ivy Bridge s optimalizovanou architekturou a vyrobené podle 22nm procesní technologie, které budou mít jistě opět „revoluční energetickou účinnost“, ale doufejme, že nezruší Patice procesoru LGA 1155. No, počkáme a uvidíme. Mezitím máme minimálně rok na studium architektury Sandy Bridge a její komplexní testování , kterou se chystáme spustit v nejbližších dnech.

Článek přečten 14947 krát

Přihlaste se k odběru našich kanálů

V rámci fóra IDF 2010, které se konalo 13. až 15. září, společnost Intel poprvé oznámila podrobnosti o nové mikroarchitekuře procesoru s kódovým označením Sandy Bridge. Procesor Sandy Bridge byl ve skutečnosti demonstrován na loňském fóru IDF 2009, ale detaily nové mikroarchitektury tehdy nebyly oznámeny (snad kromě většiny obecná informace). Okamžitě udělejte výhradu, že ne všechny jeho podrobnosti se staly veřejně známými. Něco, co chce společnost utajit až do oficiálního oznámení, které by mělo proběhnout na samém začátku příštího roku. Nejsou zveřejněny zejména podrobnosti týkající se výkonu nových procesorů, modelové řady a některých architektonických prvků.
Pojďme se tedy blíže podívat na novou mikroarchitekturu Sandy Bridge a také na vlastnosti procesorů na ní založených, které budeme v budoucnu nazývat procesory Sandy Bridge.

Stručně o procesorech Sandy Bridge

Všechny procesory s kódovým označením Sandy Bridge budou zpočátku vyráběny 32nm procesem. V budoucnu, kdy dojde k přechodu na 22nm procesní technologii, ponesou procesory založené na mikroarchitektuře Sandy Bridge kódové označení Ivy Bridge (obr. 1).

Rýže. 1. Vývoj rodin procesorů Intel a mikroarchitektur procesorů

Procesory Sandy Bridge, stejně jako procesory Westmere, tvoří tři rodiny v desktopovém a mobilním segmentu: Intel Core i7, Intel Core i5 a Intel Core i3, loga těchto procesorů se však mírně změní (obr. 2). Přesněji řečeno, mluvíme o druhé generaci (2 nd Generation) rodin Intel Core.

Rýže. 2. Nová loga pro procesory Sandy Bridge

Je známo, že systém označování procesorů se zcela změní, ale na fóru IDF 2010 nebylo nic ohledně nový systém označení modelů procesorů.

Podle neoficiálních údajů budou procesory Sandy Bridge označeny čtyřmístným číslem, přičemž první číslice - 2 - znamená druhou generaci rodiny Intel Core. To znamená, že zde bude například (opět podle neoficiálních údajů) procesor Intel Core i7-2600 nebo Intel Core i5-2500. Rodiny Intel Core i7 a Intel Core i5 budou mít zamčené i odemčené procesory, přičemž poslední jmenovaný bude označen písmenem K (Intel Core i7-2600K, Intel Core i5-2500K).

Hlavní rozdíly mezi rodinami Intel Core i7, Intel Core i5 a Intel Core i3 budou ve velikosti L3 cache, počtu jader a podpoře technologií Hyper-Threading a Turbo Boost.

Procesory rodiny Intel Core i7 budou čtyřjádrové s podporou technologií Hyper-Threading a Turbo Boost a velikost L3 cache bude 8 MB.

Rodina procesorů Intel Core i5 bude čtyřjádrová, ale nebude podporovat technologii Hyper-Threading. Jádra těchto procesorů budou podporovat technologii Turbo Boost a velikost L3 cache bude 6 MB.

Procesory rodiny Intel Core i3 budou dvoujádrové s podporou technologie Hyper-Threading, avšak bez podpory technologie Turbo Boost. Velikost mezipaměti L3 v těchto procesorech bude 3 MB.

Po oznámení neoficiálních informací přejděme ke spolehlivým datům.

Všechny nové procesory Sandy Bridge dostanou novou patici procesoru LGA 1155 a samozřejmě nebudou kompatibilní se základními deskami založenými na čipsetech Intel řady 5. Ve skutečnosti budou základní desky založené na nové čipové sadě Intel řady 6 navrženy pro procesory Sandy Bridge. Novinkou těchto jednočipových čipových sad bude podpora dvou portů SATA 6 Gb/s (SATA III) a také plně rychlostní linky PCI Express 2.0 (na 5 GHz). Ale integrovaný do čipsetu USB ovladač 3.0 zatím není k dispozici.

Nicméně zpět k procesorům Sandy Bridge. Nová patice procesoru LGA 1155 bude s největší pravděpodobností vyžadovat nové chladiče, protože chladiče pro patici LGA 1156 budou nekompatibilní s paticí LGA 1155. To je však pouze náš odhad založený na jednoduché logice. Intel nakonec musí nějak stimulovat vydávání nových modelů chladičů, aby výrobci chladičů úplně nevymřeli.

Charakteristickým rysem všech procesorů Sandy Bridge bude přítomnost integrovaného grafického jádra nové generace. Navíc, pokud v procesorech předchozí generace (Clarkdale a Arrandale) byla procesorová jádra a grafické jádro umístěny na různých krystalech a navíc byly vyrobeny podle různých technických postupů, pak v procesorech Sandy Bridge budou všechny procesorové komponenty vyráběny podle 32nm procesní technologie a umístěna na jednom krystalu.

Je důležité zdůraznit, že ideově lze grafické jádro procesoru Sandy Bridge považovat za páté jádro procesoru (v případě čtyřjádrových procesorů). Kromě toho má grafické jádro, stejně jako výpočetní jádra procesoru, přístup k mezipaměti L3.

Stejně jako předchozí generace procesorů Clarkdale a Arrandale budou mít procesory Sandy Bridge integrované rozhraní PCI Express 2.0 pro použití diskrétních grafických karet. Všechny procesory navíc podporují 16 linek PCI Express 2.0, které lze seskupit buď jako jeden port PCI Express x16, nebo jako dva porty PCI Express x8.

Je třeba také poznamenat, že všechny procesory Sandy Bridge budou mít integrovaný dvoukanálový řadič paměti DDR3. Varianty s tříkanálovým paměťovým řadičem se zatím neplánují. Je to dáno tím, že řada procesorů Sandy Bridge nepokryje segment špičkových desktopových procesorů. Špičkový desktopový procesor bude nový modelŠestijádrový procesor Gulftown (Intel Core i7-990X) a řada procesorů Sandy Bridge se zaměří na produktivní, masová a cenově dostupná PC.

Další vlastností procesorů vycházejících z mikroarchitektury Sandy Bridge je, že místo sběrnice QPI (Intel QuickPath Interconnect), která se dříve používala pro vzájemné propojení jednotlivých komponent procesoru, se nyní používá zásadně odlišné rozhraní, nazývané kruhová sběrnice (Ring Bus), kterou budeme podrobně zvažovat níže.

Obecně je třeba poznamenat, že architektura procesoru Sandy Bridge implikuje modulární, snadno škálovatelnou strukturu (obr. 3).

Rýže. 3. Modulární struktura procesoru Sandy Bridge

Další vlastností mikroarchitektury Sandy Bridge je, že podporuje instrukční sadu Intel AVX (Intel Advanced Vector Extension).

Intel AVX je nová sada rozšíření pro architekturu Intel, která poskytuje 256bitové vektorové výpočty s pohyblivou řádovou čárkou založené na SIMD (Single Instruction, Multiple Data).

Intel AVX je komplexní rozšíření architektury instrukční sady pro mikroarchitekturu Intel 64 a má následující vlastnosti:

  • podpora vektorových dat s vyšší bitovou hloubkou (až 256 bitů);
  • efektivní schéma kódování instrukcí, které podporuje syntaxi instrukcí se třemi a čtyřmi operandy;
  • flexibilní programovací prostředí, které poskytuje různé možnosti – od instrukcí pro zpracování větví až po snížené požadavky na zarovnání offsetů v paměti;
  • nová primitiva pro manipulaci s daty a urychlení aritmetických výpočtů, včetně vysílání (broadcast), permutace (permute), současného násobení a sčítání (fused-multiply-add, FMA) atd.

Vzhledem k tomu, že novou instrukční sadu Intel AVX lze použít v jakékoli aplikaci, kde je podstatná část výpočtů v operacích SIMD, největší nárůst výkonu nová technologie dá pro ty z nich, které převážně provádějí výpočty s pohyblivou řádovou čárkou a lze je paralelizovat. Příklady zahrnují zvukové a zvukové kodeky, software pro úpravu obrázků a videa, aplikace pro modelování a finanční analýzu a průmyslové a inženýrské aplikace.

Když už mluvíme o mikroarchitektuře procesoru Sandy Bridge, je třeba poznamenat, že se jedná o vývoj mikroarchitektury Nehalem nebo Intel Core (protože mikroarchitektura Nehalem je vývoj mikroarchitektury Intel Core). Rozdíly mezi Nehalem a Sandy Bridge jsou poměrně značné, ale přesto nelze označit tuto mikroarchitekturu za zásadně novou, což byla svého času mikroarchitektura Intel Core. To je přesně upravená mikroarchitektura Nehalem.

Pojďme se nyní blíže podívat na inovace mikroarchitektury Sandy Bridge a její odlišnosti od Nehalemu.

Procesorové jádro založené na mikroarchitektuře Sandy Bridge

Než přistoupíme k zvažování rozdílů mezi mikroarchitekturami Sandy Bridge a Nehalem, připomeňme si, že schéma každého procesoru implikuje přítomnost několika strukturálních prvků: mezipaměť dat a instrukcí L1, preprocesor (Front End) a postprocesor, nazývaný také jednotka pro provádění instrukcí (Execution Engine).

Proces zpracování dat zahrnuje následující kroky. Nejprve jsou instrukce a data vyzvednuty z L1 cache (tento krok se nazývá fetching). Poté jsou instrukce načtené z mezipaměti dekódovány do strojových primitiv (mikrooperací), srozumitelných pro procesor. Tento postup tzv. dekódování. Dále jsou dekódované příkazy posílány do prováděcích jednotek procesoru a jsou prováděny a výsledek je zapsán do paměti.

Procesy načítání instrukcí z cache, jejich dekódování a povýšení na prováděcí jednotky jsou prováděny v preprocesoru a proces provádění instrukcí je v postprocesoru.

Nyní se blíže podíváme na jádro procesoru Sandy Bridge a porovnáme jej s jádrem Nehalem. Když je jádro procesoru založeno na mikroarchitektuře Nehalem nebo Sandy Bridge, jsou x86 instrukce vybírány z instrukční cache L1 (Instruction Сache) o velikosti 32 KB (8kanálová cache). Instrukce se načítají z mezipaměti v blocích s pevnou délkou, ze kterých jsou alokovány instrukce k dekódování. Protože x86 instrukce mají variabilní délka, a bloky, kterými se příkazy načítají z cache jsou pevně dané, při dekódování příkazů je nutné určit hranice mezi jednotlivými příkazy.

Informace o velikosti instrukce je uložena ve vyrovnávací paměti instrukcí L1 ve speciálních polích (3 bity informace pro každý bajt instrukce). V zásadě by tato informace pro určení hranic příkazů mohla být použita v samotném dekodéru přímo v procesu dekódování příkazů. To by však nevyhnutelně ovlivnilo rychlost dekódování a bylo by nemožné dekódovat několik příkazů současně. Proto jsou před dekódováním příkazy extrahovány z vybraného bloku. Tento postup se nazývá předdekódování (PreDecode). Procedura předdekódování umožňuje udržovat konstantní rychlost dekódování bez ohledu na délku a strukturu příkazů.

Procesory s mikroarchitekturou Nehalem a Sandy Bridge načítají instrukce v 16bajtových blocích, to znamená, že 16bajtový instrukční blok je načten z mezipaměti pro každý cyklus hodin.

Po operaci načítání jsou příkazy zařazeny do fronty (fronta instrukcí) a poté odeslány do dekodéru. Během dekódování (Decode) jsou příkazy převedeny na strojové mikrooperace pevné délky (označované jako micro-ops nebo uOps).

Dekodér jádra procesoru s mikroarchitekturou Sandy Bridge se nezměnil. Stejně jako u mikroarchitektury Nehalem je čtyřkanálová a dokáže dekódovat až čtyři x86 instrukce za takt. Jak již bylo poznamenáno, v mikroarchitekturách Nehalem a Sandy Bridge je pro každý cyklus z mezipaměti načten 16bajtový instrukční blok, ze kterého jsou během předběžného dekódování vybírány jednotlivé instrukce. V zásadě může být délka jedné instrukce až 16 bajtů. Průměrná délka instrukce je však 4 bajty. V každém bloku jsou tedy v průměru načteny čtyři instrukce, které jsou při použití čtyřkanálového dekodéru současně dekódovány v jednom hodinovém cyklu.

Čtyřkanálový dekodér se skládá ze tří jednoduchých dekodérů, které dekódují jednoduché instrukce v jedné mikrooperaci, a jednoho složitého dekodéru, který dokáže dekódovat jednu instrukci ve čtyřech mikrooperacích (dekodér typu 4-1-1-1). Pro ještě víc složité instrukce které jsou dekódovány ve více než čtyřech mikrooperacích, je složitý dekodér připojen k bloku uCode Sequenser používanému k dekódování takových instrukcí.

Přirozeně, dekódování čtyř instrukcí na takt je možné pouze tehdy, pokud jeden 16bajtový blok obsahuje alespoň čtyři instrukce. Existují však instrukce delší než 4 bajty a při načítání více takových instrukcí do jednoho bloku se účinnost dekódování snižuje.

Při dekódování instrukcí v mikroarchitekturách Nehalem a Sandy Bridge se používají dvě zajímavé technologie - Macro-Fusion a Micro-Fusion.

Macro-Fusion je sloučení dvou x86 instrukcí do jednoho komplexního mikro-op. PROTI předchozí verze mikroarchitektura procesoru, každá x86 instrukce byla dekódována nezávisle na ostatních. Při použití technologie Macro-Fusion lze některé dvojice instrukcí (například porovnávací instrukce a instrukce podmíněného skoku) při dekódování sloučit do jedné mikrooperace, která bude později provedena přesně jako jedna mikrooperace. Všimněte si, že pro účinnou podporu technologie Macro-Fusion v mikroarchitekturách Nehalem a Sandy Bridge se používají rozšířené jednotky ALU (Arithmetical Logic Unit), které jsou schopny podporovat provádění sloučených mikrooperací. Všimněte si také, že v případě použití technologie Macro-Fusion lze pro každý cyklus procesoru dekódovat pouze čtyři instrukce (ve čtyřkanálovém dekodéru) a při použití technologie Macro-Fusion lze přečíst pět instrukcí v každý cyklus, které jsou převedeny na čtyři sloučením a podrobeny dekódování.

Všimněte si, že technologie Macro-Fusion byla použita i v mikroarchitektuře Intel Core, nicméně u mikroarchitektury Nehalem došlo k rozšíření sady x86 instrukcí, u kterých je možné sloučení do jedné mikrooperace. Kromě toho v mikroarchitektuře Intel Core nebyla fúze instrukcí x86 podporována pro provozní režim 64bitového procesoru, to znamená, že technologie Macro-Fusion byla implementována pouze v 32bitovém režimu. V architektuře Nehalem tomu tak je úzké místo byl opraven a operace sloučení fungují v 32bitovém i 64bitovém režimu procesoru. V mikroarchitektuře Sandy Bridge byla sada x86 instrukcí, u kterých je možná operace sloučení, rozšířena ještě dále.

Micro-Fusion je sloučení dvou mikrooperací (nikoli instrukcí x86, jmenovitě mikrooperací) do jedné obsahující dvě základní akce. V budoucnu jsou dva takto sloučené mikrooperace zpracovávány jako jeden, což umožňuje snížit počet zpracovaných mikrooperací a tím zvýšit celkový počet instrukcí provedených procesorem v jednom cyklu. Je zřejmé, že operace sloučení dvou mikrooperací není možná pro všechny dvojice mikrooperací. Mikroarchitektura Sandy Bridge používá přesně stejnou operaci Micro-Fusion (pro stejnou sadu mikrooperací) jako mikroarchitektura Nehalem.

Když už mluvíme o postupu pro načítání programových instrukcí v mikroarchitektuře Nehalem, je nutné poznamenat přítomnost detekční jednotky programového cyklu (Loop Stream Detector), která se účastní procesu načítání instrukcí a umožňuje vám vyhnout se opakování při provádění stejné operace. Loop Stream Detector (LSD) se také používá v mikroarchitektuře Intel Core, ale liší se od LSD v Nehalemu. V architektuře Intel Core se tedy používá vyrovnávací paměť LSD pro 18 instrukcí a je umístěna před dekodérem. To znamená, že v architektuře Intel Core lze sledovat a rozpoznávat pouze cykly obsahující maximálně 18 instrukcí. Když je detekován programový cyklus, instrukce v cyklu přeskakují fáze predikce načítání a větvení v programu (Branch Prediction), zatímco samotné instrukce jsou generovány a přiváděny do dekodéru z vyrovnávací paměti LSD. Na jedné straně to umožňuje snížit spotřebu jádra procesoru a na druhé straně obejít fázi načítání instrukce. Pokud je ve smyčce více než 18 instrukcí, pak pokaždé instrukce projdou všemi standardními kroky.

V mikroarchitektuře Nehalem se blok detekce cyklu nenachází před, ale za dekodérem a je určen pro 28 již dekódovaných instrukcí. Protože LSD ukládá již dekódované instrukce, „přeskočí“ nejen fázi predikce větvení a načítání jako dříve, ale také fázi dekódování (ve skutečnosti je preprocesor procesoru během provádění programového cyklu vypnutý). V Nehalemu tak instrukce ve smyčce procházejí potrubím rychleji a častěji a spotřeba je nižší než u architektury Intel Core (obr. 4).

Rýže. 4. Vyrovnávací paměť LSD v mikroarchitekturách Intel Core a Nehalem

V mikroarchitektuře Sandy Bridge šli vývojáři ještě dál: spolu s vyrovnávací pamětí LSD pro 28 mikrooperací použili Decoded Uop Cache - obr. 5. Všechny dekódované mikrooperace jsou odeslány do mezipaměti. Dekódovaná micro-op cache je navržena pro přibližně 1500 micro-ops (zřejmě mluvíme o středně dlouhých micro-ops), což odpovídá asi 6kilobajtové x86-instrukční cache.

Rýže. 5. Mezipaměť dekódovaných mikrooperací v mikroarchitektuře Sandy Bridge

Koncept dekódované mezipaměti mikrooperací je ukládat do ní sekvence mikrooperací. Micro-op cache nefunguje na úrovni jedné instrukce, ale na úrovni 32bajtového mikro-op bloku. Celá cache je rozdělena do 32 sad, každá po 8 řádcích. Každá linka má až 6 mikrooperací. Do 32bajtového bloku lze mapovat až 3 řádky (18 micro-ops). Označování probíhá na ukazateli instrukce (IP). Kontrola předpokládaného ukazatele instrukce probíhá paralelně jak v instrukční mezipaměti, tak v mikrooperační vyrovnávací paměti, a pokud dojde k zásahu, řádky, které tvoří 32bajtový blok, jsou zachyceny z mikrooperační vyrovnávací paměti a umístěny do fronta. V tomto případě není potřeba znovu vzorkovat a dekódovat.

Účinnost použití dekódované mikrooperační mezipaměti do značné míry závisí na účinnosti jednotky předpovědi větve (BPU). Připomeňme, že jednotka predikce větvení se používá ve všech moderních procesorech a v procesorech Sandy Bridge je výrazně vylepšena oproti BPU v mikroarchitektuře Nehalem (obr. 6).

Rýže. 6. Předpověď větve Un v mikroarchitektuře Sandy Bridge

Abyste pochopili, proč je blok predikce větvení v procesoru tak důležitý a jak ovlivňuje výkon, připomeňme si, že prakticky každý více či méně složitý program má podmíněné instrukce větvení. Příkaz takové podmíněné větve znamená následující: pokud je určitá podmínka pravdivá, musíte přejít ke spuštění programu, počínaje jednou adresou, a pokud ne, pak od jiné. Z pohledu procesoru je jakýmsi kamenem úrazu instrukce podmíněné větve. Ve skutečnosti, dokud není jasné, zda je podmínka přechodu pravdivá nebo ne, procesor neví, kterou část programového kódu má provést jako další, a proto je nucen nečinně pracovat. Aby se tomu zabránilo, používá se blok predikce větvení, který se snaží uhodnout, na kterou část programového kódu bude instrukce podmíněného skoku ukazovat, a to ještě před jejím provedením. Na základě predikce větvení je odpovídajících 86 instrukcí vyzvednuto z L1 cache nebo z dekódované uop cache.

Při prvním setkání s instrukcí podmíněného skoku se použije takzvaná statická predikce. V podstatě BPU jednoduše hádá, která softwarová větev bude spuštěna jako další. Kromě toho je statická predikce založena na předpokladu, že většina zpětných větví se vyskytuje v opakovaných smyčkách, kdy se instrukce větvení používá k určení, zda má smyčka pokračovat nebo skončit. Častěji smyčka pokračuje, takže procesor znovu spustí kód smyčky. Z tohoto důvodu statická predikce předpokládá, že všechny zpětné větve jsou vždy provedeny.

Protože se shromažďují statistiky výsledků různých podmíněných větví (prehistorie podmíněných větví), aktivuje se algoritmus dynamické predikce větví, který je založen právě na dříve provedené analýze statistik výsledků podmíněných větví. Algoritmy dynamické predikce větvení používají tabulku historie větví (BHT) a tabulku ukládání adres instrukce (Branch Target Buffer, BTB). Tyto tabulky obsahují informace o výsledcích již provedených větví. BHT obsahuje všechny podmíněné větve za posledních několik cyklů. Navíc jsou zde uloženy bity indikující pravděpodobnost opětovného výběru stejné větve. Bity jsou uspořádány na základě statistiky předchozích přechodů. Ve standardním bimodálním (2bitovém) schématu existují čtyři pravděpodobnosti: větev je často brána (silně převzata), větev je převzata (vzata), větev není převzata (nevzata) a větev často není převzato (silně nebráno).

Aby se mohlo rozhodnout, zda spekulativně provést větev, musí to zařízení vědět přesná poloha kód v L1 cache ve směru větve - říkejme tomu větev cíl. Cíle již dokončených poboček jsou uloženy v BTB. Když je provedena větev, BPU jednoduše vezme cíl větve z tabulky a řekne preprocesoru, aby začal načítat instrukce na této adrese.

Je zřejmé, že spolehlivost predikce větvení závisí na velikosti tabulek BHT a BTB. Čím více položek v těchto tabulkách, tím vyšší je spolehlivost předpovědi.

Nutno podotknout, že pravděpodobnost správné predikce větvení u moderních procesorů je velmi vysoká (asi 97–99 %) a ve skutečnosti se boj o zlomek procenta již odehrává.

Mikroarchitektura Sandy Bridge obsahuje několik vylepšení BPU. Za prvé, namísto použití jiné pravděpodobnosti pro každou větev přechodu v tabulce BHT, je stejná pravděpodobnost aplikována současně pro několik větví. Díky tomu je možné optimalizovat tabulku BHT, což ovlivňuje zvýšení spolehlivosti predikce přechodu.

Druhým vylepšením BPU mikroarchitektury Sandy Bridge je optimalizace tabulky BTB. Jestliže dříve ve VTB byl k nastavení všech cílů větvení používán pevný počet bitů, což vedlo k neodůvodněnému plýtvání místem, nyní počet bitů použitých k nastavení adresy větve závisí na samotné adrese. Ve skutečnosti vám to umožňuje uložit do tabulky více adres a zvýšit tak spolehlivost predikce.

Přesnější údaje o velikostech tabulek BHT a BTB zatím nejsou k dispozici.

Mluvili jsme tedy o změnách v preprocesoru mikroarchitektury Sandy Bridge (dekódovaná mikro-ops cache a aktualizovaný blok predikce větvení). Pojďme dále.

Po procesu dekódování x86 instrukcí začíná fáze jejich provádění. Zpočátku dochází k přejmenování a přidělení dalších registrů procesoru (blok Allocate / Rename / Retirement), které nejsou definovány architekturou instrukční sady.

Přejmenování registrů umožňuje dosáhnout provádění příkazů mimo pořadí. Myšlenka přejmenování registrů je následující. V architektuře x86 je počet registrů pro všeobecné použití relativně malý: osm registrů je k dispozici v 32bitovém režimu a 16 registrů v 64bitovém režimu. Pojďme si to představit spustitelný příkazčeká na načtení hodnot operandů do registru z paměti. Jedná se o dlouhou operaci a je dobré tento registr nechat použít pro jinou instrukci, jejíž operandy jsou bližší (například v mezipaměti první úrovně). K tomu je „čekací“ registr dočasně přejmenován a je sledována historie přejmenování. A registru „připraveno k práci“ je přiřazen standardní název, aby bylo možné provést instrukce poskytnuté s operandy právě teď. Když data dorazí z paměti, dojde k přístupu k historii přejmenování a původnímu registru se vrátí jeho zákonný název. Jinými slovy, technika přejmenování registrů snižuje prostoje a historie přejmenování se používá k odstranění konfliktů.

V další fázi (reorder buffer - ReOrder Buffer, ROB) jsou mikrooperace přeskupeny mimo pořadí (Out-of-Order), aby mohly být později efektivněji implementovány na prováděcích jednotkách. Všimněte si, že ReOrder Buffer a Retirement Unit jsou sloučeny v jedné procesorové jednotce, ale zpočátku jsou instrukce přeuspořádány a Retirement Unit je uvedena do provozu později, když je nutné vydávat provedené instrukce v pořadí určeném programem. .

V mikroarchitektuře Nehalem byla velikost vyrovnávací paměti pro změnu pořadí zvětšena ve srovnání s velikostí vyrovnávací paměti pro změnu pořadí v mikroarchitektuře Intel Core. Pokud tedy v Intel Core bylo navrženo pro 98 mikrooperací, pak v Nehalemu již můžete umístit 128 mikrooperací.

Dále jsou mikrooperace rozděleny mezi prováděcí jednotky. Rezervační stanice tvoří v bloku procesoru fronty mikrooperací, v důsledku čehož se mikrooperace dostávají na jeden z portů funkčních zařízení (dispečerské porty). Tento proces se nazývá dispečink (Dispatch) a samotné porty fungují jako brána k funkčním zařízením.

Poté, co mikrooperace projdou odesílacími porty, jsou odeslány do příslušných funkčních bloků k dalšímu provedení.

V mikroarchitektuře Sandy Bridge byl výrazně změněn cluster Allocate/Rename/Retirement (Out-of-Order Cluster). Na mikroarchitekturách Intel Core a Nehalem má každá mikrooperace kopii operandu nebo operandů, které vyžaduje. Ve skutečnosti to znamená, že by měly stačit bloky shluků spouštění mimo pořadí velká velikost, protože musí obsahovat mikrooperace spolu s operandy, které potřebují. V architektuře Nehalem by operandy mohly mít velikost 128 bitů, ale po zavedení rozšíření AVX může být velikost operandů 256 bitů, což vyžaduje zdvojnásobení velikosti všech bloků clusteru mimo pořadí.

Místo toho však mikroarchitektura Sandy Bridge používá soubor fyzického registru (Physical Register File, PRF), ve kterém jsou uloženy operandy mikrooperací (obr. 7). To umožňuje samotným mikrooperacím ukládat pouze ukazatele na operandy, ale nikoli samotné operandy. Na jedné straně tento přístup umožňuje snížit spotřebu energie procesoru, protože pohyb mikrooperací po potrubí spolu s jejich operandy vyžaduje značnou spotřebu energie. Na druhou stranu použití souboru fyzického registru pomáhá šetřit místo na čipu a využít uvolněný prostor ke zvětšení velikosti vyrovnávací paměti clusteru mimo pořadí (Load Buffers, Store Buffers, Reorder Buffers) – viz tabulka. V mikroarchitektuře Sandy Bridge je soubor fyzického registru pro celočíselné operandy (PRF Integer) navržen pro 160 záznamů a pro operandy s pohyblivou řádovou čárkou (PRF Float Point) - pro 144 záznamů.

Rýže. 7. Použití souborů fyzického registru v mikroarchitektuře Sandy Bridge

V architektuře Sandy Bridge prošly výrazným zpracováním i exekuční jednotky procesorového jádra. Portů funkčních zařízení je vlastně jako dříve šest (tři výpočetní a tři pro práci s pamětí), ale změnil se jejich účel i účel samotných prováděcích jednotek (obr. 8). Připomeňme, že procesor založený na mikroarchitektuře Nehalem je schopen provádět až šest operací za cyklus. V tomto případě je možné provádět současně tři výpočetní operace a tři paměťové operace.

Rýže. 8. Prováděcí jednotky v mikroarchitektuře Sandy Bridge

V architektuře Sandy Bridge umožňují tři prováděcí jednotky osm datových operací FP (Float Point) nebo dvě operace s 256bitovými AVX daty na takt.

V mikroarchitektuře Sandy Bridge se změnily nejen tři prováděcí jednotky, ale také funkční bloky pro paměťové operace. Připomeňme, že v mikroarchitektuře Nehalem byly tři porty pro práci s pamětí: Load (načítání dat), Store address (ukládání adres), Store data (ukládání dat) - obr. 9.

Rýže. 9. Prováděcí jednotky pro práci s pamětí v mikroarchitektuře Nehalem

Mikroarchitektura Sandy Bridge rovněž využívá tři porty pro práci s pamětí, dva porty se však staly univerzálními a umí nejen realizovat načítání dat (Load), ale také ukládat adresu (Store address). Třetí port se nezměnil a je určen pro ukládání dat (Store data) - obr. 10.

Rýže. 10. Prováděcí jednotky pro práci s pamětí v mikroarchitektuře Sandy Bridge

V souladu s tím se zvýšila propustnost interakce s mezipamětí L1 dat. Jestliže v mikroarchitektuře Nehalem bylo možné přenést 32 bajtů dat za každý cyklus mezi datovou mezipamětí L1 a prováděcími jednotkami pro práci s pamětí, pak v mikroarchitektuře Sandy Bridge to bylo již 48 bajtů (dva požadavky na čtení po 16 bajtech (128 bitů). ) a jeden požadavek na zápis až do 16 bajtů dat).

Na závěr vše přiblíží popis procesorového jádra založeného na mikroarchitektuře Sandy Bridge. Na Obr. 11 zobrazeno strukturální schéma procesorová jádra založená na mikroarchitektuře Sandy Bridge. Žlutá označuje změněné nebo nové bloky v mikroarchitektuře Sandy Bridge a modrá označuje bloky přítomné v mikroarchitektuře Nehalem a Sandy Bridge.

Rýže. 11. Rozdíly mezi mikroarchitekturou Sandy Bridge a mikroarchitekturou Nehalem
(společné bloky jsou označeny modře, změněné nebo nové bloky
v mikroarchitektuře Sandy Bridge - žlutá)

Okružní autobus v mikroarchitektuře Sandy Bridge

V mikroarchitektuře Nehalem probíhala interakce mezi každou L2 cache a L3 cache sdílenou mezi všemi jádry přes interní speciální procesorovou sběrnici s asi tisíci kontakty a interakce mezi jednotlivými procesorovými jednotkami (paměťový řadič, grafický řadič atd.). ) byla provedena prostřednictvím sběrnice QPI. V mikroarchitektuře Sandy Bridge byla sběrnice QPI, stejně jako interakční sběrnice L2- a L3-cache, nahrazena novou kruhovou sběrnicí (Ring Bus) - obr. 12. Umožňuje organizovat interakci mezi mezipamětí L2 každého procesorového jádra a mezipamětí L3 a také poskytuje přístup ke grafickému jádru (GPU) a jednotce kódování videa (motor pro překódování videa) do mezipaměti L3. Kromě toho stejná kruhová sběrnice poskytuje přístup k paměťovému řadiči. Na okraj poznamenáváme, že nyní Intel nazývá mezipaměť L3 mezipaměť poslední úrovně (Last Level Cache, LLC) a mezipaměť L2 - mezipaměť (Middle Level Cache, MLC).

Rýže. 12. Kruhový autobus v mikroarchitektuře Sandy Bridge

Kruhová sběrnice kombinuje čtyři samostatné sběrnice: 256bitový (32bajtový) datový prstenec, prsten požadavku, prsten potvrzení a prsten Snoop.

Použití kruhové sběrnice umožnilo snížit latenci L3 cache. Takže u procesorů předchozí generace (Westmere) je latence přístupu k mezipaměti L3 36 cyklů a u procesorů Sandy Bridge - 26-31 cyklů. L3 cache nyní navíc běží na taktu jádra (u procesorů Westmere se takt L3 cache neshodoval s taktem jádra).

Celá L3 cache je rozdělena do samostatných sekcí, z nichž každá je spojena se samostatným jádrem procesoru. Každému jádru je přitom k dispozici celá L3 cache. Každá z alokací mezipaměti L3 je vybavena přístupovým agentem kruhové sběrnice. Podobní přístupoví agenti jsou k dispozici pro mezipaměti L2 každého procesorového jádra, pro grafické jádro a pro systémového agenta, který implementuje výměnu dat s řadičem paměti.

Na závěr poznamenáváme, že L3 cache v mikroarchitektuře Sandy Bridge zůstala plně inkluzivní (včetně) s ohledem na L2 cache (jako v mikroarchitektuře Nehalem).

Grafické jádro v mikroarchitektuře Sandy Bridge

Jednou z hlavních inovací mikroarchitektury Sandy Bridge je nové grafické jádro. Jak jsme již poznamenali, na rozdíl od grafického jádra v procesorech Clarkdale/Arrandale je umístěno na stejném čipu jako zpracovatelská jádra procesoru a navíc má přístup do L3 cache přes kruhovou sběrnici. Navíc podle očekávání bude výkon nového grafického jádra zhruba dvakrát vyšší než výkon grafického jádra v procesorech Clarkdale / Arrandale. Grafické jádro v procesorech Sandy Bridge se samozřejmě nemůže rovnat výkonu diskrétní grafiky (mimochodem, podpora DirectX 11 pro nové jádro nebyla ani oznámena), ale pro spravedlnost podotýkáme, že toto jádro není umístěno jako herní řešení.

Nové grafické jádro může obsahovat (v závislosti na modelu procesoru) 6 nebo 12 prováděcích jednotek (Execution Unit, EU), což však nelze srovnávat s unifikovanými shader procesory v grafických procesorech NVIDIA nebo AMD, kde jich je několik stovek. (Obr. 13). Toto grafické jádro je primárně zaměřeno nikoli na 3D hry, ale na hardwarové dekódování a kódování videa (včetně HD videa). To znamená, že konfigurace grafického jádra zahrnuje hardwarové dekodéry. Doplňují je nástroje pro změnu rozlišení (škálování), redukci šumu (filtrování odšumování), detekci a odstraňování řádkového prokládání (detekce prokládání / filmový režim) a filtry pro vylepšení detailů. Následné zpracování pro zlepšení přehrávaných snímků zahrnuje STE (vylepšení tónu pleti), ACE (adaptivní vylepšení kontrastu) a TCC (celková správa barev).

Rýže. 13. Blokové schéma grafického jádra v mikroarchitektuře Sandy Bridge

Víceformátový hardwarový kodek podporuje formáty MPEG-2, VC1 a AVC, přičemž všechny kroky dekódování provádí pomocí specializovaného hardwaru, zatímco u současných integrovaných grafických procesorů tuto funkci plní univerzální prováděcí jednotky EU.

Nový režim Intel Turbo Boost

Jednou z pozoruhodných funkcí procesorů Sandy Bridge bude podpora nového režimu Turbo Boost. Připomeňme, že smyslem technologie Turbo Boost je dynamické přetaktování za určitých podmínek taktovacích frekvencí jader procesoru.

Pro implementaci technologie Turbo Boost má procesor speciální funkční jednotku PCU (Power Control Unit), která monitoruje úroveň zátěže jader procesoru, teplotu procesoru a má také na starosti napájení každého jádra a regulaci jeho taktovací frekvence. Nedílnou součástí PCU je tzv. Power Gate (závěrka), která slouží k převedení každého jádra procesoru samostatně do režimu spotřeby C6 (ve skutečnosti Power Gate odpojuje nebo připojuje jádra procesoru k napájecímu vedení VCC ).

V procesorech Clarkdale a Arrandale je režim Turbo Boost implementován následovně. V případě, že se ukáže, že některá jádra procesoru jsou vytížená, jsou jednoduše odpojena od elektrické sítě pomocí bloku Power Gate (jejich spotřeba je v tomto případě nulová). V souladu s tím lze taktovací frekvenci a napájecí napětí zbývajících zatížených jader dynamicky zvyšovat o několik kroků (každé 133 MHz), ale tak, aby spotřeba procesoru nepřekročila jeho TDP. To znamená, že skutečně ušetřená spotřeba deaktivací několika jader se použije k přetaktování zbývajících jader, ale tak, aby nárůst spotřeby v důsledku přetaktování nepřevýšil ušetřenou spotřebu energie. Režim Turbo Boost je navíc implementován také při počátečním zatížení všech procesorových jader, ale jeho spotřeba energie nepřesahuje hodnotu TDP.

U mobilních procesorů Arrandale s integrovaným grafickým jádrem se technologie Turbo Boost rozšiřuje nejen na procesorová jádra, ale také na grafické jádro. Tedy v závislosti na aktuální teplotě a spotřebě energie dojde k přetaktování nejen procesorových, ale i grafického jádra. Například, pokud v nějaké aplikaci hlavní zátěž padne na GPU, a jádra procesoru zůstanou nevytížená, pak bude ušetřené TDP použito k přetaktování grafického jádra, ale tak, aby nebyl překročen limit TDP grafického jádra.

Vzhledem k tomu, že v procesorech Sandy Bridge (stolních i mobilních) je grafické jádro ve skutečnosti stejné procesorové jádro jako výpočetní jádra, rozšíří se technologie Turbo Boost jak na výpočetní jádra, tak na grafické jádro. Kromě toho (a to je hlavní inovace) nová verze režimu Turbo Boost poskytuje možnost překročení TDP procesoru při krátkodobém přetaktování jader.

Procesor se totiž při překročení TDP nepřehřeje hned, ale až po určité době. Vzhledem k tomu, že v mnoha aplikacích je vytížení procesoru 100% křečovité a jen velmi krátké časové úseky, je v těchto obdobích docela dobře možné přetaktovat takt procesoru tak, aby byl překročen limit TDP.

Procesory Sandy Bridge v režimu Turbo Boost mají schopnost překročit TDP až na 25 sekund (obr. 14).

Závěr

Pojďme si shrnout naši recenzi mikroarchitektury Sandy Bridge. Tato nová mikroarchitektura je hlavní revizí mikroarchitektury Nehalem. Mezi novinky patří použití mezipaměti dekódovaných mikrooperací, přepracovaný blok predikce větvení, použití souboru fyzického registru, větší velikost klastrových vyrovnávacích pamětí mimo pořadí, vylepšené jednotky pro provádění procesorů a bloky pro práci s Paměť. Procesory Sandy Bridge navíc využívají kruhovou sběrnici pro přístup k jádrům procesoru k L3 cache a paměti. Procesory Sandy Bridge také dostaly nové, efektivnější grafické jádro, které má přístup k L3 cache.

Procesory Sandy Bridge mají navíc nový režim Turbo Boost, který umožňuje vymáčknout z procesoru maximální výkon.

Schopnosti GPU Sandy Bridge jsou obecně srovnatelné s předchozí generací takových řešení od Intelu, až na to, že k možnostem DirectX 10 byla nyní přidána podpora DirectX 10.1 namísto očekávané podpory DirectX 11. Není mnoho aplikací s podporou OpenGL omezeno na hardwarovou kompatibilitu pouze s verzí 3 specifikace pro toto bezplatné API.

Přesto je inovací v grafice Sandy Bridge spousta a míří především na zvýšení výkonu při práci s 3D grafikou.

Hlavní důraz při vývoji nového grafického jádra byl podle zástupců Intelu kladen na maximální využití hardwarových možností pro výpočet 3D funkcí a totéž pro zpracování mediálních dat. Tento přístup se radikálně liší od plně programovatelného hardwarového modelu, který přijala například NVIDIA nebo samotný Intel pro vývoj Larrabee (s výjimkou texturových jednotek).

Při implementaci Sandy Bridge má však odklon od programovatelné flexibility své nesporné výhody, díky nimž je dosaženo důležitějších výhod pro integrovanou grafiku v podobě nižší latence při provádění operací, lepšího výkonu na pozadí úspory energie, zjednodušený model programování ovladačů a, což je důležité, s úsporou fyzické velikosti grafického modulu.

Grafické jednotky programovatelného spouštění shaderů Sandy Bridge, které se u Intelu tradičně označují jako „prováděcí jednotky“ (EU, Execution Units), se vyznačují větší velikostí souborů registrů, což umožňuje dosáhnout efektivního provádění složitých shaderů. V nových prováděcích jednotkách byla také použita optimalizace větvení pro dosažení lepší paralelizace spustitelných příkazů.

Obecně platí, že podle zástupců Intelu mají nové prováděcí jednotky dvojnásobnou propustnost ve srovnání s předchozí generací integrované grafiky a výkon výpočtů s transcendentálními čísly (trigonometrie, přirozené logaritmy atd.) díky důrazu na použití hardwarové výpočetní schopnosti modelu se zvýší 4-20krát.

Interní instrukční sada, posílená v Sandy Bridge řadou nových, umožňuje distribuovat většinu instrukcí API DirectX 10 jedna ku jedné, jako je tomu u architektury CISC, což má za následek výrazně vyšší výkon na stejná rychlost hodin.

Rychlý přístup přes rychlou prstencovou sběrnici do distribuované L3 cache s dynamicky konfigurovatelnou segmentací umožňuje snížit latenci, zvýšit výkon a zároveň snížit frekvenci přístupu GPU k RAM.

Okružní autobus

Celá historie modernizace mikroarchitektury procesorů Intel v posledních letech je nerozlučně spjata se sekvenční integrací stále většího počtu modulů a funkcí, které byly dříve umístěny mimo procesor, do jednoho čipu: v čipsetu, na základní desce atd. V souladu s tím, jak se zvyšoval výkon procesoru a stupeň integrace čipů, požadavky na šířku pásma pro interní propojovací sběrnice rostly rychlejším tempem. Prozatím se i po zavedení grafického čipu do architektury čipu Arrandale/Clarkdale dalo vystačit s mezisložkovými sběrnicemi s obvyklou křížovou topologií – stačilo.

Účinnost takové topologie je však vysoká pouze s malým počtem komponent, které se účastní výměny dat. V mikroarchitektuře Sandy Bridge se vývojáři pro zlepšení celkového výkonu systému rozhodli obrátit na kruhovou topologii 256bitové propojovací sběrnice (obr. 6.1), vyrobené na základě nové verze QPI (QuickPath Interconnect ) technologie, rozšířená, vylepšená a poprvé implementovaná v architektuře serverového čipu Nehalem - EX (Xeon 7500), a také plánovaná pro použití ve spojení s architekturou čipu Larrabee.

Kruhová sběrnice (Ring Interconnect) ve verzi architektury Sandy Bridge pro desktopové a mobilní systémy slouží k výměně dat mezi šesti klíčovými komponentami čipu: čtyřmi x86 procesorovými jádry, grafickým jádrem, L3 cache, nyní tzv. LLC (Last Level Cache) a systémový agent. Sběrnice se skládá ze čtyř 32bajtových kruhů: datová sběrnice (Data Ring), požadavková sběrnice (Request Ring), sběrnice pro monitorování stavu (Snoop Ring) a potvrzovací sběrnice (Acknowledge Ring), což v praxi umožňuje sdílení přístupu. do 64bajtové mezipaměti rozhraní poslední úrovně do dvou různých balíčků. Sběrnice jsou řízeny komunikačním protokolem distribuovaného rozhodčího řízení, zatímco požadavky jsou pipelines na taktovací frekvenci jader procesoru, což dává architektuře další flexibilitu při přetaktování. Výkon kruhové sběrnice je ohodnocen na 96 GB za sekundu na připojení při 3 GHz, což je efektivně čtyřikrát rychleji než předchozí generace procesorů Intel.

Obr.6.1. Kruhová sběrnice (Ring Interconnect)

Kruhová topologie a organizace sběrnice zajišťuje minimální latenci při zpracování požadavků, maximální výkon a vynikající škálovatelnost technologie pro verze čipů s různým počtem jader a dalších komponent. Podle zástupců společnosti může být v budoucnu na kruhovou sběrnici „připojeno“ až 20 procesorových jader na čip a takový redesign, jak chápete, lze provést velmi rychle, formou flexibilní a rychlé reakce aktuálním potřebám trhu. Kruhová sběrnice je navíc fyzicky umístěna přímo nad bloky mezipaměti L3 v horní metalizační vrstvě, což zjednodušuje designové rozložení a umožňuje udělat čip kompaktnější.