Prezentace procesorů Intel Sandy Bridge: sestava a architektonické prvky. Nový režim Intel Turbo Boost

Před několika lety, za vlády značky Pentium, se poprvé objevila značka Intel Core a mikroarchitektura se stejným názvem (Architecture 101), nová generace mikroarchitektury Intel s pracovním názvem Gesher (hebrejsky „bridge“) byla poprvé zmíněna na diapozitivech o budoucích procesorech, které byly později transformovány do Sandy Bridge.

V té dlouholeté éře nadvlády procesorů NetBurst, kdy se začaly objevovat obrysy nadcházejících jader Nehalem, jsme se seznámili se zvláštnostmi vnitřní struktury prvních zástupců mikroarchitektury Core - Conroe pro stolní systémy, Merom - pro mobilní systémy a Woodcrest - pro server ...

Jedním slovem, když byla tráva zelená a před Sandy Bridge to bylo jako před Měsícem, už tehdy zástupci společnosti Intel říkali, že to bude zcela nová mikroarchitektura procesoru. Takto si dnes, řekněme, můžete představit záhadnou mikroarchitekturu Haswell, která se objeví po generaci Ivy Bridge, která příští rok nahradí Sandy Bridge.

Čím blíže je však datum vydání nové mikroarchitektury, tím více se dozvídáme o jejích vlastnostech, tím viditelnější jsou podobnosti mezi sousedními generacemi a tím zřetelnější je vývojová cesta změn v obvodech procesorů. A skutečně, pokud mezi počátečními reinkarnacemi první architektury Core - Merom / Conroe a prvorozenou druhou generací Core - Sandy Bridge - skutečně existuje propast rozdílů, pak aktuální nejnovější verze generace Core - jádro Westmere - a nadcházející, dnes považovaná, první verze generace Core II - jádro Sandy Bridge, se může zdát podobné.

Přesto jsou rozdíly značné. Tak významné, že nyní můžeme konečně hovořit o konci 15leté éry mikroarchitektury P6 (Pentium Pro) a vzniku nové generace mikroarchitektury Intel.

Micro Mikroarchitektura Sandy Bridge: Pohled z ptačí perspektivy

Čip Sandy Bridge je čtyřjádrový 64bitový procesor s prováděním příkazů mimo pořadí, podporou dvou datových toků na jádro (HT), provádění čtyř příkazů na taktovací cyklus; s integrovaným grafickým jádrem a integrovaným řadičem paměti DDR3; s novou vyzváněcí sběrnicí, podpora pro 3 a 4-operandové (128/256-bitové) vektorové příkazy rozšířené sady AVX (Advanced Vector Extensions); jejichž výroba je založena na linkách v souladu se standardy moderních 32 nm technologický proces Intel.

Stručně řečeno, jednou větou se můžete pokusit charakterizovat novou generaci procesorů Intel Core II pro mobilní a stolní systémy, jejichž hromadné dodávky začnou ve velmi blízké budoucnosti.

Procesory Intel Core II založené na mikroarchitektuře Sandy Bridge budou dodávány v novém 1155kolíkovém designu LGA1155 pro nové základní desky založené na čipových sadách řady Intel 6.

Přibližně stejná mikroarchitektura bude relevantní pro serverová řešení Intel Sandy Bridge-EP, kromě skutečných rozdílů v podobě většího počtu procesorových jader (až osm), odpovídající patice procesoru LGA2011, větší mezipaměti L3, zvýšeného počtu řadičů paměti DDR3 a podpory PCI -Express 3.0.

Předchozí generace, mikroarchitektura Westmere od Arrandale a Clarkdale pro mobilní a stolní systémy, je designem dvou krystalů - 32nm procesorového jádra a dalšího 45nm „koprocesoru“ s grafickým jádrem a integrovaným řadičem paměti, umístěným na jediném substrátu a výměna dat přes sběrnici QPI. Ve skutečnosti v této fázi vytvořili inženýři společnosti Intel, využívající hlavně předchozí vývoj, jakýsi integrovaný hybridní mikroobvod.

Při vytváření architektury Sandy Bridge vývojáři dokončili integrační proces, který začal ve fázi vytváření Arrandale / Clarkdale, a umístili všechny prvky na jediný 32nm krystal, přičemž upustili od klasické sběrnice QPI ve prospěch nové kruhové sběrnice. Zároveň podstata mikroarchitektury Sandy Bridge zůstala v rámci předchozí ideologie Intel, která se opírá o zvýšení celkového výkonu procesoru zlepšením „individuální“ efektivity každého jádra.

Strukturu čipu Sandy Bridge lze zhruba rozdělit na následující hlavní prvky: jádra procesoru, grafické jádro, mezipaměť L3 a takzvaný „System Agent“.

Struktura mikroarchitektury Sandy Bridge je obecně jasná. Naším současným úkolem je zjistit účel a implementační vlastnosti každého z prvků této struktury.

Ring bus (Ring Interconnect)

Celá historie modernizace mikroarchitektur procesorů Intel v posledních letech je neoddělitelně spjata s postupnou integrací do jediného krystalu rostoucího počtu modulů a funkcí, které byly dříve umístěny mimo procesor: v čipové sadě, na základní deska atd. V souladu s tím, jak se zvyšoval výkon procesoru a stupeň integrace čipů, rostly požadavky na šířku pásma interních propojovacích sběrnic předstihovým tempem. Prozatím, dokonce i po zavedení grafického čipu do architektury čipů Arrandale / Clarkdale, bylo možné vystačit s mezikomponentními sběrnicemi s obvyklou křížovou topologií - to stačilo.

Účinnost takové topologie je však vysoká pouze u malého počtu komponent účastnících se výměny dat. V mikroarchitektuře Sandy Bridge se vývojáři rozhodli vylepšit celkový výkon systému a rozhodli se přejít na prstencovou topologii 256bitové propojovací sběrnice na základě nové verze technologie QPI (QuickPath Interconnect), rozšířené, upravené a nejprve implementované do architektury serverového čipu Nehalem-EX (Xeon 7500). , stejně jako plánované pro použití ve spojení s architekturou čipů Larrabee.

Ring bus ve verzi architektury Sandy Bridge pro desktop a Windows mobilní systémy (Core II) slouží k výměně dat mezi šesti klíčovými komponenty čipu: čtyřmi jádry procesoru x86, grafickým jádrem, mezipamětí L3 a systémovým agentem. Sběrnice se skládá ze čtyř 32 bajtů prsteny: Datové sběrnice Ring, sběrnice Request Ring, sběrnice Snoop Ring a sběrnice Acknowledge Ring, v praxi to ve skutečnosti umožňuje rozdělit přístup k 64bajtovému rozhraní mezipaměti poslední vrstvy na dva různé pakety. Sběrnice jsou řízeny pomocí distribuovaného rozhodčího komunikačního protokolu, zatímco pipeline požadavků probíhá na taktovací frekvenci procesorových jader, což dává architektuře další flexibilitu při přetaktování. Výkon pneumatiky Ring je ohodnocen na 96 GB za sekundu na připojení @ 3 GHz, což je čtyřikrát vyšší výkon než u procesorů Intel předchozí generace.

Kruhová topologie a organizace sběrnice zajišťuje minimální latenci při zpracování požadavků, maximální výkon a vynikající škálovatelnost technologie pro verze čipů s různým počtem jader a dalších komponent. Podle zástupců společnosti může být v budoucnu k kruhové sběrnici „připojeno“ až 20 procesorových jader na čip a takový redesign, jak víte, lze provést velmi rychle, v podobě flexibilní a rychlé reakce na aktuální potřeby trhu. Fyzická kruhová sběrnice navíc sedí přímo nad bloky mezipaměti L3 v horní vrstvě metalizace, což zjednodušuje návrhové zapojení a umožňuje kompaktnější čip.

L3 - mezipaměť poslední úrovně, LLC

Jak jste si již všimli, na slidech Intel se mezipaměť L3 označuje jako „mezipaměť poslední úrovně“, tedy LLC - mezipaměť poslední úrovně. V mikroarchitektuře Sandy Bridge je mezipaměť L3 distribuována nejen mezi čtyřmi procesorovými jádry, ale díky kruhové sběrnici také mezi grafickým jádrem a systémovým agentem, který mimo jiné obsahuje modul grafické akcelerace hardwaru a jednotku výstupu videa. Speciální sledovací mechanismus zároveň zabraňuje konfliktům přístupu mezi jádry procesoru a grafikou.

Každé ze čtyř procesorových jader má přímý přístup k „svému“ segmentu mezipaměti L3, zatímco každý segment mezipaměti L3 poskytuje polovinu své šířky sběrnice pro přístup ke kruhové datové sběrnici, zatímco fyzické adresování všech čtyř segmentů mezipaměti je zajišťováno jedinou hashovací funkcí. Každý segment mezipaměti L3 má svůj vlastní nezávislý řadič přístupu ke kruhové sběrnici, který je zodpovědný za zpracování požadavků na přidělení fyzických adres. Řadič mezipaměti navíc neustále komunikuje se systémovým agentem při neúspěšných voláních na L3, řízení výměny dat mezi složkami a volání bez mezipaměti.

Další podrobnosti o struktuře a fungování L3 mezipaměti procesorů Sandy Bridge se objeví později v textu, v procesu poznávání mikroarchitektury, jak to bude potřeba.

Systémový agent: řadič paměti DDR3, PCUjiný

Dříve se místo definování System Agent v terminologii Intel objevilo takzvané „Non-core“ - Uncore, tedy „vše, co není zahrnuto v Core“, jmenovitě L3 cache, grafika, řadič paměti, další řadiče jako PCI Express atd. Ze zvyku jsme často nazývali většinu těchto prvků severního mostu, přenesených z čipové sady do procesoru.

Systémový agent mikroarchitektury Sandy Bridge zahrnuje řadič paměti DDR3, jednotku Power Control Unit (PCU), PCI-Express 2.0, řadiče DMI, jednotku video výstupu atd. Stejně jako všechny ostatní prvky architektury je systémový agent připojen k obecnému systému prostřednictvím vysoce výkonná kruhová sběrnice.

Architektura standardní verze systémového agenta Sandy Bridge předpokládá přítomnost 16 linek sběrnice PCI-E 2.0, které lze také distribuovat na dvě sběrnice PCI-E 2.0 s 8 linkami, nebo na jednu sběrnici PCI-E 2.0 pro 8 linek a dvě karty PCI- E 2.0 ve čtyřech řádcích. Dvoukanálový řadič paměti DDR3 je nyní zpět na matrici (v čipech Clarkdale byl umístěn mimo matrici procesoru) a s největší pravděpodobností nyní bude poskytovat výrazně nižší latenci.

Skutečnost, že se řadič paměti v Sandy Bridge stal dvoukanálovým, pravděpodobně nepotěší ty, kterým se již podařilo vyhodit spoustu peněz za přetaktování sad tříkanálové paměti DDR3. Stává se, že nyní budou relevantní sady pouze jednoho, dvou nebo čtyř modulů.

Máme nějaké myšlenky na návrat k dvoukanálovému řadiči paměti. Možná Intel začal připravovat mikroarchitektury pro práci s pamětí DDR4? Kvůli přechodu od „hvězdné“ topologie k „point-to-point“ topologii ve verzích pro stolní a mobilní systémy bude podle definice pouze dvoukanálový (u serverů budou použity speciální moduly multiplexeru). Jedná se však pouze o dohady, není dostatek informací o standardu DDR4 pro jisté předpoklady.

Řadič napájení umístěný v systémovém agentovi je zodpovědný za včasné a dynamické škálování napájecího napětí a taktovacích frekvencí jader procesoru, grafického jádra, mezipaměti, řadiče paměti a rozhraní. A co je nejdůležitější, správa napájení a hodin se provádí nezávisle na jádrech procesoru a grafickém jádru.

Zcela nová verze technologie Turbo Boost je implementována v neposlední řadě díky tomuto řadiči řízení spotřeby. Faktem je, že v závislosti na aktuálním stavu systému a složitosti řešeného problému umožňuje mikroarchitektura Sandy Bridge technologii Turbo Boost „přetaktovat“ jádra procesoru a integrovanou grafiku na úroveň, která dostatečně přesahuje TDP na dlouhou dobu... A opravdu, proč nevyužijte tuto příležitost pravidelně, když je chladicí systém stále studený a může poskytnout větší odvod tepla, než je již zahřátý?

Kromě skutečnosti, že technologie Turbo Boost nyní umožňuje přetaktování všech čtyř jader z TDP, je také třeba poznamenat, že výkon a tepelná správa grafických jader v čipech Arrandale / Clarkdale jsou ve skutečnosti pouze vestavěné, ale nejsou plně integrovány do procesor, vyrobený řidičem. Nyní je v architektuře Sandy Bridge tento proces přiřazen také řadiči PCU. Taková těsná integrace systému řízení napájecího napětí a frekvence umožnila v praxi realizovat mnohem agresivnější scénáře technologie Turbo Boost, kdy jak grafická, tak všechna čtyři jádra procesoru, pokud je to nutné a při dodržení určitých podmínek, mohou současně pracovat na zvýšených taktovacích frekvencích s výrazným přebytkem TDP, ale bez jakýchkoli vedlejších účinků.

Nová verze technologie Turbo Boost v procesorech Sandy Bridge je dobře zdokumentována v multimediální prezentaci na Intel Developer Forum v San Francisku v září. Video níže tohoto okamžiku prezentace vám řekne o Turbo Boost rychleji a lépe než jakékoli jiné vyprávění.

Jak efektivně bude tato technologie fungovat ve výrobních procesorech se teprve uvidí, ale to, co Intel ukázal během uzavřené demonstrace schopností Sandy Bridge během dnů IDF v San Francisku, je prostě úžasné: jak zvýšení taktovací frekvence, tak výkon procesoru a grafika může dosáhnout fantastických úrovní najednou.

Existují informace, že u standardních chladicích systémů bude režim takového „přetaktování“ pomocí Turbo Boost a překročení TDP v systému BIOS omezen na dobu 25 sekund. Ale co když mohou výrobci základních desek zaručit lepší odvod tepla pomocí exotického chladicího systému? Tady se otevírá prostor pro přetaktovače ...

Každé ze čtyř jader Sandy Bridge lze v případě potřeby samostatně přepnout do režimu nejnižší spotřeby, grafické jádro lze také přepnout do velmi ekonomického režimu. Kroužkovou sběrnici a mezipaměť L3 vzhledem k jejich distribuci mezi jiné zdroje nelze deaktivovat, pro kruhovou sběrnici je však k dispozici speciální úsporný pohotovostní režim, pokud není načten, a pro mezipaměť L3 se používá tradiční technologie vypínání nepoužívaných tranzistorů, která je nám již známá na předchozích mikroarchitekturách. Procesory Sandy Bridge v mobilních počítačích tedy poskytují dlouhodobou perspektivu samostatná práce při napájení z baterie.

Součástí systémového agenta jsou také video výstup a multimediální hardwarové dekódovací moduly. Na rozdíl od svých předchůdců, kde bylo hardwarové dekódování svěřeno grafickému jádru (o jeho schopnostech si promluvíme příště), využívá nová architektura k dekódování multimediálních proudů samostatný, mnohem produktivnější a ekonomičtější modul, a to pouze v procesu kódování (komprese) multimédií data využívají schopnosti shaderových jednotek grafického jádra a mezipaměti L3.

V souladu s moderními trendy jsou k dispozici nástroje pro přehrávání 3D obsahu: hardwarový dekódovací modul Sandy Bridge může snadno zpracovávat dva nezávislé toky MPEG2, VC1 nebo AVC najednou v rozlišení Full HD.

Dnes jsme se seznámili se strukturou nové generace mikroarchitektury Intel Core II s pracovním názvem Sandy Bridge, zjistili jsme strukturu a fungování řady klíčových prvků tohoto systému: kruhová sběrnice, mezipaměť L3 a systémový agent, který zahrnuje řadič paměti DDR3, řídicí modul napájení a další součásti.

Jedná se však pouze o malou část nových technologií a nápadů implementovaných v mikroarchitektuře Sandy Bridge, neméně působivé a rozsáhlé změny byly provedeny v architektuře procesorových jader a integrované grafiky. Tím náš příběh o Sandy Bridge nekončí - bude pokračovat.


1. Mikroarchitektura Sandy Bridge: krátce

Čip Sandy Bridge je dvou až čtyřjádrový 64bitový procesor ● s variabilní (mimo pořadí) sekvenci provádění příkazů, ● s podporou dvou datových toků na jádro (HT), ● se čtyřmi pokyny na takt; ● s integrovaným grafickým jádrem a integrovaným řadičem paměti DDR3; ● s novou ring bus, ● podpora pro 3 a 4-operandové (128/256-bitové) vektorové příkazy rozšířené sady AVX (Advanced Vector Extensions); jejichž výroba je zavedena na linkách v souladu s normami 32nm technologického procesu společnosti Intel.

Jednou větou lze tedy charakterizovat novou generaci procesorů Intel Core 2 pro mobilní a stolní systémy, dodávanou od roku 2011.

MP procesory Intel Core II založené na MA Sandy Bridge jsou dodávány v nové verzi 1155 kontaktní konstrukce LGA1155 pro nové základní desky založené na čipových sadách Intel 6 Series se systémovými logickými sadami (Intel B65 Express, H61 Express, H67 Express, P67 Express, Q65 Express, Q67 Express a 68 Express, Z77).


Přibližně stejná mikroarchitektura je relevantní pro serverová řešení. Intel Sandy Bridge-E s rozdíly v podobě většího počtu procesorových jader (až 8), patice procesoru LGA2011, více mezipaměti L3, více řadičů paměti DDR3 a podpora PCI-Express 3.0.

Předchozí generace, mikroarchitektura Westmere byl design ze dvou krystalů: ● 32 nm procesorové jádro a ● další 45 nm nm „koprocesor“ s grafickým jádrem a integrovaným řadičem paměti umístěným na jediném substrátu a výměnou dat přes sběrnici QPI, tzn. integrovaný hybridní čip (uprostřed).

Při vytváření MA Sandy Bridge vývojáři umístili všechny prvky na jediný 32nm krystal a upustili od klasické sběrnice ve prospěch nové kruhové sběrnice.

Podstata architektury Sandy Bridge zůstává stejná - jde o zvýšení celkového výkonu procesoru zlepšením „individuální“ efektivity každého jádra.



Strukturu čipu Sandy Bridge lze zhruba rozdělit na následující základní prvky: ■ jádra procesoru, ■ grafické jádro, ■ mezipaměť L3 a ■ System Agent. Popíšeme účel a implementační vlastnosti každého z prvků této struktury.

Celá historie modernizace mikroarchitektur procesorů Intel v posledních letech je propojena se sekvenční integrací do jediného krystalu rostoucího počtu modulů a funkcí, které byly dříve umístěny mimo MP: v čipové sadě, na základní desce atd. Jak se zvýšil výkon procesoru a integrace čipů, požadavky na šířku pásma interních propojení rostly neuvěřitelným tempem. Dříve se od vzájemných propojení mezi topologiemi upustilo - a to stačilo.

Účinnost takové topologie je však vysoká pouze u malého počtu komponent účastnících se výměny dat. Sandy Bridge se otočil kruhová topologie 256bitová propojovací sběrnice na základě nová verze QPI (QuickPath Interconnect).

Autobus slouží pro výměna dat mezi součástmi čipu:


● 4 MP x86 jádra,

● grafické jádro,

● L3 cache a

● systémový agent.


Sběrnice se skládá ze 4 32 bajtů prsteny:

■ datové sběrnice (Data Ring), ■ vyžádané sběrnice (Request Ring),

■ Bus pro sledování stavu (Snoop Ring) a ■ Potvrzení vyzvánění Bus.


Pneumatiky jsou ovládány pomocí distribuovaný rozhodčí komunikační protokol, zatímco pipeline požadavků se vyskytuje na taktovací frekvenci procesorových jader, což dává MA další flexibilitu při přetaktování. Výkon pneumatik se měří v mm 96 GB / s na připojení při hodinové frekvenci 3 GHzcož je čtyřikrát více než u procesorů Intel předchozí generace.

Kruhová topologie a organizace sběrnice poskytuje ● minimální latenci při zpracování požadavků, ● maximální výkon a ● vynikající škálovatelnost technologie pro verze čipů s různým počtem jader a dalších komponent.

V budoucnu může být kruhová sběrnice „připojena“ až 20 jádra procesoru na čip a takového přepracování lze provést velmi rychle, v podobě flexibilní a rychlé reakce na aktuální potřeby trhu.

Fyzická kruhová sběrnice navíc sedí přímo nad bloky mezipaměti L3 v horní vrstvě metalizace, což zjednodušuje návrhové zapojení a umožňuje kompaktnější čip.

V dnešní době společnost Intel představuje světu dlouho očekávané procesory Písečný most, jehož architektura byla dříve pokřtěna jako revoluční. Novinkami se však v dnešní době staly nejen procesory, ale také všechny doprovodné komponenty nových desktopových a mobilních platforem.

Tento týden tedy bylo oznámeno až 29 nových procesorů, 10 čipsetů a 4 bezdrátové adaptéry pro notebooky a stolní pracovní a herní počítače.

Mezi mobilní inovace patří:

    intel Core i7-2920XM, Core i7-2820QM, Core i7-2720QM, Core i7-2630QM, Core i7-2620M, Core i7-2649M, Core i7-2629M, Core i7-2657M, Core i7-2617M, Core i5- 2540M, Core i5-2520M, Core i5-2410M, Core i5-2537M, Core i3-2310M;

    Čipové sady Intel QS67, QM67, HM67, HM65, UM67 Express;

    řadiče bezdrátové sítě Intel Centrino Advanced-N + WiMAX 6150, Centrino Advanced-N 6230, Centrino Advanced-N 6205, Centrino Wireless-N 1030.

Segment pro stolní počítače bude obsahovat:

    procesory Intel Core i7-2600K, Core i7-2600S, Core i7-2600, Core i5-2500K, Core i5-2500S, Core i5-2500T, Core i5-2500, Core i5-2400, Core i5-2400S, Core i5- 2390T, Core i5-2300;

    Čipové sady Intel P67, H67, Q67, Q65, B65 Express.

Ale je třeba hned poznamenat, že oznámení nová platforma není jedinečný pro všechny modely procesorů a čipových sad - od začátku ledna jsou k dispozici pouze mainstreamová řešení a většina masivnějších a ne tak drahých řešení se objeví v prodeji o něco později. Spolu s vydáním stolních procesorů Sandy Bridge je pro ně představena nová patice procesoru LGA 1155... Nové položky tedy nedoplňují sestavu Intel Core i3 / i5 / i7, ale jsou náhradou procesorů pro LGA 1156, z nichž většina se nyní stává zcela neperspektivní akvizicí, protože v blízké budoucnosti by se jejich vydání mělo úplně zastavit. A pouze pro nadšence, Intel do konce roku slibuje, že bude nadále vydávat starší čtyřjádrové modely založené na jádru Lynnfield.

Soudě podle plánu však platforma Socket T (LGA 775) s dlouhou životností zůstane relevantní alespoň do poloviny roku a bude základem pro základní systémy. Pro nejproduktivnější herní systémy a skutečné nadšence, procesory založené na jádru Bloomfield, bude patice LGA 1366 relevantní až do konce roku. Jak vidíte, životní cyklus dvoujádrových procesorů s „integrovaným“ grafickým adaptérem na jádře Clarkdale se ukázal být velmi krátký, pouze jeden rok, ale „Trodden“ cesta pro představený „dnes“ Sandy Bridge, který zákazníka naučil myšlence, že do procesoru lze integrovat nejen řadič paměti, ale také grafickou kartu. Nyní nastal čas nejen vydat rychlejší verze těchto procesorů, ale také seriózně aktualizovat architekturu, aby bylo zajištěno znatelné zvýšení jejich efektivity.

Klíčové vlastnosti procesorů Sandy Bridge jsou:

    vydání v souladu s technickým procesem 32 nm;

    výrazně zvýšená energetická účinnost;

    optimalizovaná technologie Intel Turbo Boost a podpora Intel Hyper-Threading;

    výrazné zvýšení výkonu integrovaného grafického jádra;

    implementace nové sady instrukcí Intel Advanced Vector Extension (AVX) k urychlení zpracování reálných čísel.

Ale všechny výše uvedené inovace by neposkytly příležitost hovořit o skutečně nové architektuře, pokud by to všechno nebylo implementováno nyní v rámci jednoho jádra (matrice), na rozdíl od procesorů založených na jádru Clarkdale.

Přirozeně, aby všechny uzly procesoru fungovaly ve shodě, bylo nutné je organizovat rychlá výměna informace mezi nimi - důležitou architektonickou inovací je Ring Interconnect.

Spojuje Ring Interconnect přes L3 mezipaměť, nyní nazývanou LLC (Last Level Cache), jádra procesoru, grafické jádro a System Agent, který zahrnuje řadič paměti, řadič sběrnice PCI Express, řadič DMI, modul správy napájení a další řadiče a moduly dříve souhrnně pojmenované „uncore“.

Ring bus Ring Interconnect je další fází ve vývoji sběrnice QPI (QuickPath Interconnect), která po „spuštění“ v procesory serveru s aktualizovanou 8jádrovou architekturou Nehalem-EX se přesunul k jádru procesorů pro stolní a mobilní systémy. Ring Interconnect vytváří čtyři 32bitové kroužky pro datové kroužky, prsteny požadavku, prstenec Snoop a prsten pro potvrzení. Kruhová sběrnice funguje na frekvenci jádra, takže její šířka pásma, latence a spotřeba energie zcela závisí na frekvenci výpočetních jednotek procesoru.

Mezipaměť třetí úrovně (LLC - mezipaměť poslední úrovně) je společná pro všechna výpočetní jádra, grafické jádro, systémového agenta a další jednotky. Čím grafický ovladač určuje, které datové toky se mají umístit do mezipaměti, ale jakýkoli jiný blok má přístup ke všem datům v LLC. Speciální mechanismus řídí přidělování mezipaměti, aby nedocházelo ke kolizím. Aby se urychlila práce, každé z procesorových jader má svůj vlastní segment mezipaměti, ke kterému má přímý přístup. Každý takový segment obsahuje nezávislý řadič pro přístup na sběrnici Ring Interconnect, ale současně neustále komunikuje se systémovým agentem, který provádí obecnou správu mezipaměti.

Systémový agent je ve skutečnosti zabudován do procesoru " severní most„A integruje řadiče PCI Express, DMI, RAM, jednotky pro zpracování videa (správa mediálního procesoru a rozhraní), správce napájení a dalších pomocných jednotek. Systémový agent komunikuje se zbytkem uzlů procesoru prostřednictvím kruhové sběrnice. Kromě zefektivnění datových toků monitoruje systémový agent teplotu a zatížení různých jednotek a prostřednictvím jednotky Power Control Unit poskytuje kontrolu napájecího napětí a frekvencí, aby zajistil nejlepší energetickou účinnost s vysokým výkonem. Zde lze také poznamenat, že k napájení nových procesorů potřebujete tříkomponentní regulátor napájení (nebo dva, pokud integrované grafické jádro zůstane neaktivní) - zvlášť pro výpočetní jádra, systémového agenta a integrovanou grafickou kartu.

Sběrnice PCI Express zabudovaná do procesoru vyhovuje specifikaci 2.0 a má 16 pruhů pro možnost zvýšení výkonu grafického subsystému pomocí výkonného externího 3D akcelerátoru. V případě použití starších sad systémové logiky a vyjednávání licenčních problémů lze těchto 16 řádků rozdělit na 2 nebo tři sloty v režimech 8x + 8x nebo 8x + 4x + 4x pro NVIDIA SLI a / nebo AMD CrossFireX.

Pro výměnu dat se systémem (disky, I / O porty, periferní zařízení, jejichž řadiče jsou v čipové sadě) se používá sběrnice DMI 2.0, která umožňuje čerpání užitečných informací až 2 GB / s v obou směrech.

Důležitou součástí systémového agenta je dvoukanálový řadič paměti DDR3 zabudovaný do procesoru, který nominálně podporuje moduly na 1066-1333 MHz, ale při použití na základních deskách založených na čipové sadě Intel P67 Express může snadno pracovat s moduly na frekvencích až 1600 nebo dokonce 2133 MHz. Umístění řadiče paměti do jedné matrice s jádry procesoru (jádro Clarkdale se skládalo ze dvou krystalů) by mělo snížit latenci paměti a podle toho zvýšit výkon systému.

Částečně díky pokročilému monitorování všech jader, mezipamětí a pomocných jednotek Power Control Unit mají procesory Sandy Bridge vylepšenou technologii Intel Turbo Boost 2.0. Nyní, v závislosti na zatížení a prováděných úkolech, lze jádra procesoru, je-li to nutné, zrychlit i při přebytku tepelného paketu, jako při běžném ručním přetaktování. Systémový agent ale bude monitorovat teplotu procesoru a jeho komponent a při detekci „přehřátí“ se frekvence uzlů postupně sníží. Stolní procesory však mají v super akcelerovaném režimu omezenou dobu běhu. zde je mnohem snazší uspořádat několikanásobně účinnější chlazení než chladič v krabici. Takové „overboost“ umožní dosáhnout zvýšení výkonu v kritických okamžicích systému, což by mělo u uživatele vyvolat dojem, že pracuje s výkonnějším systémem, a také snížit čekací dobu na reakci systému. Intel Turbo Boost 2.0 také zajišťuje obojí stolní počítače vestavěné video jádro má dynamický výkon.

Architektura procesorů Sandy Bridge implikuje nejen změny ve struktuře mezikomponentní interakce a zlepšení schopností a energetické účinnosti těchto komponent, ale také vnitřní změny v každém výpočetním jádru. Až na „kosmetická“ vylepšení jsou nejdůležitější následující:

    návrat k alokaci mezipaměti asi 1,5 tisíce dekódovaných mikroopů L0 (používaných v Pentiu 4), což je samostatná část L1, která současně zajišťuje rovnoměrnější načítání potrubí a snižuje spotřebu energie v důsledku nárůstu pauz v provozu poměrně složitých dekodérových schémat;

    zvýšení účinnosti bloku predikce větví v důsledku zvýšení kapacity vyrovnávacích pamětí adres výsledků větve, historie příkazů, historie větví, což zvýšilo účinnost potrubí;

    zvýšení kapacity vyrovnávací paměti doobjednaných instrukcí (ROB - ReOrder Buffer) a zvýšení efektivity této části procesoru díky zavedení souboru fyzického registru (PRF - soubor fyzického registru, který je také charakteristickým rysem Pentium 4) pro ukládání dat, jakož i rozšiřování dalších vyrovnávacích pamětí;

    zdvojnásobení kapacity registrů pro práci se streamováním skutečných dat, což v některých případech může zajistit dvojnásobnou rychlost operací, které je používají;

    zvýšení efektivity provádění šifrovacích instrukcí pro algoritmy AES, RSA a SHA;

    zavedení nových vektorových instrukcí Advanced Vector Extension (AVX);

  • optimalizace mezipaměti první úrovně L1 a druhé úrovně L2.

Důležitou vlastností grafického jádra procesorů Sandy Bridge je to, že je nyní umístěno ve stejné matrici se zbytkem bloků a jeho vlastnosti a monitorování stavu provádí na úrovni hardwaru systémový agent. V tomto případě je blok pro zpracování mediálních dat a generování signálů pro video výstup umístěn v tomto velmi systémovém agentovi. Tato integrace umožňuje užší komunikaci, nižší latenci, vyšší účinnost atd.

Samotná architektura grafického jádra však nemá tolik změn, kolik bychom chtěli. Místo očekávané podpory DirectX 11 byla jednoduše přidána podpora DirectX 10.1. Proto není mnoho aplikací s podporou OpenGL omezeno hardwarovou kompatibilitou pouze s 3. verzí specifikace tohoto bezplatného API. Současně, i když se říká o zdokonalení výpočetních jednotek, je jich stejný počet - 12, a to pouze pro starší procesory. Nicméně zvýšení taktu na 1350 MHz slibuje znatelné zvýšení výkonu.

Na druhou stranu je vytvoření integrovaného video jádra se skutečně vysokým výkonem a funkčností pro moderní hry s nízkou spotřebou energie velmi obtížné. Nedostatečná podpora nových API proto ovlivní pouze kompatibilitu s novými hrami, a pokud opravdu chcete hrát pohodlně, bude třeba zvýšit výkon pomocí samostatného 3D akcelerátoru. Mezi výhody Intel HD Graphics II (Intel HD Graphics 2000/3000) lze ale počítat rozšíření funkčnosti při práci s multimediálními daty, zejména při kódování a dekódování videa v rámci technologie Intel Clear Video Technology HD.

Aktualizovaný procesor médií umožňuje odlehčit jádra procesoru při kódování videa ve formátech MPEG2 a H.264 a také rozšiřuje sadu funkcí následného zpracování o hardwarovou implementaci algoritmů pro automatické přizpůsobení kontrastu obrazu (ACE - Adaptive Contrast Enhancement), korekce barev (TCC - Total Color Control) a vylepšení zobrazení pokožky (STE - Skin Tone Enhancement). Implementovaná podpora rozhraní zvyšuje vyhlídky na použití integrované grafické karty Verze HDMI 1.4 kompatibilní s Blu-ray 3D (Intel InTru 3D).

Všechny výše uvedené architektonické funkce poskytují nové generaci procesorů znatelnou výkonnostní výhodu oproti modelům předchozí generace, a to jak ve výpočetních úlohách, tak při práci s videem.

Nakonec platforma Intel LGA 1155 se stává produktivnějším a funkčnějším a nahrazuje LGA 1156.

Abychom to shrnuli, procesory Sandy Bridge jsou navrženy tak, aby řešily velmi širokou škálu úkolů s vysokou energetickou účinností, díky čemuž by se měly stát skutečně mainstreamem v nových produktivních systémech, zvláště když budou dostupné cenově dostupnější modely v široké škále.

V blízké budoucnosti bude zákazníkům postupně k dispozici 8 procesorů pro stolní počítače různých úrovní: Intel Core i7-2600K, Intel Core i7-2600, Intel Core i5-2500K, Intel Core i5-2500, Intel Core i5-2400, Intel Core i5-2300 , Intel Core i3-2120 a Intel Core i3-2100. Modely s indexem K mají bezplatný multiplikátor a rychlejší integrovaný grafický adaptér Intel HD Graphics 3000.

Pro systémy kritické pro spotřebu energie byly také vydány modely s energetickou účinností (index S) a vysoce energeticky účinné (index T).

Na podporu nových procesorů jsou základní desky založené na čipových sadách Intel P67 Express a Intel H67 Express již dnes k dispozici a v blízké budoucnosti se očekávají na Intel Q67 Express a Intel B65 Express, zaměřené na podnikové uživatele a malé firmy. Všechny tyto čipové sady začaly konečně podporovat disky s sATA rozhraní 3.0, i když ne všechny porty. Nepodporují však zdánlivě ještě populárnější sběrnici USB 3.0. Zajímavou vlastností nových čipsetů pro konvenční základní desky je, že upustili od podpory sběrnice PCI. Kromě toho je nyní generátor hodin zabudován do čipové sady a jeho vlastnosti lze ovládat bez důsledků pro stabilitu provozu systému pouze ve velmi malém rozsahu, se štěstím je to pouze ± 10 MHz a v praxi ještě méně.

Je třeba také poznamenat, že různé čipové sady jsou optimalizovány pro použití s \u200b\u200brůznými procesory v systémech určených pro různé účely. To znamená, že Intel P67 Express od Intel H67 Express se liší nejen nedostatečnou podporou práce s integrovaným videem, ale také pokročilými funkcemi pro „přetaktování“ a ladění výkonu. Intel H67 Express si zase u modelů s indexem K vůbec nevšimne bezplatného multiplikátoru.

Ale kvůli architektonickým vlastnostem je přetaktování procesorů Sandy Bridge stále možné pouze s multiplikátorem, pokud se jedná o model řady K. I když všechny modely mají tendenci k nějaké optimalizaci a „overboost“.

Dočasně tedy vytvořit iluzi práce pro velmi výkonný procesor dokonce i modely s uzamčeným multiplikátorem jsou schopné znatelné akcelerace. Čas pro tuto akceleraci pro stolní systémy, jak je uvedeno výše, je omezen hardwarem, nejen teplotou, jako u mobilních počítačů.

Po představení všech architektonických prvků a inovací, stejně jako aktualizovaných patentovaných technologií, zbývá jen znovu shrnout, proč je Sandy Bridge tak inovativní, a připomenout umístění.

Pro vysoce výkonné systémy a systémy hromadné výroby bude v blízké budoucnosti možné zakoupit procesory řady Intel Core i7 a Intel Core i5, které se liší podporou technologie Intel Hyper-Threading (zakázáno u čtyřjádrových modelů Intel Core i5) a mezipaměť L3. Pro ekonomičtější zákazníky jsou představeny nové modely Intel Core i3, které mají 2krát méně procesorových jader, ačkoli podporují Intel Hyper-Threading, pouze 3 MB mezipaměti LLC, nepodporují Intel Turbo Boost 2.0 a všechny jsou vybaveny grafickou kartou Intel HD 2000 ...

V polovině roku budou představeny procesory Intel Pentium pro hromadné systémy (je velmi těžké opustit tuto značku, i když to bylo před rokem předpovězeno) založené na velmi zjednodušené architektuře Sandy Bridge. Ve skutečnosti se tyto procesory pro „pracovní koně“ budou včera podobat svými schopnostmi skutečnému Core i3-3xx na jádru Clarkdale, protože ztratí téměř všechny funkce vlastní starším modelům pro LGA 1155.

Je třeba poznamenat, že vydání procesorů Sandy Bridge a celé desktopové platformy LGA 1155 se stalo dalším „Tak“ v rámci konceptu Intel „Tik-Tak“, tj. hlavní aktualizace architektury pro vydání pomocí již odladěné 32 nm procesní technologie. Asi za rok budeme mít procesory Ivy Bridge s optimalizovanou architekturou a 22 nm procesní technologií, které jistě opět budou mít „revoluční energetickou účinnost“, ale doufejme, že nezruší patici procesoru LGA 1155. No, počkejme a uvidíme. Mezitím máme alespoň rok na to, abychom studovali architekturu Sandy Bridge a důkladně ji otestovali. , kterou začneme v nejbližších dnech.

Článek přečtený 14947 krát

Přihlaste se k odběru našich kanálů

Během fóra IDF 2010, které se konalo ve dnech 13. – 15. Září, společnost Intel nejprve oznámila podrobnosti o nové mikroarchitektuře procesorů s kódovým označením Sandy Bridge. Procesor Sandy Bridge byl ve skutečnosti představen na loňském fóru IDF 2009, ale podrobnosti o nové mikroarchitektuře nebyly v té době hlášeny (kromě toho, že většina obecná informace). Okamžitě udělejme rezervaci, že ne všechny její podrobnosti se dnes staly veřejností. Společnost chce něco tajit až do oficiálního oznámení, které by mělo proběhnout na začátku příštího roku. Zejména nebyly zveřejněny žádné podrobnosti týkající se výkonu nových procesorů, sestavy a některých architektonických prvků.
Pojďme se tedy podrobněji podívat na novou mikroarchitekturu Sandy Bridge a na vlastnosti na ní založené procesorů, které později budeme nazývat procesory Sandy Bridge.

Stručně o procesorech Sandy Bridge

Všechny procesory s kódovým označením Sandy Bridge budou zpočátku vyráběny v 32nm procesu. V budoucnu, když dojde k přechodu na 22nm technický proces, procesory založené na mikroarchitektuře Sandy Bridge obdrží kódové jméno Ivy Bridge (obr. 1).

Postava: 1. Vývoj řad procesorů Intel a mikroarchitektur procesorů

Procesory Sandy Bridge, stejně jako procesory Westmere, tvoří tři rodiny v segmentech desktopů a mobilních zařízení: Intel Core i7, Intel Core i5 a Intel Core i3, ale loga těchto procesorů se mírně změní (obr. 2). Přesněji řečeno, mluvíme o druhé generaci (druhé generace) rodin Intel Core.

Postava: 2. Nová loga procesorů Sandy Bridge

Je známo, že systém kódování procesorů se zcela změní, ale na fóru IDF 2010 nebylo nic hlášeno ohledně nového systému kódování pro modely procesorů.

Podle neoficiálních údajů budou procesory Sandy Bridge označeny čtyřmístným číslem, přičemž první číslice - 2 - představuje druhou generaci rodiny Intel Core. To znamená, že tam bude například (opět podle neoficiálních údajů) procesor Intel Core i7-2600 nebo Intel Core i5-2500. V rodinách Intel Core i7 a Intel Core i5 budou procesory s uzamčeným i odemčeným, přičemž druhý bude označen písmenem K (Intel Core i7-2600K, Intel Core i5-2500K).

Hlavní rozdíly mezi rodinami Intel Core i7, Intel Core i5 a Intel Core i3 budou velikost mezipaměti L3, počet jader a podpora technologií Hyper-Threading a Turbo Boost.

Rodina procesorů Intel Core i7 bude čtyřjádrová s podporou technologií Hyper-Threading a Turbo Boost a velikost mezipaměti L3 bude 8 MB.

Rodina procesorů Intel Core i5 bude čtyřjádrová, ale nebude podporovat technologii Hyper-Threading. Jádra těchto procesorů budou podporovat technologii Turbo Boost a velikost mezipaměti L3 bude 6 MB.

Rodina procesorů Intel Core i3 bude dvoujádrová s podporou technologie Hyper-Threading, ale bez podpory technologie Turbo Boost. Mezipaměť L3 v těchto procesorech bude 3 MB.

Po oznámení neoficiálních informací přejdeme ke spolehlivým údajům.

Všechny nové procesory Sandy Bridge obdrží novou patici procesoru LGA 1155 a samozřejmě nebudou kompatibilní se základními deskami založenými na čipových sadách Intel řady 5. V zásadě budou pro procesory Sandy Bridge navrženy základní desky založené na nové čipové sadě Intel řady 6. Novinkou v těchto SoC bude podpora pro dva porty SATA 6 Gb / s (SATA III), stejně jako plné rychlosti PCI Express 2.0 (5 GHz). Ale integrovaný do čipové sady Řadič USB 3.0 zatím nebude k dispozici.

Zpět k procesorům Sandy Bridge. Nová patice procesoru LGA 1155 bude s největší pravděpodobností vyžadovat nové chladiče, protože chladiče pro patici LGA 1156 budou nekompatibilní se zásuvkou LGA 1155. Toto je však jen náš odhad založený na jednoduché logice. Nakonec by Intel měl nějak stimulovat vydání nových modelů chladičů, aby se výrobci chladičů neohýbali úplně.

Charakteristickým rysem všech procesorů Sandy Bridge bude přítomnost integrovaného grafického jádra nové generace. Navíc, pokud byly v procesorech předchozí generace (Clarkdale a Arrandale) jádra procesoru a grafické jádro umístěny na různých krystalech a navíc byly vyrobeny podle různých technických procesů, pak v procesorech Sandy Bridge budou všechny komponenty procesoru vyrobeny pomocí 32 nm procesní technologie a umístěny na jeden krystal.

Je důležité zdůraznit, že ideologicky lze grafické jádro procesoru Sandy Bridge považovat za páté jádro procesoru (v případě čtyřjádrových procesorů). Kromě toho má grafické jádro, stejně jako jádra procesoru, přístup do mezipaměti L3.

Stejně jako procesory Clarkdale a Arrandale předchozí generace budou mít procesory Sandy Bridge integrované rozhraní PCI Express 2.0 pro použití samostatných grafických karet. Všechny procesory navíc podporují 16 linek PCI Express 2.0, které lze seskupit buď jako jeden port PCI Express x16, nebo jako dva pCI porty Express x8.

Je třeba také poznamenat, že všechny procesory Sandy Bridge budou mít integrovaný dvoukanálový řadič paměti DDR3. Dosud neexistují plány na vydání variant s tříkanálovým řadičem paměti. To je způsobeno skutečností, že modelová řada procesorů Sandy Bridge nebude pokrývat segment špičkových desktopových procesorů. Nejlepší stolní procesor bude nový model šestijádrový procesor Gulftown (Intel Core i7-990X) a řada procesorů Sandy Bridge bude zaměřena na produktivní, tradiční a levné počítače.

Další vlastností procesorů založených na mikroarchitektuře Sandy Bridge je, že místo sběrnice QPI (Intel QuickPath Interconnect), která se dříve používala k vzájemnému propojení jednotlivých komponent procesorů, se nyní používá zásadně odlišné rozhraní, které se nazývá Ring Bus, níže zvážíme podrobně.

Obecně je třeba poznamenat, že architektura procesoru Sandy Bridge implikuje modulární, snadno škálovatelnou strukturu (obr. 3).

Postava: 3. Modulární struktura procesoru Sandy Bridge

Další vlastností mikroarchitektury Sandy Bridge je, že podporuje instrukční sadu Intel AVX (Intel Advanced Vector Extension).

Intel AVX je nová sada rozšíření pro architekturu Intel, poskytující 256bitové vektorové výpočty s plovoucí desetinnou čárkou na základě SIMD (Single Instruction, Multiple Data).

Intel AVX nabízí komplexní rozšíření architektury instrukční sady pro mikroarchitekturu Intel 64 a má následující funkce:

  • podpora vektorových dat s větší bitovou hloubkou (až 256 bitů);
  • efektivní schéma kódování instrukcí, podporující syntaxi instrukcí tří a čtyř operandů;
  • flexibilní programovací prostředí, které poskytuje různé možnosti - od pokynů pro zpracování větví až po snížené požadavky na zarovnání posunů v paměti;
  • nová primitiva pro manipulaci s daty a zrychlení aritmetických výpočtů, včetně broadcastu, permute, fused-multiply-add (FMA) atd.

Vzhledem k tomu, že novou sadu instrukcí Intel AVX lze použít v jakékoli aplikaci, kde je podstatná část výpočtu způsobena operacemi SIMD, největší nárůst výkonu nová technologie dá pro ty, kteří převážně provádějí výpočty s plovoucí desetinnou čárkou a lze je paralelizovat. Mezi příklady patří programy pro zpracování zvuku a zvukové kodeky, programy pro úpravy obrázků a videa, aplikace pro simulace a finanční analýzy a průmyslové a inženýrské aplikace.

Když už mluvíme o mikroarchitektuře procesoru Sandy Bridge, je třeba poznamenat, že se jedná o vývoj mikroarchitektury Nehalem nebo Intel Core (protože mikroarchitektura Nehalem je vývojem mikroarchitektury Intel Core). Rozdíly mezi Nehalem a Sandy Bridge jsou poměrně výrazné, je však stále nemožné označit tuto mikroarchitekturu za zásadně novou, jakou kdysi byla mikroarchitektura Intel Core. To je přesně upravená Nehalemova mikroarchitektura.

Pojďme se nyní blíže podívat na inovace mikroarchitektury Sandy Bridge a její odlišnosti od Nehalem.

Jádro procesoru založené na mikroarchitektuře Sandy Bridge

Než začneme uvažovat o rozdílech mezi mikroarchitekturami Sandy Bridge a Nehalem, připomínáme, že schéma libovolného procesoru implikuje přítomnost několika strukturálních prvků: mezipaměť dat a instrukcí L1, preprocesor (Front End) a postprocesor, nazývaný také vykonávací modul.

Proces zpracování dat zahrnuje následující fáze. Nejprve jsou instrukce a data načteny z mezipaměti L1 (této fázi se říká fetch). Poté se instrukce vybrané z mezipaměti dekódují do strojních primitiv (mikroops) srozumitelných pro procesor. Tento postup dekódování. Dále jsou dekódované příkazy odesílány do prováděcích jednotek procesoru a prováděny a výsledek je zapsán do paměti.

Procesy načítání instrukcí z mezipaměti, jejich dekódování a postup do prováděcích jednotek jsou prováděny v preprocesoru a proces provádění instrukcí v postprocesoru.

Nyní se podívejme blíže na jádro procesoru Sandy Bridge a porovnejme ho s jádrem Nehalem. Když je jádro procesoru založeno na mikroarchitektuře Nehalem nebo Sandy Bridge, instrukce x86 se načtou z mezipaměti instrukcí 32 KB L1 (instrukční mezipaměť) (8kanálová mezipaměť). Pokyny jsou načítány z mezipaměti v blocích pevné délky, ze kterých jsou extrahovány pokyny pro dekódování. Protože pokyny x86 mají proměnná délkaa bloky, se kterými se instrukce načítají z mezipaměti, jsou opraveny; při dekódování instrukcí musíte určit hranice mezi jednotlivými instrukcemi.

Informace o velikostech instrukcí jsou uloženy v mezipaměti instrukcí L1 ve speciálních polích (3 bity informací pro každý bajt instrukce). V zásadě by tyto informace k určení hranic instrukcí mohly být použity v samotném dekodéru přímo v procesu dekódování instrukcí. To by však nevyhnutelně ovlivnilo rychlost dekódování a bylo by nemožné dekódovat několik instrukcí současně. Proto jsou před dekódováním příkazy extrahovány z vybraného bloku. Tento postup se nazývá PreDecode. Procedura před dekódování udržuje konstantní dekódovací tempo bez ohledu na délku a strukturu instrukce.

Procesory s mikroarchitekturou Nehalem a Sandy Bridge načítají instrukce v 16bajtových blocích, tj. 16bajtový blok instrukcí se načítá z mezipaměti pro každý cyklus.

Po operaci načtení jsou pokyny uspořádány do fronty (instrukční fronty) a poté přeneseny do dekodéru. Při dekódování (dekódování) se pokyny převádějí na strojní mikroops s pevnou délkou (označované jako mikroops nebo uOps).

Dekodér jádra procesoru s mikroarchitekturou Sandy Bridge se nezměnil. Stejně jako mikroarchitektura Nehalem je čtyřkanálová a dokáže dekódovat až čtyři instrukce x86 za taktovací cyklus. Jak již bylo uvedeno, v mikroarchitekturách Nehalem a Sandy Bridge je z mezipaměti pro každý hodinový cyklus načten 16bajtový instrukční blok, ze kterého jsou během procesu před dekódování extrahovány samostatné instrukce. V zásadě může mít jeden příkaz až 16 bajtů. Průměrná délka instrukce je však 4 bajty. Proto jsou v průměru do každého bloku načteny čtyři instrukce, které jsou při použití čtyřkanálového dekodéru současně dekódovány v jednom hodinovém cyklu.

Čtyřkanálový dekodér se skládá ze tří jednoduchých dekodérů, které dekódují jednoduché instrukce do jedné mikrooperace, a jednoho složitého, který dokáže dekódovat jednu instrukci do čtyř mikroopů (dekodér typu 4-1-1-1). U ještě složitějších instrukcí, které jsou dekódovány do více než čtyř mikroopů, je složitý dekodér spojen s blokem uCode Sequenser, který se používá k dekódování takových instrukcí.

Dekódování čtyř instrukcí za taktovací cyklus je přirozeně možné, pouze pokud jeden 16bajtový blok obsahuje alespoň čtyři instrukce. Existují však instrukce delší než 4 bajty, a když je načteno několik takových instrukcí v jednom bloku, účinnost dekódování klesá.

Při dekódování instrukcí v mikroarchitekturách Nehalem a Sandy Bridge se používají dvě zajímavé technologie - Macro-Fusion a Micro-Fusion.

Macro-Fusion je fúze dvou instrukcí x86 do jedné komplexní mikrooperace. V předchozí verze mikroarchitektura procesoru byla každá instrukce x86 dekódována nezávisle na ostatních. Při použití technologie Macro-Fusion mohou být některé páry instrukcí (například instrukce pro porovnání a podmíněné větve) během dekódování sloučeny do jedné mikro-operace, která bude dále provedena jako jedna mikro-operace. Všimněte si, že za účelem efektivní podpory technologie Macro-Fusion v mikroarchitekturách Nehalem a Sandy Bridge se používají rozšířené ALU (Arithmetical Logic Unit), které jsou schopné podporovat provádění sloučených mikrooperací. Všimněte si také, že v případě použití technologie Macro-Fusion lze dekódovat pouze čtyři instrukce za cyklus procesoru (ve čtyřkanálovém dekodéru) a při použití technologie Macro-Fusion lze v každém cyklu číst pět instrukcí, které jsou převedeny na čtyři sloučením a podrobeny dekódování.

Všimněte si, že technologie Macro-Fusion byla také použita v mikroarchitektuře Intel Core, ale v mikroarchitektuře Nehalem byla rozšířena sada instrukcí x86, u nichž je možné sloučit do jedné mikrooperace. Mikroarchitektura Intel Core navíc nepodporovala sloučení instrukcí x86 pro 64bitový režim procesoru, to znamená, že technologie Macro-Fusion byla implementována pouze v 32bitovém režimu. V architektuře Nehalem to je úzké místo byl opraven a slučování funguje v 32- i 64bitových režimech procesoru. V mikroarchitektuře Sandy Bridge byla sada instrukcí x86, u kterých je možná operace sloučení, ještě rozšířena.

Micro-Fusion je sloučení dvou mikroopů (ne instrukcí x86, ale mikroopů) do jednoho, který obsahuje dvě základní akce. V budoucnu budou dvě takové sloučené mikrooperace zpracovány jako jedna, což umožní snížit počet zpracovaných mikrooperací a tím zvýšit celkový počet instrukcí provedených procesorem v jednom cyklu. Je jasné, že sloučení dvou mikrooperací není možné u všech párů mikrooperací. Mikroarchitektura Sandy Bridge používá přesně stejnou operaci Micro-Fusion (pro stejnou sadu mikrooperací) jako v mikroarchitektuře Nehalem.

Když už mluvíme o postupu načítání programových pokynů v mikroarchitektuře Nehalem, je třeba poznamenat, že existuje jednotka detekce smyčky programu (Loop Stream Detector), která se účastní procesu načítání pokynů a umožňuje vám vyhnout se opakování při provádění stejných operací. Loop Stream Detector (LSD) se také používá v mikroarchitektuře Intel Core, ale liší se od LSD v Nehalem. V architektuře Intel Core se tedy používá vyrovnávací paměť LSD pro 18 instrukcí a nachází se před dekodérem. To znamená, že na architektuře Intel Core lze sledovat a rozpoznávat pouze smyčky s maximálně 18 instrukcemi. Když je detekována programová smyčka, instrukce ve smyčce přeskočí fáze Fetch a Predikce větvení a samotné instrukce jsou generovány a přiváděny do dekodéru z vyrovnávací paměti LSD. To na jedné straně umožňuje snížit spotřebu energie jádra procesoru a na druhé straně obejít fázi načítání instrukcí. Pokud je v cyklu více než 18 pokynů, budou pokyny pokaždé procházet všemi standardními kroky.

V mikroarchitektuře Nehalem není jednotka detekce cyklu umístěna před, ale za dekodérem a je navržena pro 28 již dekódovaných instrukcí. Jelikož LSD ukládá již dekódované instrukce, budou „přeskakovat“ nejen fázi predikce a načítání větve, jako dříve, ale také fázi dekódování (ve skutečnosti je preprocesor procesoru po dobu programového cyklu vypnutý). V Nehalemu tedy pokyny ve smyčce procházejí potrubím rychleji a častěji a spotřeba energie je nižší než v architektuře Intel Core (obrázek 4).

Postava: 4. Vyrovnávací paměť LSD v mikroarchitekturách Intel Core a Nehalem

V mikroarchitektuře Sandy Bridge šli vývojáři ještě dále: společně s vyrovnávací pamětí LSD pro 28 mikroopů použili Decoded Uop Cache - obr. 5. Všechny dekódované mikrooperace vstupují do mezipaměti. Dekódovaná mezipaměť micro-ops je navržena pro přibližně 1 500 mikroopů (zjevně mluvíme o středně dlouhých mikro-opech), což odpovídá přibližně 6 kB mezipaměti instrukcí x86.

Postava: 5. Mezipaměť dekódovaných mikrooperací v mikroarchitektuře Sandy Bridge

Koncept dekódované mikrooperační mezipaměti je ukládat do ní sekvence mikrooperací. Mikroprocesorová mezipaměť nefunguje na úrovni jedné instrukce, ale na úrovni 32bajtového bloku mikroopů. Celá mezipaměť je rozdělena do 32 sad po 8 řádcích. Každá linka má až 6 mikroopů. Na 32bajtový blok lze vázat až 3 řádky (18 mikroopů). Ke značkování dochází podle instrukčního ukazatele (IP). Sladění predikovaného ukazatele instrukce probíhá paralelně jak v mezipaměti instrukcí, tak v mezipaměti micro-op, a pokud dojde k požadavku na server, linky, které tvoří blok 32 bajtů, jsou načteny z mezipaměti mikro-op a umístěny do fronty. V tomto případě není nutné znovu vzorkovat a dekódovat.

Efektivita používání dekódované micro-op mezipaměti do značné míry závisí na efektivitě Branch Predikční jednotky (BPU). Připomeňme, že jednotka predikce větví se používá ve všech moderních procesorech a v procesorech Sandy Bridge je výrazně vylepšena ve srovnání s BPU v mikroarchitektuře Nehalem (obr.6).

Postava: 6. Bloková predikce větví (Branch Prediction Un) v mikroarchitektuře Sandy Bridge

Abychom pochopili, proč je prediktor větve v procesoru tak důležitý a jak ovlivňuje výkon, připomeňme, že prakticky každý méně složitý program má podmíněné instrukce větve. Příkaz takového podmíněného skoku znamená následující: pokud je některá podmínka pravdivá, musíte přejít k provedení programu, počínaje od jedné adresy, a pokud ne, pak od jiné. Z pohledu procesoru je instrukce podmíněného skoku jakýmsi kamenem úrazu. Ve skutečnosti, dokud nebude jasné, zda je podmínka přechodu pravdivá nebo ne, procesor neví, kterou část programového kódu má provést dále, a proto musí zůstat nečinný. Aby se tomu zabránilo, používá se blok predikce větve, který se pokusí uhodnout, na kterou část kódu programu bude instrukce podmíněné větve ukazovat, ještě před jejím provedením. Na základě predikce větví se odpovídajících 86 instrukcí načte z mezipaměti L1 nebo z dekódované mikrooptové mezipaměti.

Když se poprvé setkáte s podmíněnou větvovou instrukcí, použije se takzvaná statická predikce. V zásadě BPU pouze hádá, která větev programu bude spuštěna jako další. Statická predikce je navíc založena na předpokladu, že většina reverzních větví se vyskytuje v opakujících se smyčkách, když se větvová instrukce používá k určení pokračování smyčky nebo výstupu z ní. Více často než ne, smyčka pokračuje, takže procesor znovu provede kód smyčky znovu. Z tohoto důvodu statická předpověď předpokládá, že jsou vždy provedeny všechny reverzní větve.

Protože se shromažďují statistiky výsledků různých podmíněných skoků (historie podmíněných skoků), používá se algoritmus predikce dynamické větve, který je přesně založen na analýze statistik výsledků podmíněných skoků provedených dříve. Algoritmy predikce dynamické větve používají tabulku historie větví (BHT) a vyrovnávací paměť větve cíle (BTB). Tyto tabulky zaznamenávají informace o výsledcích již provedených větví. BHT obsahuje všechny podmíněné skoky z posledních několika cyklů. Rovněž ukládá bity indikující pravděpodobnost opětovného výběru stejné větve. Bity jsou přidělovány na základě statistik předchozího chmele. Ve standardním bimodálním (2bitovém) schématu existují čtyři pravděpodobnosti: větev je silně brána, větev je brána, větev není brána a větev je často silně brána.

Aby bylo možné rozhodnout o spekulativním provedení pobočky, musí zařízení vědět přesná poloha kód v mezipaměti L1 ve směru větvení - řekněme tomu cíl větvení. Cíle větví, které již byly vyrobeny, jsou uloženy v BTB. Když dojde k větvení, BPU jednoduše vezme cíl větve z tabulky a řekne preprocesoru, aby na této adrese zahájil načítání instrukcí.

Rozumí se, že spolehlivost predikce větví závisí na velikosti tabulek BHT a BTB. Čím více záznamů v těchto tabulkách, tím vyšší je spolehlivost predikce.

Je třeba poznamenat, že pravděpodobnost správné predikce větvení v moderních procesorech je velmi vysoká (asi 97–99%) a boj ve skutečnosti pokračuje o zlomky procent.

V mikroarchitektuře Sandy Bridge existuje několik vylepšení BPU. Za prvé, místo použití jiné pravděpodobnosti v BHT pro každou větev větve, je stejná pravděpodobnost použita současně pro několik větví. Ve výsledku je možné optimalizovat tabulku BHT, což zvyšuje spolehlivost predikce větve.

Druhým vylepšením BPU v mikroarchitektuře Sandy Bridge je optimalizace tabulky BTB. Pokud dříve ve VTB byl k nastavení všech cílů větví použit pevný počet bitů, což vedlo k neodůvodněnému plýtvání prostorem, nyní počet bitů použitých k nastavení adresy přechodu závisí na samotné adrese. Ve skutečnosti vám to umožní uložit do tabulky více adres a zvýšit tak spolehlivost predikce.

Přesnější údaje o velikostech tabulek BHT a BTB zatím nejsou k dispozici.

Mluvili jsme tedy o změnách v preprocesoru mikroarchitektury Sandy Bridge (dekódovaná mezipaměť micro-op a aktualizovaná predikční jednotka větve). Pojďme dále.

Po procesu dekódování instrukcí x86 začíná fáze jejich provádění. Zpočátku existuje přejmenování a přidělení dalších registrů procesoru (blok Allocate / Rename / Retirement), které nejsou definovány architekturou sady instrukcí.

Přejmenování registrů vám umožňuje dosáhnout out-of-order provádění příkazů. Myšlenka přejmenování registrů je následující. V architektuře x86 je počet univerzálních registrů relativně malý: osm registrů je k dispozici v 32bitovém režimu a 16 registrů v 64bitovém režimu. Představte si, že prováděný příkaz čeká na načtení hodnot operandů do registru z paměti. Jedná se o dlouhou operaci a v tuto chvíli by bylo dobré povolit použití tohoto registru pro jinou instrukci, jejíž operandy jsou blíže (například v mezipaměti první úrovně). Za tímto účelem je dočasně přejmenován registr „čekání“ a je sledována historie přejmenování. Registru „připravenosti k práci“ je přiřazen standardní název, takže příkaz dodávaný s operandy lze provést právě teď. Když data dorazí z paměti, přejde se do historie přejmenování a původní registr se vrátí na jeho oficiální název. Jinými slovy, technika přejmenování registrů může snížit prostoje a udržování historie přejmenování se používá k vyrovnání konfliktů.

V další fázi (přeskupovací vyrovnávací paměť - ReOrder Buffer, ROB) jsou mikrooperace přeuspořádány mimo pořadí jejich příchodu (Mimo pořadí), takže je později můžete efektivněji implementovat na prováděcích jednotkách. Všimněte si, že ReOrder Buffer a Retirement Unit jsou kombinovány v jedné procesorové jednotce, ale instrukce jsou původně přeuspořádány a Retirement Unit je uvedena do provozu později, když je nutné vydat provedené instrukce v pořadí určeném programem.

V mikroarchitektuře Nehalem byla velikost přeskupovací vyrovnávací paměti zvýšena ve srovnání s velikostí přeskupovací vyrovnávací paměti v mikroarchitektuře Intel Core. Pokud tedy byl v Intel Core navržen pro 98 mikroops, pak 128 mikroops může být umístěn v Nehalem.

Dále je zde distribuce mikrooperací mezi prováděcími jednotkami. V bloku procesoru tvoří rezervační stanice fronty mikrooperací, v důsledku čehož jsou mikrooperace odesílány na jeden z dispečerských portů. Tento proces se nazývá Odeslání a samotné porty fungují jako brána k funkčním zařízením.

Poté, co mikrooperace prošly expedičními porty, jsou odeslány do příslušných funkčních bloků k dalšímu provedení.

V mikroarchitektuře Sandy Bridge se výrazně změnil klastr Allocate / Rename / Retirement (Out-of-Order Cluster). V mikroarchitekturách Intel Core a Nehalem má každá mikrooperace kopii operandu nebo operandů, které vyžaduje. Ve skutečnosti to znamená, že bloky clusteru provádění mimo pořadí musí být dostatečně velké, protože musí obsahovat mikroopy spolu s požadovanými operandy. V architektuře Nehalem mohly mít operandy velikost 128 bitů, ale se zavedením rozšíření AVX může mít operand 256 bitů, což vyžaduje zdvojnásobení velikosti všech bloků v klastru provádění mimo pořadí.

Místo toho však mikroarchitektura Sandy Bridge používá soubor fyzického registru (PRF), který ukládá operandy mikrooperací (obrázek 7). To umožňuje samotným mikrooperacím ukládat pouze ukazatele na operandy, ale ne samotné operandy. Na jedné straně tento přístup umožňuje snížit spotřebu energie procesoru, protože pohyb podél potrubí mikrooperací spolu s jejich operandy vyžaduje značnou spotřebu energie. Na druhou stranu použití souboru fyzického registru pomáhá šetřit místo na matrici a uvolněné místo lze použít ke zvětšení velikosti vyrovnávacích pamětí klastru pro provedení mimo pořadí (Load Buffers, Store Buffers, Reorder Buffers) - viz tabulka. V mikroarchitektuře Sandy Bridge je soubor fyzického registru pro celočíselné operandy (PRF Integer) navržen pro 160 záznamů a pro operandy s plovoucí desetinnou čárkou (PRF Float Point) pro 144 záznamů.

Postava: 7. Použití souborů fyzického registru v mikroarchitektuře Sandy Bridge

V architektuře Sandy Bridge prošly výrazným redesignem i výkonové jednotky jádra procesoru. Ve skutečnosti existuje šest portů funkčních zařízení, stejně jako dříve (tři výpočetní a tři pro práci s pamětí), ale jejich účel, stejně jako účel samotných prováděcích jednotek, se změnil (obr.8). Připomeňme, že procesor založený na mikroarchitektuře Nehalem je schopen provádět až šest operací za cyklus. V tomto případě je možné provádět současně tři výpočetní operace a tři operace s pamětí.

Postava: 8. Výkonné bloky v mikroarchitektuře Sandy Bridge

V architektuře Sandy Bridge již tři akční členy umožňují osm operací s daty FP (Float Point) nebo dvě operace s 256bitovými daty AVX za taktovací cyklus.

V mikroarchitektuře Sandy Bridge se změnily nejen tři výkonná zařízení, ale také funkční bloky pro operace paměti. Připomeňme, že mikroarchitektura Nehalem měla tři porty pro práci s pamětí: Load (načítání dat), Store store (adresa úložiště), Store data (úložiště dat) - obr. devět.

Postava: 9. Popravní jednotky pro práci s pamětí v Nehalemově mikroarchitektuře

Mikroarchitektura Sandy Bridge také používá tři porty pro práci s pamětí, ale dva porty se staly univerzálními a mohou nejen implementovat načítání dat (Load), ale také ukládat adresu (Store address). Třetí port se nezměnil a je určen pro ukládání dat (Store data) - obr. deset.

Postava: 10. Popravní jednotky pro práci s pamětí v mikroarchitektuře Sandy Bridge

V souladu s tím se zvýšila šířka pásma interakce s mezipamětí dat L1. Pokud by v mikroarchitektuře Nehalem mohlo být mezi datovou mezipamětí L1 a prováděcími jednotkami přeneseno 32 bajtů dat pro práci s pamětí pro každý hodinový cyklus, pak v mikroarchitektuře Sandy Bridge již existuje 48 bajtů (dva požadavky na čtení 16 bajtů (128 bitů) a jeden požadavek na zápis až 16 bytů dat).

Na závěr popisu jádra procesoru založeného na mikroarchitektuře Sandy Bridge pojďme spojit vše dohromady. Na obr. 11 představení strukturální schéma procesorová jádra založená na mikroarchitektuře Sandy Bridge. Změněné nebo nové bloky v mikroarchitektuře Sandy Bridge jsou označeny žlutě a bloky přítomné v mikroarchitektuře Nehalem a Sandy Bridge jsou označeny modře.

Postava: 11. Rozdíly mezi mikroarchitekturou Sandy Bridge a mikroarchitekturou Nehalem
(společné bloky jsou označeny modře, změněné nebo nové bloky
v mikroarchitektuře Sandy Bridge - žlutá)

Kruhový autobus v mikroarchitektuře Sandy Bridge

V mikroarchitektuře Nehalem byla interakce mezi každou mezipamětí L2 a mezipamětí L3 sdílená mezi všemi jádry prováděna prostřednictvím interní speciální sběrnice procesoru čítající asi tisíc kontaktů a interakce mezi jednotlivými bloky procesoru (řadič paměti, grafický řadič atd.) Byla provedena prostřednictvím sběrnice QPI. V mikroarchitektuře Sandy Bridge nahradila nová kruhová sběrnice (Ring Bus) sběrnici QPI a komunikační sběrnici pro mezipaměti L2 a L3 - obr. 12. Umožňuje organizovat interakci mezi mezipamětí L2 každého jádra procesoru a mezipamětí L3 a také implementuje přístup grafického jádra (GPU) a motoru pro překódování videa do mezipaměti L3. Kromě toho je přístup k řadiči paměti realizován prostřednictvím stejné kruhové sběrnice. Mezitím si všimneme, že Intel nyní nazývá mezipaměť L3 mezipamětí poslední úrovně (LLC) a mezipaměť L2 - mezipaměť střední úrovně (MLC).

Postava: 12. Ring bus v mikroarchitektuře Sandy Bridge

Kruhová sběrnice kombinuje čtyři samostatné sběrnice: 256bitový (32 bajtový) datový kruh, požadavekový kruh, potvrzovací kruh a Snoopův kruh.

Použití kruhové sběrnice umožnilo snížit latenci mezipaměti L3. Takže v procesorech předchozí generace (Westmere) je latence přístupu k mezipaměti L3 36 cyklů a v procesorech Sandy Bridge - 26-31 cyklů. Kromě toho nyní mezipaměť L3 běží na základní frekvenci (v procesorech Westmere mezipaměť L3 neodpovídala základní frekvenci).

Celá mezipaměť L3 je rozdělena do samostatných sekcí, z nichž každá je spojena se samostatným jádrem procesoru. Zároveň je každému jádru k dispozici celá mezipaměť L3. Každá z vyhrazených částí mezipaměti L3 je vybavena agentem pro přístup k kruhové sběrnici. Podobné přístupové agenty jsou k dispozici pro mezipaměti L2 každého jádra procesoru, pro grafické jádro a pro systémového agenta, který implementuje výměnu dat s řadičem paměti.

Na závěr si povšimneme, že mezipaměť L3 v mikroarchitektuře Sandy Bridge zůstala zcela inkluzivní ve vztahu k mezipaměti L2 (jako v mikroarchitektuře Nehalem).

Grafické jádro v mikroarchitektuře Sandy Bridge

Jednou z hlavních inovací v mikroarchitektuře Sandy Bridge je nové grafické jádro. Jak jsme již poznamenali, na rozdíl od grafického jádra v procesorech Clarkdale / Arrandale je umístěno na stejné matrici s výpočetními jádry procesoru a navíc má přístup do mezipaměti L3 prostřednictvím kruhové sběrnice. Navíc se očekává, že výkon nového grafického jádra bude přibližně dvojnásobný oproti grafickému jádru v procesorech Clarkdale / Arrandale. Grafické jádro v procesorech Sandy Bridge samozřejmě nemůže porovnávat výkon s diskrétní grafikou (mimochodem, podpora DirectX 11 pro nové jádro není ani oznámena), ale ve spravedlnosti si povšimneme, že toto jádro není umístěno jako herní řešení.

Nové grafické jádro může obsahovat (v závislosti na modelu procesoru) 6 nebo 12 spouštěcích jednotek (EU), které však nelze srovnávat s unifikovanými shader procesory v NVIDIA nebo AMD GPU, kde je jich několik stovek (obr. 13) ). Toto grafické jádro se primárně nezaměřuje na 3D hry, ale na hardwarové dekódování a kódování videa (včetně HD videa). To znamená, že konfigurace grafického jádra zahrnuje hardwarové dekodéry. Ty jsou doplněny škálováním, filtrováním denního šumu, detekcí deinterlace / filmového režimu a filtry pro vylepšení detailů. Post-processing, který vylepšuje přehrávaný obraz, zahrnuje STE (Skin Enhancer), ACE (Adaptive Contrast Enhancement) a TCC (Total Color Management).

Postava: 13. Blokové schéma grafického jádra v mikroarchitektuře Sandy Bridge

Víceformátový hardwarový kodek podporuje formáty MPEG-2, VC1 a AVC a provádí všechny fáze dekódování pomocí specializovaného hardwaru, zatímco v současné generaci integrovaných grafických procesorů tuto funkci zajišťují univerzální výkonové jednotky EU.

Nový režim Intel Turbo Boost

Jednou z pozoruhodných funkcí procesorů Sandy Bridge bude podpora nového režimu Turbo Boost. Připomeňme, že podstatou technologie Turbo Boost je dynamické přetaktování za určitých podmínek taktovacích frekvencí jader procesorů.

Pro implementaci technologie Turbo Boost má procesor speciální funkční jednotku PCU (Power Control Unit), která sleduje úroveň zatížení jader procesoru, teplotu procesoru a je také zodpovědná za napájení každého jádra a regulaci jeho taktovací frekvence. Součástí PCU je takzvaná Power Gate (brána), která slouží k samostatnému přepínání každého jádra procesoru do režimu napájení C6 (ve skutečnosti se Power Gate vypíná nebo připojuje jádra procesoru k napájecímu vedení VCC).

V procesorech Clarkdale a Arrandale turbo režim Boost je implementován následovně. V případě, že jsou některá jádra procesoru vyložena, jednoduše se odpojí od elektrického vedení pomocí jednotky Power Gate (jejich spotřeba energie je nulová). V souladu s tím lze taktovací frekvenci a napájecí napětí zbývajících nabitých jader dynamicky zvýšit o několik kroků (každý po 133 MHz), ale tak, aby spotřeba energie procesoru nepřekročila jeho TDP. To znamená, že spotřeba energie skutečně ušetřená vypnutím několika jader se používá k přetaktování zbývajících jader, ale aby zvýšení spotřeby energie v důsledku přetaktování nepřekročilo ušetřenou spotřebu energie. Režim Turbo Boost je navíc implementován také v případě, že jsou nejprve načtena všechna jádra procesoru, ale zároveň jeho spotřeba energie nepřesahuje hodnotu TDP.

V mobilních procesorech Arrandale s integrovanou grafikou se Turbo Boost rozšiřuje nejen na jádra procesoru, ale také na grafické jádro. To znamená, že v závislosti na aktuální teplotě a spotřebě energie budou přetaktována nejen jádra procesoru, ale také grafické jádro. Například pokud v nějaké aplikaci spadne hlavní zátěž grafický procesora jádra procesoru zůstávají nedostatečně načtená, pak se uložený TDP použije k přetaktování grafického jádra, ale tak, aby nebyl překročen limit TDP grafického jádra.

Protože u procesorů Sandy Bridge (stolních i mobilních) je grafické jádro v podstatě stejné jádro procesoru jako výpočetní jádra, technologie Turbo Boost se rozšíří jak na výpočetní jádra, tak i na grafické jádro. Kromě toho (a to je hlavní inovace) poskytuje nová verze režimu Turbo Boost schopnost překročit TDP procesoru při krátkodobém přetaktování jader.

Faktem je, že při překročení TDP se procesor nepřehřívá okamžitě, ale po určité době. Vzhledem k tomu, že v mnoha aplikacích je zatížení procesoru 100% spasmodické a pouze po velmi krátkou dobu, během těchto období lze snadno přetaktovat taktovací frekvenci procesoru, takže je překročen limit TDP.

Procesory Sandy Bridge v režimu Turbo Boost poskytují schopnost překročit TDP po dobu až 25 sekund (obr. 14).

Závěr

Shrňme si náš přehled mikroarchitektury Sandy Bridge. Tato nová mikroarchitektura je podstatně přepracovanou verzí mikroarchitektury Nehalem. Mezi inovace patří použití dekódované micro-op mezipaměti, přepracovaný blok predikce větví, použití souboru fyzického registru, zvětšená velikost vyrovnávacích pamětí clusteru mimo pořadí, vylepšené jednotky pro provádění procesoru a bloky pro práci s pamětí. Procesory Sandy Bridge navíc používají pro přístup k mezipaměti L3 a paměti procesorových jader prstencovou sběrnici. Procesory Sandy Bridge také obdržely nové výkonnější grafické jádro, které má přístup do mezipaměti L3.

Procesory Sandy Bridge navíc obsahují nový režim Turbo Boost, který vám pomůže vytěžit z vašeho procesoru maximum.

Schopnosti grafického procesoru Sandy Bridge jsou obecně srovnatelné s schopnostmi předchozí generace podobných řešení Intel, až na to, že nyní kromě funkcí DirectX 10 byla přidána podpora DirectX 10.1, místo očekávané podpory DirectX 11. Proto není mnoho aplikací s podporou OpenGL omezeno hardwarovou kompatibilitou pouze s 3. verze specifikace tohoto bezplatného API.

V grafice Sandy Bridge je nicméně spousta inovací a jejich hlavním cílem je zvýšení produktivity při práci s 3D grafikou.

Hlavní důraz při vývoji nového grafického jádra byl podle zástupců společnosti Intel kladen na maximalizaci využití hardwarových schopností pro výpočet 3D funkcí a totéž - pro zpracování mediálních dat. Tento přístup se radikálně liší od plně programovatelného hardwarového modelu přijatého například NVIDIA nebo samotným Intelem pro vývoj Larrabee (s výjimkou jednotek textury).

V implementaci Sandy Bridge má však odklon od programovatelné flexibility své nepopiratelné výhody, díky nim je dosaženo důležitějších výhod pro integrovanou grafiku v podobě nižší latence během operací, lepšího výkonu na pozadí úspor energie, zjednodušeného modelu programování ovladačů a, co je důležité, uložení fyzické velikosti grafického modulu.

Programovatelné shaderové jednotky Sandy Bridge, které Intel tradičně nazývá Execution Units (EU), se vyznačují zvýšenou velikostí souboru registru, což umožňuje efektivní provádění komplexních shaderů. Také v nových prováděcích jednotkách je použita optimalizace větvení, aby se dosáhlo lepší paralelizace spustitelných příkazů.

Obecně podle představitelů společnosti Intel mají nové výkonové jednotky dvojnásobnou šířku pásma ve srovnání s předchozí generací integrované grafiky a výkon výpočtů s transcendentními čísly (trigonometrie, přirozené logaritmy atd.) V důsledku důrazu na využití hardwarových výpočetních schopností modelu se zvýší o 4 -20krát.

Interní sada instrukcí, vylepšená v Sandy Bridge o řadu nových, umožňuje distribuci většiny instrukcí API DirectX 10 one-to-one, jako je tomu v případě architektury CISC, což má za následek výrazně vyšší výkon při stejné rychlosti hodin.

Rychlý přístup pomocí rychlé kruhové sběrnice k distribuované mezipaměti L3 s dynamicky konfigurovatelnou segmentací umožňuje snížit latenci, zvýšit výkon a současně snížit frekvenci požadavků GPU na RAM.

Prstencová pneumatika

Celá historie modernizace mikroarchitektur procesorů Intel v posledních letech je neoddělitelně spjata s postupnou integrací rostoucího počtu modulů a funkcí dříve umístěných mimo procesor do jediného krystalu: v čipové sadě, na základní desce atd. V souladu s tím, jak se zvyšoval výkon procesoru a stupeň integrace čipů, rostly požadavky na šířku pásma interních propojovacích sběrnic neočekávaným tempem. Prozatím, dokonce i po zavedení grafického čipu do architektury čipů Arrandale / Clarkdale, bylo možné vystačit s mezikomponentními sběrnicemi s obvyklou křížovou topologií - to stačilo.

Účinnost takové topologie je však vysoká pouze s malým počtem komponent účastnících se výměny dat. V mikroarchitektuře Sandy Bridge se vývojáři rozhodli zlepšit celkový výkon systému a obrátit se na prstencovou topologii 256bitové propojovací sběrnice (obr. 6.1), založenou na nové verzi technologie QPI (QuickPath Interconnect), rozšířené, upravené a nejprve implementované do architektury serverového čipu Nehalem. EX (Xeon 7500), stejně jako plánované použití ve spojení s architekturou čipů Larrabee.

Ring bus (Ring Interconnect) ve verzi architektury Sandy Bridge pro stolní a mobilní systémy slouží k výměně dat mezi šesti klíčovými komponentami čipu: čtyřmi jádry procesoru x86, grafickým jádrem, mezipamětí L3, nyní se nazývá LLC (Last Level Cache), a systémový agent. Sběrnice se skládá ze čtyř 32bajtových vyzvánění: Data Ring, Request Ring, Snoop Ring a Acknowledge Ring; v praxi to ve skutečnosti umožňuje sdílet přístup k 64bajtovému rozhraní mezipaměť poslední úrovně do dvou různých balíčků. Sběrnice jsou řízeny pomocí distribuovaného rozhodčího komunikačního protokolu, zatímco pipeline požadavků probíhá na taktovací frekvenci procesorových jader, což dává architektuře další flexibilitu při přetaktování. Výkon kruhové sběrnice je hodnocen na 96 GB za sekundu na připojení při 3 GHz, což je čtyřikrát vyšší výkon než u procesorů Intel předchozí generace.

Obrázek 6.1. Ring bus (Ring Interconnect)

Kruhová topologie a organizace sběrnice zajišťuje minimální latenci při zpracování požadavků, maximální výkon a vynikající škálovatelnost technologie pro verze čipů s různým počtem jader a dalších komponent. Podle zástupců společnosti může být v budoucnu k kruhové sběrnici „připojeno“ až 20 procesorových jader na čip a takový redesign, jak víte, lze provést velmi rychle, v podobě flexibilní a rychlé reakce na aktuální potřeby trhu. Fyzická kruhová sběrnice navíc sedí přímo nad bloky mezipaměti L3 v horní vrstvě metalizace, což zjednodušuje návrhové zapojení a umožňuje kompaktnější čip.