Sélectionner une page
Lancés au milieu de l’été dernier, les processeurs Core 2 Duo se sont très rapidement imposés sur le marché grâce à un très haut niveau de performances et une consommation particulièrement contenue. Pour ne rien gâcher, Intel a même pratiqué une politique tarifaire assez agressive… Cependant, excepté un passage du FSB de 1066 MHz à 1333 MHz et des premiers Quad Core, c’est un peu le calme plat. Il faut bien avouer qu’il n’y a franchement rien à reprocher aux Core 2 Duo et que la fin de vie des Athlon 64 X2 – moins performants – ne pousse pas vraiment à l’escalade de la puissance. Heureusement pour AMD, le renouveau est proche mais les Phenom Serie 9000 vont trouver face à eux des Core 2 Duo en 45 nm boostés par quelques optimisations et un jeu d’instruction SSE4.

Quoi de neuf ?

Pour mettre en avant la technologie de gravure en 45 nm, Intel a choisi de commencer par le haut du panier. Ainsi, le premier processeur en 45 nm que nous avons testé n’est pas un simple Penryn mais un Yorkfield. Ce dernier se compose de deux cores Penryn montés sur un même support LGA775. Malgré la présence de 820 millions de transistors notamment en raison des 2 x 6 Mo de cache L2, le die n’occupe que 214 mm². A tire de rappel, les premiers Core Duo (pour portables) occupaient 90 mm² avec seulement 2 Mo de cache et 152 millions de transistors. La densité de transistors est donc multipliée par plus de deux !

Du côté des fréquences, Intel n’est pas en reste. Nous avons eu la chance de mettre la main sur un premier Yorkfield de présérie probablement gravé en juillet. Ce processeur était limité à une modeste fréquence de 2333 MHz et malgré toutes nos tentatives, il nous a été impossible de le pousser à 3 GHz. En outre, si ce modèle de présérie a bien confirmé les divers gains annoncés par Intel, sa consommation et sa dissipation thermique n’avaient rien d’extraordinaire. Six semaines plus tard, Intel a été en mesure de nous livrer un Core 2 Extreme QX9650. Cadencé à 3 GHz de série, ils nous a réellement impressionnés !

Graver plus fin

Les fondeurs gravent leurs processeurs sur des wafers de 300 mm. L’intérêt d’une technologie plus fine est évident : plus les dies sont petits, plus il est possible d’en loger sur une même surface. Il reste alors à choisir :

  • Graver de manière franchement plus « économique » en réalisant un simple die shrink. Dans ce cas, le die est à peine retouché. Toujours dans le cadre de cette approche, la nouvelle gravure ne vise pas forcément une fréquence plus élevée ou une consommation moindre. ATI avait utilisé cette approche avec le RV430 des Radeon X800XL.
  • Graver de manière optimale et profiter « moins pleinement » de la réduction du die en ajoutant quelques nouveautés. Intel a retenu cette approche en portant le cache L2 de 4 Mo à 6 Mo et en introduisant un nouveau set d’instructions SSE4. Ce choix est d’ailleurs assez courant, Intel ayant à de nombreuses reprises augmenté le cache L2 lors de l’introduction d’une gravure plus fine.
  • Si tout est simple sur papier, évoluer vers de nouvelles technologies de gravure toujours plus petite nécessite des recherches très importantes.

    La technologie 45 nm high-K

    De manière très simplifiée, un transistor à effet de champs (comme ceux utilisés dans les processeurs) est en quelque sorte un « interrupteur ». Entre la source et le drain, le substrat à base de silicium agit comme une grosse résistance et le courant ne passe pas. Si une tension est appliquée sur le « gate » (grille ou porte), le courant passe entre la source et le drain.

    Dans la technologie 65 nm, la source, le drain et le gate sont tous basés sur un dérivé de silicium et l’isolation est assurée par du dioxyde de silicium (SiO2). Si Intel a réussi à réduire l’espace des portes de ses transistors jusqu’à 1,2 nm, soit l’équivalent de cinq couches atomiques, il s’est révélé impossible de réaliser une porte plus petite avec ces procédés. Dans la technologie 45 nm, un matériau diélectrique High-k à base d’Hafnium assure l’isolation et permet d’encore réduire la « largeur » de la porte. Malheureusement, cet isolant High-K n’est pas compatible avec une porte conventionnelle (polysilicon gate). Intel a conçu un nouveau matériau rigoureusement tenu secret pour composer la porte (« metal gate » en bleu sur le schéma). La combinaison de ce diélectrique High-K et la nouvelle « metal gate » permet de véhiculer un courant 20% plus élevé entre le drain et la source. En outre, il réduit d’un facteur 5 les courants de fuites (« leakage »).

    Dans ses documents, Intel confirme les bénéfices du 45 nm et annonce que la densité de transistors double effectivement par rapport au processus de production précédent. La taille du « gate » étant réduite, la tension nécessaire à son contrôle est également nettement plus faible. Intel annonce une réduction de l’ordre de 30%. Les interconnexions sont pour leur part assurées par du cuivre et un diélectrique Low-K cette fois pour réduire la consommation globale. Pour la production, Intel fera appel à un procédé de lithographie en 193 nm particulièrement rentable.

    Concrètement, la technologie de gravure en 45 nm nécessite une tension de commande plus faible et réduit significativement les courants de fuites. La consommation et la dissipation thermique sont réduites, tout bénéfice pour l’autonomie ou les nuisances sonores. De l’aveu même d’Intel, la nouvelle technologie 45 nm est aussi révolutionnaire que le premier transistor polysilicium introduit dans les années 60…

    SSE4

    Alors que les Core 2 Duo en 65 nm se contentaient d’un jeu SSSE3 (Supplemental SSE3) de 32 instructions, les modèles gravés en 45 nm profitent d’un set beaucoup plus étendu. Le Streaming SIMD Extensions 4 (SSE4) comporte en effet plus de cinquante nouvelles instructions. Par rapport aux 56 instructions MMX de janvier 1997, le but est toujours le même : accélérer certaines opérations de certains traitements comme la (dé)compression audio et vidéo, le rendu 3D, les jeux, etc. Les différents sets SSE sont de type SIMD, c’est-à-dire Single Instruction Multiple Data. En d’autres mots, ils appliquent une seule opération sur des données multiples. Les instructions SSE4 représentent la plus grosse avancée depuis l’introduction du SSE2. Intel a en effet collaboré avec un très grand nombre de développeurs de logiciels et de systèmes d’exploitation afin de savoir quelles seraient les instructions les plus intéressantes à implémenter de manière matérielle. Les instructions SSE4 peuvent être regroupées en deux familles :

  • SSE4 Vectorizing Compiler and Media Accelerators
  • SSE4 Efficient Accelerated String and Text Processing
  • La première fournée mais aussi la plus importante (47 instructions) vise les « compiler vectorization primitives », des opérations fondamentales utilisées par d’autres instructions plus complexes. Il s’agit d’opérations portant sur les entiers mais aussi sur les nombres en virgule flottante qui serviront notamment dans le traitement de données multimédia dont les vidéos H.264 et l’édition photo , dans la 3D (HLSL) mais aussi dans les langages de programmation de haut niveau comme C et Fortran.

    Le second lot d’instructions (seulement 4), porte sur le traitement des chaînes de caractères. Ces instructions seront particulièrement utiles dans la compression, la recherche de virus ou de données, le traitement de bases de données, etc.

    EnCore Core…

    L’architecture des Core 2 Duo est conservée. Intel résume ses caractéristiques principales en cinq grands points que nous avons déjà abordés lors de l’analyse en profondeur de l’architecture lors de son lancement :

  • Intel® Wide Dynamic Execution : pipeline de 14 étages, 4 instructions par cycle, micro et macro fusion et ALU optimisée
  • Intel® Advanced Smart Cache : accès simultané des cores aux cache L2 commun.
  • Intel® Smart Memory Access : optimisation et possibilité d’intervertir load and store, latences mémoire réduites voire masquées grâce aux Prefetchers
  • Intel® Advanced Digital Media Boost : une opération SSE 128 bits par cycle
  • Intel® Intelligent Power Capability : Ajustement dynamique et continu des fréquences et tensions.
  • En complément de toutes les optimisations déjà présentes dans Core, Intel a encore ajouté des raffinements :

  • Diviseur Radix-16 : Dans les opérations de division, le quotient et le reste sont calculés de manière itérative. Lors de chaque itération, n bits sont calculés par l’unité de division du processeur. On parle alors de diviseur Radix r où r vaut 2^n. Jusqu’à présent, Intel utilisait un Radix-4. Avec les Core 2 Duo en 45 nm, le fondeur introduit pour le premier diviseur Radix-16 grâce à un circuit « pipelined double pumped » en 68 bits. Auparavant 2 bits étaient calculés pour le reste et le quotient à chaque itération. A présent, 2 x 2 bits sont calculés lors d’une itération étant donné l’approche « double pumped ». Intel annonce un gain de performances de plus de 50% en moyenne par rapport à la génération précédente.

    Le nouveau divider et ses performances comparées à l’ancien.

  • Super Shuffle Engine : Le formatage des données pour les unités SSE requiert certaines opérations de mise en forme spécifique (voir les illustrations). Le Super Shuffle Engine prend en charge toutes ces manipulations en un seul cycle sur 128 bits.
  • Quelques autres améliorations sont également présentes mais moins détaillées dans les documents. C’est notamment le cas du Store Forwarding 8 Bytes Misaligned, un concept relativement complexe qui fait intervenir deux choses. Les adresses doivent être des multiples de 16 bytes (cette « granulatiré » est liée à la manière d’accéder à la mémoire). Dans le cas contraire, il se produit un délai d’attente si l’adresse est mal alignée (typiquement un décalage de 8 bytes). Les processeurs en 45 nm ont une granularité de 8 bytes, ce qui leur permet de contourner les défauts d’alignement. Le Store Forwarding existe par contre depuis l’architecture Core. Il permet de réduire le nombre de cycles entre le moment où une donnée est écrite en mémoire et le moment où elle est exploitable.

  • Intel évoque aussi le Faster interrupt masking control et Faster Time Stamp counter access qui permettent au processeur de répondre plus vite à des demandes de bas niveau de l’OS (surtout utile pour les serveurs).
  • Economies d’énergie

    Alors que les processeurs actuels vont au mieux jusqu’à l’état d’attente C4, les Penryn peuvent entrer dans le mode Deep Power Down Technology (DPD). Le principe est simple : quand le processeur n’est pas utilisé, l’état de chaque core est sauvé dans une mémoire SRAM de 8 Ko par core et, à l’exception de quelques circuits nécessaires à la sortie du mode DPD, l’alimentation du reste du processeur est coupée. Etant donné qu’elle contient des données critiques, cette mémoire cache bénéficie de l’ECC afin d’assurer l’intégrité de son contenu. L’alimentation électrique des 16 Ko nécessaires au DPD se fait via le VccP nettement moins important que le Vcc. Le nouvel état DPD permet d’approcher d’une consommation au repos quasiment nulle. A noter enfin que contrairement aux « C-States » déclenchés par l’OS, l’entrée en mode DPD est commandée par le processeur lui-même.

    L’Enhanced Dynamic Acceleration Technology (EDAT) est en tous points comparable à l’IDA ou Intel Dynamic Acceleration introduit par les Core 2 Duo sur la plateforme Santa Rosa. Le TDP étant basé sur la dissipation maximale des deux cores, quand un seul est actif, il travaille largement en dessous de l’enveloppe thermique maximale. Le système de refroidissement est donc sous-exploité. Si un des cores a été plongé dans un état C3 ou inférieur et que l’OS rencontre une forte sollicitation pour un thread, le processeur peut augmenter sa fréquence maximale. L’EDAT comme l’IDA ne sont pas des états constants. En d’autres mots, en lançant une application typiquement mono thread, le processeur ne va pas conserver le supplément de fréquence maximale en continu. Selon le nombre de basculements entre le mode conventionnel et le mode EDAT, les gains seront plus ou moins grands (High and Low Interrupt rate). Intel a retenu une hystérésis spécifique optimale pour le mode EDAT.

    Quand un core se trouve dans un état de veille typique comme C1, il se trouve dans un « snoopable state », un état dans le quel son cache L1 est actif. Dans un « snoop state», le core utilise jusqu’à 30% de sa consommation maximale pour interagir avec son cache. Quand un des cores d’un Penryn est au repos, il entre dans un état C3 : son cache L1 est copié dans le cache L2 et le core est inactif. Intel annonce ainsi une réduction de la consommation qui peut aller jusqu’à 16% sous faible charge.

    Remarque : Les documents d’Intel sont relatifs aux processeurs en 45 nm de manière générique. Certaines fonctionnalités peuvent être réservées aux processeurs destinés aux serveurs ou aux portables (EDAT).

    Configuration de test

    Matériel

  • Gigabyte P35-DSR3
  • Core 2 Extreme QX6850, Core 2 Extreme QX9650, Core 2 Quad 2,33 GHz
  • Crucial Ballistix Tracer BL2KIT12864AL804 (2 x 1 Go DDR2-800 4-4-4-12)
  • NVIDIA GeForce 8800 GTX 768 Mo pour les tests 3D
  • Radeon X1600 Pro 256 Mo pour les autres tests
  • Samsung SpinPoint 160 Go SATA-150
  • Dell 2407WFP
  • Coolink Silentator avec 120 mm à 750 rpm

    Logiciel
  • Windows XP Pro + SP2
  • ForceWare Release 163.71
  • Catalyst 7.10
  • CPU Mark
  • Super Pi 1 Mo
  • Cinebench 9.5
  • Cinebench 10
  • 7z
  • DVD Shrink
  • 3D Mark 2006
  • Quake 4 haute qualité 1650×1050
  • TrackMania haute qualité 1650×1050

    Le Yorkfield de pré série


    Le Kentsfield de série


    Le Yorkfield de série

    En pratique…

    Pour ce premier contact avec les processeurs en 45 nm d’Intel, nous avons eu à notre disposition un « Yorkfield » de présérie limité à 2,33 GHz ainsi qu’un Core 2 Extreme QX9650 final cadencé à 3,00 GHz. Dans la foulée, nous disposions encore du Core 2 Extreme QX6850 lui aussi cadencé à 3,00 GHz mais gravé en 65 nm. Nos tests ont été réalisés sur un Gigabyte P35-DS3R à base de P35 avec le dernier BIOS officiel disponible. Le but de ces premières mesures est principalement de confirmer les dires d’Intel à propos des gains de performances et de consommation.

    Dans un premier temps, nous avons cadencé tous les processeurs à 2,33 GHz afin de voir une éventuelle évolution entre le Yorkfiled de présérie et la version définitive. Curieusement, le modèle de présérie ne contenait pas de nom de modèle (comme le montre la capture de CPU-Z) et les sondes de températures internes propres à chaque core n’étaient pas actives ou du moins aucun logiciel ne les a reconnues. En termes de performances, les deux Yorkfield sont comparables. Par contre, la consommation et la chaleur engendrée par l’exemplaire de présérie ne sont guère flatteuses : 90 Watts au repos et 154 Watts en charge. Seulement ~10% de mieux qu’un Kentsfield ! Heureusement, tout rentre dans l’ordre avec le QX9650 de série. La consommation au repos de la machine s’établit à 84 Watts et ne grimpe plus qu’à 128 Watts en charge contre respectivement 101 Watts et 170 Watts pour le Kenstsfield.

    Nous avons ensuite comparé les Core 2 Extreme QX6850 et le Core 2 Extreme QX9650 à leur fréquence nominale. Selon nos mesures, les gains de performances liés aux différentes améliorations apportées à l’architecture Core lors du passage en 45 nm vont de 0 à 16% avec une moyenne de 5%. Etant donné que tous les tests ne dépendent pas directement de la taille du cache et que la fréquence finale est identique, le résultat est vraiment positif. Les valeurs avancées par Intel sont donc confirmées…
    Cependant, ce ne sont pas les gains de performances qui nous ont le plus impressionnés mais la consommation et la température interne. Au repos, la configuration à base de Yorkfield consomme 17% de moins que celle à base de Kentsfield. L’écart monte même à 27% en charge ! Côté température, là où les cores d’un Kentsfield sont aux alentours de 40°C, ceux du Yorkfield dépassent de peu les 30°C. En activité intense, les cores d’un Kentsfield sont aux environs de 70°C et ceux d’un Yorkfield seulement dans les 40°C ! En clair, un Yorkfield en charge est aussi chaud qu’un Kentsfield au repos !!!
    Nos mesures de températures ont été faites avec un Coolink Silentator équipé d’un 120 mm à 750 rpm. Mais le Core 2 Extreme QX9650 fonctionne aussi en passif avec ce gros radiateur ! Le flux d’air aspiré par le ventilateur de 120 mm de l’alimentation étant dans notre cas suffisant.

    Overclocking

    Si le Yorkfield de présérie ne s’est pas montré coopératif pour deux sous (impossible d’atteindre 3 GHz), le modèle de série est passé de 3 GHz à 4 GHz sans broncher. Etant donné qu’il s’agit d’un premier contact avec le 45 nm, nous ne tirerons pas de conclusions précipitées mais compte tenu des différents résultats d’overclocking déjà publiés par d’autres sites, les Penryn supportent aisément une montée en fréquence significative.


    Le Yorkfield de série (à gauche) s’overclocke particulièrement bien à côté de son frère de présérie…

    Conclusion

    La nouvelle technologie de gravure en 45 nm introduite par Intel tient toutes ses promesses. Côté performances, elle permet au constructeur d’augmenter le cache L2 de 4 Mo à 6 Mo dans le cas du Yorkfield. Aidé par quelques autres améliorations internes comme le Diviseur Radix-16, le Super Shuffle Engine et Store forwarding, l’architecture Core optimisée se montre jusqu’à 16% plus rapide à fréquence identique. Bien que nous n’ayons pas été en mesure de vérifier les gains apportés par le SSE4, ce nouveau set d’instructions devrait se montrer efficace. Les chiffres fournis par Intel étant tout à fait corrects, le fondeur ne devrait pas avoir biaisé ceux relatifs au SSE4. A confirmer plus tard quand plus d’applications seront disponibles.
    La technologie 45 nm d’Intel nous a particulièrement surpris au niveau de la consommation et de la dissipation thermique. Un Quad Core à 3 GHz en passif (ou presque) est une véritable révolution !!! Une configuration avec un Core 2 Extreme QX9650 (45 nm) consomme jusqu’à 27% de moins qu’avec un Core 2 Extreme QX6850 tout en étant en moyenne 5% plus véloce. Et pour clôturer, la température interne d’un Core 2 Extreme Q9650 en charge est comparable à celle d’un Core 2 Extreme QX6850 au repos… La messe est dite : béni soit le 45 nm d’Intel !!!