强悍x86架构全面解读AMD Carrizo加速处理器

责任编辑:editor007

作者:腿腿儿

2015-02-26 20:47:38

摘自:天极网笔记本频道

Carrizo是AMD的新一代高性能移动式加速处理器(APU),包括4颗挖掘机 (XV)处理器核心和8颗Radeon GCN架构核心,采用28nm金属栅极(HKMG)平面双氧场 效应晶体管技术,以3 Vts薄氧化层设备和12层铜基镀金为特色。

Carrizo是AMD的新一代高性能移动式加速处理器(APU),包括4颗挖掘机 (XV)处理器核心和8颗Radeon GCN架构核心,采用28nm金属栅极(HKMG)平面双氧场 效应晶体管技术,以3 Vts薄氧化层设备和12层铜基镀金为特色。这种28nm技术对之前压路机 (SR)所使用的28nm技术专门对密度进行了增强,包括8个用于密度路由的1x金属,用于 低延迟路由的2x和4x金属各一个,以及2个用于配电的16x金属。

Carrizo晶片面积为250.04mm2,与Kaveri APU(KV)封装大小相近,晶体管数量(31亿个)多29%。除了二级缓存,挖掘机在14.48 mm2面积内的晶体管总数从压路机时期的8600万个增至1.02亿个。数量的增加主要归功于IPC的改进,其中包括将每核心数据缓存从16K提高到 32K。

密度的加大可以把更多的空间分配给图形、多媒体卸载以及把系统控制器集成在单一的BGA封装。 图形IP部分增加的空间,使得Carrizo可以添加具有完整异构系统架构能力的HSA兼容部分,多 媒体部分增加的空间添加了全新的高性能视频解码器,以及比Kaveri多一倍的视频压缩引擎。这 使得Carrizo可以对9路实时1080p视频流进行转码,比Kaveri提升3.5倍。

Carrizo把8颗GCN架构核心移到了单独的有条件供电区域,使得显示核心可以在最佳电压下运行,比拥有6颗GCN架构核心的Kaveri提升达到20%。挖掘机的设计采用 了高密度9轨标准单元库,与AMD图形知识产权库更为一致。这使得Carrizo面积和功耗大大减少, 虽然仍采用28nm制程,却类似于改进了制程。早期的实验显示,在不同设计的恒 定电压下,面积平均减少约24%,频率影响约为10%。在恒定功率下,频率得到提升,是由于 设计功率的减少允许更高电压。更小的挖掘机核心在与之前的核心消耗同样电力的情况下存在热量集中的问题。除了泄漏更低这一技术特点外,Carrizo还通过把核心布局在离晶片边缘和高功 率密度区域更远的位置来降低热量密度。

二级缓存包含两个6T的宏,采用了读/写协助技术来改善Vmin。两个宏(Phase-bound wordline VS. Cycle-bound wordline)在调速上的时间性差异要求不同的写协助技术。二级数 据宏把字线看做完整的循环,把亚速字线/字线启动结合起来用于读/写协助。字线使用比VDD略 低的电压进行第一阶段的存取。这给予了半选定单元位线足够的放电时间,在字线返回完整VDD 之前,降低易感性读取干扰。

在访问的第二阶段,pFET下拉被关闭,使字线到达完整的VDD。字线返回VDD之后,一组16个字 线的共享功率头被关闭,虚拟供应通过一个被当做电容器使用的nFET在VDD上方启动。关闭 pFET头会打开一个nFET以确保字线泄漏永远会比VDD 下面的Vt更多。该电路可以通 过BOOSTEN 和WLUDCTL来配置,以允许下列任意组合:1)第一阶段的减速,2)没有减速的 第二阶段推进,3)继续减速,4)返回完整VDD。

由于标签的锁相字线没有为半选定单元位线在协助技术开始前放电留出足够的时间,所以二级标 签宏把字线亚速/负位线结合起来用于协助技术。负位线电路使用单一的每个逻辑点 列上限而不是传统的两个上限。电容通过nFET传输门使用与控制写驱动器的pFET上拉相同的信 号耦接至位线。该电路在位线完全落地,并经过自定时延迟调谐对准负位线后,驱动位线并对 NEGBLEN做出判断提示。当对NEGBLEN做出判断提示时,它会解除驱动nFET下拉门驱动和一 个OR门延迟之后的信号认定,通过一个nFET电容器驱动低于地面的位线。由于使用的两种技术 将电压扩展到VDD-VSS操作窗口之外,因此可以避免由于过电压而对设备造成损坏。一种被称为 superVminEnable的微码可控信号会在高电压时关闭辅助功能。

挖掘机支持AMD首次推出的自适应电压频率调节(AVFS)技术,这项技术与其他自适应电压手 段[3,4,5]有相似之处,同时有两个关键的改进:1)基础设施支持复制路径以全套限制路径的 Fmax统计样本运行,使路径跟踪得到改善,2)通过集成电源监视(PSMS)电压读数耦合路径边 缘评估,对来自内在电路速度的延迟电压影响进行显式消歧。核心动力是提供跨越各个运算进程、 电压和温度的内在硅速度能力的准确评估。AVFS可以让每一部分进行自校准,以确定当前工作 频率和条件下最合适的电压。受益包括消除常见于传统测试和分级流动中的电压的不确定性和保 护带,并可能减少/淘汰生产中昂贵的系统级测试。

为实现自校准,AVFS要依靠一组时序关键复制路径。这里用到了核心门控,线控和宏(缓存阵列)关键路径。AVFS采用了一种特殊的阴影浮点运算,可以对比本地副本路径与其数据延迟版本的输出。阴影浮点计算监视各路径的延迟过渡,表明“相近差错”的时序。关键路径累加器(CPA)单步调试可编程的延迟元件,收集相近差错信息。在操作过程中,CPA跨电压-频率-温度(VFT)收集的相近差错被发送到片上系统管理单元(SMU)。SMU对数据统计进行总结并创建出VFT表格,基本上是任何频率-温度组合特定部件的最优电压。在正常运行时P状态(P-state)的变化会参考VFT表格以确定最佳电压。

强大的全芯片关键路径变化采样是取自CPA的10个分散的例子。每个CPA练习50条关键路径,共计500条(300个门控、100个线控以及100个宏的复制路径)。AVFS为路径提取高斯分布统计并使用抽样统计来推断实际核心路径的时序余量。对门控、线和宏分别处理来区分分布,为采样的不确定性增加适当的防护带。定时余量预测与实际时序余量显示AVFS能力的建立需要在整个电压范围内的最小电压的,实现高达30%的功率节省。

如上所述,系统可通过让CPAs使用PSM指示电压来针对本地电压噪声自动调整,通过修改关键路径的时序裕度评估以补偿电压差(图4.8.6)。AVFS系统可以由微码或SMU触发,对正常核心操作是透明的。全面实施的成本(占晶片尺寸的比例)低于核心面积的1%。

挖掘机通过比压路机降低40%的功耗和23%的面积达到计划目标。通过减少所有电压(从最小电压至最大电压)的整体核心功耗降低功率,挖掘机以频率在更高的功率范围调节为代价来降低它的操作功率范围。经过这种折衷的平衡,在面向移动平台的12-35w的SoC设计中,Carrizo可以在单个/多线程任务和游戏等应用场景,在功耗受限时仍能获得频率提升。面积上的节省也有助于Carrizo中和成本,把节省的面积用于提高游戏和多媒体性能。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号