2020年10月20日
第18卷，第4期

骰子已掷

硬件安全无法保证。

Edlyn V. Levine，哲学博士

2011年，美国 GAO（政府问责办公室）创建了一家虚构公司，以获取军用级集成电路（IC）供应商的访问权限，这些集成电路用于武器系统。在成功加入在线供应商平台后，GAO 索取了与任何真实的电子元件无关的虚假零件编号的报价。至少有 40 家来自中国供应商的报价回复，表示可以供应虚假芯片，并且 GAO 成功地从少数几家供应商处获得了虚假零件³。GAO 调查结果的影响是严峻的：对于网络安全系统而言，调用可信硬件的假设是不合适的。

将假冒电子产品注入市场只是全球 IC 供应链中存在的漏洞的一个子集。其他类型的攻击包括内置于电路中的特洛伊木马、知识产权盗窃和逆向工程。现代 IC 是极其复杂的设备，由多达数十亿个晶体管、数英里长的微米级互连线、先进的封装配置以及集成到尺寸约为美国 25 美分硬币大小的芯片中的多系统集成组成。这些 IC 的设计、制造和组装由同样复杂、全球分布的供应链完成。一家半导体公司可能在全球拥有超过 16,000 家供应商¹⁰。虽然全球化通过利用廉价劳动力市场和规模经济大幅降低了行业成本，但同时也为攻击者恶意修改硬件打开了许多机会之窗，而 ODM（原始设备制造商）或其客户对此一无所知。

“信任始于硅”这一原则强调了硬件是安全的基础，软件保护措施在此基础上实施。安全的系统不能建立在受损硬件的基础上。与软件不同，恶意硬件插入无法通过补丁更新来修复，除非更换设备。保障硬件安全是一个多方面的问题，包括加强制造链、开发强大的方法来检测恶意插入，以及设计系统以应对硬件受损的必然性。

从 DARPA 的 TRUST（可信集成电路）计划到 LADS（利用模拟域实现安全）计划，创新研究工作都强调了硬件安全日益受到关注，国防科学委员会和总统科学技术顾问委员会的高调报告也印证了这一点。现代经济和关键系统依赖于 IC 技术，这使得硬件攻击的影响日益严重。

入侵式硬件攻击的频谱

入侵式硬件攻击包括更改单个 IC 或 IC 组件的物理布局。具体类型的攻击包括在设计和制造过程中修改合法 IC 布局的硬件特洛伊木马、用非法芯片替换合法芯片的假冒攻击以及在最终用户设备中加入额外 IC 的组装攻击。（最后一种类型的攻击是 2018 年《彭博商业周刊》一篇关于数据中心主板的著名文章的主题⁸。即使该文章所述事件无法证实，但所描述的攻击代表了一种现实的威胁向量。）

入侵式攻击旨在在最终用户设备中加入恶意功能。显式攻击具有潜在的可检测签名，一旦实施，目标系统可能会检测到这些签名。示例包括破坏系统功能的自毁开关、启用非法访问的后门以及更改系统行为的控制电路。隐蔽攻击旨在长期不被检测地运行，通常目的是收集信息并路由给攻击者，并且可能永远不会被检测到。执行硬件攻击需要了解 IC 的制造方式以及如何对其进行破坏。

半导体制造包括从规范到分销的数百个步骤，为入侵式攻击提供了许多机会（参见侧边栏）。假冒攻击和组装攻击在组装、分销和二手供应链阶段进行。恶意硬件特洛伊木马的插入可能发生在 IC 制造的任何阶段。

侧边栏
从规范和沙子到半导体：IC 的制造过程

打开你的笔记本电脑，你会发现大约有 100 到 1,000 个 IC。这些 IC 的范围从 CPU 到微处理器再到内存。这些电路中的每一个都多次跨越全球，在从初始规范到最终组装成位于你家或办公室的机器中的组件的演变过程中，在地理上分布的供应链供应商之间移动。IC 制造可以分为三个主要阶段——设计、制造以及组装和测试——每个阶段都为硬件被更改或组装系统被破坏提供了机会。

规范和设计

一旦确定了芯片的所需规范，就启动了新 IC 的设计。规范决定了芯片在目标环境中的所需性能，包括功能、功耗、尺寸和时序。半导体设计通常由工程师团队承担，他们将 IC 规范转换为电路的 RTL（寄存器传输级）描述，使用 HDL（硬件描述语言），例如 VHDL（超高速集成电路 HDL）或 Verilog。RTL 描述使用来自所需技术库的逻辑门和组件合成到门级网表。然后使用 EDA（电子设计自动化）软件将网表转换为晶体管级，具有完全放置和布线的物理布局（在 GDSII 文件中显示，GDSII 文件是用于表示布局的标准格式），从而完成电路描述。

设计由拥有制造设施的 IDM（集成设备制造商）和外包半导体制造的无晶圆厂半导体公司承担。在整个设计过程中，工程师们都融入了来自外部供应商的 IP（知识产权）。第三方 IP 公司开发和许可电路模块，称为 IP 核，这些 IP 核被集成到新芯片的整体设计中。IP 核可以采用可综合 RTL 的形式，也可以采用完全放置和布线的内核设计的 GDSII 表示形式。领先的 IP 供应商的 IP 核可以包含在每年制造的数百亿个芯片中。

制造

完成的 GDSII 文件被发送到半导体制造工厂（称为代工厂）进行制造。代工厂要么由 IDM 拥有和运营，要么作为无晶圆厂半导体公司承包的独立制造公司存在。GDSII 文件由代工厂或第三方转换为掩模组，这些掩模组用于在光刻期间将物理电路布局图案化到硅晶圆的层中。

完整的制造过程包括材料沉积、蚀刻和图案化的多个步骤，以及离子注入和退火工艺，这些工艺微调了集成元件的电气特性。一旦晶体管级被制造出来，就会沉积图案化的金属线以连接晶体管元件。这些互连的几何配置针对芯片的功能规范进行了优化，复杂的 IC 最多有 20 个金属层。完成制造的晶圆经过测试并切割成单个硅芯片（管芯），然后运往组装和进一步测试。

组装、测试和分销

单个硅管芯的封装在管芯和外部环境之间创建了一个保护界面。封装集成将硅管芯与封装布线、基板、散热器和接地层相结合，从而为芯片与外部系统正确接口创建所需的电气、机械和热环境。封装好的 IC 经过测试，根据性能进行分级，并分销到电子组装厂，这些组装厂将 IC 融入到最终用户产品中。

特洛伊木马可以根据插入它们的制造步骤进行分类，从而深入了解供应链风险缓解。特洛伊木马插入的三类是硅前、硅内和硅后。特洛伊木马对其对 IC 性能的影响（功能更改、后门、自毁开关、使用寿命缩短、信息泄漏）、其激活机制（始终开启、内部触发、外部触发）、其在芯片上的物理位置（I/O、逻辑、内存、配电、时钟）以及它们发生的硬件抽象级别各不相同⁴。

硅前攻击发生在规范和设计阶段。可以通过在规范期间更改功能特性（例如时序或功耗）或通过在设计期间修改不同硬件抽象层（例如 RTL（寄存器传输级）、门级、晶体管级和布局布线）的功能特性来插入特洛伊木马。设计的每个阶段和设计期间使用的每个软件工具都是潜在的安全漏洞。第三方 IP 核和标准单元库在电路设计中的广泛使用为外部方插入恶意功能提供了更多机会。计算机辅助设计工具可能被篡改以创建受损的 IC 设计⁹。甚至可以在将设计发送到制造之前，在包含可测试性设计功能期间进行恶意修改。

硅内攻击发生在制造过程中。这种类型的攻击需要对目标设备的制造阶段有详细的了解和访问权限。这些攻击的范围从编辑或更换掩模到改变制造过程中使用的化学品的类型或浓度。改变 IC 材料的微调电气特性可能会对设备的功能和寿命产生严重影响。改变晶体管掺杂剂浓度会影响电路功能¹，而改变互连的成分或尺寸可能会导致金属原子的电迁移增加和电路早期失效。

硅后攻击在制造完成后进行。可能在此阶段发生的攻击包括电路编辑、修改的封装级电路、未能揭示特洛伊木马的不受信任的测试、封装伪造以及在印刷电路板上恶意组装受信任的 IC。组装攻击可以表现为包含不需要的 IC 或在受信任的 IC 与其环境之间使用未屏蔽的连接，从而导致电磁耦合介导的信息泄漏。

检测入侵式攻击

可以实施许多变体的硬件特洛伊木马来实现一系列攻击：从添加额外的晶体管来创建新的逻辑，到修改时钟分配网络的导线宽度来引入时钟偏移。显式自毁开关和缩短使用寿命到隐蔽后门和信息泄漏也具有不同的激活机制。一些特洛伊木马始终处于开启状态，而另一些特洛伊木马则需要内部或外部触发器来激活攻击载荷。然而，所有特洛伊木马的普遍目标是在整个制造和部署过程中逃避检测，直到特洛伊木马的攻击被执行。

特洛伊木马被设计成尺寸最小，并且在芯片上消耗最少的资源，这对检测它的任何努力都构成了严峻的挑战。由于硬件攻击的潜在影响，广泛的研究工作导致了检测特洛伊木马的复杂方法的开发，但没有万无一失的方法来确保 IC 的信任。原则上，可以通过激活特洛伊木马并观察其对芯片性能的影响（与已知的性能规范相比），或者通过将可疑的设计或制造的芯片与可信（黄金）副本的物理性和功能性进行比较来完成检测。检测硅前攻击的方法与检测硅内和硅后攻击的方法不同，后者范围从非破坏性到破坏性。

检测 IC 设计中的特洛伊木马需要评估和确保第三方 IP 核、库和电子设计自动化工具的信任。这并非易事。IP 核的信任很难验证，因为没有可供比较的黄金版本。因此，建立对 IP 核的信任通常采用在设计性能测试期间搜索意外组件或信号输出的形式。IP 功能的内部验证和代码覆盖率分析用于识别可疑组件和信号。

ATPG（自动测试模式生成）使用数字信号输入来顺序生成来自设计芯片仿真的输出模式。ATPG 可以检测由对芯片已知功能的修改组成的特洛伊木马，但它不会成功找到添加功能的特洛伊木马，例如向设计添加额外的逻辑。由于没有关于额外逻辑的信息，ATPG 不可能对可能导致特洛伊木马激活的所有可能的数字信号输入进行定向搜索。此外，激活物理侧信道泄漏的特洛伊木马仅通过 ATPG 将无法检测到。

一旦芯片被制造出来，就会采用一套新的特洛伊木马检测方法。诸如扫描电子显微镜和皮秒成像电路分析等精密工具可用于对 IC 进行完全拆解，以提取其物理布局，以便与可信设计进行比较。这既昂贵又耗时，会导致被测设备的部分或完全损坏，因此对于大规模测试即将进入消费市场的芯片来说是不可行的。

更易处理、不太彻底的非破坏性物理检查和电气测试利用了从 X 射线成像到芯片行为的参数测试等各种技术。其他测试方法包括通过物理设备上的 ATPG 激活特洛伊木马，以及侧信道分析。后一种方法调查被测设备的物理特性，例如时序和功耗，以便与已知或黄金侧信道行为进行比较。然而，在制造过程中自然发生的过程变化降低了侧信道分析在特洛伊木马检测中的功效。

尽管有大量的测试方法，但目前还没有确定的方法可以明确判断芯片是否被篡改。在许多情况下，IC 的庞大数量以及缺乏精密测试设备阻碍了对市场上设备的保证。测试通常由 ODM 或第三方专家完成。测试方法大量使用了微电子行业用于测试设备质量保证的既定方法。这些技术，包括性能评估和故障分析，同样扩展到假冒和组装攻击。尽管这些方法功能强大，但它们并不全面，并且越来越重视采用面向安全的设计或 IC 制造中的零信任。

拓宽频谱：半入侵式和非入侵式攻击

最近的微架构攻击（如 Spectre 和 Meltdown）的恶名清楚地表明，硬件安全的书并没有在供应链处结束。可信 IC 的潜在漏洞可以利用半入侵式攻击（如故障注入）和利用侧信道的非入侵式攻击来加以利用。如果你曾经被警告不要在数据中心大喊大叫，那么你一定熟悉机械振动会在磁盘磁头读取器中引入的故障。类似的故障注入可以通过 IC 的物理耦合或操纵来引入。存在许多示例，从重复行锤击注入 DRAM 的干扰错误引起的损坏的内存隔离⁶，到违反受信任的执行环境（如 Arm TrustZone）再到 Intel SGX（软件保护扩展）⁵。

物理攻击面也可以用于侧信道攻击，例如 Spectre 和 Meltdown。攻击者可以利用 IC 运行期间显现出的意外物理或微架构签名来了解有关电路的信息，从而使攻击者能够破坏安全数据或获得对安全功能的访问权限。这最初是通过时序攻击来证明的⁷。越来越多地，面向安全的设计旨在了解和抢先阻止 IC 在设计阶段的物理签名，以预测或检测在制造后阶段显现的侧信道安全漏洞。

硬件安全的未来

对硬件安全重要性的认识已将重点从传统的软件威胁转移到计算层次结构的较低层。从供应链到侧信道的硬件安全领域的研究使人们对硬件威胁有了更好的理解，并增加了检测和缓解技术的开发。诸如 TrustHub 特洛伊木马数据库和 IEEE 的 HOST（面向硬件的安全和信任）和 PAINE（电子设备的物理保证和检查）等会议等资源都表明了这种向硬件安全转移的重点。

尽管人们的关注度提高并且研究文献不断增长，但尚无通用标准或工具，也没有开发出明确的解决方案。物理攻击面上从入侵式到非入侵式的漏洞频谱使硬件保证成为一项艰巨（即使不是无法克服）的挑战。与网络安全社区的其余部分一样，硬件安全受益于这样一种认识，即仅靠预防方法的保证会使系统容易受到成功攻击。这类似于仅依赖外部围栏的家庭安全系统，如果入侵者翻越障碍，则没有内部警报、锁、安全室或警察响应部队。因此，重点越来越倾向于设计能够识别、通过、缓解和从攻击中恢复的硬件¹¹。然而，安全性的经济效益通常仍然不明确，这是因为安全性的成本很高，并且消费者普遍愿意为了提高计算能力而冒安全风险（或者不了解漏洞）。

硬件安全的未来将随着硬件的发展而发展。随着封装技术的进步以及重点转向超越摩尔定律的技术，硬件安全专家将需要保持领先于不断变化的安全范式，包括系统和流程漏洞。专注于量子黑客技术的研究是物理攻击面安全原则向新兴通信和计算技术转化的标志²。也许商业市场将会发展，以至于 GAO 将在不久的将来对受损的量子技术进行研究。

参考文献

1. Becker, G. T., Regazzoni, F., Paar, C., Burleson, W. P. 2014. 隐秘的掺杂剂级硬件特洛伊木马：扩展版本。《密码工程杂志》4(1), 19-31；https://link.springer.com/article/10.1007/s13389-013-0068-0。

2. 来自 arXiv 的新兴技术。2014. 对抗量子黑客战争中的下一个战场。《麻省理工科技评论》（8 月 20 日）；https://www.technologyreview.com/2014/08/20/171574/the-next-battleground-in-the-war-against-quantum-hacking/。

3. GAO。2012. 国防部供应链：在互联网购买平台上可以找到可疑的假冒电子零件。GAO-12-375；https://www.gao.gov/products/GAO-12-375。

4. Karri, R., Rajendran, J., Rosenfeld, K., Tehranipoor, M. 2010. 可信硬件：识别和分类硬件特洛伊木马。《计算机》43 (10), 39-46；https://ieeexplore.ieee.org/document/5604161。

5. Keegan, R. 2019. 硬件支持的抢劫：从高通的 TrustZone 中提取 ECDSA 密钥。《NCC 集团白皮书》（4 月 23 日）；https://www.nccgroup.com/us/our-research/extracting-ecdsa-keys-from-qualcomms-trustzone/。

6. Kim, Y., et al. 2014. 在不访问内存的情况下翻转内存中的位：DRAM 干扰错误的实验研究。《 SIGARCH 计算机体系结构新闻》42(3), 361-372；https://dl.acm.org/doi/10.1145/2678373.2665726。

7. Kocher, P. C. 1996. 对 Diffie-Hellman、RSA、DSS 和其他系统的实现进行时序攻击。在：《密码学进展—CRYPTO '96》，编辑：N. Koblitz。计算机科学讲义 1109。柏林，海德堡：施普林格；https://link.springer.com/chapter/10.1007/3-540-68697-5_9。

8. Robertson, J., Riley, M. 2018. 大规模入侵：中国如何使用微小芯片渗透美国公司。《彭博商业周刊》（10 月 4 日）；https://www.bloomberg.com/news/features/2018-10-04/the-big-hack-how-china-used-a-tiny-chip-to-infiltrate-america-s-top-companies。

9. Roy, J. A., Koushanfar, F., Markov, I. L. 2008. 扩展摘要：电路 CAD 工具作为安全威胁。发表于《2008 年 IEEE 面向硬件的安全和信任国际研讨会》，65-66；https://ieeexplore.ieee.org/document/4559052。

10. 半导体行业协会，Nathan Associates。2016. 超越国界：全球半导体价值链；https://www.semiconductors.org/wp-content/uploads/2018/06/SIA-Beyond-Borders-Report-FINAL-June-7.pdf。

11. Villasenor, J. 2010. 你硬件中的黑客。《科学美国人》303(2), 82-87；https://sciam.cn/article/the-hacker-in-your-hardware/。

为何互联网路由安全需要这么长时间才能实现？
路由安全事件仍然可能绕过已部署的安全防御措施。
Sharon Goldberg
https://queue.org.cn/detail.cfm?id=2668966

Kode Vicious
CSO 有什么用？
安全需要的不仅仅是现成的解决方案。
https://queue.org.cn/detail.cfm?id=3357152

构建可安全共享的系统
想要安全地分区虚拟机？一种选择是将它们“关进监狱”。
Poul-Henning Kamp 和 Robert Watson
https://queue.org.cn/detail.cfm?id=1017001

Edlyn V. Levine，哲学博士 是 MITRE Engenuity 的首席工程师，也是哈佛大学物理系的副研究员。Levine 博士因其在信息技术领域的贡献而获得国际认可，荣获 AFCEA 40 位 40 岁以下奖项。她于 2016 年获得哈佛大学应用物理学博士学位，期间她是国家国防科学与工程研究员和国家科学基金会研究生研究员。

最初发表于 Queue 第 18 卷，第 4 期—
在数字图书馆中评论本文

更多相关文章

Jinnan Guo, Peter Pietzuch, Andrew Paverd, Kapil Vaswani - 使用机密联邦学习的可信 AI
安全性、隐私性、问责制、透明度和公平性原则是现代 AI 法规的基石。经典的 FL 设计非常强调安全性和隐私性，但以透明度和问责制为代价。CFL 通过将 FL 与 TEE 和承诺相结合来弥补这一差距。此外，CFL 还带来了其他理想的安全特性，例如基于代码的访问控制、模型机密性以及推理期间的模型保护。机密计算（例如机密容器和机密 GPU）的最新进展意味着现有的 FL 框架可以无缝扩展以支持具有低开销的 CFL。

Raluca Ada Popa - 机密计算还是密码计算？
通过 MPC/同态加密与硬件飞地进行安全计算提出了涉及部署、安全性和性能的权衡。关于性能，您心中想的是哪种工作负载非常重要。对于简单的工作负载，例如简单的求和、低阶多项式或简单的机器学习任务，这两种方法都可以在实践中随时使用，但对于复杂的计算，例如复杂的 SQL 分析或训练大型机器学习模型，目前只有硬件飞地方法对于许多实际部署场景来说足够实用。

Matthew A. Johnson, Stavros Volos, Ken Gordon, Sean T. Allen, Christoph M. Wintersteiger, Sylvan Clebsch, John Starks, Manuel Costa - 机密容器组
此处展示的实验表明，Parma（在 Azure 容器实例上驱动机密容器的架构）增加的额外性能开销不到底层 TEE 增加开销的百分之一。重要的是，Parma 确保了容器组在证明报告中扎根的所有可到达状态上的安全不变性。这允许外部第三方与容器安全地通信，从而实现广泛的容器化工作流程，这些工作流程需要对安全数据进行机密访问。公司获得了在云中运行其最机密工作流程的优势，而无需在其安全要求上妥协。

Charles Garcia-Tobin, Mark Knight - 使用 Arm CCA 提升安全性
机密计算具有通过将监管系统从 TCB 中移除来提高通用计算平台安全性的巨大潜力，从而减小了 TCB 的大小、攻击面以及安全架构师必须考虑的攻击向量。机密计算需要在平台硬件和软件方面进行创新，但这些创新有可能增强对计算的信任，尤其是在由第三方拥有或控制的设备上。机密计算的早期消费者将需要自己决定他们选择信任的平台。