来源:机器之心Pro
机器之心报说念
机器之机杼剪部
2021 年,谷歌在 Nature 发表了一篇颇具争议的论文《A graph placement methodology for fast chip design》。(作家包括 Jeff Dean 和 Quoc V. Le 等著名研究者),其中残酷了一种基于强化学习的芯片遐想方法。据先容,该芯片遐想方法可在不到六小时的时候内自动生成芯片布局,况兼遐想收尾在功耗、性能和芯单方面积等所关连键磋议上皆优于或比好意思东说念主类工程师,尔后者需要破费数月的贫窭努力才智达到类似效果。
事实上,谷歌在更早之前就照旧发布了该论文的预印本,咱们曾经作念过报说念,细目可参阅《6 小时完成芯片布局,谷歌用强化学习助力芯片遐想》。
谷歌其时暗意,这项基于强化学习的快速芯片遐想方法对于资金垂死的初创企业大有裨益,可匡助初创企业设备我方的 AI 和其他专用芯片。况兼,这种方法有助于镌汰芯片遐想周期,从而使得硬件不错更好地安妥快速发展的工夫研究。
论文天然看起来大有出息,但三年来东说念主们一直质疑不断。近日,最近一期 CACM 上,Synopsys 的特出架构师 Igor Markov 回顾了东说念主们对这篇论文的各样质疑。
杜克大学陈陶然解释在微博上分享这篇著述
机器之心简要翻译整理了这篇著述。
本文重要观念
谷歌在 Nature 杂志上发表了一篇对于 AI 芯片遐想的立异性论文。大众媒体歌咏其是一项紧要零乱,但它遭到了领域人人的质疑,他们合计这篇论文好得令东说念主难以置信,而且清寒可复现的凭据。当今,交叉视察的数据标明,由于行动、分析和回报中的过错,Nature 的这篇论文的信得过度受到了严重毁伤。对谷歌这篇论文中的诈骗和研究不妥行动的注释指控已在加利福尼亚州提交。Nature 在彭胀我方的策略方面进展缓慢。推迟裁撤有问题的出书物正在误解科研过程。为了爱戴科学研究的淳厚信得过,必须赶快坚硬地采用行动。
导语
Mirhoseini et al. 在 2021 年在 Nature 发表了一篇论文,其中使用了强化学习(RL)来遐想硅芯片。这篇论文得到了东说念主们的弘大关注,也因凭据不及而激勉了争议。这篇来自谷歌的论文避讳了重要的方法关节和重现其收尾所需的大部分输入。
本文的元分析(meta-analysis)标明,有两项沉寂评估填补了这一空缺。它们标明谷歌的这个强化学习方法赶不上东说念主类工程师,也赶不上一种已知的算法(模拟退火)和广漠可用的生意软件,同期速率也更慢。通过对数据进行交叉视察后,Igor Markov 暗意,由于行动、分析和回报中的过错,Nature 的这篇论文的信得过度受到了严重毁伤。在本文发表之前,谷歌反驳了其里面仍然存在的诈骗指控。
由于 AI 应用需要更大的算力,因此不错通过更好的芯片遐想来提高着力。发表于 Nature 杂志的这篇论文宣称已毕了 AI 芯片遐想的零乱。它措置了优化芯片上电路元件位置的珍视,并刻画了对五个张量处理单位(TPU)芯片块的应用。其还暗意这个方法是其时学术界或工业界最好的。
该论文还将这些说法彭胀到芯片遐想以外,暗意强化学习在组合优化方面的弘扬优于开端进的工夫。「特出的主张需要特出的凭据」(卡尔・萨根),但该论文清寒公开测试示例的收尾,也莫得分享所使用的特有 TPU 芯片块。源代码 —— 在论文发表后七个月发布,以在动身点的争议之后复古该论文的发现 —— 虚浮重现方法和收尾所需的重要部分。
名目代码库照旧罢手公开或删除,https://github.com/googleresearch/circuit_training
来自谷歌和学术界的十多位研究东说念主员对 Mirhoseini et al. 的实验残酷过质疑,并对所回报的研究收尾残酷了担忧。此后,谷歌工程师屡次更新他们的开源代码,填补了一些缺失的部分,但依然不是沿途。谷歌这个软件库中的开源芯片遐想示例并未贯通地夸耀谷歌 RL 代码的刚劲性能。
光显,独一公开宣称沉寂复现 Mirhoseini et al. 的工夫是由加州大学圣地亚哥分校(UCSD)的研究东说念主员于 2022 年秋季设备的。他们对谷歌开源代码中虚浮的重要组件进行了逆向工程,并整个从新已毕了代码中缺失的模拟退火 (SA) 基线。谷歌莫得发布 Mirhoseini et al. 使用的特有 TPU 芯片遐想模块,排除了整个外部复现收尾的可能性。因此,UCSD 团队分享了他们在当代全球芯片遐想上的实验:SA 和生意电子遐想自动化 EDA 器具的弘扬均优于谷歌的强化学习代码。
《纽约时报》和路透社的记者在 2022 年报说念了这场争议,并发现早在 Nature 杂志提交之前,一些谷歌的研究东说念主员(见表 1)就对他们厚爱查验的声明残酷了异议。
该论文的两位主要作家挟恨说,他们的研究一直存在诈骗指控。
2022 年,谷歌罢黜了里面吹哨东说念主,并拒却批准发表一篇月旦 Mirhoseini et al. 研究的著述。这位吹哨东说念主依据吹哨东说念主保护法,对谷歌拿起了过错罢黜的诉讼:法庭文献注释列出了与 Mirhoseini et al. 研究关连的诈骗和科学怪异行动的指控。
2021 年 Nature 杂志在并吞期上刊登了一篇先容该论文的新闻不雅点著述,敦促复现该论文的收尾。讨论到复现的进犯和复现尝试的收尾,著述的作家裁撤了该著述。2023 年 9 月 20 日,Nature 杂志为该论文添加了在线编者注。
一年后(2024 年 9 月晚些时候),跟着这篇著述的发表,Nature 杂志的编者注已被移除,但出现了一份作家的附录。这份附录访佛了早先声明中野心的作家对月旦的复兴部分的论点。
但对于 Nature 论文的主要随和点还未得到措置。罕见是,论文收尾中对于一个特别的特有 TPU 块的未公开统计数据,并未复古任何骨子性的论断。这只会加重对选拔性回报和误报的担忧。发布一个未说明预教师数据的预教师模子,也加重了对于数据沾污的担忧。
接下来,本文列出了对该论文的初步怀疑,并标明其中好多怀疑自后得到了证实。然后,本文查验了 Mirhoseini et al. 是否改进了现有工夫,轮廓了作家的复兴,并野心了该责任在实践中的可能用途。临了,本文得出论断并指出了策略含义。
这里咱们略过 Igor Markov 这篇著述中对原论文的先容,细目可参阅机器之心的报说念《6 小时完成芯片布局,谷歌用强化学习助力芯片遐想》。咱们重心来看对该研究的怀疑和指控。
动身点的怀疑
尽管登上 Nature 的这项研究复杂而又令东说念主印象深远,但研究有着彰着的不及。
例如来说,文中残酷的强化学习(RL)被刻画为草率处理更无为的组合优化问题(如旅行商问题)。然而,该研究并莫得通过对重要问题的公式化和易于设立的测试示例来展示这小数,而是措置了一个专科任务(芯片遐想的宏布局),仅针对谷歌特有的 TPU 电路遐想块提供了五个块的收尾,而可用的块远不啻这些。
此外,RL 公式仅仅优化了一个包含 HPWL 的简化函数,但并未针对灵通电路示例进行纯 HPWL 优化的评估,而这在其他文献中是惯例操作。
不错说,这篇论文避讳了实验的重要方面,存在严重的遗漏,主要表当今以下几点:
第小数:标题中提到「快速芯片遐想(fast chip design)」, 关联词作家只刻画了遐想过程时候从几天或几成全几小时的改善,但并莫得提供针对每个遐想的具体时候,也莫得将遐想过程细分为不同阶段。著述中并没说明白,几天或几周的基线遐想过程是否包括了功能遐想变更的时候、闲置时候、使用较低效的 EDA 器具的时候等。这种刻画清寒注释信息,使得读者难以理解遐想时候本质镌汰到了何种进度,以及这种改进的具体影响。
第二点:著述宣称强化学习(RL)在每个测试用例中的运行时候不朝上六小时(针对五个 TPU 遐想块中的每一个),但这并莫得包括沿途的 20 个块。此外,RL 的运行时候仅涵盖了宏布局,而 RePlAce 和行业器具会甩掉整个电路组件。
第三点:Mirhoseini et al. 专注于宏布局,但却莫得提供每个 TPU 芯片块中宏的数目、大小和气象,以及面积欺骗率等重要遐想参数。
第四点:Mirhoseini et al. 只给出了五个 TPU 块的收尾,其统计彰着不及,而且高方差磋议会产生噪声收尾(见表 2)。往往情况下,使用更多的样本是常见的作念法(见上表 1)。
第五点:Mirhoseini et al. 莫得说明被强化学习(RL)超越的东说念主类芯片遐想师的天资水平。撇开可复现性不谈,这些收尾自后在 Cheng et al. 的研究中被走漏是不错落拓改进的。
第六点:Mirhoseini et al. 宣称改善了面积,但芯单方面积和宏面积在布局过程中并未改造,圭臬单位面积也莫得变化(参见表 2)。
第七点:对于收尾随时候推移而优化的迭代算法,应该公说念地比较每个测试用例在相通运行时候下哪个具有更好的质地磋议,或在相通质地下哪个具有更好的运行时候,或两者皆有所改进。Mirhoseini et al. 莫得提供这么的凭据。罕见是,淌若基于机器学习的优化使用了特出的策划资源,那么在其最有竞争力的气象中,模拟退火(SA)优化也应当使用同等的策划资源。这意味着在评估和比较这两种方法的效果时,应确保它们在资源使用上处于并吞水平,以保证比较的自制性。
对于人人来说,Mirhoseini et al. 残酷的方法似乎存在劣势,主要表当今:
H1. 与 SOTA 比拟,残酷的 RL 使用了过多的 CPU/GPU 资源。因此快速芯片遐想的说法需要仔细证实。
H2. 一一甩掉宏是最粗拙的方法之一。关联词即使在深度 RL 的驱动下,一一甩掉看起来也很不轻便。
H3. Mirhoseini et al. 使用了与 20 多年前类似的电路分区(聚类)方法。人所共知,这些工夫与互连优化标的有所不同。
H4. Mirhoseini et al. 将宏的位置放纵在一个粗粒度的网格上,而最新的方功令幸免了这种放纵。在图 1(左)中,宏被解放甩掉,但谷歌的强化学习倾向于将宏漫衍开来,况兼不允许在如图 1(左)中心这么的大区域内甩掉单位。图 2 展示了这种互异。这标明,天然强化学习工夫在处理某些遐想任务上具有后劲,但其在处理大领域电路遐想时可能需要依赖于简化的网格系统,这可能放纵了其优化效果和应用范围。
H5.Mirhoseini et al. 使用的力导向甩掉工夫,仍有很大的改进空间。
除了上述内容,还有值得怀疑的基准。Nature 杂志使用了多个基准来宣称所提工夫的优胜性。关联词东说念主类基准莫得纪录,况兼不可复现。
B1. Mirhoseini et al. 和表 1 中的重要收尾给出了五个 TPU 遐想模块的芯片磋议。但与 SA 的比较并莫得回报这些芯片磋议。
B2. Mirhoseini et al. 提到,强化学习(RL)的收尾经过了模拟退火(SA)的后处理,但清寒消融研究来评估 SA 对芯片磋议的影响。
B3. 在 Mirhoseini et al. 的研究中,RePlAce 被用作基准,但这种使用方式与其预期用途不一致。
B4. Mirhoseini et al. 莫得刻画在模拟退火(SA)中何如运行化宏位置,这标明作家可能吸收了一种不错改进的粗拙方法。自后,Bae et al. 确定了 SA 基线中的更多症结,而 Cheng et al. 也证实了这些问题。
更多凭据
那篇 Nature 论文发表几个月后,那是在动身点阶段的争议之后,Bae et al.、谷歌的文档和开源代码、Nature 同业评议、Yue et al. 给出了更多数据。
Nature 给出了对 Mirhoseini et al. 的同业评议文献以及作家的反驳。在漫长的走动调换中,作家向审稿东说念主保证,宏的位置在 RL 甩掉后莫得被修改,证实了宏是粗粒度网格甩掉的。在几份投稿中,Bae et al. 已毕了 Nature 审稿东说念主的要求,并在 17 个公开芯片遐想示例上对谷歌的工夫进行了基准测试,收尾标明:先前的方法彰着优于谷歌 RL。
好意思国和德国的一些解释公开抒发了对这篇 Nature 论文的质疑。当研究东说念主员慎重到谷歌开源版块中的劣势时,例如分组(聚类)经由,谷歌工程师发布了更多代码(但不是沿途),这反倒激勉了更多问题。
又过了一年,动身点的怀疑变大了,因为收尾标明,当宏布局不局限于网格时,东说念主类遐想师和商用 EDA 器具的弘扬均优于谷歌这个方法。在 Cheng et al. 的表 2 中,作家猜度了通过 RL 优化的代理老本函数与 Nature 论文表 1 中使用的芯片磋议的秩关连性。Cheng et al. 在表 3 中猜度了基于 RL 的优化之后,芯片磋议的平均值和圭臬差。
本文的表 2 给出了一些回顾,不错看到整个芯片磋议的秩关连性皆很低,而 TNS 和 WNS 的噪声进度很高。
因此,Mirhoseini et al. 对 TNS 和 WNS 的优化依赖于有劣势的代理,并产生了统计真谛可疑的收尾。不错慎重到,在 Ariane-NG45 以及 BlackParrot-NG45 上的 TNS 的 σ/|μ | > 0.5。除了媒体的月旦,Mirhoseini et al. 也受到了三位好意思国解释的质疑。
未公开使用生意器具的 (x, y) 位置
UCSD 的那篇论文中给出了强有劲的凭据和谷歌工程师的证据,标明作家避讳了一个重要细节:在对输中计表进行聚类时,谷歌代码中的 CT merge 会读取一个位置以根据位置重组集群。为了生成宏的 (x, y) 位置,论文的作家使用了 Synopsys 的生意 EDA 器具生成的整个电路元件(包括宏)的运行 (x, y) 位置。
Mirhoseini et al. 的主要作家证据使用了这一关节,并宣称这并不紧迫。但在 Cheng et al. 的论文中,该关节可将重要磋议提高 7-10%。因此,Mirhoseini et al. 的收尾需要未被明确说明的算法关节,例如从生意软件中获取 (x, y) 数据。
Cheng et al. 的论文中还列举了更多未在论文中说明的工夫,其中还提到了 Nature 论文、其源代码与谷歌芯片遐想本质使用的代码之间的互异。这些互异包括代理老本函数中项的特定权重、与电路不同的相接矩阵构造,以及 Mirhoseini et al. 的论文中莫得源代码或无缺刻画的几个「黑箱」元素。Bae et al.、Cheng et al.、Macro Placement Repo 提供了缺失的刻画。此外,Mirhoseini et al. 的收尾与所用方法不符,因为论文中莫得提到一些重要组件。仅凭刻画无法复现其收尾和方法。
教师数据和测试数据之间存在数据走漏
根据 Mirhoseini et al. 的说法,「当咱们将策略收罗流露给更多种类的芯片遐想时,它就不太容易过度拟合。」
但谷歌 Team 1 自后在 Yue et al. 中标明,对「各样化 TPU 块」进行预教师并莫得提高收尾质地。对「当年的网表版块」进行预教师会略略提高质地。对 RL 进行预教师并在类似遐想上对其进行评估可能是 Mirhoseini et al. 方法论中的一个严重劣势。由于谷歌莫得发布特有的 TPU 遐想或每个遐想的统计数据,是以无法比较教师和测试数据。
可能的局限性
Mirhoseini et al. 莫得涌现其方法的主要局限性,但却暗意其可在更无为的组合优化中取奏凯利。Mirhoseini et al. 中的 Ariane 遐想夸耀了相通大小的宏模块:这是一个潜在的放纵,因为商用芯片遐想往往会使用多种不同的宏尺寸。关联词,他们莫得回报每个 TPU 块的基本统计数据:宏的数目过火气象、遐想面积欺骗率以及宏占用的面积分数。根据同业评议和谷歌工程师对 Cheng et al. 作家的指点,TPU 块的面积欺骗率似乎低于典型的商用芯片遐想。
谷歌 RL 在 Bae et al. 和 Cheng et al. 中使用的 Adya 和 Markov 的具有挑战性的全球基准测试上弘扬欠安(如图 2 所示),这标明存在未公开的局限性。
另一个可能的放纵是对预置(固定)宏的处理不妥,这在行业布局中很常见,但 Mirhoseini et al. 莫得野心过。通过扰乱预置宏,网格化可能会影响实践中的可用性。
在全球基准测试上的弘扬欠安的原因也可能是由于对特有 TPU 遐想的过度拟合。
使用中等的模拟退火基线
谷歌 Team 2 的更强基准论文《Stronger baselines for evaluating deep reinforcement learning in chip placement》通过在 swap、shift 和 mirror 操作中添加 move 和 shuffle 操作,改进了谷歌 Team 1 在 Mirhoseini et al. 中使用的并行 SA。在优化相通的标的函数时,这种改进的 SA 往往会在更短的时候内产生比 RL 更好的收尾。
Cheng et al. 通过沉寂已毕 SA 复现了 Bae et al. 的定性论断,发现 SA 收尾的方差小于 RL 收尾。
此外,Bae et al. 为 SA 残酷了一种粗拙快速的宏运行化启发式方法,并在比较 RL 与 SA 时可平衡策划时候。
鉴于 SA 在 1980 到 1990 年代被无为使用,与弱的 SA 基线比拟,天然会导致新的 RL 工夫被高估。
这篇 Nature 论文是否提高了现有工夫水平?
Nature 杂志的社论在野心该论文时推测:「这是一项紧迫的成就,将对加快供应链产生弘大的匡助。」
但在多家芯片遐想和 EDA 公司进行评估和复现尝试后,不错坚信地得出论断,这篇 Nature 论文莫得取得任何紧迫成就,因为当年的芯片遐想软件,罕见是来自 Cadence Design Systems 的软件,不错更快地产生更好的布局。淌若该论文的审稿东说念主或公众皆知说念这些事实,那么该论文对于改进 TPU 遐想的主张将是无理的。
这篇 Nature 论文宣称东说念主类比生意 EDA 器具产生了更好的收尾,但莫得给出证实。
谷歌 Team 2 和 UCSD 团队吸收不同的方法将 Mirhoseini et al. 中的方法与基线方法进行比较,辘集回报了与生意 EDA 器具、东说念主类遐想师、学术软件以及 SA 的两个沉寂自界说已毕的比较收尾。
谷歌 Team 2 遵照 Mirhoseini et al. 中的刻画,莫得提供运行布局信息。UCSD 团队试图复现谷歌本质所作念的事情以产生收尾(清寒 Mirhoseini et al. 的注释信息)。
谷歌 Team 2 不错视察 TPU 遐想模块,并走漏预教师的影响本质上很小。
尽管 UCSD 团队无法视察谷歌的教师数据和代码,但照旧获取了与 Mirhoseini et al. 类似的收尾,无需预教师。他们还按照谷歌 Team 2 的教唆从新已毕了 SA,并引入了几个新的芯片遐想示例(表 1)。
Nature 论文中 RePlAce 的使用方式与其预期用途不一致。Bae et al.、Cheng et al. 通过正确使用 RePlAce, 在 ICCAD 2004 基准测试中为 RePlAce 取得了出色的收尾。
Nature 论文中使用的模拟退火的已毕有在进犯,排斥进犯(在并吞源代码库中)改进了收尾。淌若正确已毕,SA 会使用更少的运行时候产生比谷歌 CT/RL 更好的措置决议,况兼两者皆被赋予相通的代理老本函数。Bae et al.、Cheng et al. 走漏了这小数。
与谷歌 CT/RL 比拟,SA 握续改进了线长和功率磋议。对于电路时序磋议 TNS 和 WNS,SA 产生的噪声较小,但与 RL 的收尾格外。回思一下,SA 和 RL 优化的代理函数不包括时序磋议,这使得 SA 或 RL 已毕这些改进的断言显得很可疑。
谷歌 CT/RL 未能在东说念主类基线、生意 EDA 器具和 SA 的质地上有所提高。它也莫得改进运行时 SOTA(表 3),况兼作家莫得涌现每个遐想数据或遐想过程的时候。淌若设立 / 已毕恰当,RePlAce 和 SA 会提供更强的基线。
对这篇 Nature 论文月旦的反驳
尽管媒体进行了月旦并残酷了工夫问题,但作家未能排斥 Mirhoseini et al. 的方法和收尾的复现的剩余进犯。
UCSD 团队的工程努力克服了这些进犯,他们跟进了谷歌 Team 2 月旦 Nature 论文的责任,然后分析了其中的好多问题。在 CT 代码库出现之前,谷歌 Team 2 就不错视察谷歌 TPU 遐想和论文中使用的源代码。Cheng et al. 和 Macro Placement Repo 的 UCSD 作家不错视察 CT 并受益于谷歌 Team 1 工程师的经久参与,但无法视察 Bae et al. 或 Mirhoseini et al. 中使用的 SA 代码或 CT 框架中缺失的其他重要代码片断。
关联词,Bae et al.、Cheng et al. 的收尾与 Macro Placement Repo 互相印证,况兼他们的定性论断是一致的。UCSD 的 Ariane-NG45 收尾与 Google Team 1 工程师的收尾相配匹配,Cheng et al. 中标明 UCSD 生成的 Ariane-NG45 的 CT 教师弧线与 Google Team 1 工程师生成的收尾相匹配。谷歌 Team 1 工程师仔细审查了该论文以及 2022 年秋季和 2023 年冬季的研究收尾,莫得残酷异议。
Nature 论文的两位主要作家于 2022 年 8 月离开谷歌,但在 2023 年 3 月,他们对 Cheng et al. 的收尾残酷了反对。莫得弥补原责任的劣势。这些反对意见立即在宏布局代码库的 FAQ 部分得到措置。其中一个问题是 Cheng et al. 的实验中清寒预教师。
预教师
Cheng et al. 使用谷歌 Circuit CT 库中的代码和教唆进行教师,其中指出(2023 年 6 月):「以下收尾是重新源流教师的收尾,因为咫尺无法分享预教师模子。」
根据 Macro Placement Repo 中的 MacroPlacement FAQ,Cheng et al. 莫得使用预教师,因为根据谷歌的 CT FAQ,不需要预教师来重现 Mirhoseini et al. 的收尾。此外,谷歌莫得公布预教师数据。
谷歌 Team 2 使用谷歌里面的代码评估预教师,发现对与 SA 或 RePlAce 的比较莫得影响。
谷歌 Team 1 标明「不同 TPU 块」的预教师并莫得改善收尾,只改善了运行时候。「当年的网表版块」的预教师略有改善。CT 文档或论文自身莫得野心、败露或发布此类先前版块。
换句话说,Nature 论文的主要作家但愿其他东说念主使用预教师,但他们莫得满盈注释地刻画它以进行复现,莫得发布它的代码或数据,况兼照旧标明它不会改善预教师的收尾。
2024 年 9 月(发表几年后),作家秘书发布预教师模子,但未发布预教师数据。因此,咱们无法确保用于测试的特定示例未在预教师中使用。
基准老旧
另一个反对意见是 Bae et al. 和 Cheng et al. 使用的全球电路基准测试据称使用了过时的基础设施。
事实上,这些基准照旧使用 HPWL 标的进行了评估,该标的不错在芯片遐想的几何 2D 缩放下准确缩放,况兼仍然适用于整个工夫节点(第 2 节)。ICCAD 基准是由那篇论文的同业评审员 #3 要求的。当 Bae et al. 和 Cheng et al. 已毕了这个要求,在路由变得关连之前,谷歌 RL 遭遇了进犯:在 HPWL 优化中,RL 差了 20% 傍边(HPWL 是 CT/RL 优化的代理老本中最粗拙但最紧迫的项)。
Cheng et al. 的实验中,莫得教师到照顾
Macro Placement Repo 中的 FAQ #15 立即措置了这一问题:「CT GitHub 存储库提供的任何指南中皆莫得刻画『教师到照顾』。」
自后,他们的特别实验标明,「教师直到照顾会恶化一些重要芯片磋议,同期改善其他磋议,突显了代理老本和芯片磋议之间的不良关连性。总体而言,与 ISPD 2023 论文中回报的模拟退火和东说念主类宏甩掉的收尾比拟,直到照顾的教师不会发生质的变化。」Bae et al. 的 RL-vs-SA 实验早于 CT 框架,也早于 Mirhoseini et al. 宣称的教师不到 6 小时就照顾的方法。
Nature 论文使用的策划资源相配清脆且难以复现。由于 RL 和 SA 算法皆会在早期产生可行的措置决议,然后缓缓改进代理函数,因此 Cheng et al. 的致力而为的比较使用的策划资源比 Mirhoseini et al. 的策划资源要少,况兼 RL 和 SA 之间具有同等性。收尾:SA 打败 RL。
Bae et al. 使用与 Mirhoseini 相通的策划资源对 RL 和 SA 进行了比较。Cheng et al. 的收尾与 Bae et al. 的收尾一致。淌若赐与更多资源,SA 和 RL 不太可能进一步改善芯片磋议,因为其与 Mirhoseini 的代理函数关连性较差。
该论文的主要作家在 Goldie 和 Mirhoseini 在声明《Statement on reinforcement learning for chip design》中提到,该论文被多量援用,但他们莫得援用谷歌以外的任何积极的复现收尾来废除整个已知的进犯。Bae et al. 和 Cheng et al. 莫得野心在 IC 遐想中使用 RL 的其他方法,因此这里不再进行一般性论断。
谷歌这篇论文中的着力可用吗?
发表于 Nature 的这篇谷歌论文宣称这些方法可应用于最近的谷歌 TPU 芯片,这似乎佐证了他们宣称的东西:即这些方法改进了最新工夫水平。但除了拖沓的一般性声明外,莫得回报明确说明对坐褥级芯片的芯片磋议改进。
前文照旧标明,该论文和框架中的方法落伍于 SOTA,例如 1980 年代的模拟退火(SA)。此外,谷歌的 Bae et al. 里面已毕的 SA 足以替代那篇 Nature 论文中残酷的强化学习方法。谷歌既宣称在 TPU 遐想中使用了这个 RL 方法,但本质上这个方法又落伍于 SOTA,为什么会这么?这篇著述试图给出一些解释。
鉴于芯霎时序磋议 TNS 和 WNS 在强化学习收尾中的方差较大,是以使用远远更长的运行时候,尝试使用不同的代理老本函数和超参数支持进行屡次沉寂速即尝试可能会改善最好收尾,但 SA 也能作念到这小数。使用里面方法(即使是较差的方法)是行业实践中称为 dogfooding(吃我方的狗粮)的常见方法。在大多数芯片中,一些块并不紧迫(不会影响芯片速率),是很好的 dogfooding 候选。这不错解释谷歌为什么选拔性地公布坐褥级使用」和回报。(注:在芯片遐想领域,dogfooding 是指芯片遐想公司里面的工程团队会使用我方遐想的芯片进行测试和考证,以确保芯片闲散预期的性能、功能和质地。这种方法不错匡助团队发现潜在的遐想劣势、优化用户体验,并提前措置问题,而不是比及家具发布后才被客户发现。)强化学习的收尾由 SA30 进行事后处理,但 CT FAQ 否定了这种后处理 ——TPU 遐想经由中使用了后处理,但在将 RL 与 SA 进行比较时未使用。但由于熟谙的 SA 遥远胜过强化学习,因此 SA 整个不错替代强化学习(不错使用 SA 中的自安妥温度调养来安妥运行位置)。
谷歌 Team 1 的后续研究标明(如图 7 所示),仅在对基本相通的遐想进行预教师时,预教师才智改善收尾。也许,谷歌在对 IC 遐想进行屡次更正时欺骗了强化学习 —— 这是一个灵验的布景,但这篇 Nature 论文中莫得刻画这小数。此外,重新源流运行时,商用 EDA 器具的速率比强化学习快几个数目级,因此预教师 RL 并不可平稳差距。
谷歌 CT/RL 代码不错得到改进吗?
RL 和 SA 比 SOTA 慢几个数目级(表 3),但预教师(CT 中莫得)仅能将 RL 的速率提高几倍。CT 代码库当今包含尝试过的改进纪律,但咱们尚未看到芯片磋议的紧要栽培。改进版 CT 库和论文仍然存在四个主要进犯:
RL 优化的代理老本并不可反应电路时序,因此改进 RL 可能无助于改进 TNS 和 WNS。在优化给定的代理函数时,SA 优于 RL。因此,即使使用更好的代理,RL 也可能会失败。RL 在粗粒度网格上甩掉宏会放纵它们的位置(图 2)。当东说念主类忽略粗网格时,他们会找到更好的宏位置。商用 EDA 器具也幸免了这种放纵,况兼优于谷歌的 CT/RL。看成预处理关节的聚类会导致甩掉和网表分区标的之间不匹配。
回顾
这篇元分析野心了对 Mirhoseini et al. 那篇 Nature 论文的收尾的复现和评估,以过火中方法、收尾和声明的灵验性。他们发现,那篇论文中包含机器学习中的多种可疑作念法,包括不可访佛的研究实践、挑选好收尾、误报和可能的数据沾污。
基于交叉视察的新数据,本文得出了具有满盈冗余度的论断:由于研究中已毕、分析和回报中的过错,该论文的信得过度严重不及。遗漏、不一致、过错和失实敷陈影响了他们的方法、数据、收尾息争释。
对于那篇 Nature 论文的论断
谷歌 Team 2 不错视察谷歌的里面代码,而 Cheng et al. 对缺失的组件进行了逆向工程和 / 或从新已毕。谷歌 Team 2 和 UCSD 团队从类似的实验中得出了一致的论断,况兼每个团队皆进行了特别的不雅察。
这里交叉查验了谷歌 Team 2 和 UCSD Team 回报的收尾,并讨论了 CT 框架、Nature 同业评议和 Yue et al. ,然后回顾了这些责任得出的论断。这证实了对这些声明的好多初步怀疑,并发现了其他劣势。
因此,很彰着,Mirhoseini et al. 的 Nature 论文在多个方面具有误导性,甚至于读者无法信托其最紧迫的声明和论断。Mirhoseini et al. 莫得改进 SOTA,而原始论文的方法和收尾无法从提供的刻画中重现,这违抗了 Nature 的既定裁剪策略。依赖特有的 TPU 遐想进行评估,以及实验回报不及,连续隔断着方法和收尾的可复现性。
这篇 Nature 论文作家试图评述月旦,但未能奏凯。
令东说念主诧异的是,自 Cheng et al. 发表论文以来,Mirhoseini et al. 的作家在一年半内莫得提供新的令东说念主信服的实证收尾。
对芯片遐想的影响
这里仅强调了那篇 Nature 论文方法中的不及之处。但 2024 年来自中国的一项研究着力《Benchmarking end-to-end performance of AI-based chip placement algorithms》使用他们新的沉寂评估框架比较了七种混杂尺寸布局工夫,其中有 20 个电路(其中七个带有宏)。
他们在芯片磋议上的端到端研究收尾标明,基于 ML 的工夫落伍于 RePlAce(镶嵌在 OpenROAD 中)和其他基于优化的工夫:DREAMPlace(基于 GPU 的 RePlAce 算法变体)和 AutoDMP(围绕 DREAMPlace 的贝叶斯优化 wrapper)。尽管复现 Mirhoseini et al. 的方法具有彰着的必要性,但 Wang et al. 的作家无法提供这么的收尾。
策略影响
表面论证和实证凭据标明,各个领域发表的多量论文无法复现,而且可能不正确。比如 Nature 杂志这篇论文就加重了复现危急,破损了东说念主们对已发表研究的信任。
Retraction Watch 每年能跟踪到 5000 起撤稿事件,包括特出的研究怪异行动案例。其暗意,「研究怪异行动是一个严重的问题,而且(可能)越来越严重」,这使得咱们更有必要将淳厚的过错与专门夸大和怪异行动诀别开来。机构需要给出复兴,包括在 Nature 撤稿告知中进行明确说明。
Nature 的裁剪策略应被无为而严格地遵从。引自《Nature Portfolio》:
「出书的固有原则是,其他东说念主应该草率复现和鉴戒作家发表的主张。在 Nature Portfolio 期刊上发表论文的条款是,作家必须实时向读者提供材料、数据、代码和关连条约,而无需要求阅历…… 出书后,淌若读者遭遇作家拒却遵从这些策略的情况,应连络期刊的主编。」
具体到 Mirhoseini et al. 这篇论文,杂志社论坚称「工夫专长必须无为分享」。然而,当稿件作家忽视公开基准测试的要求并隔断复刻下,他们的工夫主张应该受到怀疑(尤其是淌若他们自后不同意与他们的责任进行比较)。
根据同业评议文献,这篇论文的吸收取决于代码和数据的发布,但在 Mirhoseini et al. 发表时或之后,这皆莫得发生。
这些作家还对那篇 Nature 论文进行了修改,宣称代码照旧可用。但发布的代码中仍然存在严重遗漏。这尤其令东说念主担忧,因为该论文不详了重要的比较和细节,况兼厚爱评估该名宗旨谷歌吹哨东说念主在加州法院宣誓指控存在诈骗行动。这使得复现变得愈加重要。
对于已发表的科学主张,得出明确无误的论断适合每个东说念主的利益。作家、Nature 杂志的裁剪和审稿东说念主以及研究界皆痛快担拖累。寻求真相是大众共同的义务。
参考贯串:
https://cacm.acm.org/research/reevaluating-googles-reinforcement-learning-for-ic-macro-placement/
https://weibo.com/2199733231/OErfamQry