合肥网站建设服务做爰在线网站
- 作者: 五速梦信息网
- 时间: 2026年03月21日 10:57
当前位置: 首页 > news >正文
合肥网站建设服务,做爰在线网站,网站建设关键词优化价格,wordpress底部黑色的版权修改阅读了Modular Routing Design for Chiplet-based Systems这篇论文#xff0c;是关于多chiplet通信的#xff0c;个人感觉核心贡献在于实现了 deadlock-freedom in multi-chiplet system#xff0c;而不仅仅是考虑单个intra-chiplet的局部NoC可以通信#xff0c;具体的一些…阅读了Modular Routing Design for Chiplet-based Systems这篇论文是关于多chiplet通信的个人感觉核心贡献在于实现了 deadlock-freedom in multi-chiplet system而不仅仅是考虑单个intra-chiplet的局部NoC可以通信具体的一些记录如下 目录 一、Article:文献出处方便再次搜索 1作者 2文献题目 3文献时间 4引用 二、Data:文献数据总结归纳方便理解 1背景介绍 2目的 3结论 4主要实现手段 5实验结果 三、Comments对文献的想法 强迫自己思考结合自己的学科 四、Why:为什么看这篇文献 方便再次搜索 五、Summary:文献方向归纳 方便分类管理 一、Article:文献出处方便再次搜索 1作者 Jieming Yin, Onur Kayiran, Matthew Poremba, Muhammad Shoaib Bin Altaf, Gabriel H. Loh (Advanced Micro Devices, Inc. AMD超微半导体)Zhifeng Lin(南加州大学)Natalie Enright Jerger(多伦多大学) 2文献题目 Modular Routing Design for Chiplet-based Systems 3文献时间 2018 ACM/IEEE 45th Annual International Symposium on Computer Architecture计算机体系结构年度国际研讨会 ISCA 4引用 J. Yin et al., Modular Routing Design for Chiplet-Based Systems, 2018 ACM/IEEE 45th Annual International Symposium on Computer Architecture (ISCA), Los Angeles, CA, USA, 2018, pp. 726-738, doi: 10.1109/ISCA.2018.00066.二、Data:文献数据总结归纳方便理解 1背景介绍 大背景日益复杂的工艺技术导致成本的骤升这是基于chiplet的SoC出现的动机。单个chiplet应该在不了解整个系统的情况下进行设计验证但即使单个的chiplet都得到了验证fully integrated system仍然存在正确性问题。作者具体聚焦到互连网络组装多个disparate chips(e.g., CPU, GPU, memory, FPGA)成为一个SoC其correctness validation成为了一个挑战。具体来说individual chiplets是独立设计的有自己的NoC无死锁且内部可以正常通信 但将几个NoC连接在一起可能会引入新的resource cycle从而导致跨芯片之间的循环依赖关系很容易导致死锁。 2目的 通过引入一种简单的模块化的优雅的方法来确保multi-chiplet system的deadlock-free以期通过independently-optimized chiplet-local NoCs来实现真正模块化和可重用的的chiplets 3结论 可在无需其它chiplets或者interposers NoC细节的情况下独立设计而prior-art(需要complete system-level information比如CDG)不支持这个属性故可以在高性能的情况下消除死锁开发了一种composable, highly-modular, chiplet-based的方法来实现各种拓扑的routing提出了一个关键抽象点从单个chiplet的角度来看系统的其余部分可以被抽象到单个虚拟节点中基于此设置了boundary router 和 turn restriction的方法 4主要实现手段 总的来说作者提出的chiplet-based的路由方法是composable, topologynostic, deadlock-free的目标是尽可能地隔离chiplets和interposer的设计允许对chiplets和interposer进行独立的负载均衡优化同时保持整个系统的routing是deadlock-free的。大致过程如下 在每个chiplet的boundary router上设置unidirectional turn restrictions(决定了边界路由器的inbound和outbound reachability并且每个chiplet中不存在cyclic channel dependency)其余部分抽象成一个连接到boundary router的节点将这些reachability信息传播到interposer这个interposer又负责将信息从一个边界路由器发送到另一个边界路由器通过了解边界路由器reachability信息被发送到destination chiplet最后local NoC会将其转发到final destination。 具体的核心实现技术如下 Boundary Router Placement and Turn Restriction Algorithm 关键参数 Number of Boundary Routers边界路由器的数量决定了一个芯片为发送/接收intra-chiplet traffic所能维持的吞吐量边界路由器越多intra-chiplet traffic带宽就越高。虽然边界路由器可能的最大数量是芯片的面积函数但最大有用带宽是其周长的函数。 Turn Restrictions at Boundary Routers在选择prohibited turn时我们的目标是最小化下式Average_distance/ Average_reachability较低的Average_distance和较高的Average_reachability的组合。 Boundary Router Placement边界路由器的选择影响其inbound和outbound reachability和chiplet的traffic distribution。以下是关于选择边界路由器的guidelines首先避免将边界路由器聚类在一起以减少创建网络热点的机会其次边界路由器的放置应该平衡所有边界路由器的inbound和outbound reachability第三首选采用半径较低的路由器。 前两个guideline旨在优化网络性能和吞吐量第三个guideline是为了最小化电路的复杂性。Interposer NoC Confifiguration Interposer routing scheme对于每个发送到chiplet上的路由器的消息以下算法决定将该消息发送到该目标芯片上的哪个边界路由器如果一个目标只能通过一个边界路由器到达则Interposer 必须将该消息路由到该特定的边界路由器。否则我们选择边界路由器来平衡跨边界路由器的网络负载同样地利用芯片Interposer 带宽同时最小化路径长度避免仅仅为了负载平衡而以高度迂回的方式发送消息 如何将片上节点分配给边界路由器的步骤 首先根据所有边界路由器选择具有最少项目数量的路由器Ai (仅能通过i可达的节点集)。然后将Ci中的节点一个一个分配给Ai直到Ai中的项目数量不再是最小的。当分配给Ai时从Ci中删除一个项目。如果Ai仍然具有最少的项目数量则从E{i,j}中一个一个分配节点给Ai。分配给Ai后从Eij和Eji中删除项目。如果不能进行进一步的分配则边界路由器i的节点分配完成。(Ci是在拓扑上离i比其它边界路由器近的节点列表且这些节点不仅只通过1一个边界路由器可达E{i,j}是与边界路由器i和j等距的节点列表且这些节点至少与两个边界路由器等距)重复步骤1-3直到对于所有的边界路由器i和jCi ∅和Eij ∅为止。 5实验结果 实验配置 有4个GPU chiplet每个芯片提供16个GPU SIMD计算单元CUs和一个中央CPU chiplet来支持GPGPU工作负载的CPU阶段。这5个chiplet被堆叠在一个active interposer上该interposer实现了它自己的NoC来互连这些芯片和其他常见的系统功能单个chiplet的网络是 4X4 meshinterposer的网络也是 4X4 mesh如下图2 benchmarks VC-based routing需要很多VCs才能进行且VC的分配需要提高一些全局CDG信息updown routingflat network不支持系统的模块化和可组合性流量不均根节点往往更拥挤segment-base routingflat networkNue routingflat network需要complete channel dependency graph (CDG)来构建生成树从而保证死锁自由shortest path an idealized system是一种理想化不实际ours(composable)对比试验1Basic Throughput Evaluations with Synthetic Traffific 在uniform random和bit complement下测试load-latency结果表明ours优于segbased/updown/VC-based主要原因是segbased 是基于2D mesh-like的网络而本实验的全局拓扑仍然不规则路由无法很好处理updown 过早饱和根节点比叶节点更拥挤负载不太平衡VC-based 需要的额外VCs减少了head-of-line blocking。而Nue优于我们是因为它利用了完整的CDG知识来优化路由可以更好的提供负载平衡因而产生与shortest相似的性能shortest虽然性能好但不切实际。总的来看prior-art都不适用于模块化的SoC设计ours能较为全面的进行全局负载均衡优化无需先验complete CDG知识也能保证在较高的正确性和性能下进行模块化设计。对比试验2Application-level Impact 测试平均网络延迟。没有对比segbased方法是因为它需要大量的不切实际的VCs来避免路由和协议级的死锁。如下图aours实现的网络延迟几乎与shortest相同在bfs/nw/srad的情况下ours优于shortest考虑是由于偶尔情况下的负载/拥塞不平衡往往出现在GPU比在CPU更频繁updown方法是由于根节点的平均网络延迟增加超过了50%在heavy traffic情况下成为瓶颈从而限制了系统的有效带宽。 测试application performance。总体来看对app的执行时间的影响是温和的因为大多数的GPU app本身就对延迟不那么敏感。虽然updown方法偶尔有5-10%的波动但ours的性能与shortest大致相同。 Case Study – HotSpot在执行HotSpot时测试利用率最高的链路的最大链路利用率。如图7只显示GPU chiplet上的边界路由器和interposer其余的CU 芯片利用率较低每10000个周期我们就对每条链路的利用率进行采样。图中标注的是最大链路利用率整个过程中的最大采样结果通过观察该值可以定位NoC的流量瓶颈其中updown中的红点是根节点。 消融实验broader applicability 验证实验设置guideline的有效性。 边界路由器数量设设置。下图8.a显示了边界路由器数量从2增加到8时平均网络延迟的变化。可知2-4的提升显著高于4-8的显著。虽然增加边界路由器会增加off-chiplet bandwidth减少intra-chiplet communication但是会增加router的复杂性面积从而影响边界路由器的性能提高了硬件成本故4个边界路由器是合理设计。选取turn restriction的objective function。下图8.b显示了不同objective function下的平均网络延迟包括最小化Average_distance和最大化 Average_reachability但这往往会产生不平衡的on-chiplet traffic。实验能证明proposed function对turn restriction select的有效性。边界路由器的位置。下图8.c考虑了一种与ours不同的placement methods—随机放置。但这会导致负载不均使得某些链路的使用率高于其它链路影响系统吞吐量。敏感性研究Sensitivity Studies System Size将baseline中的64-CU替换成128-CU使用两种方案1) 4 chiplets with 32 CUs each2) 8 chiplets with 16CUs each。如下图9.a和9.b两者的区别是inter-chiplet和intra-chiplet的比率其中ours显著优于updown比起shortestours对流量分布的敏感性较低图9中ours位置变化不明显。 Interposer NoC Topology将baseline中interposers mesh NoC替换成 “Double Butterflfly” topology如下图9.c与baseline的性能相近表明ours是独立于 interposer’s NoC topology的。 Irregular Chiplet Topologies将每个GPU chiplet替换成不同的local NoC topology如下图9.d所示ours甚至超过“ideal” shortest routing推测是因为shortest倾向于靠近中心的interposer(见上图7.c的红点)ours可以更好的实现interposer traffic distribution。 其它实验Other Chiplet Packaging Options 考虑取消“central chip”如下图10.c没有单个的“central chip”而是将两个连接在一起的chip看作一个virtual chip。 考虑使用non-star topology in chiplets如下图10.b两个CPU chiplets拥有点对点链路(可以看作一个virtual chiplets)仍可以正常执行我们的算法不会造成死锁。 考虑使用passive interposer如下图10.athe compute chiplets fan out from the central chip in a star-like topology。三、Comments对文献的想法 强迫自己思考结合自己的学科 第一次看互连网络的死锁路由我没看出来啥囫囵吞枣和我的毕设没太大关系先搁这儿以后有用再回头细细琢磨。 虽然这篇是顶会但是其实我觉得对读者来说并不友好你没办法只通过introduction就明确它的贡献在哪里必须要深入仔细的阅读才能发现它是穿插在prior-art的结尾作为对比来凸显contribution/difference。我还是倾向于总分总的结构在introduction中明确问题/挑战现有的work解决了什么问题还存在哪些漏洞针对这些问题如何获得motivation进而迅速明确文章的亮点。作者考虑的很全面有非常完整的实验设计过程但我有点疑问是在最后一个实验(fig.10)说明方法的普适性时缺乏数据的支撑只是图示实验设计并说明是可行的就感觉说服力没那么强。当然我是个菜鸡我不是很懂知道的uu可以留言告诉我。 四、Why:为什么看这篇文献 方便再次搜索 了解课题背景: 师兄师姐推荐的文章用于了解chiplet通信的一些背景了解多chiplet通信的死锁问题 五、Summary:文献方向归纳 方便分类管理 deadlock-freedom in multi-chiplet system: active silicon interposerturn restrictions and boundary routerhighly-modular, simple, elegant, topologynostic routing
相关文章
-
合肥网站建设q.479185700惠无网站做cpa
合肥网站建设q.479185700惠无网站做cpa
- 技术栈
- 2026年03月21日
-
合肥网站建合肥网站建设找蓝领商务建设企业网站公
合肥网站建合肥网站建设找蓝领商务建设企业网站公
- 技术栈
- 2026年03月21日
-
合肥网站关键词优化公司阳江网站建设 公司价格
合肥网站关键词优化公司阳江网站建设 公司价格
- 技术栈
- 2026年03月21日
-
合肥网站建设公司哪家好响应式网站建设推荐乐云seo
合肥网站建设公司哪家好响应式网站建设推荐乐云seo
- 技术栈
- 2026年03月21日
-
合肥网站建设技术支持多语言网站如何做
合肥网站建设技术支持多语言网站如何做
- 技术栈
- 2026年03月21日
-
合肥网站建设解决方案怎么做品牌推广网站
合肥网站建设解决方案怎么做品牌推广网站
- 技术栈
- 2026年03月21日



