分类: 计算机科学 >> 计算机体系结构 提交时间: 2017-03-10
摘要: 随着芯片内部处理器核数的增多,多核处理器逐渐有向众核方向发展的趋势。而众核这一全新的体系结构给计算机模拟带来了挑战。串行模拟已经难以满足速度的需求,必须充分利用现有并行宿主机的多核资源,在保证不损失模拟精度的前提下提升模拟速度。本文以众核和众核集群两种体系结构为例,说明并行模拟技术在计算机并行体系结构模拟中的必要性和可行性,在众核模拟中,做到精度不变,模拟速度 提升 10 倍;在众核集群模拟中,所模拟的处理器小核总数达到千核规模,并实现了混合的编程运行环境, 为该结构的可扩展性测试提供了基础。
分类: 计算机科学 >> 计算机软件 提交时间: 2016-06-08
摘要: 随着芯片内部处理器核数的增多,多核处理器逐渐有向众核方向发展的趋势。而众核这一全新的体系结构给计算机模拟带来了挑战。串行模拟已经难以满足速度的需求,必须充分利用现有并行宿主机的多核资源,在保证不损失模拟精度的前提下提升模拟速度。本文以众核和众核集群两种体系结构为例,说明并行模拟技术在计算机并行体系结构模拟中的必要性和可行性,在众核模拟中,做到精度不变,模拟速度提升10 倍;在众核集群模拟中,所模拟的处理器小核总数达到千核规模,并实现了混合的编程运行环境,为该结构的可扩展性测试提供了基础。
分类: 计算机科学 >> 计算机网络 提交时间: 2016-11-02
摘要: 随着高性能计算需求的日益增加,片上众核(many-core)成为未来处理器结构的发展方向。目前,大多数众核处理器原型均采用分块的拓扑结构,通过片上网络相连。在面向通信密集型的应用时,片上网络的吞吐量(throughput)或者延迟(latency)通常成为制约系统性能的瓶颈。我们通过对片上数据存储和通信管理提供系统结构的支持,在众核处理器上实现了高效的片上数据通信。本文的主要贡献包括:(1)实现基于分块的众核处理器结构,支持程序可控的片上数据存储管理和数据传输管理;(2)提出异步数据块传输机制是一种容忍二维Mesh 片上网络延迟的有效方法。最后,我们在众核处理器上对快速傅立叶变换(FFT)进行了评估,在获得43.9Gflops 计算性能的同时,计算效率达到22.9%。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-24 合作期刊: 《计算机应用研究》
摘要: 为发挥众核处理器性能优势及求解更大规模问题,针对大整数乘法在众核处理器上的并行化进行研究。在对笔算乘法和Comba乘法并行性进行分析的基础上,针对Comba乘法并行化时面临的负载均衡问题并提出了多种解决方法;然后针对SW26010的结构特征,选择借鉴笔算乘法改进的Comba乘法,并且实现过程使用了向量化、寄存器通信等优化方法。测试结果说明改进后的并行Comba算法具有较好的并行性,能够很好地利用SW26010众核处理器的性能优势。
分类: 计算机科学 >> 计算机应用技术 提交时间: 2017-03-10
摘要: 多核处理器以其高性能、低功耗、设计周期短等诸多优势成为未来高性能处理器的发展趋势。由于应用对计算能力的需求是无限的,随着芯片上晶体管数目的进一步增多,多核处理器将逐渐过渡到大规模多核处理器或者称为众核处理器。多核处理器面临着很多的设计挑战,其中可靠性问题尤其严重。一方面,由于多核处理器的芯片面积都比较大,生产缺陷导致的成品率损失问题严重。这使得芯片上可能存在失效的处理器核,而且不同芯片上失效核的位置和分布也不相同。另一方面,工艺扰动问题使得多核处理器上各个处理器核的性能也存在差异。芯片上处理器核的失效以及性能差异使得不同芯片的底层结构各不相同,这给上层的操作系统和软件优化带来了负担。我们借助虚拟化的思想,将缺陷和核间性能差异对软件层进 行屏蔽,提供统一的接口和界面,便于编程开发和管理。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》
摘要: 由申威众核处理器组成的“神威·太湖之光”是当前我国性能最高的超级计算机,可为大规模NSGA-II求解提供硬件平台。基于硬件架构特点,设计了“分岛—主从增强”混合并行NSGA-II。在主从模式基础上,利用从核间寄存器通信,实现核组内从核局部数据存储的共享。优化流程,实现更多算法模块在从核上的并行。运用DMA传输、向量化、双缓冲、存储优化等方法显著提高加速比。实验表明,优化的并行NSGA-II在申威众核处理器上具有良好的加速比和扩展性。
分类: 计算机科学 >> 计算机体系结构 提交时间: 2016-05-03
摘要: 超级计算机浮点运算能力的迅速提高和数据移动能力的增长缓慢已经造成了非常明显的“浮点效率鸿沟”。“浮点效率鸿沟”反映了传统数值算法与新兴硬件结构之间发展的不平衡和不匹配。在目前的新兴众核处理器上,一个“高效”的数值算法应该使单位访存所完成的浮点运算次数尽量加大,从而尽可能地享受由这一轮技术变革带来的新的“免费午餐”——超强浮点运算能力。这极可能将导致数值算法设计在思路上、甚至原则上的根本性转变。本文尝试面向新兴计算机体系结构,从充分释放众核处理器“冗余”计算能力的角度出发,发展一种新的高效且高精度(无额外自由度)的广义有限元方法,结合无网格/粒子/广义有限元法(以及有限差分)等一类新兴数值方法中所具有的“计算密集度可调”的共性特征,探讨硬件效能和数值精度“双赢”的新型计算模式的可能性。