分类: 天文学 >> 天文学 提交时间: 2021-03-12 合作期刊: 《天文研究与技术》
摘要: With the advent of large astronomical equipments, the traditional development model for data reduction faces problems such as redundancy of programs and conflicting environmental dependencies; Besides as a cluster is a highly coupled computing resource, serious environmental conflicts can lead to the unavailability of the entire cluster. To address this problem, we have developed a new pipeline framework using the concept of microservices. This paper presents the ONSET data pipeline developed through this framework. To achieve near real-time data processing, we optimize the core program using MPI and GPU technologies and evaluate the final performance. The results show that this development model can be built in a short time to meet the requirements of the pipeline, and we believe that this development model has implications for future multi-band and multi-terminal astronomical data processing.
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-17 合作期刊: 《计算机应用研究》
摘要: 针对采用单CPU CT图像重建时间长,采用CPU集群重建成本及能耗高的问题,提出了CPU多线程+GPU的异构重建模型。这种模型采用CPU多线程流水线模式,将整个任务分解为若干个处理阶段,相邻的两个阶段之间以循环缓存连接,上一阶段完成一次计算任务后将数据放到循环缓存里,然后继续下一次的计算任务,下一阶段探测到循环缓存里有数据后,从缓存里取出数据开始计算。各个任务是并行处理任务的,针对某一耗时瓶颈模块再采用GPU并行加速,充分发挥CPU和GPU的计算资源。CPU多线程+GPU模型相对于CPU多线程模型加速16.45倍,相对于串行CT图像重建加速20.5倍以上。将CPU多线程+GPU模型重建的图像与CPU串行程序重建的CT图像相比较,数据结果在误差范围内,满足实验设计要求。提出的图像重建模型采用成本较低的GPU显卡就实现了性能大幅提升,大大降低了CT图像重建系统的成本及功耗,而成本及功耗的降低会引起CT医疗诊断费用的降低,最终惠及广大病患。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》
摘要: 针对大规模数据下遗传直接定位算法执行时间慢、实时性较差问题,提出了基于GPU加速的并行遗传直接定位算法。根据直接定位代价函数特点,设计了GPU高速并行遗传进化架构,通过对适应度函数并行化计算以及对选择、交叉、变异等遗传操作并行化设计,缩短了算法执行时间,提高了算法执行效率。仿真实验表明,通过合理的GPU并行线程结构设计,显著提升了遗传直接定位算法的执行速度,可更快得到直接定位估计结果。
分类: 计算机科学 >> 计算机硬件技术 提交时间: 2017-03-10
摘要: 本文报道了我们在 CPU/ATI GPU 混合体系结构上优化双精度矩阵乘法(DGEMM)的工作。在真 实应用中, CPU 与图形处理器(GPU)之间的数据传输是影响性能的关键因素。由于软件流水可以降低 数据传输开销,我们提出了三种软件流水算法,分别是双缓存(Double Buffering)、数据重用(Data Reuse) 和数据存储优化(Data Placement)。在 AMD 公司的图形处理器(GPU)ATI HD5970 上,优化后 DGEMM 性能达到 758 GFLOP/s,对应效率为 82%,是 ACML-GPU v1.1 性能的两倍。在 Intel Westmere EP 和 ATI HD5970 组成的异构系统上,性能达到 844 GFLOP/s,效率为 80%。我们进一步考察了多个 CPU 和多个 GPU 上 DGEMM 的扩展性,详细分析了体系结构方面的影响因素。分析表明,PCIe 总线和内存总线的竞争是异 构系统上程序性能降低的重要影响因素。
分类: 计算机科学 >> 计算机软件 提交时间: 2016-06-08
摘要: 本文报道了我们在CPU/ATI GPU 混合体系结构上优化双精度矩阵乘法(DGEMM)的工作。在真实应用中, CPU 与图形处理器(GPU)之间的数据传输是影响性能的关键因素。由于软件流水可以降低数据传输开销,我们提出了三种软件流水算法,分别是双缓存(Double Buffering)、数据重用(Data Reuse)和数据存储优化(Data Placement)。在AMD 公司的图形处理器(GPU)ATI HD5970 上,优化后DGEMM性能达到758 GFLOP/s,对应效率为82%,是ACML-GPU v1.1 性能的两倍。在Intel Westmere EP 和ATIHD5970 组成的异构系统上,性能达到844 GFLOP/s,效率为80%。我们进一步考察了多个CPU 和多个GPU上DGEMM 的扩展性,详细分析了体系结构方面的影响因素。分析表明,PCIe 总线和内存总线的竞争是异构系统上程序性能降低的重要影响因素。
分类: 物理学 >> 核物理学 提交时间: 2023-06-18 合作期刊: 《Nuclear Science and Techniques》
摘要: The Monte Carlo method can be widely applied to particle transport through numerous simulated data processing operations. However, this process consumes much time. Traditional parallel computing based on multi-CPU or multi-core CPU can effectively address this issue, but it is limited by inadequate computer hardware. Nonetheless, the current programmability and parallel processing capability of digital graphics processing units (GPUs) can sustain general computing applications such as Monte Carlo program simulation. This paper presents a method that facilitates the parallel computation of the Monte Carlo procedure through GPUs. Its feasibility is verified through a sample of simplified photon transport program, the results indicate that execution time can be shortened by approximately 90 times. Based on the general Monte Carlo program Geant4, the photon and electronic coupled transport module was examined, analyzed, and rewritten using the GPU programming language OpenCL to generate a Geant4 parallel tool [base on GPU parallel computing tool (BOGPT)]. The simulation results of the standard examples demonstrated that the outcomes of the BOGPT program are similar to those of Geant4 and the simulation time can be reduced by approximately three times. Finally, the GPU programming-based parallel computing method for Monte Carlo applications is accelerated and implementation prospects are broadened following further optimization.
分类: 天文学 >> 天文学 提交时间: 2020-05-15 合作期刊: 《天文研究与技术》
摘要: 针对脉冲星信号实时消色散处理需求,实现了基于GPU的非相干消色散算法。采用高性能并行计算方法对非相干消色散算法的多线程处理进行了深入研究,提出了算法的并行化加速方案,解决了消色散算法计算量大无法实时处理问题。分析算法的密集型计算部分,高效利用GPU的层次存储结构,提高了GPU资源利用率,进而减少了计算时间,显著提升了非相干消色散算法的计算性能。
分类: 天文学 >> 天文学 提交时间: 2017-09-26 合作期刊: 《天文研究与技术》
摘要: 天文海量数据的出现给天文软件的开发带来了诸多挑战。近年来,随着并行计算技术的发展,MPI + GPU逐渐成为当前高性能天文数据处理的主要模式。针对太阳高分辨图像重建中如何提高重建性能这一问题,对其中的数据读取与数据分发方法进行了系统研究。传统的MPI并行处理时,主进程将原图切割成子块,随后将子块发送到各子进程重建,重建后的结果返回主进程。当子进程数量较大且计算节点数量较少时,这种数据分发过程显著增加通讯时长,影响整个重建过程的效率。提出MPI + CUDA的一种树状数据分发方法,给出了算法的基本思路与实现方法。实验结果表明,树状分发方式比一般采用的平行分发方式可以提高速度近一倍,成果对天文海量数据开发处理有一定的借鉴作用。
分类: 天文学 >> 天文学 提交时间: 2020-12-21 合作期刊: 《天文研究与技术》
摘要: 射电脉冲信号在传输过程中受到星际介质的影响会导致轮廓展宽和变形,在研究过程中需要对信号进行消色散处理。本文设计并实现了基于零拷贝的脉冲星数据GPU相干消色散算法,采用设备内存映射以消除主机到设备的拷贝开销,利用CUDA的cuFFT库进行多BATCH傅里叶变换以提高DFT效率,同时采用多线程实现了传递函数的加速计算。实验结果表明,与传统CPU及GPU算法相比,本文提出的算法在大数据量时表现良好。
分类: 核科学技术 >> 辐射物理与技术 提交时间: 2023-06-01
摘要: In recent years, graphics processing units (GPUs) have been applied to accelerate Monte Carlo (MC) simulations for proton dose calculation in radiotherapy. Nonetheless, current GPU platforms, such as CUDA and OpenCL, suffer from cross-platform limitation or relatively high programming barrier. However, the Taichi toolkit, which was developed to overcome these difficulties, has been successfully applied to high-performance numerical computations. Based on the class II condensed history simulation scheme with various proton-nucleus interactions, we developed a proton MC transport GPU-accelerated engine using the Taichi toolkit. Dose distributions in homogeneous and heterogeneous materials were calculated for 110, 160, and 200 MeV protons and were compared with those obtained by full MC simulations using Topas. The gamma passing rates were greater than 0.99 and 0.95 with criteria of 2 mm, 2% and 1 mm, 1%, respectively, in all the tested conditions. Moreover, the calculation speed was at least 5800 times faster than that of Topas, and the number of lines of code was approximately 10 times lesser than those of CUDA or OpenCL. Our study provides a highly accurate, efficient, and easy-to-use proton dose calculation engine for algorithm developers, students, and medical physicists.
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-20 合作期刊: 《计算机应用研究》
摘要: 基于暗通道先验规律的去雾算法已取得了良好的去雾效果,但算法所需要的计算时间过长,无法达到实时去雾的要求。使用GPU初步并行实现了去雾算法,并确定了算法中需要优化的部分。在优化过程中,一方面将数据存储到高速内存中以实现对数据的快速读取,另一方面设计新的算法实现方式以减少算法的计算量,最终提高了加速比。优化后的加速算法,处理768×1024的图像仅需21 ms,达到了实时去雾的要求。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-02 合作期刊: 《计算机应用研究》
摘要: 为了解决粒子滤波多说话人跟踪过程中粒子易发散导致多目标跟踪精度低的问题,提出了并行粒子滤波和基于GPU的K-均值聚类的多声源定位方法。该方法首先分析了粒子滤波在实现多目标跟踪时,进行数据关联的过程产生较大的计算量,并且出现多个目标时,粒子会逐渐发散。针对计算量大和粒子发散的问题,提出了一种并行粒子滤波和K-均值聚类的方法。实验表明,随着粒子数和目标数的增加,计算量以指数增加,并且粒子发散严重,采用基于GPU的K-均值聚类方法的粒子滤波多说话人跟踪方法,相比传统粒子滤波跟踪方法具有更收敛的粒子集并且跟踪精度较高。
分类: 天文学 >> 天文学 提交时间: 2021-03-30 合作期刊: 《天文研究与技术》
摘要: 针对超宽带及多波束接收系统海量天文信号实时高效传输与处理问题,对基于FPGA+GPU的主流终端设备软件系统进行了测试分析,超宽带接收设备要求终端系统软件能够在更宽带宽,更高时间、频率分辨率条件下,实现实时数据流传输与处理。结合大口径射电观测设备未来发展方向提出了利用高速并行环形缓冲区实现数据流缓存、基于GPU集群实现数据流实时处理、基于BeeGFS实现分布式并行数据存储,模块化构建射电天文信号传输管道软件的设计思路。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-09-12 合作期刊: 《计算机应用研究》
摘要: 为了计算漫反射灰体表面之间的辐射传递系数,建立了三维灰立方体模型,在所建立的三维立体空间内表面选取发射表面,利用蒙特卡洛方法生成发射光线,并对光线进行光线追踪,计算发射表面与其他表面之间的辐射传递系数。针对基于蒙特卡洛法计算三维灰体表面之间辐射传递系数时耗时过长的问题,进行了基于显卡GPU实现蒙特卡洛并行计算的研究。利用统一编程架构CUDA对蒙特卡洛法进行了编程实现,采用CUDA随机数发生算法并行处理了求解辐射传递系数中的光线追踪过程,实现了计算辐射传递系数的并行方案。实验结果表明,相对于CPU串行计算方法,基于CUDA架构的并行蒙特卡洛法求解辐射传递系数可以取得高达80倍的计算加速比。
分类: 物理学 >> 核物理学 提交时间: 2023-06-18 合作期刊: 《Nuclear Science and Techniques》
摘要: In this paper, the adaptability of the neutron diffusion numerical algorithm on GPUs was studied, and a GPU-accelerated multi-group 3D neutron diffusion code based on finite difference method was developed. The IAEA 3D PWR benchmark problem was calculated in the numerical test. The results demonstrate both high efficiency and adequate accuracy of the GPU implementation for neutron diffusion equation.
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2017-03-10
摘要: 电子断层三维重构技术能够在纳米尺度下重构出不具有全同性的细胞或大分子的三维结构,已经成为一种公认的研究生物大分子结构强有力手段。然而,电子断层三维重构仍然存在二维图像对位不精确、重构算法精度低和重构速度极其缓慢等问题。针对以上问题,本文详细介绍了电子断层三维重构的发展和 现状,分析了当前所面临的主要挑战问题,着重介绍了我们在电子断层三维重构相关研究工作上的进展。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-10-11 合作期刊: 《计算机应用研究》
摘要: 潜在狄利克雷分布(LDA)是一种流行的三层贝叶斯概率模型,其实现了文本与文本中的单词在主题层次上的聚类。LDA以词袋(Bag of Words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(Expectation Maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词-单词和文档-主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行主题建模算法表现的更加优越,同时该模型提高了收敛速度和模型精度。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-08-13 合作期刊: 《计算机应用研究》
摘要: 针对基于GPU求解大规模稀疏线性方程组进行了研究,提出一种稀疏矩阵的分块存储格式HMEC (hybrid multiple ELL and CSR)。通过重排序优化系数矩阵的存储结构,将系数矩阵以一定的比例分块存储,采用ELL与CSR存储格式相结合的方式以适应不同的分块特征,分别使用适用于不对称矩阵的不完全LU分解预处理BICGStab法和对称正定矩阵的不完全Cholesky分解预处理共轭梯度法求解大规模稀疏线性系统。实验表明,应用HMEC格式存储稀疏矩阵并以调用GPU kernel的方式实现前述两种方法,与其他存储格式的实现方式作比较,最优可分别获得31.89% 和17.50%的加速效果。
分类: 物理学 >> 核物理学 提交时间: 2023-06-18 合作期刊: 《Nuclear Science and Techniques》
摘要: The key to large-scale parallel solutions of deterministic particle transport problem is single-node computation performance. Hence, single-node computation is often parallelized on multi-core or many-core computer architectures. However, the number of on-chip cores grows quickly with the scale-down of feature size in semiconductor technology. In this paper, we present a scalability investigation of one energy group time-independent deterministic discrete ordinates neutron transport in 3D Cartesian geometry (Sweep3D) on Intels Many Integrated Core (MIC) architecture, which can provide up to 62 cores with four hardware threads per core now and will own up to 72 in the future. The parallel programming model, OpenMP, and vector intrinsic functions are used to exploit thread parallelism and vector parallelism for the discrete ordinates method, respectively. The results on a 57-core MIC coprocessor show that the implementation of Sweep3D on MIC has good scalability in performance. In addition, the application of the Roofline model to assess the implementation and performance comparison between MIC and Tesla K20C Graphics Processing Unit (GPU) are also reported.