分类: 学术

GPGPU-Sim安装

Pre 我的安装环境 CUDA Toolkit 安装 设置环境变量 GPU Computing SDK 安装 设置环境变量 处理GPGPU-Sim的依赖 设置环境 benchmark测试 编译 配置文件 运行 Debug Reference Pre GPGPU-sim 是一个模拟NVIDIA GPU的开发工具。 官方主页 我的安装环境 Ubuntu 14.04 x64 无NVIDIA显卡 Lenovo Y471A CUDA Toolkit 安装 由于gpgpu-sim仅最高支持cudatoolk...

Cuda锁页内存和零复制

Pre 为了对某一数据集进行操作,你需要将数据从主机传输到设备上、在数据集上进行操作,然后将结果传输回主机。由于是在完全串行的方式下执行的,这将导致主机和设备在一段时间内都是闲置的,白白浪费了传输能力和计算能力。本文介绍了锁页内存(Pinned Memory/PageLocked Memory)和零复制(Zero Copy)来节省甚至去掉数据传输耗费。 锁页内存(Pinned Memory/PageLocked Memory) 主机处理器支持虚拟内存系统,其中物理内存也可以标记为换出状态,然后将...

Cuda基础

主机与设备 线程结构 关键特性 硬件映射 执行模型 nvcc编译器 CUDA存储器模型 主机与设备 运行在GPU上的CUDA并行计算函数成为kernel(内核函数),不是一个完整的程序,而是整个CUDA程序中一个可以被并行的步骤。一个完整的CUDA程序是有一系列的设备段kernel函数并行步骤和主机端的串行处理步骤共同组成的。这么步骤会按照程序中相应语句的顺序依次执行,满足顺序一致性 一个kernel函数中有两个层次的并行:Grid中的block间的并行和thread间并行。 在设备端运行的线程...