获得带源码行信息的cuda汇编

之前记录的一些cuda的用法中也有关于cuda汇编的一些介绍。本文主要记录了带源代码行信息的cuda汇编文件的获取。主要内容参考CUDA Binary Utilities 程序编译时需要添加的参数 在makefile或者cmakelist文件中,添加如下内容到nvccflag或者手动添加到nvcc编译的参 more ...

cuda unified memory

在Pacsal及更新的GPU中,managed memory在调用cudaMallocManaged()分配以后, 不一定在device memory上实际malloc。或者说,page和page table直到被GPU或CPU访问以后才被创建。page可以在任意时间迁移到任意memory,driver会采用启发算法来维护数据局部性和防止过多的page faults产生。 Reference https://developer.nvidia.com/blog/unified-memory-cuda-beginners/ more ...

cuda程序运行时间

写了两个脚本来获得通过nsys profile出来的cuda程序执行时间。 1. runnsys.sh runnsys.sh working_dir program args 第一个参数working_dir是设置后面你的程序在哪里跑。比如有些程序是编译在build/,但是实际input和work的目录在另外的目录下。这个参数设置为实际程序运行的目录即可。同时,reports也将生成在这个目录。 后面是正常运行cuda程序时的命令和参数。 more ...


CUDA 10 Memory Transaction的一个现象

1. Introduction 近日,在写一些microbenchmark分析cuda程序访存问题时,发现了一个有趣的问题。目前尚未找到合理的解释,先记录下来以待后续分析。 实验平台为:NVIDIA GTX950,sm5.0,maxwell架构。 2. Global Memory A memory "request" is an instruction which accesses memory, and a "transaction" is the movement of a unit of da more ...

CUDA Sanitizer Samples使用

1. Introduction CUDA 10.1推出了新的API:The Compute Sanitizer API,提供了更底层更丰富的Instrumentation API。 https://docs.nvidia.com/cuda/sanitizer-docs/SanitizerApiGuide/index.html 目前相关文档还比较简单,本文记录下官方Samp more ...

Deepin 15.10 安装cuda toolkit 10.1

1. Introduction deepin可以按照正常cuda toolkit的方式安装cuda 9.0,但是10.0+就出现了问题。查看安装日志也看不出所以然。在cuda论坛阴差阳错发现了一个用来解决其他问题的方法,但是可以用来解决deepin上cuda toolkit的安装。 2. 正常安装toolkit和driver的方法 2.1 禁用默认闭源驱动 # 使用vim或者其他编辑器添加配置文件 more ...

CUDA二进制探索

本文记录了探索NVIDIA CUDA SASS语法对应的二进制位的过程。 1. CUDA二进制文件 1.1 SASS NVCC编译过程和解读CUDA汇编PTX(二) SASS nvdisasm工具提过CUDA的汇编SASS,使用cuobjdump工具反编译出的SASS格式如下: more ...

GPU寄存器(二)

1. Introduction 本文介绍了NVIDIA GPU寄存器的相关内容。 2. GPU寄存器 2.1 物理寄存器的映射 关于gpu寄存器之前我还整理过:GPU寄存器 一个程序的近机器语言级别的中间语言中适用的寄存器,我们称之为“体系结构寄存器,architected register”,这些寄存器会被处理器映射到物理寄存器(Physical Registers)上。 CPU使用寄 more ...

半精度浮点数Half

1. Introduction 本文介绍了半精度浮点数的基本概念以及f32到f16转换的截断法。 混合精度逐渐成为提升深度学习速度的一种有效方法,其本质上,是以运算的精度换速度,当然前提是精度需要在可接受的范围内,或者说应用本身具有容错性(error tolerant)。 在cuda中,half2以及tensorcore的应用,就是对于精度损失容忍性的体现。 在线进制转换工具 2. 半精度浮点数 2.1 位宽 more ...