cuda - FindHao

Linux安装Nvidia 驱动

1. Introduction 记录使用nvidia cuda run包安装驱动和cuda toolkit的过程。 2. 下载run包 deepin15.10基于debian stable，因此使用ubuntu的底包即可： https://dev more ...

CUDA二进制探索

本文记录了探索NVIDIA CUDA SASS语法对应的二进制位的过程。 1. CUDA二进制文件 1.1 SASS NVCC编译过程和解读CUDA汇编PTX(二) SASS nvdisasm工具提过CUDA的汇编SASS，使用cuobjdump工具反编译出的SASS格式如下： more ...

virutalbox虚拟机下使用jetpack3.2对jetson tx2刷机

1. Introduction 本文介绍了使用virtualbox里的Ubuntu16.04作为Host来刷jetson tx2的jetpack3.2包的过程。可有效解决Install JetPack 3.2 Failed "E: fopen failed with file local.db, errno = 2"的问题。 2. 环境介绍 PC的真正Host是Debian9 VirtualBox 虚拟机 VirtualBox里的Ubuntu16.04作为刷机的Host J more ...

GPU寄存器（二）

1. Introduction 本文介绍了NVIDIA GPU寄存器的相关内容。 2. GPU寄存器 2.1 物理寄存器的映射关于gpu寄存器之前我还整理过：GPU寄存器一个程序的近机器语言级别的中间语言中适用的寄存器，我们称之为“体系结构寄存器，architected register”，这些寄存器会被处理器映射到物理寄存器（Physical Registers）上。 CPU使用寄 more ...

paper阅读01-GPU Scheduling on the NVIDIA TX2: Hidden Details Revealed

以前读完论文并没有写keynotes的习惯，顶多在mendeley上做些标注，但是过段时间再看，还是需要花费一定的时间来理顺思路。所以准备从现在开始对阅读过的论文做一些自己认为重要的备注。 GPU Scheduling on the NVIDIA TX2: Hidden Details Revealed 2017 IEEE Real-Time Systems Symposiu more ...

半精度浮点数Half

1. Introduction 本文介绍了半精度浮点数的基本概念以及f32到f16转换的截断法。混合精度逐渐成为提升深度学习速度的一种有效方法，其本质上，是以运算的精度换速度，当然前提是精度需要在可接受的范围内，或者说应用本身具有容错性（error tolerant）。在cuda中，half2以及tensorcore的应用，就是对于精度损失容忍性的体现。在线进制转换工具 2. 半精度浮点数 2.1 位宽 more ...

gpgpusim runtime的dockerfile

Introduction 之前写过一篇在docker里跑gpgpusim（下称参考文献1），今天花了一点时间，写了个完整的dockerfile，并上传到了docker hub上去。现在简化一下运行的步骤。 gpgpusim-runtime 在docker hub的地址： https://hub.docker.com/r/findhao/gpgpusim_runtime/ 运行执行参考文 more ...

PTXPlus笔记

修改PTXPlus做实验的几个建议

more ...

使用GPGPU-SIM做实验

1. Introduction 本文说明了使用gpgpusim做实验需要注意的问题以及做出的修改。强烈不推荐使用gpgpusim做实验。如果是改SASS，建议maxas或者asfermi（尽管他们可能会有这样那样的问题，而且使用起来难度不小）。使用模拟器，是被reviewer攻击的常用点，除非你有足够强有力的解释，否则这会成为你论文的掣肘。使用模拟器发的A，一般工作量会很多。 more ...

cuda寄存器限制launch_bound和maxrregcount

一个CUDA程序如果使用的寄存器数量过多，会导致在SM上同时驻留的线程和block数量减少，继而导致程序性能不足。 __launch_bounds__和maxrregcount都可以用来限制cuda程序的寄存器数量，但是两者是不同的机制。 __launch_bounds__ __global__ more ...