标签: CUDA

Linux安装Nvidia 驱动

Introduction 记录一下从linux的源里安装驱动的命令。 不需要再自己下载run包,关X等。 命令 sudo apt install nvidia-cuda-dev nvidia-cuda-toolkit 一般会自动安装最新的二进制driver比如nvidia-384,如果没有自动安装(debian可能会出现这个问题),自己手动安装ndivia-driver or 最新的nvidia-...

解读CUDA汇编PTX(一) [翻译]

Introduction 本文系翻译文章Demystifying PTX Code。 在我最近的文章里,我展示了怎样从CUDA和OpenCL代码生成PTX文件,本文则将重点解读PTX文件里的复杂指令。 我们还是使用向量加法的代码 代码片段: https://gist.github.com/FindHao/394b2f069788e5a4c80a069638a47e1c 原作者的代码项目:https...

解读CUDA汇编PTX–目录

Introduction 近期在研究NVIDIA的CUDA 近汇编 PTX,还不算是真正的汇编,属于中间语言。这里翻译了部分网络上精彩的文章,以及官方的手册。 解读CUDA汇编PTX(一) [翻译] 本文系翻译。主要内容是对一个向量加法的PTX代码分析,适合入门阅读。

NVCC编译过程

Introduction 本文介绍了编写的nVIDIA Cuda代码是如何编译成二进制的。 上图即为官方的流程图。 打印步骤 nvcc -O2 -c vectorAdd.cu -keep -arch sm_20 –dryrun 以samples/0_Simple/vectorAdd为例,写上述编译命令。由于vectoradd这个样例比较简单,因此可以直接使用命令进行编译。 参数说明: 参数 含义...

GPU 共享内存bank冲突(shared memory bank conflicts)

Introduction 本文总结了GPU上共享内存的bank conflicts。主要翻译自Reference和简单解释了课件内容。 共享内存(Shared Memory) 因为shared mempory是片上的(Cache级别),所以比局部内存(local memory)和全局内存(global memory)快很多,实际上,shared memory的延迟要比没有缓存的全局内存延迟小100...

NVIDIA Tegra TK/X系列板子的零拷贝(zero copy)问题

Introduction 本文原本系翻译,原文地址:Zero Copy on Tegra K1,后(2017.8.25)经学长(http://zangcq.me)指出文章错误,更新部分内容。 之前写过的关于cuda 零拷贝的文章: CUDA零复制内存 CUDA锁页内存和零复制 以下是NVIDIA论坛和Google Groups里关于tegra板子零拷贝的讨论,给出的观点也是零拷贝在unified ...

GPU寄存器

Introduction 本文将简单介绍GPU中的寄存器。 寄存器 寄存器是GPU片上高速缓存, 执行单元可以以极低的延迟访问寄存器。寄存器的基本单元式寄存器文件,每个寄存器文件大小为32bit。局部存储器对于每个线程,局部存储器也是私有的。如果寄存器被消耗完。数据将被存储在局部存储器中。如果每个线程使用了过多的寄存器,或声明了大型结构体或数据,或者编译器无法确定数据的大小,线程的私有数据就有可能...

远程调试nvidia jetson tk1 tx1 cuda板子

Introduction Nvidia针对异构本身有一套开发平台,叫NVIDIA® Nsight™,有很强的debug和程序分析工具。有Nsight Visual Studio和Nsight Eclipse两个版本。在这里的平台:Host: x86_64 Ubuntu 14.04 Tegra tx 1板子: Ubuntu 14.04.4 LTS Linux tegra-ubuntu 3.10.67...

Tegra Tx1 硬编码解码H265

Introducation NVIDIA® TEGRA® X1 全新的移动超级芯片 全新的 Tegra X1 是我们有史以来的移动处理器。 它拥有 256 个 NVIDIA Maxwell™ GPU 核心和一颗 64 位 CPU、具备无与伦比的 4K 视频功能和超越上一代产品的节能性与性能,所有这些使其能够完美适配挑战性的移动应用。 GPU NVIDIA Maxwell 256 核 GPU DX-...

Tegra TK1 TX1 源设置

Introducation 由于是arm平台,使用的应该是arm hf。教育网支持ipv6,改为国内的源更新会更快,速度可到10MB/s. 国内教育网的源 # See http://help.ubuntu.com/community/UpgradeNotes for how to upgrade to # newer versions of the distribution. deb http:/...