CUDA Sanitizer Samples使用

1. IntroductionCUDA 10.1推出了新的API:The Compute Sanitizer API,提供了更底层更丰富的Instrumentation API。https://docs.nvidia.com/cuda/sanitizer-docs/SanitizerApiGuide/index.html目前相关文档还比较简单,本文记录下官方Samp more ...

Deepin 15.10 安装cuda toolkit 10.1

1. Introductiondeepin可以按照正常cuda toolkit的方式安装cuda 9.0,但是10.0+就出现了问题。查看安装日志也看不出所以然。在cuda论坛阴差阳错发现了一个用来解决其他问题的方法,但是可以用来解决deepin上cuda toolkit的安装。2. 正常安装toolkit和driver的方法2.1 禁用默认闭源驱动# 使用vim或者其他编辑器添加配置文件 more ...

加入Deepin派系

1. Introduction前段时间偶然再次看到deepin的消息,拜读了前deepin CTO 王勇的博客,被大牛的成长历程震撼到,于是在虚拟机里安装deepin15.10体验了下。想起上一次用deepin,好像还是2012年。在虚拟机里用了几天,发现意外地好用。简单总结deepin的几点优势和遇到的问题。2. 优势我使用Linux作为主系统大概有6年,在使用的过程中,越来越发现,一个稳定、应用支持足够丰富无bug的系统,才是我的需求 more ...

从Wordpress到Pelican

1. Introduction博客对于我的作用,更多是整理知识、备忘。但是随着内容增多,以及因为安全防护问题使用cloudflare作为防火墙,wordpress搭建的博客越来越慢。很早之前就有了对博客进行一次大整理的念头,并有意识地寻找替代框架。在给工具写文档时,发现了pelican,一个python写的静态网站生成器。静态网站生成器的特点就是可DIY性非常强,或者说很多东西都得手撸。于是2019年开始准备把博客从wordpress迁移到pelican上来。 more ...

Qt 5.9.0 MinGW 静态编译版本

1. Introduction本文主要内容系转载自Qt for Windows:Qt 5.9.0 MinGW 静态编译版本(包含OpenSSL),后面添加了upx二进制压缩加壳工具的简单说明。最近想起很久以前写的一个工具,发现使用的依赖源仍在更新,就顺手修改了下依赖源更新了一版。记录下qt的安装编译环境。2. Qt静态编译环境配置2.1 下载编译好的包 more ...

半精度浮点数Half

1. Introduction本文介绍了半精度浮点数的基本概念以及f32到f16转换的截断法。混合精度逐渐成为提升深度学习速度的一种有效方法,其本质上,是以运算的精度换速度,当然前提是精度需要在可接受的范围内,或者说应用本身具有容错性(error tolerant)。在cuda中,half2以及tensorcore的应用,就是对于精度损失容忍性的体现。在线进制转换工具2. 半精度浮点数2.1 位宽 more ...



使用GPGPU-SIM做实验

1. Introduction本文说明了使用gpgpusim做实验需要注意的问题以及做出的修改。强烈不推荐使用gpgpusim做实验。如果是改SASS,建议maxas或者asfermi(尽管他们可能会有这样那样的问题,而且使用起来难度不小)。使用模拟器,是被reviewer攻击的常用点,除非你有足够强有力的解释,否则这会成为你论文的掣肘。使用模拟器发的A,一般工作量会很多。 more ...

cuda寄存器限制launch_bound和maxrregcount

一个CUDA程序如果使用的寄存器数量过多,会导致在SM上同时驻留的线程和block数量减少,继而导致程序性能不足。__launch_bounds__和maxrregcount都可以用来限制cuda程序的寄存器数量,但是两者是不同的机制。__launch_bounds____global__ void more ...