Ubuntu下开启TPM2.0安装nvidia driver

windows 11 发布了,新系统要求开启TPM2.0(一个安全芯片标准,8代及以后的intel和较新的amd cpu都支持)。但是之前在ubuntu下使用run包装nvidia 驱动时,一般都会遵循一些教程关闭UEFI的secure boot,同时也就关闭了TPM等。本文记录了如何开启TPM,在ubuntu下安装nvidia gpu driver。 开启TPM 以华硕主板, amd cpu为例,在UEFI中找到启动-->安全启动-->OS Type,选择Windows UEFT 模式。 在高级-->AMD fTPM设置, more ...

AMD ROCm学习

rocm是amd推出的类NVIDIA CUDA的开源的开发平台。 架构的变化(todo) 与cuda对比 CUDA ROCm Description SM Compute Unit, CU One of many more ...

CUDA 10 Memory Transaction的一个现象

1. Introduction 近日,在写一些microbenchmark分析cuda程序访存问题时,发现了一个有趣的问题。目前尚未找到合理的解释,先记录下来以待后续分析。 实验平台为:NVIDIA GTX950,sm5.0,maxwell架构。 2. Global Memory A memory "request" is an instruction which accesses memory, and a "transaction" is the movement of a unit of da more ...

CUDA Sanitizer Samples使用

1. Introduction CUDA 10.1推出了新的API:The Compute Sanitizer API,提供了更底层更丰富的Instrumentation API。 https://docs.nvidia.com/cuda/sanitizer-docs/SanitizerApiGuide/index.html 目前相关文档还比较简单,本文记录下官方Samp more ...

半精度浮点数Half

1. Introduction 本文介绍了半精度浮点数的基本概念以及f32到f16转换的截断法。 混合精度逐渐成为提升深度学习速度的一种有效方法,其本质上,是以运算的精度换速度,当然前提是精度需要在可接受的范围内,或者说应用本身具有容错性(error tolerant)。 在cuda中,half2以及tensorcore的应用,就是对于精度损失容忍性的体现。 在线进制转换工具 2. 半精度浮点数 2.1 位宽 more ...



使用GPGPU-SIM做实验

1. Introduction 本文说明了使用gpgpusim做实验需要注意的问题以及做出的修改。 强烈不推荐使用gpgpusim做实验。 如果是改SASS,建议maxas或者asfermi(尽管他们可能会有这样那样的问题,而且使用起来难度不小)。使用模拟器,是被reviewer攻击的常用点,除非你有足够强有力的解释,否则这会成为你论文的掣肘。 使用模拟器发的A,一般工作量会很多。 more ...

cuda寄存器限制launch_bound和maxrregcount

一个CUDA程序如果使用的寄存器数量过多,会导致在SM上同时驻留的线程和block数量减少,继而导致程序性能不足。 __launch_bounds__和maxrregcount都可以用来限制cuda程序的寄存器数量,但是两者是不同的机制。 __launch_bounds__ __global__ vo more ...