作者: Find

我的美国F1学生签证

终于把签证的问题也解决掉了,但是被check,应该是只给一年签。总结一下准备签证的过程。 背景说明: W&M phd 2019 fall,offer,cs 1. F1学生签证120天的规定 美国大使馆签证处官方的说法是:申请人最好在获得I-20表后尽快申请非移民学生签证,以便尽早安排签证面谈。请注意,学生签证的签发日期不会早于I-20表上注明的入学日期前120天。这个可以在申请签证的网站上常见问题FAQ-学生签证里找到,说明大使馆是允许提前面签的。 我预约签证的时间比这个120天早一周。...

GPU寄存器(二)

1. Introduction 本文介绍了NVIDIA GPU寄存器的相关内容。 2. GPU寄存器 2.1 物理寄存器的映射 关于gpu寄存器之前我还整理过:GPU寄存器 一个程序的近机器语言级别的中间语言中适用的寄存器,我们称之为“体系结构寄存器,architected register”,这些寄存器会被处理器映射到物理寄存器(Physical Registers)上。 CPU使用寄存器重命名(register renaming)和寄存器重命名表(Register Rename Table)...

Cache替换策略

1. Introduction 本文主要内容系Reference的整理,介绍了cache访问模式的分类和几种cache替换策略。 2. Cache访问模式分类 $$ \begin{align} &A:( a_1 , a_2 , … , a_{k-1} , a_k , a_k , a_{k-1} , … , a_2 , a_1 )^ N\text{ for any k}\\ &B:( a_1 , a_2 , … , a_k )^ N \text{...

罹生2018.12.6

失眠。 所以干脆不睡了。   我太渴望成功了。世俗意义上的成功。 所以我反而有点理解父亲得病时那种不甘心的表现,之后很久很久都没有走出的阴影,以及期间对健康的期望对锻炼身体的急迫。 这样的心态和人生是我想要的吗? 总是看到说走就走的旅行、归返山林的隐者,那这样的生活是我想要的吗?   从小被教育要出人头地,考试成绩好,夸奖和物质奖励,考差了,持续不断地批评,体罚印象里倒是不多。从一年级的第一场考试拿了双百获得的两本《小葵花》开始,我享受到了这种反馈激励奖惩措施的好处。或许是因...

Qt 5.9.0 MinGW 静态编译版本

1. Introduction 本文主要内容系转载自Qt for Windows:Qt 5.9.0 MinGW 静态编译版本(包含OpenSSL),后面添加了upx二进制压缩加壳工具的简单说明。 最近想起很久以前写的一个工具,发现使用的依赖源仍在更新,就顺手修改了下依赖源更新了一版。记录下qt的安装编译环境。 2. Qt静态编译环境配置 2.1 下载编译好的包 原博主分享的包 2.2 安装Qt5.9.0 由于原博主是基于5.9.0编译的,建议下载5.9.0版本的qt: https://downl...

半精度浮点数Half

1. Introduction 本文介绍了半精度浮点数的基本概念以及f32到f16转换的截断法。 混合精度逐渐成为提升深度学习速度的一种有效方法,其本质上,是以运算的精度换速度,当然前提是精度需要在可接受的范围内,或者说应用本身具有容错性(error tolerant)。 在cuda中,half2以及tensorcore的应用,就是对于精度损失容忍性的体现。 在线进制转换工具 2. 半精度浮点数 2.1 位宽 一个float单精度浮点数一般是4bytes(32bit)来表示,由三部分组成:符号位...

PTXPlus笔记

修改ptxplus建议 在gpgpusim源码src/cuda-sim/ptx_loader.cc的函数 char *gpgpu_ptx_sim_convert_ptx_and_sass_to_ptxplus(const std::string ptxfilename, const std::string elffilename,const std::string sassfilename)中,std::ifstream fileStream(fname_ptxplus, std::ios::i...

NVIDIA存储架构速度

GPU不同级别的存储架构有着不同的运行速度,下面是官方的ptx手册中的访问速度表格,比较粗略,以后想起来在哪篇论文里有更详细的再补充。 Space Time Notes Register 0   Shared 0   Constant 0 Amortized cost is low, first access is high Local > 100 clocks   Parameter 0   Immediate 0   Global &g...

使用GPGPU-SIM做实验

1. Introduction 本文说明了使用gpgpusim做实验需要注意的问题以及做出的修改。 强烈不推荐使用gpgpusim做实验。 如果是改SASS,建议maxas或者asfermi(尽管他们可能会有这样那样的问题,而且使用起来难度不小)。使用模拟器,是被reviewer攻击的常用点,除非你有足够强有力的解释,否则这会成为你论文的掣肘。 使用模拟器发的A,一般工作量会很多。 2. 环境搭建 2.1 编译运行环境 docker里跑gpgpusim gpgpusim runtime的dock...

cuda寄存器限制launch_bound和maxrregcount

一个CUDA程序如果使用的寄存器数量过多,会导致在SM上同时驻留的线程和block数量减少,继而导致程序性能不足。 __launch_bounds__和maxrregcount都可以用来限制cuda程序的寄存器数量,但是两者是不同的机制。 __launch_bounds__ __global__ void __launch_bounds__(maxThreadsPerBlock, minBlocksPerMultiprocessor) MyKernel(…) { … } maxThrea...