学术 - FindHao

TorchBench: Benchmarking PyTorch with High API Surface Coverage

最近，我们在arXiv发布了TorchBench的第一篇论文，TorchBench: Benchmarking PyTorch with High API Surface Coverage。代码开源在Github TorchBench TorchBench是一个基于PyTorch的深度学习框架的benchmarking框架。在这篇论文中，我们介绍了TorchBench目前包含的深度 more ...

提交overleaf项目到arxiv

在把overleaf项目提交到arxiv之前，需要做的修改。 1. 忽略其他的tex文件除了paper主要内容的tex文件，在其他tex文件（比如code，表格）的第一行添加%auto-ignore来让arixv忽略这个文件的编译。因为这些文件已经通过\input导入到了主要的tex文件里。 2. 缺失的样式文件下载缺失的样式文件，比如acmart.cls，上传到arxiv项目文件中。 https://github.com/acmccs/format/blob/mast more ...

写作Tips

diagrams 使用app.diagrams.net画图时，如果文字有多行，实际显示效果可能不同。尽管app里文字有自动换行，但是在生成的svg里，文本还是单行。在导出时，需要选择文本设置-->转换标签为svg，才能导出正确的svg。然后使用在线的svg转pdf来生成pdf。表格在excel里做好表格，ctrl + c复制要绘制的表格区域，然后在tablesgenerator --> File --&g more ...

使用GVProf测试Python程序

以pytorch/benchmark的alexnet为例，正常执行的命令是python3 run.py alexnet -d cuda -t eval hpcrun -e gpu=nvidia pyt more ...

解读CUDA汇编PTX(二) SASS nvdisasm工具

NVIDIA CUDA的NVCC编译过程之前已经介绍过了，编译ptx后，会生成cubin文件。 cubin文件是包含了CUDA执行代码节的ELF格式文件。类似于我们常见运行文件。而官方提供了两个工具来反编译cubin文件到sass文件（类似常见的汇编），官方使用文档。 nvdisasm n more ...

GPU benchmark说明

Introduction 本文内容主要系摘录翻译自Ang Li的博士毕业论文。 1.Perfect Power Efficiency Revolution for Embedded Computing http://hpc.pnl.gov/PERFECT/ more ...

浮点数的二进制存储 2

之前的那篇转载浮点数的存储转载内容比较粗糙。今天又花了点时间试了个具体的例子。部分内容摘自参考。以32bit浮点数 0.123456789的存储为例，通过在线进制转换获得其16进制表示为 3DFCD6E9 more ...

浮点数的存储[转载]

本文主要内容系转载。标准在 IEEE-754 规范[39]中，浮点数由三部分组成：符号位、指数部分和尾数部分（标准化表示方式）。单精度浮点数一般是用 4 字节（32bit）来表示。不同标准的单精度浮点数、半精度浮点数表示方式[39] 数据类型符号位指数部分尾数部分 more ...

NVIDIA存储架构速度

存储类型 Turing/Volta延迟 Pascal/Maxwell延迟 Register 6（No Bank Conflicts） 6（No Bank Conflicts） Shared 19（No more ...

GPU寄存器（二）

1. Introduction 本文介绍了NVIDIA GPU寄存器的相关内容。 2. GPU寄存器 2.1 物理寄存器的映射关于gpu寄存器之前我还整理过：GPU寄存器一个程序的近机器语言级别的中间语言中适用的寄存器，我们称之为“体系结构寄存器，architected register”，这些寄存器会被处理器映射到物理寄存器（Physical Registers）上。 CPU使用寄 more ...