TorchBench: Benchmarking PyTorch with High API Surface Coverage 最近,我们在arXiv发布了TorchBench的第一篇论文,TorchBench: Benchmarking PyTorch with High API Surface Coverage。代码开源在Github TorchBench TorchBench是一个基于PyTorch的深度学习框架的benchmarking框架。在这篇论文中,我们介绍了TorchBench目前包含的深度 more ...
提交overleaf项目到arxiv 在把overleaf项目提交到arxiv之前,需要做的修改。 1. 忽略其他的tex文件 除了paper主要内容的tex文件,在其他tex文件(比如code,表格)的第一行添加%auto-ignore来让arixv忽略这个文件的编译。因为这些文件已经通过\input导入到了主要的tex文件里。 2. 缺失的样式文件 下载缺失的样式文件,比如acmart.cls,上传到arxiv项目文件中。 https://github.com/acmccs/format/blob/mast more ...
Spack基础 Spack 是一个跨平台的包管理器,可以用来安装和编译不同版本的软件,使得他们不与系统环境冲突并且多个版本可以共存。 1. 下载和安装 spack无需安装,下载完成后,直接调用/spack/bin/下的可执行文件即可。 git clone https://github.com/spack/spack.git export more ...
写作Tips diagrams 使用app.diagrams.net画图时,如果文字有多行,实际显示效果可能不同。尽管app里文字有自动换行,但是在生成的svg里,文本还是单行。在导出时,需要选择文本设置-->转换标签为svg,才能导出正确的svg。然后使用在线的svg转pdf来生成pdf。 表格 在excel里做好表格,ctrl + c复制要绘制的表格区域,然后在tablesgenerator --> File --&g more ...
nsight compute和nsight system的使用笔记 使用ncu和nsys cli的笔记,持续更新。 Nsight Compute ncu主要是获取更细粒度的intra kernel的hardware counters。 官方手册 官方的profile 指导手册 more ...
使用GVProf测试Python程序 以pytorch/benchmark的alexnet为例,正常执行的命令是python3 run.py alexnet -d cuda -t eval hpcrun -e gpu=nvidia pyt more ...
AMD ROCm学习 rocm是amd推出的类NVIDIA CUDA的开源的开发平台。 架构的变化(todo) 与cuda对比 CUDA ROCm Description SM Compute Unit, CU One of many more ...
cuda程序运行时间 写了两个脚本来获得通过nsys profile出来的cuda程序执行时间。 1. runnsys.sh runnsys.sh working_dir program args 第一个参数working_dir是设置后面你的程序在哪里跑。比如有些程序是编译在build/,但是实际input和work的目录在另外的目录下。这个参数设置为实际程序运行的目录即可。同时,reports也将生成在这个目录。 后面是正常运行cuda程序时的命令和参数。 more ...
opencv4 c++ 编译 1. 下载 https://github.com/opencv/opencv/releases https://github.com/opencv/opencv_contrib/releases 下载两个压缩包解压出来。 2. Cmake more ...