分类: 学术

2017 Future Chips之旅

Introduction future chips首页 https://2017.futurechip.org/ 主办单位: 地点在清华大学。 今年的主题是: Smart Chips, Smar World. 邀请了很多学术界和工业界大牛来讨论前沿话题,包括芯片设计及其在人工智能上的应用。 12.18 caffe2作者贾扬清做了关于caffe2的介绍和演示等。 由于我们是临时改签车票走的,因此去的时候已经讲了一半。 分布式 随着数据量的增大,分布式在机器学习上将越来越广泛。 Batch Size...

Nvidia-docker 在docker里安装caffe2

Introduction 发现nvidia开始搞nvidia-docker! 如果GPU是共享资源,比如在服务器上,可能不同的用户需要不同的运行环境,但是像vbox这样的重量级虚拟机又过于笨重而且也不支持GPU的直接虚拟化。这时候,共享GPU的环境配置就成了一个大问题,尤其是在配置的应用可能会产生冲突的情况下。 nvidia-docker完美解决了这个问题! docker之前也写过一些简易的入门教程: Docker学习笔记目录 本文再记录下使用nvidia-docker,pull caffe2的...

图像的SNR信噪比

1.灰度值 图像灰度值的概念是什么?灰度也可以认为是亮度,简单说就是色彩的深浅程度。 所谓颜色或灰度级指黑白显示器中显示像素点的亮暗差别,在彩色显示器中表现为颜色的不同,灰度级越多,图像层次越清楚逼真。灰度级取决于每个像素对应的刷新存储单元的位数和显示器本身的性能。如每个象素的颜色用16位二进制数表示,我们就叫它16位图,它可以表达2的16次方即65536种颜色。如每一个象素采用24位二进制数表示,我们就叫它24位图,它可以表达2的24次方即16777216种颜色。 灰度就是没有色彩,RGB色彩...

Linux安装Nvidia 驱动

Introduction 记录一下从linux的源里安装驱动的命令。 不需要再自己下载run包,关X等。 命令 sudo apt install nvidia-cuda-dev 一般会自动安装最新的二进制driver比如nvidia-384,如果没有自动安装(debian可能会出现这个问题),自己手动安装ndivia-driver or 最新的nvidia-XXX即可。 重启 需要重启。 运行nvidia-smi查看驱动的安装情况: +——————————...

华为me909s 4G模块使用

1. Introduction 华为me909s是基于海思芯片方案的物联网无线通信模块,ME909s系列4G模块集成华为海思芯片平台,继承华为领先的LTE技术,集成DDR降低成本,采用车规级质量管控。同时作为全球首款Cat4 LTE工业模块,同步开放FOTA易升级、降低维护成本。 ME909s系列是车载、跟踪、工业路由器、安防监控、工业平板等行业应用的首选产品。 ME909s分为二个子型号,依据不同发货区域的频段需求区分如下: ME909s-120, 支持欧洲, 亚太, 拉美等海外市场. ME9...

解读CUDA汇编PTX(一) [翻译]

Introduction 本文系翻译文章Demystifying PTX Code。 在我最近的文章里,我展示了怎样从CUDA和OpenCL代码生成PTX文件,本文则将重点解读PTX文件里的复杂指令。 我们还是使用向量加法的代码 代码片段: https://gist.github.com/FindHao/394b2f069788e5a4c80a069638a47e1c 原作者的代码项目:https://github.com/pentschev/ptxtract 本文中,我们将关注OpenCL的P...

解读CUDA汇编PTX–目录

Introduction 近期在研究NVIDIA的CUDA 近汇编 PTX,还不算是真正的汇编,属于中间语言。这里翻译了部分网络上精彩的文章,以及官方的手册。 解读CUDA汇编PTX(一) [翻译] 本文系翻译。主要内容是对一个向量加法的PTX代码分析,适合入门阅读。 解读CUDA汇编PTX(二) SASS nvdisasm工具 工具的说明

NVCC编译过程

Introduction 本文介绍了编写的nVIDIA Cuda代码是如何编译成二进制的。 上图即为官方的流程图。 打印步骤 nvcc -O2 -c vectorAdd.cu -keep -arch sm_20 –dryrun 以samples/0_Simple/vectorAdd为例,写上述编译命令。由于vectoradd这个样例比较简单,因此可以直接使用命令进行编译。 参数说明: 参数 含义 O2 该优化选项会牺牲部分编译速度,除了执行-O1所执行的所有优化之外,还会采用几乎所有的目标配置...

Load Value Approximation(cache层的load近似化)

Introduction 近似计算已经成为了一个研究的热门。而且他跨越了多个层面,从电路层到体系结构层,到算法层。 谷歌学术搜索结果: 物理世界的本质 依照经验来看,物理世界的本质是连续的。但是我们没有足够的能力来处理这样连续的数据,至于还有什么原因,想出了模数转换这个方法,我也不清楚。 模数转换,必然性的导致了信息的缺失。 但是,最后应用基本都是面向人的,而人实际上是有很大限制的: 人眼分辨率600万左右 电影30FPS就不会觉得卡 人耳20Hz – 20kHz的声音 对于视频或者...

zedboard

zedboard Linux JTAG驱动解决There is no current hw_target问题

Introduction 本文介绍了在Linux下安装zedboard驱动解决vivado无法通过jtag连接到板子上的问题。 终于步入了helloworld阶段。之前折腾了下zedboard板子sd卡启动系统的问题,今天编写helloworld,运行。但是发现最后一步push到板子上时,vivado找不到板子。搜到了reddit的一篇讨论帖,解决了问题,这里对帖子内容进行简单的整理说明。 主要问题是驱动问题。 硬件软件环境 操作系统: Debian 9 x86_64 板子: zedboard ...