还剩8页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
【计算机视觉】如何入门计算机视觉,10条你不能不看的总结新机器视觉2020-01-10原文作者ZeroZone零域链接https://blog.csdn.net/ksws0292756/article/details/78881839导读目前,人工智能,机器学习,深度学习,计算机视觉等己经成为新时代的风向标这篇文章次要引见了下面几点第一点,假如说你要入门计算机视觉,需要了解哪一些基础学问?其次点,既然你要往这方面学习,你要了解的参考书籍,可以学习的一些公开课有哪些?第三点,可能是大家都比较感爱好的,就是计算机视觉作为人工智能的一个分支,它不行避开的要跟深度学习做结合,而深度学习也可以说是融合到了计算机视觉、图像处理,包括我们说的自然言语处理,所以本文也会简约引见一下计算机视觉与深度学习的结合第四点,身处计算机领域,我们不行避开的会去做开源的工作,所以本文会给大家引见一些开源的软件第五点,要学习或者争辩计算机视觉,确定是需要去阅读一些文献的,那么我们如何开头阅读文献,以及渐渐的找到本人在这个领域的方向,这些都会在本文理进行简约的引见基础学问接下来要引见的,第一点是计算机视觉是什么意思,其次是图像、视频的一些基础学问包括摄像机的硬件,以及CPU和GPU的运算在计算机视觉里面,我们也不行避开的会涉及到考虑去使用CPU还是使用GPU去做运算然后就是它跟其他学科的交叉,由于计算机视觉可以和很多的学科做交叉,而且在做学科交叉的时候,能够发挥的意义和使用价值也会更大另外,对于以前并不是做人工智能的伴侣,可能是做软件开发的,想去转型做计算机视觉,该如何转型?需要学习哪些编程言语以及数学基础?这些都会在第一小节给大家引见什么是计算机视觉计算机视觉是一门争辩如何使机器“看”的科学更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观看或传送给一起检测的图像作为一个科学学科,计算机视觉争辩相关的理论和技术,视图建立能够从图像或者多维数据中猎取“信息”的人工智能系统目前,格外火的VR、AR3D处理等方向,都是计算机视觉的一部分计算机视觉的使用无人驾驶无人安防人脸识别车辆车牌识别以图搜图VR/AR3D重构医学图像分析无人机其他了解了计算机视觉是什么之后,给大家列了一下当前计算机视觉领域的一些使用,几乎可以说是无处不在,而且当前最火的全部创业的方向都涵盖在里面了其中包括我们经常提到的无人驾驶、无人安防、人脸识别人脸识别相对来说己经是一个最成熟的使用领域了,然后还有文字识别、车辆车牌识别,还有以图搜图、VR/AR还包括3D重构,以及当下很有前景的领域-医学图像分析医学图像分析他在很早就被提出来了,已经争辩了很久,但是现在得到了一个重新的进展,更多的争辩人员包括无论是做图像的争辩人员,还是本身就在医疗领域的争辩人员,都越来越关注计算机视觉、人工智能跟医学图像的分析而且在当下,医学图像分析也孕育了不少的创业公司,这个方向的将来前景还是很值得期盼的然后除此之外还包括无人机,无人驾驶等,都使用到了计算机视觉的技术图像和视频,你要晓得的概念图像一张图片包含了维数、高度、宽度、深度、通道数、颜色格式、数据首地址、结束地址、数据量等等举例JPEG压缩将原始图像分为8*8的小块,每个block里有64pixels0将图像中每个8*8的block进行DCT变换(越是简单的图像,越不简约被压缩)3不同的图像被分割后,每个小块的简单度不一样,所以最终的压缩结果也不一样o当一个像素占用的位数越多时,它所能表现的颜色就更多,更丰富o举例一张400*400的8位图,这张图的原始数据量是多少?像素值假如是整型的话,取值范围是多少?1,原始数据量计算400*400*(8/8)=160000Bytes(约为160K)2取值范围2的8次方,0-255o图像深度存储每个像素所用的位数(bits)o图片格式与压缩常见的图片格式JPEGPNGBMP等本质上都是图片的一种压缩编码方式视频原始视频=图片序列视频中的每张有序图片称为帧(frame)\压缩后的视频,会实行各种算法削减数据的容量,其中IPB就是最常见的I帧表示关键帧,可以理解为这一幅画面的完整保留;解码时只需要本帧数据就可以完成(由于包含完整画面)P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面(也就是差别帧,P帧没有完整画面数据,只要与前一帧画面差别的数据)oB帧表示双向差别帧,记录的本帧与前后帧的差别(具体比较简单,有4种情况),换言之,要解码B帧,不只要取得之前的缓存画面,还要解码之后的画面,要通过前后画面与本帧数据的叠加取得最终的画面B帧压缩率高,但是解码比较麻烦码率码率越大,体积越大;码率越小,体积越小码率就是数据传输时单位时间传送的数据位数,一般我们用的单位是kbps即千位每秒也就是取样率(并不等同于采样率,采样率用的单位是Hz表示每秒采样的次数),单位时间内取样率越大,精度就越高,处理出来的文件就越接近原始文件,但是文件体积与取样率是成反比的,所以几乎全部的编码格式注重的都是如何用最低的码率达到最少的失真,围绕这个核心衍生出来cbr(固定码率)与vbr(可变码率),码率越高越清楚,反之则画面粗糙而且多马赛克帧率影响画面流畅度,与画面流畅度成反比帧率越大,画面越流畅;帧率越小,画面越有跳动感假如码率为变量,则帧率也会影响体积,帧率越高,每秒钟经过的画面就越多,需要的码率也越高,体积也越大帧率就是在一秒钟时间里传输的图片的帧数,也可以理解为图形处理器每秒钟刷新的次数o辨别率o影响图像大小,与图像大小成反比;辨别率越高,图像越大;辨别率越低,图像越小清楚度在码率肯定的情况下,辨别率与清楚度成反比关系辨别率越高,图像越不清楚,辨别率越低,图像越清楚在辨别率肯定的情况下,码率与清楚度成反比关系码率越高,图像越清楚;码率越低,图像越不清楚带宽、帧率例如在ADSL线路上传输图像,上行带宽只要512Kbps,但要传输4路CIF辨别率的图像依据常规,CIF辨别率建议码率是512Kbps那么照此计算就只能传一路,降低码率势必会影响图像质量那么为了确保图像质量,就必需降低帧率,这样一来,即便降低码率也不会影响图像质量,但在图像的连贯性上会有影响摄像机摄像机的分类监控摄像机(网络摄像机和摸你摄像机)不同行业需求的摄像机(超宽动态摄像机、红外摄像机、热成像摄像机等)智能摄像机工业摄像机当前的摄像机硬件我们可以分为监控摄像机、专业行业使用的摄像机、智能摄像机和工业摄像机而在监控摄像机里面,当前用的比较多的两个类型一个叫做网络摄像机,一个叫做模仿摄相机,他们次要是成像的原理不太一样网络摄像机一般比传统模仿摄相机的清楚度要高一些,模仿摄像机当前该当说是渐渐处于一个淘汰的形态,它可以理解为是上一代的监控摄像机,而网络摄像机是当前的一个主流的摄相机,或许在13年的时候,可能市场上70%到80%多都是模仿摄像机,而现在可能60%到70%都是的网络摄像机除此之外,不同的行业其时会有特定的相机,想超宽动态摄像机以及红外摄像机、热成像摄像机,都是在公用的特定的领域里面可能用到的,而且他获得的画面跟图像是完全不一样的假如我们要做图像处理跟计算机视觉分析,什么样的相机对你更有利,我们要学会利用硬件的优势假如是做争辩的话一般是可以把握我们用什么样的摄相机,但假如是在实际的使用场景,这个把控的可能性会略微小一点,但是在这里你要晓得,有些问题可能你换一种硬件,它就能够很好的被处理,这是一个思路还有些问题你可能用算法弄了很久也没能处理,甚至是你的效率格外差,成本格外高,但是稍稍换一换硬件,你会发觉原来的问题都不存在了,都被很好的处理了,这个就是硬件对你的一个新的境况了包括现在还有智能摄像机、工业摄像机,工业摄像机一般的价格也会比较贵,由于他公用于各种工业领域,或者是做一些精密仪器,高精度高清楚度要求的摄像机CPU和GPU接下来给大家讲一下CPU跟GPU假如说你要做计算机视觉跟图像处理,那么确定跳不过GPU运算,GPU运算这一块可能也是接下来需要学习或者自学的一个学问点由于可以看到,当前大部分关于计算机视觉的论文,很多实现起来都是用GPU去实现的,但是在使用领域,由于GPU的价格比较昂贵,所以CPU的使用场景相对来说还是占大部分而CPU跟GPU的差别次要在哪里呢?它们的差别次要可以在两个方面去对比,第一个叫功能,其次个叫做吞吐量功能,换言之,功能会换成另外一个单词叫做Latency(低延时性)低延时性就是当你的功能越好,你处理分析的效率越高,相当于你的延时性就越低,这个是功能另外一个叫做吞吐量,吞吐量的意思就是你同时能够处理的数据量而CPU跟GPU的差别在哪里呢?次要就在于这两个地方,CPU它是一个高功能,就是超低延时性的,他能够快速的去做简单运算,并且能达到一个很好的功能要求而GPU是以一个叫做运算单元为格式的,所以他的优点不在于低延时性,由于他的确不擅长做简单运算,他每一个处理器都格外的小,相对来说会很弱,但是它可以让它全部的弱处理器,同时去做处理,那相当于他就能够同时处理大量的数据,那这个就意味着它的吞吐量格外大,所以CPU注重的是功能,GPU注重的是吞吐量所以大部分时候,GPU他会跟另外一个词语联系在一起,叫做并行计算,意思就是它可以同时做大量的线程运算,为什么图像会特殊适合用GPU运算呢?这是由于GPU它最开头的设计就是叫做图形处理单元,它的意思就是我可以把每一个像素,分割为一个线程去运算,每一个像素只做一些简约的运算,这个就是最开头图形处理器消灭的原理它要做图形渲染的时候,要计算的是每一个像素的变换所以每一个像素变换的计算量是很小很小的,可能就是一个公式的计算,计算量很少,它可以放在一个简约的计算单元里面去做计算,那这个就是CPU跟GPU的差别基于这样的差别,我们才会去设计什么时候用CPU什么时候用GPU假如你当前设计的算法,它的并行力量不是很强,从头到尾从上到下都是一个简单的计算,没有太多可并性的地方,那么即便你用了GPU也不能挂念你很好提升计算功能所以,不要说别人都在用GPU那你就用GPU我们要了解的是为什么要用GPU以及什么样的情况下用GPU它效果能够发挥出来最好计算机视觉与其他学科的关系计算机视觉目前跟其他学科的关系格外的多,包括机器人,以及刚才提到的医疗、物理、图像、卫星图片的处理,这些都会经常使用到计算机视觉,那这里呢,最常问到的问题无非就是有三个概念,一个叫做计算机视觉,一个叫做机器视觉,一个叫做图像处理,那这三个东西有什么区分呢?这三个东西的区分还是挺因人而异的,每一个争辩人员对它的理解都不一样首先,ImageProcessing更多的是图形图像的一些处理,图像像素级别的一些处理,包括3D的处理,更多的会理解为是一个图像的处理;而机器视觉呢,更多的是它还结合到了硬件层面的处理,就是软硬件结合的图形计算的力量,跟图形智能化的力量,我们一般会理解为他就是所谓的机器视觉而我们今日所说的计算机视觉,更多的是偏向于软件层面的计算机处理,而且不是说做图像的识别这么简约,更多的还包括了对图像的理解,甚至是对图像的一些变换处理,当前我们涉及到的一些图像的生成,也是可以归类到这个计算机视觉领域里面的所以说计算机视觉它本身的也是一个很基础的学科,可以跟各个学科做交叉,同时,它本人内部也会分的比较细,包括机器视觉、图像处理参考书籍和公开课参考书第一本叫《ComputerVision:ModelsLearningandInferencewrittenbySimonJ.D.prince这个次要讲的更适合入门级别的,由于这本书里面配套了格外多的代码,Matlab代码C的代码都有,配套了格外多的学习代码,以及参考材料、文献,都配得格外具体,所以它很适合入门级别的同学去看其次本ComputerVision AlgorithmsandApplications》writtenbyRichardSzeliski这是一本格外经典,格外权威的参考材料,这本书不是用来看的,是用来查的,类似于一本工具书,它是涵盖面最广的一本参考书籍,所以一般会可以当成工具书去看,去查阅第三本《OpenCV3编程入门》作者毛星云,冷雪飞,假如想快速的上手去实现一些项目,可以看看这本书,它可以教你动手实现一些例子,并且学习到OpenCV最经典、最广泛的计算机视觉开源库公开课StanfordCS223B比较适合基础,适合刚刚入门的同学,跟深度学习的结合相对来说会少一点,不会整门课讲深度学习,而是次要讲计算机视觉,方方面面都会讲到StanfordCS231N这个该当不用引见了,一般很多人都晓得,这个是计算机视觉和深度学习结合的一门课,我们上YouTube就能够看到,这门课的授课老师就是李飞飞老师,假如说不晓得的话可以查一下,做计算机视觉的话,此人算是业界和学术界的“执牛耳”了.需要了解的深度学习学问深度学习没有太多的要讲的,不是说内容不多,是格外多,这里只推举一本书给大家,这本书是去年年底才出的,是最新的一本深度学习的书,它讲得格外金面,从基础的数学,到刚才说的概率学、统计学、机器学习以及微积分、线性几何的学问点,格外的全面.需要了解和学习的开源框架OpenCV它是一个很经典的计算机视觉库,实现了很多计算机视觉的常用算法可以挂念大家快速上手Caffe假如是做计算机视觉的话,比较建议CaffeoCaffe更擅长做的是卷积神经网络,卷积神经网络在计算机视觉里面用的是最多的所以无论你后面学什么样其它的开源软件,Caffe是必不行免的,由于学完Caffe之后你会发觉,假如你理解了Caffe会用Caffe甚至是无力量去改它的源代码,你就会发觉你对深度学习有了一个质的飞跃的理解TensorFlowTensorFlow最近很火,但是它的入门门槛不低,你要学会使用它需要的时间远比其他全部的软件都要多,其次就是它当前还不是特殊的成熟稳定,所以版本之间的更新迭代格外的多,兼容性并不好,运转效率还有格外大的提升空间.如何阅读相关文献先生疏所在方向的进展历程,然后精读历程中的里程碑式的文献例如深度学习做目标检测,RCNNFastRCNNFasterRCNNSPPNETSSD和YOLO这些模型确定是要晓得的又例如,深度学习做目标跟踪DLTSO・DLT等ConferenceonComputerVision国际计算机视觉大会ConferenceonComputerVisionandPatternRecognition机视觉与模式识别大会ECCV:EuropeanConferenceonComputerVision欧洲计算机视觉大会除了顶会之外呢,还有顶刊像PAMI、IJCV这些都是顶刊,它代表着这个领先进制造业+工业互联网。