什么是计算机视觉?
计算机视觉为何如此重要?
尽管视觉信息处理技术已经存在了一段时间,但这一过程的很大一部分需要人工干预,而且既耗时,又容易出错。例如,以前在实施面部识别系统时,开发人员需要利用关键数据点(例如鼻梁的宽度和双眼之间的距离)手动标记数以千计的图像。要将这些任务自动化,需要投入大量的计算能力,原因在于图像数据是非结构化的,而且非常复杂,因此计算机很难整理这些数据。因此,对大多数组织而言,视觉应用程序代价不菲,可望而不可及。
如今,随着这一领域的不断进步和计算能力的显著提高,图像数据处理的规模和准确性都得到了提升。现在,每个人都可以使用由云计算资源提供支持的计算机视觉系统。任何组织都可以利用这项技术进行身份验证、内容审核、流式处理视频分析、故障检测等等。
使用案例
计算机视觉的工作原理是什么?
计算机视觉系统利用人工智能(AI)技术模仿负责对象识别和对象分类的人脑能力。计算机科学家训练计算机,以通过输入大量信息来识别视觉数据。机器学习(ML)算法可识别这些图像或视频中的常见模式,并利用这些知识准确地识别未知的图像。例如,在计算机处理数百万张汽车图像之后,它们将开始建立身份模式,这样就可以准确地检测图像中的车辆。下面列举了计算机视觉采用的一些技术。
卷积神经网络
卷积神经网络(CNN)利用标签系统对视觉数据进行分类并理解整个图像。它们将图像作为像素进行分析,并为每个像素赋予一个标签值。输入此值是为了执行被称为“卷积”的数学运算,并对图像进行预测。就像人类尝试识别远处的对象那样,CNN 会首先识别轮廓和简单形状,然后填充颜色、内部形状和纹理等其他细节。最后,它会在多次迭代中反复执行预测过程,以提高准确性。
循环神经网络
循环神经网络(RNN)与 CNN 类似,但可以处理一系列图像,以找到它们之间的联系。CNN 用来分析单张图像,而 RNN 可以分析视频并了解图像之间的关系。
计算机视觉与图像处理之间有什么区别?
图像处理利用算法来更改图像,包括锐化、平滑、过滤或增强。但计算机视觉不同,因为它并不更改图像,而是理解它所发现的内容并执行任务,例如进行标记。在某些情况下,可以利用图像处理来修改图像,以使计算机视觉系统能够更好地理解图像。在其他情况下,可以利用计算机视觉来识别图像或图像的某些部分,然后利用图像处理进一步修改图像。
计算机视觉可以执行哪些常见任务?
图像分类
利用图像分类,计算机可以查看图像并准确地对其进行分类。计算机视觉可以理解类别并对其进行标记,例如树木、飞机或建筑。一个示例是,摄像头能够识别并聚焦于照片中的人脸。
对象检测
对象检测是一项用来检测和定位图像的计算机视觉任务。它利用分类来识别、排序和组织图像。工业流程和制造流程利用对象检测来控制自主应用程序和监控生产线。联网家用摄像头制造商和服务提供商同样依靠对象检测来处理摄像头提供的实时视频流,以便实时检测人员和对象,并为他们的最终用户提供可操作的警报。
对象跟踪
对象跟踪利用深度学习模型来识别和跟踪属于不同类别的对象。该技术实际应用于很多行业。对象跟踪的第一个元素是对象检测;在对象的周围创建一个边界框,为其赋予一个对象 ID,并能够通过边界框来跟踪对象。例如,可以利用对象跟踪进行城市环境交通监控、人员监控和医学成像。
分割
分割是一种计算机视觉算法,它根据所发现的像素将对象的图像分成不同的区域,从而识别对象。分割还可以简化图像,例如放置对象的形状或轮廓,以确定对象是什么。这样,分割还可以识别图像或边界框中是否存在多个对象。
例如,如果图像中有一只猫和一只狗,则可以利用分割来识别这两只动物。与在对象周围构建边界框的对象检测不同,分割会跟踪像素,以确定对象的形状,使其更易于分析和标记。
基于内容的图像检索
基于内容的图像检索是计算机视觉技术的一种应用,可以在大型数据库中搜索特定的数字图像。它会分析标签、描述、标识和关键字等元数据。语义检索利用“查找建筑图像”之类的命令来检索相应的内容。
AWS 如何帮助您执行计算机视觉任务?
AWS 提供了最广泛、最齐全的一套人工智能和机器学习(AI/ML)服务,无论拥有何种专业知识水平,客户都可以连接到一组全面的数据来源。
对于基于框架进行构建并管理自己的基础设施的客户,我们会优化最受欢迎的深度学习框架的各个版本,包括 PyTorch、MXNet 和 TensorFlow。AWS 提供了广泛、深入的计算、联网和存储基础设施 ML 服务组合,并提供了多种处理器和加速器,以满足您对性能和预算的独特需求。
对于希望在整个企业中创建标准计算机视觉解决方案的客户,Amazon SageMaker 可通过完全托管的基础设施、工具和工作流(包括面向业务分析师的无代码产品)轻松为任何使用案例准备数据并构建、训练和部署 ML 模型。
对于缺乏 ML 技能、需要缩短上市时间或者希望为现有流程或应用程序增添智能的客户,AWS 提供了一系列基于 ML 的计算机视觉服务。使用这些服务,您可以通过预先训练的 API 轻松为 AI 应用程序增添智能。 Amazon Rekognition 利用 ML 自动执行图像和视频分析,并能够在几秒钟内分析数百万个图像、实时流和存储的视频。
立即创建免费的 AWS 账户,以开始使用计算机视觉。