不仅是视觉的盛宴 NVIDIA深度学习涉及广泛

【天极网平板频道】北京时间4月15日，NVIDIA在北京金融街丽思卡尔顿酒店举办小范围的GCT媒体分享会，参加此次媒体分享会的嘉宾分别是英伟达全球副总裁兼中国区总经理：张建中先生，NVIDIA中国区企业传播高级经理：金洋先生，以及英伟达中国区高级市场总监：刘念宁女士。在本次分享会上英伟达全球副总裁兼中国区总经理张建中先生分享了NVIDIA在未来的战略计划，NVIDIA中国区企业传播高级经理金洋先生为我们展示了此次GCT上NV带给全世界的新技术，和已经取得的惊人成果。

今年NVIDIA(英伟达)推出的全新理念是“深度学习”，本次分享会先是英伟达全球副总裁兼中国区总经理张建中先生致辞，并分享英伟达未来一段时间的战略计划。之后是由NVIDIA中国区企业传播高级经理金洋先生为大家分享最新的技术和“深度学习”四个板块：分别是一款全新的GPU、一款超快的迷你超级计算机、GPU发展路线图公布和智能驾驶汽车，这些内容都与“深度学习”紧密结合。

NVIDIA GeForce GTX TITAN X——为训练深度神经网络而开发的最强大的处理器。

两周前在旧金山举办的游戏开发者大会上，NVIDIA GeForce GTX TITAN X第一次现身。该产品是NVIDIA全新推出的旗舰级游戏显卡，但也特别适合用于深度学习。

英伟达全球副总裁兼中国区总经理：张建中先生

NVIDIA GeForce GTX TITAN X能以4K的超高画质呈现最新AAA游戏大作的瑰丽画面，可以在开启FXAA高设定值的情况下，以每秒40帧(40fps)运行《中土世界：暗影魔多》游戏，而在九月发行的 GeForce GTX 980 上则是以30fps来运行，速度提升很多。

NVIDIA Maxwell GPU架构的TITAN X，结合3,072个处理核心、单精度峰值性能为7 teraflops，加上板载的12GB显存，在性能和性能功耗比方面皆是前代产品的两倍。

凭借强大的处理能力和336.5GB/s的带宽，让它能处理用于训练深度神经网络的数百万的数据。例如，TITAN X在工业标准模型AlexNet上，花了不到三天的时间、使用 120万个ImageNet图像数据集去训练模型，而使用16核心的 CPU 得花上四十多天。现已上市的GeForce GTX TITAN X售价为7999元人民币。

DIGITS深度学习GPU训练系统——数据科学家与研究人员能利用这套软件便捷地开发出高品质深度神经网络。

DIGITS深度学习GPU训练系统软件自始至终都将为用户提供所需数据，帮助用户建立最优的深度神经网络来训练电脑教自己如何分类和识别物体。

NVIDIA中国区企业传播高级经理：金洋先生

现在用户可以下载DIGITS 深度学习GPU训练系统，这是首套用于设计、训练和验证图像分类深度神经网络的多合一图形系统。

DIGITS可在安装、配置和训练深度神经网络过程中为用户提供指导——处理复杂的工作好让科学家能专心在研究活动和结果上。

得益于其直观的用户界面和强大的工作流程管理能力，不论是在本地系统还是在网络上使用 DIGITS，准备和加载训练数据集都相当简单。

这是同类系统中首个提供实时监控和可视化功能的系统，用户可以对工作进行微调。它还支持 GPU 加速版本Caffe，目前，这一框架在众多数据科学家和研究人员中都得到了广泛使用，用于构建神经网络。

DIGITS 可在安装、配置和训练深度神经网络过程中为用户提供指导，处理繁重的任务，使科学家能够集中关注研究和成果。

DIGITS DevBox——全球最快的桌边型深度学习工具，专为相关任务而打造，采用TITAN X GPU，搭配直观易用的DIGITS训练系统。

NVIDIA 深度学习工程团队为了自己的研发工作而开发的 DIGITS DevBox，是一套集多项功能于一身的平台，能够加快深度学习的研究活动。

它采用四个 TITAN X GPU、从内存到 I/O，DevBox的每个组件都进行了最佳化调试，可为最严苛的深度学习研究工作提供高效率的性能表现。

为深度学习而生：DIGIT DevBox的每个组件都针对深度学习研究活动进行了最佳化调试

它已经预先安装了数据科学家和研究人员在开发自己的深度神经网络时，所需要使用到的各种软件，包括 DIGITS 软件包、最受欢迎的深度学习架构 – Caffe、Theano和 Torch，还有 NVIDIA 完整的 GPU 加速深度学习库cuDNN 2.0。

较早期的多 GPU 训练成果显示，在关键深度学习测试中，DIGITS DevBox可以提供 4 倍于单个 TITAN X 的性能。使用 DIGITS DevBox来训练AlexNet只要13个小时就能完成，而使用最好的单 GPU PC 的话则是两天，单纯使用 CPU 系统的话则要一个月以上的时间。

DRIVE CX/PX——智能驾驶系统

智能驾驶系统是NVIDIA基于Tegra X1处理器上心的发展方向，结合最新的CX和PX平台，可以让汽车在仪表显示和自动驾驶方面得到质的飞跃。

目前NVIDIA已经和大众、宝马、奥迪、特斯拉等汽车厂商进行合作，全球已经有450万辆采用NVIDIA核心的智能汽车行驶在路上，未来这一市场还会继续扩大，而中国市场也会在未来不久将引进该技术。

英伟达中国区高级市场总监：刘念宁女士

关于Pascal架构

Pascal架构GPU的三大设计特色将大幅加快训练速度，精准地训练更丰富的深度神经网络，犹如人类大脑皮层的资料结构将成为深度学习研究的基础。相较于当前的Maxwell处理器，NVIDIA预计于明年推出的Pascal架构GPU将使深度学习应用中的计算速度加快十倍。

再加上32GB的显存(是NVIDIA新发布的旗舰级产品 GeForce GTX TITAN X 的 2.7 倍)，Pascal 架构可进行混合精度的计算任务。它将配备3D堆叠显存，提升深度学习应用程序的速度性能多达5倍;另搭配 NVIDIA 的高速互连技术 NVLink 来连接两个以上的 GPU，可将深度学习的速度提升达十倍。

混合精度计算——达到更精准的结果

混合精度计算让采用 Pascal 架构的 GPU 能够在 16 位浮点精度下拥有两倍于 32 位浮点精度下的速率的计算速度。

更出色的浮点计算性能特别提高了深度学习两大关键活动：分类和卷积的性能，同时又达到所需的精准度。

3D 堆叠显存——更快的传输速度和优秀的省电表现

显存带宽限制了数据向 GPU 传输的速度。采用 3D 堆叠显存将可提高比 Maxwell 架构高出三倍的带宽和近三倍的容量，让开发人员能建立更大的神经网络，大大提升深度学习训练中带宽密集型部分的速度。

Pascal 采用显存芯片逐个堆叠的技术，位置接近 GPU 而不是处理器板更往下的地方。如此就能把输出在显存与 GPU 间往返的距离从几英寸减缩到几毫米，大幅加快传输速度和拥有更好的省电表现。

NVLink – 更快的数据移动速度

Pascal 架构加入 NVLink 技术将使得 GPU 与 CPU 之间数据传输的速度，较现有的 PCI-Express 标准加快5到12倍，对于深度学习这些需要更高 GPU 间传递速度的应用程序来说是一大福音。

NVLink 可将系统里的 GPU 数量增加一倍，以共同用于深度学习计算任务上;还能以新的方式连接 CPU 与 GPU，在服务器设计方面提供较 PCI-E 更出色的灵活性和省电表现。