英特尔以数据为中心的全栈创新 解锁智能未来的可能性

2020-08-13 14:38:31 来源:中关村在线

打印 放大 缩小

“由于5G的普及,人工智能技术的成熟,再加上现在已经非常完善的数据中心以及云计算技术,我们会有很多的机会能够从一些新的数据里面挖掘出新的价值,能够去洞察各行各业,获得更多的效率提升,带来更多的可能性,从而实现更高质量的数字化转型。”英特尔市场营销集团副总裁、中国区数据中心销售总经理陈葆立表示。为了构建以数据为中心的产品组合,英特尔提供了涵盖CPU、GPU、FPGA、ASIC等不同计算架构满足于各类应用负载的解决方案,并进一步在制程&封装、架构、内存&存储、互连、安全、软件等领域提出六大技术支柱,以满足从云端到网络到边缘的多元化客户需求。

在英特尔看来,这些关键性的技术创新能够彼此作用形成相乘的效应,“我们称之为‘智能X效应’,例如5G可以让人工智能无所不在,人工智能又可以让边缘、5G的连接更加智能化,这种边缘智能不仅是在设备端,还可以在数据中心和任意的地方。万物互联之后,带来了数据量的‘爆炸’,会有更多的机会能够让我们对这些数据进行分析,加速数字化转型。如果有企业没有跟上这个大潮流,没有使用到新的技术、洞察数据的价值,可能就会落后于市场上的其他公司。”

2019年,英特尔投入了占公司营收近19%的130亿美元资金用于研发,除了持续的技术创新投入,英特尔也在加速将包括至强、凌动、FPGA、以太网、硅光、傲腾持久内存在内的一系列新品或新技术推向商用市场,以实现数据“传输更快、存储更多、处理一切”的目标。例如在集成AI加速的英特尔第三代至强可扩展处理器中,支持bfloat16使得其在深度学习加速中能够以一半的比特数和更少的软件调整,达到与FP32同等水平的模型精度。同时,其支持的傲腾持久内存200系列可提供每路至多4.5TB的容量,平均内存带宽增加了25%。

第三代至强可扩展处理器分为两个产品系列,先行发布的Cooper Lake定位4-8个处理器插槽,今年晚些时候亮相的Ice Lake则会支持1-2个处理器插槽,而代号为“Sapphire Rapids”的下一代至强可扩展处理器预计将在明年下半年发布。未来10年,人工智能和数据分析无疑会成为关键的工作负载,要想让客户在任意平台都能获得高效的数据处理能力,将硬件和软件的融合创新赋能于数据中心、边缘、传感器、移动计算、自动驾驶等各个领域,就变得至关重要。

人工智能和数据密集型服务,是第三代英特尔至强可扩展处理器关注的两个焦点,借助升级后的DL Boost技术,以及在深度学习加速架构下的VNNI神经网络指令支持bfloat16数据格式,第三代至强可扩展处理器较上一代平台Cascade Lake 8280在处理图像分类时,计算性能可提升1.93倍。通过支持更多的内核、更高的主频,配合更多的内存通道数和更快的内存速度,第三代至强可扩展处理器在处理计算密集型任务时较以往四路平台的计算性能提高了92%。

据了解,第三代至强可扩展处理器的处理器插槽之间通过UPI总线以拓扑架构实现互联,UPI通道数较上一代平台翻倍,UPI端口数量增至6个,即每个插槽会有6个接口,两两之间就有两个UPI总线,多一个UPI总线意味着带宽变高了,有利于支持更多的CPU内核、更大的内存、更高的计算速度,相当于有更宽的高速公路,可以让数据在不同的插槽之间传输。“在多路处理器当中,这是非常重要的架构创新。”一位资深的英特尔技术专家称。

内存方面,内存通道每个插槽有6个通道,八路48通道时每个通道都可以支持最高3200MT/s的速度,容量上基于16GB颗粒可在单条内存用RDIMM支持64GB、用LRDIMM支持256G,搭配傲腾持久内存则可以让每个插槽最高支持4.5T,这样一来,八路最高36T的容量就足以应付各类密集型的应用。

在多路平台上,英特尔对RAS功能格外重视,提供了非常丰富的相关支持,可以处理可能出现的内存错误、PCIe设备错误,或是CPU内核的错误,利用RAS特性实现更好的错误隔离和故障诊断。

为了帮助客户更加灵活的配置多样化的业务系统,英特尔推出了第二代Speed Select技术(SST),包括SST-PP、SST-CP、SST-BF、SST-TF四种功能。其中,SST-PP(Performance Profile)是指一个CPU的供电和散热的边界条件是确定的,在这个边界条件下,根据业务的不同需求选配该CPU允许使用多少个核,在使用相应核数时,会提供对应的频率让其运行。同时,也可以在另一种场景下关掉一些或打开一些核,使其工作在另一个频率上。由此,可以在设备平稳运行时通过“一键切换”来满足单线程或多线程的负载,让机器的使用效率最大化。

SST-BF(Base Frequency)和SST-TF(Turbo Frequency)可以动态调节运行不同应用时,根据优先级的高低来调配基频或睿频频率,可以保证整个处理器的供电和散热在边界条件下,其他的核会比高优先级的核的温度低一些。

SST-CP(Core Power)能够在CPU接近满载快要达到供电和散热边界时,自动降频处理来保护CPU和服务器。与之前降频保护时将所有内核“一同下降”不同,SST-CP可以允许客户制定一些核运行高优先级业务,其他的核运行低优先级业务。当运行的负载较满时,可以先减少低优先级的核来保证高优先级的核不受影响。

从Int8到bfloat16,英特尔在指令集层面为客户的数据精度处理提供了最优的性能,可以解决各类通用的AI应用需求,并且对TensorFlow、Pytorch、MXNet等主流框架均进行了优化,完成了对AVX-512、DL Boost的支持。在提供更高的运算性能、运算效率和内存读写效率的同时,bfloat16对精度的影响甚微,而且数据位宽只有FP32的一半,与升级后的DL Boost搭配可让AI训练性能提升93%、推理性能提升90%。同时,英特尔为OpenVINO工具包和ONNX Runtime环境提供了bfloat16优化,以简化推理的部署工作。

如果使用Int8,在不同的深度学习算法、不同的应用数据对象中会有1%以内的准确率影响,而对于推荐系统、语音识别、NLP等特定AI领域的应用,通常会需要更低甚至是接近完美的推理加速方案,bfloat16以其6数据位宽的特性实现了降噪效果,获得了更高的精度。

在蚂蚁金服,英特尔与其合作基于3D-CNN I3D Video深度学习模型研发了视频分类应用,去识别拍摄视频中的物体正在进行的动作或行为,借助DL Boost和bfloat16将训练能力较此前的FP32技术方案提升了12倍,在模型推理上也提升了1.8倍的性能。整个合作工程中,客户只需要把平台切换至第三代至强可扩展处理器即可,选择支持bfloat16的AI框架,无需进行额外的代码和参数调整。

英特尔技术专家介绍称,随着英特尔“One Intel”软件战略的推出,英特尔的MKL-DNN软件也进化到了“One DNN”,与最新的TensorFlow2.2X版本进行了集成,使得蚂蚁金服直接使用TensorFlow就能够体验到bfloat16的优势。

在医疗行业,卫宁健康使用DL Boost加速技术进行AI诊断,通过OpenVINO获得了基于各类深度学习框架的支持,在进行胸部影像检测时得到了数十倍的性能提升。在TensorFlow应用中,性能提升8.24倍,精度影响仅有0.17%,在对3个Pytorch模型进行加速的过程中,性能有数十倍至百倍的提升。

作为第三代至强可扩展平台的一部分,英特尔傲腾持久内存200系列在单条512GB和DRAM的配合下,可为客户提供每路最高达4.5TB的容量,以进行内存数据库、密集虚拟化、分析及高耗能计算等数据密集型工作负载的管理。在单DIMM的部署下,有着25%的内存带宽提升,并且在之后的Ice Lake平台可以获得更大的系统性能增长。在数据写入时,傲腾持久内存200系列较NANDFlash有超过200倍的提升,主要体现在NAND SSD的访问延迟在100微秒左右,而持久内存只有几百纳秒的延迟。

在运行模式上,傲腾持久内存200系列同样支持两种模式,其一是Memory Mode,特点是持久内存会和DRAM组成一个新的内存整体,由CPU内部的硬件逻辑实现控制。如果客户希望数据可以长久保留,也可以使用App Direct Mode(又细分为块设备访问或应用直接对内存对象访问),当软件把数据写入之后,下一次可以从原来的地方可以直接取出来,断电之后的数据是存在的,这种模式下,既可以作为内存对象,在写入后保留数据,也可以作为块存储,兼顾对软件应用的兼容性。

面对云计算时代的弹性需求,传统的数据中心内存难以满足资源灵活配置的需求,持久内存较DRAM有很大的成本优势,可以通过取代DRAM的容量改善TCO,并且单机里面也可以部署更大的内容容量,实现更高的应用部署密度。同时,持久内存还能够有效缓解I/O的瓶颈,衍生出更多新的内存和存储融合类的应用,像云计算的基础架构、数据库、AI/大数据分析等都是持久内存所擅长的领域。

RocksDB是一款由Facebook开源的数据库引擎,既可以作为独立的键值存储方案,也可以作为像MySQL等关系数据库的存储引擎,在写入性能上做了大量优化,被不少企业选用去取代原生MySQL的InnoDB。不过,其结构上却面临着一些问题,例如,写在关键路径上的日志会让I/O速度变成它的性能瓶颈,另外在RocksDB的一层数据和另一层数据进行数据合并写的时候,也会存在写放大的问题。

“磁盘的I/O压力本身有一个性能影响,但影响更大的是在做Compaction的时候,有可能会阻塞前端的写操作,也就是说从内存表到磁盘的写入操作,因为Compaction操作被阻止了,就阻塞了往内存写的过程,这就造成了更大的性能的影响和抖动。”英特尔技术专家解释称,“持久内存就可以很好的解决这个问题。”傲腾持久内存会先保证日志得到很好的写性能,同时用持久内存替换L0和L1中的SST文件,把原来压缩合并的操作变成内存对象的指针操作,大幅减少数据的写放大,从而提升性能。

在使用Spark进行大数据分析的场景中,如果某公安局要从海量数据库中找到某个车牌或人脸的行动轨迹,从硬盘读数据会花费很长的查询周期。借助持久内存,就可以通过索引或数据缓存的形式,大幅提升Spark作为数据查询的性能,从而改善分析的性能。国内某互联网企业对DRAM和傲腾持久内存进行了评估,在相同成本的情况下,傲腾持久内存有着更显著的大容量优势,缓存性能也更好,在Decision SupportBenchmark性能指标中,更是带来了六倍的性能提升。

推荐系统是快手主打的一项AI实践,该系统分为计算敏感型和存储敏感型两部分任务,前者包括推荐服务、预估服务、召回服务等,后者包括用户画像、参数服务器和分布式服务器的索引,需要实现大容量内存的数据存储以及快速的数据访问。在第三代至强可扩展平台上,英特尔帮助快手使用傲腾持久内存将服务器上的每个节点容量从数百GB扩展至TB级别,使得每个计算和存储节点上实现了更有效的数据访问。

傲腾持久内存帮助快手把原来需要在外部存储上做的索引工作转移到内存中,降低了访问延时,提高了推荐系统响应,改进了用户服务体验。得益于傲腾持久内存的Memory Mode,快手在升级过程中没有进行任何软件代码的修改。经过测试,傲腾持久内存的应用性能较DRAM在延时上并未降低,每秒请求量也与之前的TB级DDR内存维持在同一水准,考虑到使用成本因素,傲腾持久内存帮助跨手实现了TB级内存容量扩展,TCO优化了30%。此外,快手还通过引入App Direct Mode获得了额外的应用优势,包括秒级的数据恢复等等。

“我们有全面的产品组合,可以在数据中心领域实现全面的覆盖,例如在软件方面,英特尔有成千上万的软件工程师一直在关注如何释放硬件性能。”陈葆立表示,“更重要的是,我们还拥有一个庞大的生态体系。英特尔在中国已经有36年的历史,在这36年间,我们有诸多良好的客户和合作伙伴,很高兴能够与他们一起成长。我们的哲学之道是水利万物而不争,希望可以通过持续提供基础设施,帮助我们的客户获得更好的方案,最终能够解决用户的问题。”(徐鹏)

责任编辑:ERM523