当前位置 博文首页 > CSDN资讯:未来的 AI 芯片将提升百倍性能!

    CSDN资讯:未来的 AI 芯片将提升百倍性能!

    作者:[db:作者] 时间:2021-08-30 19:36

    640?wx_fmt=gif

    【CSDN编者按】随着机器学习和深度学习技术的不断应用,AI 的落地场景越来越多,极大地提升了研发效率和应用功能。与此同时,本文的作者还认为,AI 的应用还将深刻地影响芯片市场,借助?AI 重塑芯片设计,能够帮助架构性能提升百倍以上。

    640?wx_fmt=jpeg

    以下为译文:

    随着架构师开始利用AI的能力来提高性能和降低功耗,人工智能开始影响半导体的设计,为未来芯片的开发、制造和更新方面的一些转变奠定了基础。

    AI与机器学习和深度学习可以极大地改善芯片内特定功能的功能控制和功率/性能。出于这些目的,AI可以加载到现有设备之上,也可以集成到新的设计中,因此AI可以应用于非常广泛的功能范围,也可以用于某个特定的功能。

    AI带来的优势非常多,其中包括:

    • 通过稀疏化算法和数据压缩改变特定功能的准确度,从而能够在更细粒度上实现加速性能和降低能耗;

    • 能够将数据作为模式而非单个比特进行处理的,有效地提高计算的抽象级别并增加软件的密度;

    • 允许以矩阵的形式处理和存储器的读写,大大提升这些操作的速度。

    但是AI的应用还需要人们仔细思考芯片内部或芯片之间数据移动(或不移动)的方式。无论是边缘应用还是在数据中心应用,也不管是训练还是推断,这些过程都需要处理和存储海量的数据。


    640?wx_fmt=png

    新的起点


    从积极的方面看,AI能够在利用高精度结果和利用大量低精度结果之间获得平衡,从而达成足够好的准确度。以语音识别为例,其准确度远不如安全应用中的面部识别或自动驾驶车辆中的物体识别那么重要。AI提供了根据特定的应用场景来选择结果的能力。

    有了AI以后,我们的起点不再是硬件和软件,而是数据的质量、数量和传输。这需要我们以不同的方式考虑设计,包括过去通常没有合作过的团队之间的协作。

    Arm的研究员Jem Davies说:“计算所需的代价非常小,压缩和解压数据的代价也很小,但是在内存中存储和加载数据则非常昂贵。为了构建这些系统,你需要特定领域的专家、机器学习专家以及优化和性能专家。而且你同时需要这三个领域。”

    他指出,机器学习可以影响系统中的所有东西,其中大多数都隐藏在我们看不见的地方。Davies说:“有些是用户看不见的,比如用来改善电池的寿命。有些相机内部也用到了机器学习。”

    AI最适合神经形态的方法和不同的内存架构,因为它们的数据可以当作矩阵处理。为了让AI在这种情况下达到最优,所需的架构远远不止处理器。它需要与内存来回传输大量数据,还需要在内存中更改数据,才能让数据的读写按照从左到右和从上到下的顺序进行。

    Cadence音频和语音IP产品营销总监Gerard Andrews说:“许多架构的改善都需要结合软件和硬件,才能让软件更好地工作。这并不一定能提高每个处理器的整体性能,但它会减小功耗并提高内存效率。一点很小的改变就能减少一半的内存使用量。”

    这实际上可以提高许软件方面的设计密度,而且可以加速数据在内存中的传输。Andrews说:“我们看到的问题是内存不会有效地减少,而且识别错误率不断上升。我们正在探索稀疏化算法,希望借此降低功耗并提高性能。”

    这只是变化的冰山一角,而且这些转变正在迅速发生。

    Achronix的系统架构师Kent Orthner说:“内存子系统中出现的情况没有连续性,且是突发的变化。这一切都依赖于延迟和带宽,以及利用芯片内和芯片外的功能提供数据。人们已经开发了很多关于如何传输数据的架构,因为你需要大量的数据管道。在这之前,我们可能需要考虑添加多少内存,以及如何利用内存。现在我们需要考虑的是大量的管道,而内存的使用相对不那么重要了。”

    新发现的一种降低数据流的方法是脉冲神经网络,与常见的持续发射信号不同,它们发射信号的方式像人脑一样可以突然升到很高。

    BrainChip的营销和业务开发高级副总裁Bob Beachler说:“脉冲神经网络是下一代的神经网络,卷积使用线性代数。有了脉冲以后,我们可以用脉冲的形式传递数据。你可以通过脉冲进行训练,而且如果有很多脉冲的话,你可以加强或抑制其中一部分。对于专门用于训练阈值的比特,你可以用非常低的权重值来处理。”

    总而言之,估计有70家的AI创业公司正在研究各种方法。最重要的是几乎所有的主要芯片制造商、IP供应商和工具公司都参与了AI研究的某些方面。

    640?wx_fmt=png

    数据压缩资料(来源:Google)


    640?wx_fmt=png

    AI的风险和混乱


    但是,AI也存在一定程度的风险,具体取决于应用和精确度。

    过去的电子系统设计的基础都是完全可预测的逻辑,它们中的大部分都是硬件连接的。AI将计算上的精确性改变为可接受行为的分布,很多会议上都讨论过这种改变给设计带来的影响。目前尚不清楚现有工具或方法是否可以提供与设备在该分布范围内相同的置信度,特别是在系统出现损坏或退化的情况下,也不清楚检测任何异常行为的速度。

    关于AI的应用方式也存在一定程度的混乱。有专门为AI设计的芯片,也有人使用不是为AI专门开发的芯片,还有人通过对这两种芯片进行修改和叠加来更有效地利用AI。

    总的来说,这些都属于AI的范畴,这一切都发生在大家竞相提高同功耗甚至更低功耗下的性能的行业大环境中。在16纳米和14纳米技术之后,每一代技术的功耗和性能方面的摩尔定律比率已经降低到了20%,现在每个人都在寻找新的方法来替换或增强这些优势。现在各个方面都涌现了一大批的选择。

    对于专门用于AI训练或推断的芯片(即芯片内部使用了AI功能的处理器和加速器的芯片)来说,大家普遍的共识是使用不同的芯片架构可以实现几个数量级的提升。但这并非适用于所有情况,而且还有很多可变因素,例如训练数据的大小和值,它们可能导致AI在一些应用中无用武之地。除此之外,保守估计认为性能可以提升100倍。

    这就是为什么这些新架构推向市场需要花费很长时间。芯片行业在不断尝试各种架构和实验,试图找出哪种方式效果最佳,以及各种方式的应用场景和原因。

    Synopsys的战略营销经理Ron Lowman说:“应用和算法都存在挑战,处理器和存储器芯片也面临挑战。所以AI架构的探索尤为重要,而且这也是加速器的缓存一致互联协议(Cache Coherent Interconnect for Accelerators,简称CCIX)如此受欢迎的原因之一。越来越多的客户在关注架构的探索,每个人都在努力建立新的架构来模仿大脑。”

    所谓架构不仅仅是更好的布线和元件布局,还有人正在开发新的非挥发性记忆体(non-volatile memory)技术。除了小型存储器之外,一些小型的处理器也在开发,有时还涉及到多种针对不同数据类型定制的新型加速器。除此之外,还有很多围绕数据压缩和量化的工作。

    Lowman说:“人们正在努力从32位浮点转移到8位浮点,现在的问题是是否可以采用单比特量化。”

    量化涉及将大量输入值映射成较小的输出值集合,而且最大的问题在于准确度损失的可接受程度。理论上通过足够的传感器或数据输入,可以最小化该错误率的影响,但这非常依赖于具体的应用。

    沿着这些方向还有一种方法涉及源同步,特别是对于数据中心的AI芯片,这将促使芯片上的网络拓扑发生变化。这种方式没有采用广播(这种方式中网络上所有的目标都将收到相同的数据)的方式,而是使用了多播的方法,可以更有针对性地利用数据。

    下一篇:没有了