快捷导航

内存计算是什么(内存存储容量计算方式)

[复制链接]
查看: 346|回复: 0

8万

主题

8万

帖子

26万

积分

论坛元老

Rank: 8Rank: 8

积分
260116
发表于 2020-11-4 00:00:00 | 显示全部楼层 |阅读模式
来源于:內容由半导体业观查(ID:icbank)编译程序自「eejournal」和,创作者:Bryon Moyer。感谢。

  

储存器能够视作是“存储”然后变成相乘涵数。将权重值(weights)储存在储存器中并将激activation作为键入,可节约数据信息挪动和功能损耗。并且完成这一有多种多样方式,比如能够应用RRAM,闪存芯片或SRAM开展实际操作,此外也有一种牵涉到DRAM的方式,但它是彻底不一样的。

在获得人工智能技术(AI)的争霸战中,很多企业都会试着建立最好是的深度学习(ML)模块。这代表着要以最少的功能损耗开展更快的逻辑推理,而最少的功能损耗则代表着搞清楚怎样避开“撞上储存墙”。也就是说,很多的活力被花销在挪动全部必需的数据信息上。这儿,大家探讨的是挪动数十亿条数据信息的方式。

我们在几个星期前就看到了在其中的一部分,她们选用了新的逻辑推理系统架构,该系统架构侧重于内存带宽和可逆性(locality),尝试以迅速的速率和更低的功能损耗挪动越来越少的数据信息。可是大家有心延迟探讨处理此难题的另一种方式:运行内存内测算。

在更传统式的系统架构中,有一些用以张量数学课(tensor math)的乘累积(MAC)电源电路,尤其是矩阵乘法(其首字母缩写为GEMM,用以“通用性矩阵乘法”)。这种系统架构尝试以融入将权重值和activations挪到适度部位的方法来分配MAC。activations是由此前的神经系统传输层(第一层应用具体的互联网键入做为“activations”)来测算的,而权重值则储存某点。加法一般涉及到activations和权重值,因而务必将两者都挪动到将他们乘积的模块上。这就是难题的症结所在。

运行内存内测算运用了一个非常便捷的运行内存客观事实,因而,假如将权重值储存在运行内存中,则能够根据activations来浏览运行内存,进而得到 加法累积。与具体储存器的唯一差别取决于,运行内存内测算一次紧密连接了全部word lines ,而不是根据编解码键入而只有获得一个word lines。

大家在这儿已经做的事儿是进到仿真模拟域(analog domain),将数据存储器视作仿真模拟模块而不是数据模块,以降低功耗。大家早已看到了一种在逻辑推理模块前端开发应用仿真模拟的方式。运行内存内测算在运行内存中应用它。因而,大家获得数据数据信息,应用DAC将其变换为仿真模拟值,应用这种仿真模拟值驱动器具备仿真模拟內容的储存器,以获得仿真模拟基准线輸出,随后应用ADC将結果变换回数字格式。

大家将深入分析不一样技术性的关键点,可是由于所要探讨的全部內容,因此大家将省去很多关键点。

用RRAM来做

我们在2020年稍早大致探讨了这一点,随后大家更实际地科学研究了怎样在RRAM(或ReRAM)储存器或应用铁电FET(FeFET)来完成这一点。虽然RRAM是实行此实际操作最常见的方式,一部分缘故是根据将欧姆定律运用于一系列电阻器非常容易了解,但这依然存有依靠RRAM的难题。

如同科学研究取代计划方案的人常说,RRAM仍必须开展开发设计工作中才可以将其商业化的。程序编写和电阻器中间的关联是离散系统的,这就规定务必要做大量的工作中来生产制造商业服务上行得通的RRAM运行内存内测算电源电路。也就是说,“它是个好点子,但就绪时请再告之大家。”我也不知道一切商业服务发展趋势(与商业服务前科学研究相对性)的情况,但大家假如确信这能够完成,请发布大家的见解。

既然这样,如果我们还不提前准备应用电阻列阵来做,那大家应该怎么办?

用Flash做

我们都知道过的下一种方式是应用闪存芯片而不是RRAM。具体地说,NOR闪存芯片有着更传统式的word-line/bit-line构造。一开始,我也被这类评价吸引了,这类应用电容器而不是电阻器的方式。应用欧姆定律之外的别的方式,相乘优化算法是不是一样合理?

行吧,事实上,它兼顾了电阻器性和电容器性。一般,数据存储器是通断或截至的晶体三极管。可是,假如它是一部分通断的,则它可以用做为电阻,电阻器在于数据存储器(电力电容器)浮栅上的电荷量。一直运作时,cell将传输至其较大 容积。这一全过程中,它压根不导电性,但能够开展一些一部分程序编写。Microchip出示了下面的图来表明在程序编写情况中间的电阻器的线形特点。

( 照片来自于Microchip Technology)

  

针对了解Flash的人而言,这听起来很有可能与您以前所闻相近。这如同闪存芯片上的MLC或TLC数据存储器。您很有可能你是否还记得,它是在单独闪存芯片位中储存其他信息的二种方式。MLC或“双层模块”能够储存2 bits。这代表着程序编写能够选用四个不一样的等级,包含开全和全关。TLC表明“三层模块”,它应用八个层储存3 bits 。

行吧,正常情况下,针对“无限极模块”,将其拓展到“ ILC”并不艰难(假如我或许那么胆大得话)。也就是说,它是一个持续范畴,而不是4或八个离散变量级。确立地说,没人应用或建议应用ILC名字,期待您能了解。并且,事实上,数据存储器中的等级数很有可能不容易比TLC模块中应用的等级数多很多。因而,全部持续事情能够协助大家掌握已经产生的事儿,可是现阶段的现实状况还较为比较有限。

自然,如果我们学习培训基础物理学,大家将没法做一个无尽持续的模块。这是由于栅极值是离散变量的:它由浮置栅极(或正电荷圈套)中的电子器件总数决策。您不可以有着成绩电子器件,因而能够合理地量化分析cell阻值的范畴。可是,事实上,有很多电子器件-而且在程序编写全过程中沒有测算电子器件,因而他们的数量是正负极的。

假如大家要运用一个中小型的,最前沿的闪存芯片模块,那麼电子器件的总数便会越来越关键。可是,应用较旧的技术性,及其潜在地应用比一般更高的cell来容下大量的电子器件(因为存储密度并不是这里的关键总体目标),您依然能够解决很多的电子器件(正负极)。

这变成使了用此方式遭遇的一个挑戰——您没法精准操纵电子数。并且,对一切总数的回应都将随全过程和溫度及其全部造成 转变的自变量而转变。而像上边那样好看整洁的图型则会结合实际越来越更为错乱。

有俩家企业走这条道路。Microchip有着她们的memBrain数组(您务必认可一个十分聪慧的姓名),这要得益于她们对SST回收,而Mythic是一家着眼于逻辑推理模块的新成立公司,该模块选用含有闪存芯片的运行内存内测算。(Mythic的闪存芯片来自于别的受权,但她们回绝表露来源于谁。)俩家企业都表明,她们已经应用普遍的校正技术性(我不敢表露其关键点)来解决这类转变。

在启动(乃至在检测时)开展校正是一回事儿,可是闪存芯片cell也会伴随着时间的流逝丧失电子器件。这就是为何闪存芯片具备数据信息保存特点。电子器件会走来走去,这产生了一个有趣的问题:在这类种类的储存器列阵上,数据信息保存,数据信息使用性能的含意是啥?

从应用软件的视角看来,这在于它是要在云计算技术還是边沿逻辑推理模块中应用。在边沿,它很有可能会在机器设备的全部生命期内实行一些固定不动的逻辑推理作用。因而,假如这种列阵充足多,那麼您将在第一次载入权重值,而且因为闪存芯片是是非非易失性的,因而您不用再对其开展程序编写(除非是您开展了当场升级)。虽然您依然必须挪动activations,但不用挪动权重值,他们将被永久性地储存在数组中。

在極限标准下,这将说明使用性能(与机器设备在积累毁坏将电子器件泄露加快到没法接纳的水准以前能够程序编写的频次)无关痛痒,它只有程序编写一次。

比较之下,在云应用软件中,该机器设备很可能做为通用性测算共享资源,因而这必须为每一个新的应用软件再次程序编写。这代表着在云间,续航力越来越更为关键。Mythic宣称有10K的载入周期时间,而且观查到,即便 您每日再次程序编写,它也将不断十年之上。Microchip还预估可承担1K – 10K个周期时间。

随后是一般的数据信息保存。规范的闪存芯片cell非常好地表明了数据机器设备出示的抗干扰能力好于仿真模拟机器设备。您能够在一个简易的一个模块中丧失(或得到 )一些电子器件,这无关痛痒。该单元格仍将载入同样的內容。但那样不断下来,便会永无止尽。

如果我们而为设置一个仿真模拟值,在cell中应用一个仿真模拟值,那麼从理论上讲,每一个电子器件都很重要。可是,如果有充足的电子器件转移,则您必须更新数据存储器,或是…您必须以某类方法赔偿模块转变的个人行为,由于今日同样的仿真模拟键入将造成与一年前不一样的結果。

校正电源电路还能够解决一些脆化(aging)难题。可是,针对数据信息保存,Mythic说她们的确实行“……按时升级闪存芯片中储存的权重”。这将使持续性变成关键的磨坏体制(wear-out mechanism),而不是数据信息保存。Microchip表明其数据信息保存期为TBD,但很可能会每个季度或每一年对机器设备开展再次程序编写以修复模块。

这种混蛋仍在DAC和ADC上花销了很多活力。她们必须很多的ADC和DAC(官方网称她们有27,000个ADC),且务必是高品质的,以将频率稳定度(SNR)维持在可推动精确逻辑推理的范畴内,而这更是很多设计方案工作中的关键。Mythic宣称她们出示了一种新奇的ADC;Microchip能够共享资源其ADC以降低需要的总数。尽管ADC的确耗费动能,但他们都宣称他们的应用大幅度降低了总体系统软件功能损耗。

Microchip的详细列阵构造以下所显示。

Microchip将其memBrain技术性做为IP售卖,以供别人集成化到其逻辑推理处理芯片中。另一方面,Mythic也在自身的SoC中应用他们。她们应用的专业术语稍有不一样-运行内存内测算和数值模拟-但它是同一回事儿。今日,大家对他们的关心将停步于存储阵列;大家将在之后的文章内容中详细介绍他们的详细构架。

  

我将在这儿简略介绍一下自身的念头,想要知道是不是能够为此方法应用别的cell技术性。假如您能够使PCRAM模块一部分melting/crystallization,那可行吗?由于磁域的严苛地磁极方位,MRAM听起来好像难以实现的,但客观事实并不是这样简易。程序编写的特性在于指向偶极子(aligned dipoles)的总数和视角,偶极子的总数和视角很有可能并不是100%,也很有可能并不是平行面或反平行面。因而,理想化状况下,它还可以选用仿真模拟值。我和MRAM领域权威专家开展了简洁明了的沟通交流,他说道从理论上讲它是很有可能的,但并未证实是行得通的。确立地说,我没听闻一切一个涉及到这种技术性的新项目。

用SRAM来做

下一个念头来源于普林斯顿大学在Hot Chips的演说。她们应用了SRAM列阵。这好像很……让人诧异,由于他们易失。而且,依据界定,SRAM是双稳态模块。因而,它没法处在中间状态。这应当怎么处理?

普林斯顿精英团队一直遭受大家一直在探讨的这种同样的SNR难题的鼓励。对于图中,她们有自身的见解,表明转变很有可能对数据存储器造成的危害。她们宣称这难以解决,而且因此必须校准的DAC和ADC最后在总面积和功能损耗上面碾过了列阵。

由于与闪存芯片在这个问题上的探讨,尚不清楚事儿是不是像普林斯顿大学精英团队所提议的那般恐怖,但也没有能够论述的论点论据,来证实假如闪存芯片方式比SRAM模块应用大量的输出功率或更高的总面积,则所有应用。

普林斯顿大学的工作中归纳为如何去仿真模拟的难题。到迄今为止,大家选用的方式是在运行内存以前开展仿真模拟,随后在运行内存以后开展数据解决。那不是普林斯顿大学的工作中。他们维持数据情况直至基准线读值。这有一些含意:

  

她们不只应用一条bit line开展测算。因为模块依然是数据值,因而必须几个bit line才可以开展一次测算。bit line能够分拆,不一样的组开展不一样的加法。在下面的更高級其他图象中对于此事开展了表明。

他们一次键入八个键入,因而对键入空间向量开展時间切成片,并开展几回持续的乘法运算以得到 最后結果。

  

bit line正电荷堆积到电力电容器上;当准备好载入时,该正电荷被读取并发送至ADC,以变换回数据域。

他们的基础模块构造以下所显示:

这种电力电容器很有可能会造成芯片尺寸的难题,但她们表明能够应用cell上边的金属材料。自然,详细的模块如今比规范的6T SRAM模块(即便 沒有电力电容器)大80%(与闪存芯片对比早已非常大),可是有人说,他们的总体电源电路依然比规范数据完成需要的电源电路小得多。且沒有详细仿真模拟执行的挑戰。因为他们的基础列阵实际操作仍为数据方式,因而对噪音和转变的敏感度更低,这代表着他们的ADC能够更简易,功能损耗更低。

  

用…DRAM做吗?

  

针对最终的探讨,大家转为与HotMEMs上详细介绍的UPMEM彻底不一样的处理计划方案。从DRAM处理芯片的视角看来,这能够被视作运行内存内测算。可是从运行内存列阵的视角看来,它实际上是近运行内存测算。

这一念头是那样的:如果不应用很多的输出功率来获得DRAM內容并以某类方法将其掺加CPU或别的测算构造中,立即在DRAM die上开展测算呢?

这就是UPMEM所做的。她们应用DRAM加工工艺在DRAM裸片上搭建了一个简易的CPU,而该加工工艺本来并不是要想的。她们务必在构架上作出一些妥协——这不容易与Xeon处理芯片市场竞争,可是话又说回家,它并不一定对于她们已经做的事儿。她们将构架和处理芯片称之为“运行内存中解决”或PIM。

她们并不是将数据信息送到测算中,只是将测算送到数据信息中。方法(runtime)由主CPU开展,并在DRAM处理芯片自身中当地实行。随后,不用将数据信息挪动到DRAM处理芯片以外的一切部位,只需将数值传到软件系统就可以。并且,因为ML测算一般涉及到很多的降低(reduction),因而結果应该是用以测算的数据信息更少。

  

虽然那样做的确必须对DRAM设计方案自身开展一些小的变更,但她们并沒有更改工艺。如今,一个规范的DRAM控制模块将为分布式计算出示多种多样机遇。

这有不好的地方吗?运用此作用撰写详细的程序流程会很繁杂。她们的专用工具模块和步骤致力于处理此难题。因而,除开“并不是一切正常进行方法”以外,也没有见到一切风险数据信号(假定他们早已恰当实行而且能够靠谱地出示)。

  

她们期待应用PIM offload的网络服务器将比联接到无PIM的DRAM控制模块的规范网络服务器耗费二倍的功能损耗。可是,货运量为20倍,它依然为她们出示10倍的电力能源高效率优点。另一个事例是“在当地花销大量而在全局性花销更少”。

  

她们还提议,这类方式能够协助抵挡侧无线信道安全性进攻。它是因为那样的客观事实,本来包括在一个或好几个CPU中的一组测算进程流入了DRAM。如今,您必须对全部DRAM开展进攻,并以某类方法搞清楚哪一个进程在向哪里去,便于从进攻数据信息中得到 一切实际意义。她们期待这将是一项艰巨的任务。

(责任编辑:网络)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩推荐

让创业更简单

  • 反馈建议:XXXXXXXX
  • 客服电话:暂时没有
  • 工作时间:周一到周五9点~22点

云服务支持

黑客联盟,快速搜索

关注我们

Copyright 黑客论坛  Powered by©  技术支持: