色酷电影-【SOE-073】ギリモザ 無限絶頂!激イカセFUCK Ami 检修 AI 模子,不错更省钱
777me奇米影视
你的位置:色酷电影 > 777me奇米影视 > 【SOE-073】ギリモザ 無限絶頂!激イカセFUCK Ami 检修 AI 模子,不错更省钱
【SOE-073】ギリモザ 無限絶頂!激イカセFUCK Ami 检修 AI 模子,不错更省钱
发布日期:2024-08-18 20:30    点击次数:115

【SOE-073】ギリモザ 無限絶頂!激イカセFUCK Ami 检修 AI 模子,不错更省钱

(原标题:检修 AI 模子【SOE-073】ギリモザ 無限絶頂!激イカセFUCK Ami,不错更省钱)

如果您但愿不错往往碰面,接待标星保藏哦~

起原:内容来自VentureBeat

很多公司王人寄但愿于东谈主工智能能澈底改革他们的业务,但这些但愿很快就会被检建立杂东谈主工智能系统的惊东谈主本钱所闹翻。埃隆·马斯克指出,工程问题往往是证实停滞的原因。在优化 GPU 等硬件以灵验处理检修和微调大型话语模子的多量诡计需求时,这小数尤为昭彰。

天然大型科技巨头有身手在培训和优化上参预数百万致使数十亿好意思元,但中微型企业和发展较短的初创企业往往发现我方被旯旮化了。在本文中,咱们将探讨一些战略,这些战略不错让即使是资源最受限的设备东谈主员也或者在不花大钱的情况下检修东谈主工智能模子。

一毛钱一好意思元

您可能知谈,创建和发布 AI 居品(不管是基础模子/大型话语模子(LLM) 依然经过微调的卑鄙应用要道)在很猛进度上依赖于专用 AI 芯片,独特是 GPU。这些 GPU 尽头昂然且难以取得,以至于 SemiAnalysis在机器学习 (ML) 社区中创造了“GPU 丰富”和“GPU 枯竭”这两个术语。LLM 的检修本钱可能很高,主如果因为与硬件关连的用度(包括采购和保养),而不是 ML 算法或内行常识。

检修这些模子需要在弘大的集群上进行多量诡计,而较大的模子则需要更长的时期。举例,检修LLaMA 2 70B需要将 700 亿个参数显露给 2 万亿个 token,这至少需要 10^24 次浮点运算。如果你的 GPU 身手很差,你应该撤消吗?不。

替代战略

如今,科技公司正在哄骗多种战略来寻找替代处置决议,减少对昂然硬件的依赖,并最终浅显资金。

一种步伐是调遣和精简检修硬件。尽管这条道路在很猛进度上仍处于实验阶段,而且投资密集,但它有望在异日优化 LLM 检修。此类硬件关连处置决议的示例包括Microsoft和Meta的定制 AI 芯片、 Nvidia和OpenAI的新半导体商酌、百度的单诡计集群、 Vast的租出 GPU以及Etched的搜狐芯片等。

天然这是取得证实的重要一步,但这种步伐仍然更相宜那些有身手咫尺参预多量资金以减少以后开支的大公司。关于咫尺但愿创造东谈主工智能居品的财力有限、初入此谈的外行来说,这种步伐并不适用。

立异软件

探究到预算较低,还有另一种优化 LLM 培训并编造本钱的步伐——通过立异软件。这种步伐更实惠,大多数 ML 工程师王人不错使用,不管他们是教会丰富的专科东谈主士,依然有抱负的 AI 青睐者和但愿进入该畛域的软件设备东谈主员。让咱们更详备地接头一下这些基于代码的优化用具。

搀杂精度检修

情况:假定您的公司有 20 名职工,但您租用的办公空间可供 200 名职工使用。昭着,这昭着是奢靡资源。在模子检修经由中也会出现肖似的低效果,其中 ML 框架常常会分派比实践需要更多的内存。搀杂精度检修通过优化来更正这种情况,从而擢升速率和内存使用率。

责任旨趣:为了收场这小数,将较低精度的 b/float16 运算与圭臬 float32 运算相荟萃,从而减少每次诡计操作。关于非工程师来说,这听起来像是一堆本领术语,但它的实践含义是,AI 模子不错更快地处理数据,况且需要更少的内存,而不会影响准确性。

改进测度打算:该本领可使 GPU 上的开动时期擢升 6 倍,TPU (谷歌的张量处理单位)上的开动时期擢升 2-3 倍。Nvidia 的APEX和 Meta AI 的PyTorch等开源框架复旧搀杂精度检修,使其易于收场管谈集成。通过执行此步伐,企业不错大幅编造 GPU 本钱,同期仍保握可经受的模子性能水平。

激活搜检点

它是什么:如果您受限于有限的内存,但同期又好意思瞻念参预更多时期,66abcd那么搜检点可能是相宜您的本领。简而言之,它有助于通过将诡计保握在最低戒指来权臣减少内存浮滥,从而无需升级硬件即可进行 LLM 培训。

洋萝莉系

责任旨趣:激活搜检点的主要想想是在模子检修时代存储一组基本值,并仅在必要时重新诡计其余值。这意味着系统不会将统共中间数据王人保存在内存中,而是只保留重要数据,从而在此经由中开释内存空间。这肖似于“到时再谈”原则,这意味着不要为不太迫切的事情麻烦,直到它们需要留心为止。

改进测度打算:在大多数情况下,激活搜检点可将内存使用量减少高达 70%,尽管它也将检修阶段蔓延了梗概 15-25%。这种平允的量度意味着企业不错在现存硬件上检修大型 AI 模子,而无需向基础设施参预很是资金。前边提到的 PyTorch 库复旧搜检点,使其更易于收场。

多 GPU 检修

它是什么:想象一下,一家小面包店需要快速坐褥一无数法棍面包。如果一个面包师单独责任,可能需要很永劫期。如果有两个面包师,这个经由会加速。加上第三个面包师,速率会更快。多 GPU 检修的运作口头大致疏导。

责任旨趣:您无需使用一个 GPU,而是同期使用多个 GPU。因此,AI 模子检修散播在这些 GPU 之间,使它们或者协同责任。从逻辑上讲,这与之前的步伐搜检点有点相背,后者不错编造硬件采购本钱,以换取更长的开动时期。在这里,咱们使用更多的硬件,但最大戒指地哄骗硬件并最大戒指地擢升效果,从而编造开动时期并编造运营本钱。

改进测度打算:以下是用于使用多 GPU 栽植检修 LLM 的三种弘大用具,凭据实验斥逐按效果升序胪列:

DeepSpeed:一个特意为使用多个 GPU 检修 AI 模子而想象的库,其速率比传统检修步伐快 10 倍。

FSDP:PyTorch 中最流行的框架之一,它处置了 DeepSpeed 的一些固有限制,将诡计效果擢升了 15-20%。

YaFSDP:最近发布的用于模子检修的 FSDP 增强版块,比原始 FSDP 步伐加速 10-25%。

论断

通过使用搀杂精度检修、激活搜检点和多 GPU 使用等本领,即使是中微型企业也不错在 AI 检修方面取得要紧证实,不管是在模子微调依然在创建方面。这些用具擢升了诡计效果,减少了开动时期并编造了总体本钱。此外,它们还允许在现存硬件上检修更大的模子,从而减少了昂然的升级需求。通过使高等 AI 功能的拜谒民主化,这些步伐使更粗鄙的科技公司或者在这个快速发展的畛域进行立异和竞争。

俗语说,“东谈主工智能不会取代你,但使用东谈主工智能的东谈主会。”咫尺是时候拥抱东谈主工智能了,通过上述战略,即使预算很低,也有可能作念到这小数。

https://venturebeat.com/ai/the-economics-of-gpus-how-to-train-your-ai-model-without-going-broke/

半导体极品公众号推选

专注半导体畛域更多原创内容

热诚群众半导体产业动向与趋势

*免责声明:本文由作家原创。著述内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或复旧,如果有任何异议,接待关连半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3858期内容,接待热诚。

『半导体第一垂直媒体』

及时 专科 原创 深度

公众号ID:icbank

可爱咱们的内容就点“在看”共享给小伙伴哦【SOE-073】ギリモザ 無限絶頂!激イカセFUCK Ami