来源:DoNews快讯 | 2023-05-30 14:20:59 |
(资料图)
Meta团队开发了一款名为Megabyte的模型,声称能够解决“大模型标配”Transformer所存在的问题速度比它还快4成!目前,Transformer架构比较流行,但是存在两个重要的缺陷:一方面,自注意力成本随着输入和输出字节长度的增加迅速增加,如音乐、图像或视频文件通常包含数兆字节大型解码器通常只使用几千个上下文标记;另一方面,前馈网络单独对字符组或位置进行操作是难以实现可扩展性的,这是由于在每个位置的基础上会带来很多计算开销。Megabyte模型则将输入和输出序列分成patch不是单个的token。Megabyte模型的出现提供了一种新的、高效的方法来解决AI模型的发展中出现的一些问题。(站长之家)标签:
责任编辑:techtoutiao