您当前的位置:首页 >> 家居图库

百倍训练效率提高,微软通用语言表示模型T-ULRv5登顶XTREME

2025-05-11 12:29:52

。利用计算机计算读写里面英文翻译对上的掩码 tokens,鉴别器计算每个 token 是否被利用计算机样本替换成。

和 ELECTRA 一样,T-ULRv5 的特训牵涉两个 transformer JPEG,分别用作利用计算机和鉴别器。但和仅仅在英语数据库集上特训的 ELECTRA 相同,T-ULRv5 在大规模多母语数据库集上开展了特训,以外平行句法自然语言。

深入深入研究让动态通过使利用计算机计算单语读写和英文翻译对上的掩码 tokens,以不够好地求学区域性母语中间和共享比如说。开展时先于特训后,仅仅用于鉴别器作为句法JPEG对南岸目的开展微调。

特训效率增强 100 倍

既有的基于掩码母语动态 (MLM) 的区域性母语先于特训方法通常须要大量计算天然资源,开销相当划算。相对来说,XLM-E 的特训平均速度明显不够慢,它在各种区域性母语了解目的上的显出胜过两条线动态,而且计算开销要低得多。例如,用于完全相同的自然语言、代码库和动态大小不一(12 层),深入深入研究将 XLM-E(在所示 4 里面用交叉处透露)与 Facebook 多母语 XLM-R 动态的之下原版开展了比起英文翻译母语动态(XLM-R + TLM,在所示 4 里面用蓝线透露)。

可以判读到, XLM-E 的特训平均速度增强了 130 倍以达到完全相同的 XNLI 精度。12 层的 XLM-E 典范动态在 64 个 NVIDIA A100 GPU 上仅仅用了 1.7 天就开展时了特训。

在 22 亿匹配的但会,耐用性最佳的 T-ULRv5 XL 动态受益于 XLM-E 相当大增强的特训效率,用仅仅两周的一段时间在 256 个 NVIDIA A100 GPU 上开展时了特训。带入取而代之 TRTD 目的与 RTD 目的以及因特网Core的变化相混合,增强了动态的不动点平均速度和精确度。

所示 4。

多母语特训数据库

T-ULRv5 耐用性的改进,一部分来自不够好的特训数据库和不够大的词汇量。特训一个支持者 94 种母语、具备 22 亿匹配的动态,须要较低为数、较低精确度的数据库集。在多母语自然语言里面,许多语料是来自因特网,从而使得自然语言在较低天然资源母语和低天然资源母语彼此之间依赖于很大的透露差别,密切相关数据库量、清洁度和生态特别。深入研究职员在数据库建筑工程和排查方式中上投放了大量精力,以大规模生成较低精确度的数据库集来支持者 T-ULRv5 特训。

扩大词汇量

随着数据库集的不够新,深入深入研究还重构了一个包含 500000 个 token 的新释义,比 T-ULRv2 大两倍,这进一步增强了 T-ULRv5 动态在母语上的耐用性。关于词汇延展的工作,有兴趣的读者,可以参考文章《Allocating Large Vocabulary Capacity for Cross-lingual Language Model Pre-training》获得不够多细微。

苹果公司透露,深入研究职员刚刚探求多母语关键技术,通过解决诸如考虑到特训数据库、母语动态的较低开销以及多母语系统设计的复杂性等阻碍来设法构建人工智能的惯常。T-ULRv5 是一个重要重大意义,因为其区域性母语可迁入性和 zero-shot 应用程序方为开发区域性母语系统设计给予了一个不够较低效和可延展的方。

原文链接:

_blog_webpage_XTREMEleaderboard_TW

北京医院地址
博士伦滴眼液治疗近视吗
免疫治疗法多少钱
拉稀吃什么药止泻
肠炎宁和思密达哪个好
血糖仪哪个牌子的好
什么样的血糖仪好
康恩贝复方鱼腥草合剂
相关阅读
友情链接