IP 属地北京
vigor tan
他的动态
可以看Hannun Awni的经典文章 Sequence Modeling with CTC(Distill, 2017)以下是经论智编译的原文: CTC识别效果示意图 简介谈及语音识别,如果这里有一个剪辑音频的数据集和对应的转录,而我们不知道怎么把转录中的字符和音频中的音素对齐,这会大大增加了训练语音识别器的难度。 如果不对数据进行调整处理,那就意味着不能用一些简单方法进行训练。 对此,我们可以选择的第一个方法是制定一项规则,如“一个字符对应十个音素…
群魔乱舞:MoE大模型详解
GPT-4是8个2200亿MoE模型GPT-4远不止1万亿,甚至,还是8个2200亿参数组成的混合专家模型( MoE)。2023年6月,美国知名骇客George Hotz在接受采访时透露,GPT-4由8个220B模型组成。这么算来,8 x 220B = 1.76万亿。就连PyTorch的创建者Soumith Chintala对此也深信不疑。 下面这张8头怪,看起来就像现在的GPT-4。 MoE 应用于大模型,GPT-4并不是第一个。在2022年的时候,Google 就提出了MoE大模型 Switch Transformer,模型大小是…