复旦大学 教师

查看更多 a
我们最近探索了大语言模型的长度外推能力,发现通过简单缩放位置编码的周期性可以将模型的输入长度外推到百万级,并总结了缩放规律。欢迎批评指正[抱拳]

RoPE外推的缩放法则 —— 尝试外推RoPE至1M上下文 - 作者:河畔草lxr,O网页链接 (想看更多?下载 @知乎 App:S知乎 ​​​​...展开全文c

知乎

应用
知乎
马少平THU邱锡鹏快转了
右右先搞清楚核废水和核污染水的区别//@地瓜熊老六:那你给大家讲讲吧//@风雨飘摇125:所以当你们在看日本排放核废水的时候,能不能深层考虑一下,核废水的辐射当量是多少?其他国家排放的核废水当量是多少?这些都不考虑。然后就知道喷呀喷呀!
#日本核污染水排海正式开始#柴静,潘石屹,瑞典环保少女,今天都沉默了。 ​​​​
  • 动图
目前的多模态大语言模型多采用外接一个其它模态的编码器。但是这离AGI还有一定的距离,我们提出了SpeechGPT,它具有内生的跨模态能力,是第一个既能接受跨模态输入,也能产生跨模态输出的大语言模型。SpeechGPT突破了传统语音到语音对话cascaded system (ASR+LLM+TTS) 的束缚,实现了模态之间的知识传 ​​​​...展开全文c
和飞桨一起合作开发的NNDL实践课已在AI Studio已经公开上架,欢迎批评指正!
地址:O网页链接 ​​​​
👍🏻👍🏻👍🏻
在《统计学习方法第二版》内容基础上增加了深度学习,改名为《机器学习方法》。#机器学习#
第23章 前馈神经网络
第24章 卷积神经网络
第25章 循环神经网络
第26章 序列到序列模型
第27章 预训练语言模型
第28章 生成对抗网络...展开全文c
升级版中文BART来了[笑脸]介绍一个我们和之江实验室合作的预训练模型CPT。在中文预训练方面有很多模型要么遵循BERT,要么遵循GPT的架构和预训练任务。一个面向理解,一个面向生成。但在实际使用中,BART是一个比GPT更有效、使用更多的生成模型,但在中文社区却没有受到足够的重视。因此,我们预训练了 ​​​​...展开全文c
  • 长图
预训练模型之后,越来越多的自然语言处理任务趋向于统一的范式,比如匹配范式、MRC范式、Seq2Seq范式。我们最近整理NLP中范式迁移现象,并总结了可能一统所有NLP任务的潜在统一范式。具体关注论文《Paradigm Shift in Natural Language Processing》O网页链接 欢迎关注并提出意见[抱拳] ​​​​
李航博士邱锡鹏快转了
另外,ransformer、BERT、GPT、Adam、Boosting、Bagging等是缩写或接近专有名词的,就不建议再翻译了。//@李航博士: 是掩码,打错了,对不起。
如果机器学习术语的中文翻译能更加统一,大家交流就会更加方便。最近和周志华、邱锡鹏、李沐、Aston Zhang等讨论,给出了常用机器学习术语的推荐翻译。也与机器之心的同仁们合作,更新了他们一直维护的术语列表。
值得大家注意的推荐翻译有:
Pooling,汇聚,而不是“池化”,Pooling在英文中也有汇 ​​​​...展开全文c
分享一个我们近期的工作,使用统一的生成范式来解决各种NER问题,一个模型解决flat NER、Nested NER,discontinuous NER问题。欢迎尝试:)
A Unified Generative Framework for Various NER Subtasks O网页链接 ​​​​
代码见:O网页链接
我们最近发表在NAACL 2019的工作: 1) Star-Transformer: 一个轻量级的适用于小规模或中等规模的Transformer架构O网页链接
2) VCWE: Visual Character-Enhanced Word Embeddings 一种视觉增强的词向量O网页链接 ​​​​
我们最近发表在NAACL 2019的工作: 1) Star-Transformer: 一个轻量级的适用于小规模或中等规模的Transformer架构O网页链接
2) VCWE: Visual Character-Enhanced Word Embeddings 一种视觉增强的词向量O网页链接 ​​​​
偶像!
【读图】一张图看懂Elon Musk 的传奇人生 ​​​。(互联网的那点事) ​​​​
  • 长图

正在加载中,请稍候...