word2vec的demo里的训练数据text8内的数据格式是什么样子的?

关注者
27
被浏览
16,629
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

text8来源于enwiki8,而enwiki8最早是用来做文本压缩的。简单说来,enwiki8是从wikipedia上扒下来的前100,000,000个字符;而text8就是把这些字符当中各种奇怪的符号啊,非英文字符啊全都去掉,再把大写字符转化成小写字符,把数字转化成对应的英语单词之后,得到的。

所以text8中只包含27种字符:小写的从a到z,以及空格符。如果把它打出来,读起来就像是去掉了所有标点的wikipedia。楼上已经有人打出来了,我就不上图了。

Matt Mahoney有一个网页很详细地说明了这个文件是如何来的,也包含了对文本内容一些基本分析:About the Test Data