如何实现有道云笔记的网页正文抓取功能?

1、请提供解决的思路,如果能够给出一段源代码就最好不过了。最好用C#写的。或者有没有什么开源的抓取正文的小软件 2、在本地打开了网页,想要从本地直接抓…
关注者
198
被浏览
23,880

11 个回答

我刚好做过这种功能的东西,要找出网页内的所有节点,然后根据其各方面特征对其正文节点的可能性进行评分,

1、可视面积大于300x50像素,加分(服务端分析时,无法获知页面元素尺寸,此步可省略)

2、className或id为header|foot|sidebar…减分

3、className或id包含content…加分

4、子节点中纯文本节点多的,加分

5、有大图片,有多个大图片,加分

6、innerText长度大于150,内含逗号,句号多的, 加分(此步骤最有参考价值)

然后评分最高的节点即为正文节点,

如果页面HTML结构规范,页面有正文区,并且正文内容不是太短,

通过以上特征检查找出正文区的可能性是相当大的,准确率99%以上。

一个提取文章正文并优化展示的bookmarklet,正文抓取部分是JS的,可以借鉴。

readable.tastefulwords.com