如何实现有道云笔记的网页正文抓取功能?
关注者
198被浏览
23,88011 个回答
我刚好做过这种功能的东西,要找出网页内的所有节点,然后根据其各方面特征对其正文节点的可能性进行评分,
1、可视面积大于300x50像素,加分(服务端分析时,无法获知页面元素尺寸,此步可省略)
2、className或id为header|foot|sidebar…减分
3、className或id包含content…加分
4、子节点中纯文本节点多的,加分
5、有大图片,有多个大图片,加分
6、innerText长度大于150,内含逗号,句号多的, 加分(此步骤最有参考价值)
然后评分最高的节点即为正文节点,
如果页面HTML结构规范,页面有正文区,并且正文内容不是太短,
通过以上特征检查找出正文区的可能性是相当大的,准确率99%以上。