odr

Optical Document Recognition/光学文档识别

《一种基于视觉词汇的文本分类方法》配套代码

尝试的方向

基于视频词汇的文本图片分类相对于“图片-（ocr）->文本->分类”的方法，省略ocr的步骤，可以降低整体复杂度，同时适应特殊文本的分类，比如数学公式、图表、化学方程式等。

正在尝试的方案

视频词汇提取(同方案1)
聚类多维度词汇
- 计算多种特征，如使用不同分辨率计算hog、daisy
- 对每种特征词汇使用MiniBatchKMeans聚类
学习分类模型
- 计算每类词汇的tf-idf并合并，PCA，训练svc

当前方案存在的问题

需要尝试选取不同的特征
训练和识别效率低下

已经尝试的方案1

视频词汇提取
- 拟合直线调整图片大小和方向
- erode/erode 提取文本行
- 根据列像素值变化曲线切割成文字，选取不同宽度进行多次切割（提取的词汇，在图像上看是有重叠的）
聚类得到词汇
- 计算hog、daisy特征
- DBSCAN/MiniBatchKMeans 聚类
学习分类模型
- 计算tf-idf，PCA，训练svc

方案1存在的问题

DBSCAN聚类效果好，但样本数多以后聚类慢，内存消耗大，且无法分批学习
MiniBatchKMeans聚类效果差，高频但不相关的词汇容易被聚成一类

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
.idea		.idea
samples		samples
utils		utils
.gitignore		.gitignore
README.md		README.md
__main__.py		__main__.py
odr.py		odr.py
words.py		words.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.idea

.idea

samples

samples

utils

utils

.gitignore

.gitignore

README.md

README.md

main.py

main.py

odr.py

odr.py

words.py

words.py

Repository files navigation

odr

尝试的方向

正在尝试的方案

当前方案存在的问题

已经尝试的方案1

方案1存在的问题

计划尝试的方案

About

Releases

Packages

Languages

caoym/odr

Folders and files

Latest commit

History

Repository files navigation

odr

尝试的方向

正在尝试的方案

当前方案存在的问题

已经尝试的方案1

方案1存在的问题

计划尝试的方案

About

Resources

Stars

Watchers

Forks

Languages