博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Recurrent Neural Network[CTC]
阅读量:6375 次
发布时间:2019-06-23

本文共 2018 字,大约阅读时间需要 6 分钟。


0. 背景

1. CTC原理

441382-20171214112851576-733436982.png

图 CTC结构图

CTC是看似和HMM有些联系,然后也采用DP来进行求解,将CTC结构图中<RNN输出,CTC层>单独拿出来,得到如下形式:

441382-20171214114146326-640784755.png
图 用前向-后向算法计算CTC
上图如CTC结构图,

  • 最开始只能以(-)或者标签序列中第一个字符开始,即这里的t=1时,是{(-),(C)};
  • 在结尾也只能以(-)或标签序列中最后一个字符结束,即这里的t=T时,是{(-),(T)};

所以,在所有的路径中,只有开始和结束的点算是确定的。不过值得注意的是,这里最开始和结束的空白符,分别是t=1的最开始空白符和t=T的结束空白符

训练tricks:

  • 1 - 标点符号:在建立数据集的时候,需要将中文的如[,.' ";:]等标点符号换成英文的,或者反过来,不要有两份一样的,因为目前不论是attention_ocr还是ctc都算是象形文字,所以模型看到中文分号和英文分号,总觉得是同一个东西,所以会分错;
  • 2 - 训练集:在建立数据集的时候,因为ctc_loss中有个sequence_length,所以,为了增加数据分布一致性和ctc的效率,最好先对图片对应的文字进行长度排序,比如前面100个样本的label都是小于5的字符串;后面100个都是小于10的字符串;后面100个都是小于15的字符串,等等。
  • 3 - batch间独立,batch内相等:在读取数据的时候,同一个batch中因为图片大小需要相同,而如果是全卷积网络,是可以让不同batch之间独立的。所以图片的缩放可以按照batch之间各自决定。比如第一个batch 读取长度小于5的label和图片,将其缩放到100*32;第二个读取长度小于10的label和图片,将其缩放到200*32;
  • 4 - 训练集双尾问题:为了数据的平衡性,需要将数据集中出现次数特别少的和出现次数特别多的label的样本删除,保证每个字符的频率都适中;

ps:字库可以去上下载,然后将scel转换成txt,然后就能接着生成自己需要的了

ps:关于CRNN模型的训练集问题:
;;;;;;;;;;;

'''在其中的colorize3_poisson.py中'''l_out =  blit_images(l_normal.color,l_bg.color.copy())'''等同于http://www.learnopencv.com/seamless-cloning-using-opencv-python-cpp/    这里实现的泊松图像编辑中的混合模式,    所以整个项目中的poisson_reconstruct.py脚本可以删除'''obj = l_normal.colorbgi = l_bg.color.copy()mask = 255 * np.ones(obj.shape, obj.dtype)width, height, channels = bgi.shapecenter = (height//2, width//2)mixed_clone = cv2.seamlessClone(obj, bgi, mask, center, cv2.MIXED_CLONE)l_out = mixed_clone

在使用合成代码的时候,还是有一些问题的,如:

;;
文字合成后属性问题
;;;;;
对比度问题
;;;;
图片分割问题
;;
;;;;;
取消坡度粘贴:随机生成每个图片的depth即可,然后将plane2xyz中z = np.ones_like(z)*-0.1,使得该函数失效,每一个点的z轴高度一致,然后删除place_text中2个透视映射homography函数
整个图片都作为背景区域:将图片的seg修改为整个图片大小,然后计算其中的像素点,格式如原来。然后将get_text_placement_mask中place_mask前面加一句ROW=W;COL=H,使得每次都选取整个图片。

建议:可以在batch获取的时候,先统一高resize成32,然后取batch中最长的那个width为准,其他不足的以雪花点不全(先生成一个imgW*32的雪花点矩阵,且imgW很长)。从而防止图像失真。

猜测:上面的几个链接中,是先训练2个字的语料,然后逐渐上升到10个字的语料(虽然里面也有人说直接训练10个字的语料,这不是重点)。不过实际做inference的时候,该模型却能对应15甚至20个字的图片进行预测。所以个人猜测,是不是其实本身学习的也还是一种映射机制,即只是为了让整个模型能够将某些图像对应成某个字:

441382-20180205100622435-1572372946.png
如上图中几个国字,因为“象形”,所以其实是为了学习不同背景,不同形状下的对应关系,所以其实背景的复杂程度加上字体本身的变化,颜色等等,才是数据集建立的关键,而lstm本身读取语料的语义虽然有纠错功能,不过却并不是识别的本质?

转载地址:http://notqa.baihongyu.com/

你可能感兴趣的文章
微服务分布式企业框架 Springmvc+mybatis+shiro+Dubbo+ZooKeeper+Redis+KafKa
查看>>
word2vec原理(三) 基于Negative Sampling的模型
查看>>
被《时代周刊》选为年度最佳发明,PS VR靠的竟然是价格
查看>>
通用唯一标识码UUID的介绍及使用。
查看>>
spring笔记--依赖注入之针对不同类型变量的几种注入方式
查看>>
Java爬虫——网易云热评爬取
查看>>
Ajax的简单学习
查看>>
无华为,不智慧:智慧城市建设为何少不了华为?
查看>>
高性能网络通信框架Netty-基础概念篇
查看>>
为npm配置taobao源
查看>>
orm框架(SQLAlchemy) 连接数据库和创建表
查看>>
OSPF多区域虚电路配置
查看>>
zookeeper初探三 java客户端连接
查看>>
管理邮件用户
查看>>
Python中的运算符、数据类型、字符串及列表操作举例
查看>>
Tab页界面之二,jQuery技术实现
查看>>
如何查看linux版本
查看>>
导出DC数据以便以介质方式安装另一台域控制器
查看>>
2、Gerrit配置--用户配置
查看>>
Centos7 Nginx 服务器的安装配置
查看>>