仙居建设局网站陕西专业做网站
- 作者: 五速梦信息网
- 时间: 2026年04月20日 07:12
当前位置: 首页 > news >正文
仙居建设局网站,陕西专业做网站,wordpress购物盒子,长春网络推广优化目录 0 写在前面1 为何要关注智慧文档#xff1f;2 图像弯曲矫正3 手写板反光擦除4 版面元素检测5 文档篡改检测总结 0 写在前面 近期#xff0c;中国图象图形学学会文档图像分析与识别专业委员会与上海合合信息科技有限公司联合打造了《文档图像智能分析与处理》高峰论坛。… 目录 0 写在前面1 为何要关注智慧文档2 图像弯曲矫正3 手写板反光擦除4 版面元素检测5 文档篡改检测总结 0 写在前面 近期中国图象图形学学会文档图像分析与识别专业委员会与上海合合信息科技有限公司联合打造了《文档图像智能分析与处理》高峰论坛。论坛特别邀请了来自中科院自动化研究所、北京大学、中科大的学术专家与华为等知名企业的研究者们围绕文档图像处理及OCR领域的前沿技术展开“头脑风暴”共同交流文档图像分析与处理的前沿学术进展、在典型行业的规模化应用情况并探讨未来技术及产业发展趋势。 很荣幸听了这次论坛使我对文档智能识别技术有了更加深入的了解也让我认识到了其中涵盖的技术在实际应用中的巨大潜力和挑战 1 为何要关注智慧文档 随着信息技术的发展和应用场景的不断扩大人们需要处理和利用大量的文档信息。而传统的手动处理方法效率低下无法满足现代生活和工作的需求。文档图像智能分析与处理就是一个重要且极具挑战性的研究问题智能文档识别技术基于人工智能和机器学习等技术可以自动识别文档中的各种信息如文字、图像、表格、条码等然后将其分类、归档、摘要、提取等处理。 文档图像智能分析与处理技术被广泛应用在人们生活的方方面面比如银行票据的自动分析处理、快递运单的自动识别、教科书的分析与识别、古籍文稿的分析与理解、数字档案、数字图书馆等等极大地提高了信息的检索、处理、传播速率。总之文档图像分析与识别技术的出现和发展极大地方便了人们的生活也极大地促进了我们的社会向智能化、数字化、信息化发展。 文档图像智能分析与处理的难点在于文档的多样性和复杂性文档类型和格式繁多包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响容易出现误识别。此外还有图像质量不一、文档获取繁琐等诸多问题。 针对这些问题及其背后的技术合合信息的丁凯博士进行了深入的探讨和分析相信对这个领域感兴趣的同学一定有所收获 2 图像弯曲矫正 现代神经科学表明哺乳动物大脑的初级视觉皮层的主要工作就是进行图像的字典表示因为视觉是人类最重要的感觉——据不完全统计至少80%以上的外界信息由视觉获得。然而计算机获取图像的过程相当于用二维平面对三维客观世界进行降维表示其中降低的维度称为深度就像我们无法理解四维、五维等高维空间意义二维平面图像因为维度丢失导致图像处理的困难。 因为相机硬件不符合理论上透视相机模型针孔无限小的假设所以真实图像会产生明显的径向失真——场景中的线条在图像中显示为曲线。径向畸变(Radial Distortion)有两种类型筒体畸变(Barrel Distortion)与枕形失真(Pincushion Distortion)。此外由于相机组装过程中透镜不能和成像面严格平行会引入切向畸变(Tangential Distortion)再加上视觉文档图像的拍摄视角一般不垂直于文档平面产生文档图像的变形和扭曲。例如比较厚重的书籍在展开后其书脊两侧文字区会出现向内弯曲的情况。由此可见扭曲文档的形变情况要比平面文档要复杂对其分析和矫正的难度也比平面文档图像要高。 在高峰论坛上合合信息介绍了几种技术路线 基于文本行线拟合和坐标变换方法(2003~2015)基于文本行线坐标变换的优化方法(2015~2019)基于偏移场学习的方法(2019~2022) 对于基本拟合、变换或优化等传统方法存在一些缺陷例如在扭曲比较严重的文本区域还可能会定位错误、在复杂的版面或包含有图像的文档中识别精度下降等。 近年来合合信息采用的基于偏移场的学习方法大大改善了上述缺陷。那么什么是偏移场呢广义来说图像的灰度不均匀性通常称为偏移场。灰度不均匀性的存在会影响图像后续的分析应用许多图像处理方法都是建立在图像是均匀的基础之上的这已然成为智能文档处理中的关键环节。 国内外学者对偏移场弯曲矫正也展开了大量的研究。Guillemaud等人提出了参数化的EM算法主要是使用一组多项式基函数的线性组合来模拟偏移场用以保证偏移场的光滑性。Pham等人提出了RFCM(Robust Fuzzy C-mean)算法将对偏移场的估计值引入到模糊 C 均值聚类算法(FCM) 模型中,可以对存在偏移场的图像进行聚类分割随之而来的是繁琐的计算。由此Ahmed 等人提出了BCFCM算法可以兼顾对偏移场的矫正和噪声的抑制但是该算法受图像轮廓不同的影响较大使得估计出的偏移场不平滑同时该算法对图像中零梯度问题处理效果很差。Likar等人在偏移场矫正过程中引入了最小信息熵方法得到了不错的偏移场矫正效果但是该方法却不能很好的解决寻找曲面最优解的问题。基于此Salvado等人提出了局部熵最小化策略LEM 取得了较好的改进结果但是LEM算法对初始化参数的要求较高。 合合信息采用的则是一种端到端结构的偏移场矫正方法方法主要分为两个阶段首先使用U-Net架构对输入图像进行分割获得文本区域的掩模接着将掩模输入到另一个U-Net网络中该网络使用自注意力机制(self-attention)和残差连接(residual connections)对文档图像进行矫正。 在第一阶段U-Net网络首先将输入图像进行编码然后将编码的特征图像进行解码生成相同大小的输出掩模。在该过程中U-Net通过跳跃连接(skip connections)和上采样操作保留输入图像的高层次特征从而获得更加准确的掩模。 在第二阶段使用了另一个U-Net网络对输入图像进行矫正。该网络首先对输入图像进行特征提取然后通过自注意力机制加强了特征图像中的相关性从而更好地捕获了文档图像的全局和局部信息。接着网络使用残差连接对输入特征和输出特征进行合并从而得到矫正后的文档图像。 合合信息采用的技术相比于其他方法能够更好地处理文档图像中的扭曲和旋转等问题且实现了很好的商业化效果。 3 手写板反光擦除 随着各式各样的数码产品与数字仪器的快速普及数字图像已经成人们生活 中所接触的最重要的信息载体之一。但是图像的质量受到各种各样的外部因素的影响例如反光干扰。用户通常希望通过消除图像中的反射来提取出清晰的背景图像因此将反射图像和背景图像进行分离的图像去反光任务是计算机视觉领域的活跃研究方向。 图像去反光问题是不适定的导致基于先验的方法去反光效果非常糟糕。普遍的基于先验的方法或多或少存在这样的问题在面对实际中的反光图像时泛化效果比较差。最近深度卷积网络 (CNN) 在诸如图像识别、图像生成等计算机视觉任务取得了巨大的成功。同样的在图像去任务上深度卷积网络的强大表征能力同样表现出了不错的效果。合合信息正是采用基于学习的算法实现手写板反光擦除。 具体来说这个算法的原理是使用背景提取网络和文字提取网络来分离原始图像中的反光区域和文字区域然后再将这些区域进行重组以实现图像去反光的效果。如下图所示 原图像首先使用背景提取网络来检测图像中的背景区域。这可以通过对图像进行像素级别的分割来实现其中像素被分类为属于背景或前景。在这个过程中反光区域通常会被识别为前景区域。在训练时背景提取网络会使用一组标注好的图像作为训练集通过反向传播算法来更新网络中的权重参数从而最小化损失函数。在测试时网络会将输入图像作为网络的输入经过前向传播计算得到每个像素点属于背景或前景的概率然后根据概率阈值进行二值化处理从而得到图像的分割结果。 接下来算法使用文字提取网络来检测图像中的文字区域。这可以通过使用一些先进的文字识别技术如OCR来实现。在这个过程中文字区域通常会被准确地识别出来并被排除在反光区域之外。最后算法将背景区域和非文字区域重组成一张新的图像从而去除反光效果。这个过程通常涉及到一些图像处理技术如图像融合和修补以确保新图像的视觉效果与原始图像相似。 真实样例的效果如下可以看出反光擦除的效果很明显 4 版面元素检测 文档版面分析即对文档图像按照不同的语义功能及区域类别进行分割和识别分割出文本区、表格区、公式区、图形区等区域并判断各区域所属的类别。区域分类是版面分析中的一个重要组成部分它可以通过机器学习或深度学习的方法来识别出相应的特征区域。例如Bukhari通过对连通域进行分析提取出一些简单的特征再根据这些简单的特征产生具有更好表达能力的特征向量最后由多层感知机将连通域分类实现对复杂文档不同区域的分类。Konya和Paaß 采取最小生成树的方法通过大量的文档来提取特征并构造出相应的特征向量来对分类器进行训练以完成文档版面分析任务。 版面元素检测也可以理解为一个图像语义分割问题。目前主流的语义分割方法是采用特征图先缩小后恢复的方法如 U-Net、DeconvNet等语义分割网络先通过对图像的卷积和池化操作得到低分辨率的特征图再通过上采样或反卷积将特征图恢复到高分辨率。但是这种方法存在一个缺点就是图像从高分辨率到低分辨率的过程中会损失信息为了解决这个问题2019年提出的HRNetHigh Resolution Network可以使图像在一个分支上始终保持高分辨率的同时并行地对特征图进行下采样产生低分辨特征图各个分辨 率分别一个分支然后各个分支不同分辨率特征图之间不断地进行特征融合来产生强大的高分辨率表示从而使最终得到的特征图具有丰富的上下文信息进一步提高了网络的分割准确率。 目前合合信息提供了关于版面检测、还原的系统级解决方案涉及文字检测识别版面元素检测识别图层分离排版布局等一系列深度学习模型并需要通过合理的方式糅合各个模块搭配文档渲染最终生成可供用户编辑修改的Word/Excel文档具有非常巨大的应用价值。 5 文档篡改检测 篡改文本检测(TTDtampered text detection)作为多媒体信息安全领域的一个新兴研究方向是指通过对文本图像中纹理特征的分析捕捉真实文本和篡改文本之间的纹理差异性以确定文本图像中文字区域的真伪性。常见的应用场景有谣言检测流水、合同造假识别、欺诈图像识别、学历造假检测、保单PS检测等。 篡改文本检测任务有两个主要挑战。 局部纹理差异性捕捉困难。篡改文本与真实文本仅存在局部纹理差异真实和篡改文本检测精度平衡困难。 相较传统的文本检测任务篡改文本检测任务需要进一步区分篡改和真实文本。由于真实和篡改文本分类难度不一致训练过程中网络无法平衡两类的学习过程导致在测试过程中两类检测精度差异较大。上述挑战极大地限制了篡改文本检测方法的性能。因此如何准确地捕捉局部纹理差异性同时平衡篡改和真实类别学习难度是目前篡改文本检测研究的重要方向。 合合信息采用的是现在大火的Transformer结构。Transformer又是什么呢它是一种用于自然语言处理、计算机视觉或其他序列到序列sequence-to-sequence任务的神经网络架构。 Transformer基于注意力机制Attention Mechanism构建其核心思想是在序列中进行全局信息的交互和捕捉而不是像以往的循环神经网络RNN一样在序列中逐个位置处理信息。Transformer通过多个自注意力层Self-Attention Layer进行信息的交互和表示而每个自注意力层包含了注意力机制的三个部分查询query、键key和值value。现在流行的GPT(Generative Pre-trained Transformer)系列模型正是一种基于Transformer的语言模型。 图源网络侵删 具体来说对于一个输入序列Transformer将其转换为多个词向量word embeddings然后通过自注意力层进行特征提取。在自注意力层中查询向量通过与所有键向量的相似度计算来计算注意力分数这些分数用于加权求和值向量最终得到每个位置的输出向量。然后这些输出向量被馈送到下一个自注意力层或全连接层进行后续处理。 相比于传统的序列模型Transformer的优点在于可以并行处理输入序列从而加速模型的训练和推断。此外Transformer还能够有效地处理长序列因为它可以在不受时间限制的情况下一次性处理整个序列而不需要像RNN那样进行逐个位置的处理。 总结 介绍了这么多黑科技之后想必大家对智能文档处理领域有了一定了解。合合信息的智能文字识别应用开发宗旨就是为了让世界更高效合合信息深耕人工智能17年全球累计用户下载量23亿享有国内外发明专利113项在顶级AI竞赛获得15项世界冠军提供行业智能解决方案30个。合合信息提供了深受全球用户喜爱的效率工具例如C端的名片全能王、扫描全能王等。相信合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的深耕厚积薄发用技术方案惠及更多的人。
- 上一篇: 夏门建设局网站零基础室内设计难学吗
- 下一篇: 仙桃企业网站建设高档网站设计公司
相关文章
-
夏门建设局网站零基础室内设计难学吗
夏门建设局网站零基础室内设计难学吗
- 技术栈
- 2026年04月20日
-
夏津网站建设费用网络营销中的seo是指
夏津网站建设费用网络营销中的seo是指
- 技术栈
- 2026年04月20日
-
夏津网站建设费用福州帮人建网站公司
夏津网站建设费用福州帮人建网站公司
- 技术栈
- 2026年04月20日
-
仙桃企业网站建设高档网站设计公司
仙桃企业网站建设高档网站设计公司
- 技术栈
- 2026年04月20日
-
仙桃市建设局网站山东泰安网络科技有限公司
仙桃市建设局网站山东泰安网络科技有限公司
- 技术栈
- 2026年04月20日
-
仙桃市住房建设局网站网站建设如何收费
仙桃市住房建设局网站网站建设如何收费
- 技术栈
- 2026年04月20日
