提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
翻译|使用教程|编辑:莫成敏|2019-08-06 16:22:46.370|阅读 426 次
概述:eDiscovery对于软件开发人员来说是一个巨大的市场,在法律程序的任何阶段都充满了机会,本篇文章主要讲述LEADTOOLS如何在eDiscovery应用程序中工作。现在就来跟着来了解一下吧~
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
LEADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK中各种特点的精选组合,它用于在企业级文档自动解决方案中建立端到端的文档图像应用程序,而这些文档图像应用程序需要有捕捉、表格识别和处理、存档、注释和显示功能。
点击下载LEADTOOLS Document Imaging Suite SDK免费版
eDiscovery对于软件开发人员来说是一个巨大的市场,在法律程序的任何阶段都充满了机会,本篇文章主要讲述LEADTOOLS如何在eDiscovery应用程序中工作。现在就来跟着来了解一下吧~
LEADTOOLS Document Imaging SDK具有广泛的成像技术,非常适合任何eDiscovery应用程序。最简单的单一服务专家、端到端商业ECM、以及介于两者之间的一切,都可以找到为其应用添加世界级成像技术所需的一切。
与EDRM作为一般指南和流程的工作方式,以及可以跳过或重新审视的步骤大致相同,下面概述的成像技术并不是一组强制性的功能。在大多数情况下,这些技术的顺序遵循企业级ECM中的典型使用流程,但可以进行修改和重组,以匹配任何开发团队的目标和创造力。
扫描
ECM和eDiscovery应用程序中最重要的元素之一就是能够将纸质文档数字化。没有什么比扫描更有效地获得纸质文档的高质量数字复制。即使这是公司为法庭所做的一切准备,由于简化了电子文件的运输和共享,扫描可以节省大量的时间和资金。一个U盘可以代替数百甚至数千磅的纸张,这些纸张从一个办公室运送到另一个办公室,然后运送到法庭。
LEADTOOLS包含高级类,可以使用TWAIN驱动程序或SANE后端从任何扫描仪中轻松获取图像。请考虑以下代码段,该代码段提示用户选择TWAIN源,然后将获取的图像加载到查看器中。
private void GetImageFromTwainSource() { _twainSession.SelectSource(string.Empty); _twainSession.AcquirePage += new EventHandler( twainSession_AcquirePage); _twainSession.Acquire(TwainUserInterfaceFlags.Show); } private void twainSession_AcquirePage(object sender, TwainAcquirePageEventArgs e) { imageViewer.Image = e.Image; }
文档清理和预处理
考虑成像SDK时另一个非常重要的功能是它能够清理扫描图像。清理图像有两个主要好处,每个都对整个eDiscovery过程产生巨大的影响
首先,可能最明显的是,文档本身更具可读性。这对人眼来说很棒,但对电脑更好。只有几个像素分隔了小写l、大写L和数字1。人眼仍然可以阅读带有划线或折痕的文本,但即使是最好的OCR引擎也会返回胡言乱语。
第二,是存储空间。许多压缩算法通过比较相邻像素来完成其工作。对于构成大多数扫描文档的黑白图像尤其如此。执行清除灰尘斑点、打孔、线条、边框等的图像清理功能,会对运行长度和由单一颜色组成的块的大小产生深远影响,从而允许非常高的压缩率达到92%以上的脏图像的压缩大小。
图1:使用LEADTOOLS清理脏图像。两者都使用CCITT G4压缩,但干净的图像仅为12kb,而不是146kb
OCR
光学字符识别对于任何想要加强eDiscovery游戏的公司来说都是必不可少的。虽然扫描和清洁图像可以完成工作并合法覆盖基础,但OCR具有竞争优势,是许多其他技术的重要基石。
以前静态图像在转换为PDF、Microsoft Word或任何其他可搜索文本格式时都可以变为活动状态。能够搜索数字存储文档的内容是eDiscovery中的一项重要资产,特别是在处理、审查和分析阶段。LEADTOOLS可以创建图像文本PDF,这在eDiscovery中非常有用,因为格式将原始图像保留在文本图层的顶部,使其既可以搜索也可以与原始图像保持不变。即使TIFF仍然是ECM中的首选文件格式,OCR也可以为这些静态图像注入可以搜索或索引的元数据,以便在需要时更容易引用。
LEADTOOLS使OCR非常简单。将磁盘上的源文件转换为可搜索的PDF只需三行代码即可完成
IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false); ocrEngine.Startup(null, null, null, null); ocrEngine.AutoRecognizeManager.Run(@"C:∖InputFile.tif", @"C:∖OutputFile.pdf", DocumentFormat.Pdf, null, null);
形式
表单识别是OCR的一种专门实现,它经过精心调整,可以从文档中提取特定的信息,而不是捕获整个文档。组织可能有各种各样的表单,从就业时提交的税表到发票和发给客户的账单。就其本质而言,表单有很多重复的信息,也许唯一相关的数据是申请人、客户、员工等填写的数据。因此,在ECM中存档这些表格的最有效和最有用的方法是,从这些字段中提取数据,并将它们索引到数据库中或将其另存为元数据。
LEADTOOLS能够处理表单的分类和处理。在分类时,LEADTOOLS会将传入的文档与主模板库(即表单的空白、未填充版本)进行比较。然后一旦找到匹配项,它将执行分区OCR以从填好的表单中提取数据
图2:使用LEADTOOLS Forms Recognition显示提取的字段
本教程内容较多,后半部分内容请点击这里~
想要购买该产品正版授权,或了解更多产品信息请点击
扫描关注慧聚IT微信公众号,及时获取最新动态及最新资讯
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn
本文探讨 SQL Server 中 NULL 和空值之间的区别,并讨论如何有效地处理它们。
Unity 是一款功能极其丰富的游戏引擎,允许开发人员将各种媒体集成到他们的项目中。但是,它缺少最令人兴奋的功能之一 - 将 Web 内容(例如 HTML、CSS 和 JavaScript)直接渲染到 3D 场景中的纹理上的能力。在本文中,我们将介绍如何使用 DotNetBrowser 在 Unity3D 中将 Web 内容渲染为纹理。
DevExpress v24.2帮助文档正式发布上线了,请按版本按需下载~
本教程将向您展示如何用MyEclipse构建一个Web项目,欢迎下载最新版IDE体验!
LEADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK中各种特点的精选组合,这套强大的工具利用了LEAD行业领先的图像处理技术来智能地识别文档的特征,而根据文档的特征可以识别扫描的或传真的任何类型的表格图像。
LEADTOOLS Document Imaging Developer Toolkit多语言的文档图像处理控件,支持光符识别处理、条形码扫描识别等。
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@pclwef.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢