LEADTOOLS使用教程:在C#中使用OCR将图像转换为可搜索的PDF
如今,在每个地方,几乎每个人都在使用PDF。在大多数组织中,PDF文档对于业务应用程序和工作流程至关重要。由于文件格式的可移植性和多功能性,许多行业,例如保险代理机构、金融机构和法律实践,已将其文档管理系统标准化为PDF格式。
这些PDF的使用方式取决于所处理PDF的类型。PDF有两种主要类型:图像和可搜索。例如,如果您使用文字处理器保存PDF,则很可能是可搜索的PDF,您可以根据需要复制/粘贴文档中的文本。另一方面,如果您使用扫描仪将纸张转换为PDF,则很可能是图像PDF,并且您将无法搜索文本。
即使您使用扫描仪来创建图像PDF或由其他人发送了图像PDF,仍然可以通过某种方式使它可搜索。这是通过OCR发生的,OCD是LEADTOOLS最擅长的!借助LEAD强大的OCR库,开发人员能够轻松制作自动化的OCR解决方案,并仅用五行代码即可将这些图像转换为可搜索的PDF转换。这些解决方案可以节省人员和公司两个最宝贵的资源:时间和金钱。
LEAD强大的OCR库包括这些产品:LEADTOOLS Recognition Imaging Developer Toolkit、LEADTOOLS Document Imaging Suite、LEADTOOLS OCR Module - LEAD Engine、LEADTOOLS OCR Module - OmniPage Engine、LEADTOOLS ICR Module - OmniPage Engine。
以下代码向您展示了创建将图像转换为可搜索的PDF的解决方案所需的全部内容。如果您需要完整的分步教程,请查看我们的“使用OCR将图像转换为可搜索PDF教程”。(如文章后面内容)
static void OCR(string inputFile, string outputFile) { using (IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false)) { //Startup the LEADTOOLS OCR Engine ocrEngine.Startup(null, null, null, null); //Run the AutoRecognizeManager and specify PDF format ocrEngine.AutoRecognizeManager.Run(inputFile, outputFile, DocumentFormat.Pdf, null, null); Console.WriteLine($"OCR output saved to {outputFile}"); } }
使用OCR将图像转换为可搜索的PDF-控制台C#
本教程说明如何创建一个C#Windows控制台应用程序,该应用程序设置LEAD OCR引擎以处理OCR。
创建项目并添加LEADTOOLS参考
在Visual Studio中,创建一个新的C#Windows Console项目,并添加以下必要的LEADTOOLS引用。
所需的参考取决于项目的目的。引用可以通过以下两种方法中的一种或另一种添加(但不能同时添加)。对于此项目,需要以下参考:
如果使用NuGet引用,则本教程需要以下NuGet软件包:
- Leadtools.Ocr
如果使用本地DLL引用,则需要以下DLL:
本地DLL安装在<INSTALL_DIR>\LEADTOOLS 20\Bin\Dotnet4\x64:
- Leadtools.dll
- Leadtools.Codecs.dll
- Leadtools.Codecs.Cmp.dll
- Leadtools.Codecs.Tif.dll
- Leadtools.Codecs.Fax.dll
- Leadtools.Document.Writer.dll
- Leadtools.Ocr.dll
- Leadtools.Ocr.LEADEngine.dll
设置许可证文件
许可证可解锁项目所需的功能。必须在调用任何工具包功能之前进行设置。
有两种类型的运行时许可证:
- 评估许可证,在下载评估工具包时获得。它允许评估工具包。
- 部署许可证。
添加OCR代码
创建项目,添加参考和许可证集后,即可开始编码。
在解决方案资源管理器中,打开Program.cs。要初始化和运行OCR引擎,请添加一个新OCR(string inputFile, string outputFile)方法并在Main方法内部调用它。
将以下语句添加到Program.cs顶部的using块中:
- using Leadtools;
- using Leadtools.Ocr;
- using Leadtools.Document.Writer;
C#
// Using block at the top using System; using Leadtools; using Leadtools.Document.Writer; using Leadtools.Ocr;
C#
static void OCR(string inputFile, string outputFile) { using (IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false)) { //Startup the LEADTOOLS OCR Engine ocrEngine.Startup(null, null, null, null); //Run the AutoRecognizeManager and specify PDF format ocrEngine.AutoRecognizeManager.Run(inputFile, outputFile, DocumentFormat.Pdf, null, null); Console.WriteLine($"OCR output saved to {outputFile}"); } }
C#
static void Main(string[] args) { SetLicense(); string input = @"C:\Users\Public\Documents\LEADTOOLS Images\OCR1.TIF"; string output = @"C:\Users\Public\Documents\LEADTOOLS Images\OCR1.PDF"; OCR(input, output); }
运行项目
按F5或选择Debug- > Start Debugging运行项目。
如果正确执行了这些步骤,则会出现控制台并确认许可证设置正确,然后应用程序将OCR1.TIF图像转换为PDF格式,并将其保存到指定位置(作为可搜索的PDF)。