Aspose.OCR for .NET 实现从PDF文件中提取文字和图片-控件新闻-慧都网

Aspose.OCR for .NET 实现从PDF文件中提取文字和图片

原创|其它|编辑：郝浩|2011-07-21 11:05:21.000|阅读 4542 次

概述：从PDF文件中提取文字是开发人员对PDF文件最常见、最普通的需求。Aspose.Pdf for .NET虽然允许你从.net程序的PDF文件中提取文字，但是它也有不完善之处。唯一的限制就是，不能从PDF文件中的图像提取文字。

　　从PDF文件中提取文字是开发人员对PDF文件最常见、最普通的需求。Aspose.Pdf for .NET虽然允许你从.net程序的PDF文件中提取文字，但是它也有不完善之处。唯一的限制就是，不能从PDF文件中的图像提取文字。

　　然而，Aspose.OCR for .NET的出现消除了该限制。在这篇文章中，通过分享一些细节来阐述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET这两款组件，以提取PDF文件中的所有文字。

　　目前， Aspose.OCR for .NET允许你提取TIFF和BMP图像中的文字。它支持Arial和Times New Roman字体，以及16pt/32pt号字体。在Aspose.OCR for .NET以后的版本中，会不断添加新字体和其他属性的支持。

　　为了从PDF文件和图像中完整地提取文字，你必须要经过以下三个步骤：

* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images

　　使用Facades中的PdfExtractor或者DOM API，可将文字从PDF文件中提取出来。请参阅以下题目中的代码示例，以便了解从PDF文件中提取文字的相关操作：

*
*

　　提取图像也有两种方法: Facades or DOM API. 查看下列题目中的内容可进一步了解详情
：

*
*

　　一旦使用上述两种方法之一成功提取图像，接下来就应该从这些图像中提取文字。下面的代码片断可以帮助您从图像中提取文字：

　　//initialize OcrEngine
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);

　　//add language and other attributes
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;

　　//load the resource file
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);

　　//process the whole image
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}

　　有关从图像中提取文字和以上示例所涉及的源文件的更多详情，请参考：

本站文章除注明转载外，均为本站原创或翻译。欢迎任何形式的转载，但请务必注明出处、不得修改原文相关链接，如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn

文章转载自：慧都控件网

上一篇：如何使用XmlReader读Xml 下一篇：理解Java基础之注解Annotation

彩票走势图相关的文章 MORE

彩票走势图

在线采购

中文文档库

试用/Demo下载

开发社群