扫描识别工具Dynamic Web TWAIN使用教程:PDF光栅化
使用PDF Rasterizer快速将PDF转换为图像
介绍
PDF是市场上最流行的格式之一。在大多数情况下,PDF文件是可读的,这意味着它们在内部包含文本内容。将其转换为图像的一种方法是截取页面的屏幕截图。但是,这种方式是非常低效的。通过使用PDF Rasterizer,你可以快速完成将PDF转换为图像。
环境
注意:PDF Rasterizer本身不依赖,本文中需要它只是因为我们使用其包管理器(npm)来获取所需文件的速度更快。
步骤
1.创建一个新目录,打开命令行工具(快捷方式Ctrl+Shift+right click)。通过npm下载本文中使用的核心控件。
npm install dwt@14.2.0
然后,你可以在此目录中看到以下内容
2.打开以下目录
node_modules\dwt\sample
在这你可以看到
3.在本文中,我们将检查PDFRasterizer.html。双击它打开。如果相关控件尚不可用,请按照提示进行安装。
正常情况下,可以在C:\Windows\SysWOW64\Dynamsoft\DynamsoftService目录中找到已安装的文件。这里的核心文件主要是
DynamsoftService.exe
dwt_trial_14.1.0.0828.dll
DynamicPdf_10.3.0.0712.dll
4.安装完成后,刷新页面,单击第二个按钮并打开本地PDF文件。很快,该PDF文件将在页面上的图像查看器中显示为图像。
此时,你可以打开浏览器的开发人员界面(F12)并尝试执行以下代码,该代码允许你一次查看多个图像。
DWObject.SetViewMode(3,3);
你还可以保存这些图片到本地磁盘(格式如JPEG,BMP,PNG,TIF等)
DWObject.IfShowFileDialog = true; DWObject.SaveAsJPEG('');
接下来按照以下步骤操作
在文本编辑器中打开PDFRasterizer.html
引用Core JavaScript文件
<script type="text/javascript" src="../dist/dynamsoft.webtwain.initiate.js"></script> <script type="text/javascript" src="../dist/dynamsoft.webtwain.config.js"></script> <script type="text/javascript" src="../dist/addon/dynamsoft.webtwain.addon.pdf.js"></script>
这里引用的文件是
JS库为核心SDK Dynamic Web TWAIN
node_modules\dwt\dist\dynamsoft.webtwain.initiate.js
node_modules\dwt\dist\dynamsoft.webtwain.config.js
JS库为 PDF Rasterizer addon
node_modules\dwt\dist\addon\dynamsoft.webtwain.addon.pdf.js
如果以前在本地安装了Dynamic Web TWAIN,则相同的文件位于以下目录中。
C:\Program Files (x86)\Dynamsoft\Dynamic Web TWAIN SDK {version number} {Trial}\Resources
运行时安装必要的文件
打开页面时,JavaScript文件会尝试设置运行时环境。如果缺少本地Dynamsoft服务和包含Dynamic Web TWAIN和PDF Rasterizer的库文件,代码将显示提示(步骤3),以便你可以下载和安装文件。
使用插件
if (DWObject.Addon && DWObject.Addon.PDF) { DWObject.Addon.PDF.SetResolution(300); DWObject.Addon.PDF.SetConvertMode(EnumDWT_ConvertMode.CM_RENDERALL); } DWObject.LoadImageEx('', 5, function () { }, function (errorCode, errorString) { alert('Load Image:' + errorString); } );
核心代码是
DWObject.Addon.PDF.SetResolution(300); //Set the resolution for the conversion DWObject.Addon.PDF.SetConvertMode(EnumDWT_ConvertMode.CM_RENDERALL);//Set the conversion mode, generally just set it to CM_RENDERALL
完成上述设置后,通过调用LoadImage,LoadImageEx,HTTPDownload等方法之一导入的PDF文件,PDF Rasterizer会自动地将文件光栅化为图像。