最新公告
  • 欢迎光临有料资源网,这是一个专注分享精品神器的网站,我们的服务永无止境!立即加入我们
  • 【OCRmyPDF】扫描文档转换为可搜索文字版PDF

    一.软件简介

    OCRmyPDF是一个应用程序和库,它向PDF中的图像添加文本“层”,使扫描的PDF图像可搜索。它使用OCR来猜测图像中包含的文本。它是用Python编写的。OCRmyPDF支持允许自定义处理步骤的插件。

    二.开发背景

    近期看到关于OCRmyPDF的推文,联想到自己手上扫描的协议、文件一大把,有时页码较多,查找关键内容很不便捷,于是下班时间折腾了两天,完成了Windows本地化安装测试(可批量、可选页、可输入图片等),文件处理后,相当于在PDF文件的每一页中添加了透明的文本层,内容检索非常效率。

    https//tvax1sinaimgcn/large/008scM0Ply1h6pn8c74qgj31hc0q1hdtjpg
    1

    三.服务器上部署

    在linux服务器中部署,测试服务器地址,http://175.178.230.228/

    # 服务器安装顺序
    sudo apt-get -y remove ocrmypdf
    sudo apt-get -y update
    sudo apt-get -y install \
        ghostscript \
        icc-profiles-free \
        libxml2 \
        pngquant \
        python3-pip \
        tesseract-ocr \
        zlib1g
    pip3 install ocrmypdf
    # 简单的python代码,具体参数参考官方文档
    import ocrmypdf
    
    file = r'input.pdf'
    output = r'output.pdf'
    ocrmypdf.ocr(file,output ,lang=['chi_sim','eng'], deskew=True)

    【资源下载链接获取】

    1、打开微信小程序:黑科技宝库

    2、打开资源主题文章,直接点击下载模块中的「资源下载附件」按钮;
    3、点击「资源下载」按钮;
    4、然后就可以自动完成复制「网盘下载链接+提取码」
    5、我们只需要在浏览器、记事本、聊天窗等场景下黏贴就可以看到「下载链接+提取码」,格式为:下载链接+提取码。

    发表回复

    • 2300会员总数(位)
    • 850资源总数(个)
    • 41本周发布(个)
    • 0 今日发布(个)
    • 974稳定运行(天)

    有料资源网www.afx163.com各种优质黑科技软件聚合分享平台

    加入SVIP社群 了解详情
    升级SVIP尊享更多特权立即升级