Contents

paperless不值得安装

Contents

前几天在网上看到了paperless-ngx这个项目,它是一个可以部署在本地的文档管理工具,可以通过文字来检索图片,pdf,Office等各种格式文件,而且还有网友 在推荐这个。于是花了点时间部署了一下,结果令人很失望,它的ocr能力远远达不到预期。

识别效果如下,英文识别的七七八八的,中文也没有识别出来。而且上传识别的速度也很慢,估计得一分钟左右。

而作为对比,在我的苹果手机的相册中,这张图片还是90度旋转的,仍然可以通过anker这个关键字准确的搜到这张图片,体验完全被吊打。

在网上也看到也有人抱怨这个问题,它所用的开源ocr引擎表现的确远远落后于其他竞品。我是希望能提供接口来接入第三方ocr api,不过很多人处于隐私可能不太能接受数据上传到第三方。

在AI技术迅猛发展的今天,ocr早已不是什么难题,不过这项技术可能得依赖具有处理AI能力的芯片,而在本地部署的应用目前只能运行在cpu上,如果又要兼顾隐私,可能开源方案真的无能为力了。