iOS - Vision Framework 文字识别

发布网友发布时间：2022-11-25 23:25

共1个回答

热心网友时间：2023-10-09 22:42

在iOS12时，苹果推出了text detection的能力，有VNDetectTextRectanglesRequest这个request可以调用。但是因为只支持检测而不支持识别，所以当时只能检测是否有文字并且输出一个boundingbox，并不知道具体的文字是什么。

在iOS13推出时，苹果推出了text recognition的能力，也就是这次可以检测+识别文字了。相当于自带了OCR的能力，这个是非常重要的更新。因为目前OCR都是第三方库+公共模型或者是自己训练模型来实现的，实现的效果和模型+深度学习库的性能有很大关系。苹果自带OCR之后，算是苹果AI赋能，减少app的实现成本。

步骤很简单，创建request，获取图片，执行request并处理结果。

按照苹果的说法，fast和accurate底层使用了不同的技术。fast使用了机器学习，只能按照字符来识别，而无法按照整句来识别。accurate使用了深度学习，可以按照整句识别，有更好的识别准确度，兼容大量不同的字体和旋转的文字。

从应用层面来说，如果你只是需要识别电话号码，email地址这种文字，并且对速度的要求非常敏感，或者要做成实时识别，那么你应该选择fast。如果要识别形成段落的文字，那么应该使用accurate并且择机进行perform request。按照官方的数据，识别头图的文字（本文章第一张图），fast需要的时间是0.25s而accurate需要2s。

遗憾的是，现在VNRecognizeTextRequest仅仅支持英文。
我们可以使用supportedRecognitionLanguages来查看目前支持的语种：

并且指定一个语种：

语种需要训练模型才能得以支持。苹果会在更新系统+新的SDK时，更新算法的版本，添加语种的支持。我们可以通过supportedRevisions来查看算法版本，并且指定版本。通常来说，request的算法版本默认为最新的版本。

有识别英文文本的同学可以直接考虑上手。