百度发布新一代文字识别解决方案：PP-OCRv5

6 小时前

2025年9月10日，百度在Hugging Face平台发布新一代文字识别AI模型PP-OCRv5，旨在解决通用视觉语言模型（VLMs）在OCR领域的局限性。该方案聚焦多场景、多文字类型的文字识别需求，支持简体中文、繁体中文、英文、日文及拼音五大主流文字类型，并针对手写体、竖排文本、生僻字等复杂场景优化识别能力。与PP-OCRv4相比，端到端识别精度提升13个百分点。PP-OCRv5采用模块化两阶段流程，参数量仅0.07B，可在CPU和边缘设备上高效运行，移动版在英特尔Xeon Gold 6271C CPU上每秒可处理超370个字符。其架构包含图像预处理、文本检测、文本行方向分类及文本识别四个核心组件，支持超过40种语言的识别。目前，该模型已在Hugging Face上线，用户可在线测试，开发者亦可下载模型进行本地部署。