百度发布新一代文字识别解决方案:PP-OCRv5
6 小时前

2025年9月10日,百度在Hugging Face平台发布新一代文字识别AI模型PP-OCRv5,旨在解决通用视觉语言模型(VLMs)在OCR领域的局限性。该方案聚焦多场景、多文字类型的文字识别需求,支持简体中文、繁体中文、英文、日文及拼音五大主流文字类型,并针对手写体、竖排文本、生僻字等复杂场景优化识别能力。与PP-OCRv4相比,端到端识别精度提升13个百分点。PP-OCRv5采用模块化两阶段流程,参数量仅0.07B,可在CPU和边缘设备上高效运行,移动版在英特尔Xeon Gold 6271C CPU上每秒可处理超370个字符。其架构包含图像预处理、文本检测、文本行方向分类及文本识别四个核心组件,支持超过40种语言的识别。目前,该模型已在Hugging Face上线,用户可在线测试,开发者亦可下载模型进行本地部署。

简体中文 English