人工智能领域对数据的需求十分旺盛。在英语领域,研究人员可以获取大量高质量的数字化内容来训练人工智能模型。然而,印地语、奥里亚语、马拉地语和泰卢固语等印度本土语言的数字化内容严重不足,这些内容主要存储在图书馆和古籍中。
光学字符识别技术(OCR)长期以来作为将书面文本转换为机器可读数据的核心技术。但随着大型语言模型(LLM)能够通过直接处理PDF或图像来分析多语言数据,OCR的重要性受到挑战。印度本土项目如Bhashini和AI4Bharat,以及Sarvam等初创企业已开发出新的文本扫描框架。
印度初创公司Sarvam AI正在使用Meta Llama 3.3生成合成数据来训练模型。其项目Sarvam 2B已成功使用2万亿个印度语言合成标记进行训练,证明了这种方法在构建专用模型方面的效率。Meta的PyTorch和Llama合作工程经理哈米德·肖贾纳泽里(Hamid Shojanazeri)指出,合成数据生成可以解决数据收集成本过高的问题。
传统OCR系统在处理手写内容、复杂布局和多样化字体时仍面临挑战。新型模型如GPT-4o mini在文本识别准确性方面已经超越了传统OCR。亚马逊Textract等平台通过将OCR与机器学习相结合,提高了文档处理的准确性。
印度拥有22种官方认可语言和众多方言,这种语言多样性为数字化工作带来独特挑战。大量历史文献和文学作品仍以印刷或手写形式存在,这使得OCR技术在印度仍具重要价值。虽然合成数据生成提供了新的可能,但在处理印度语言文本时,OCR仍然是一个可靠的选择。
尽管大型语言模型在处理成本方面仍存在局限,但随着技术进步,这些成本正在逐步降低。虽然对某些任务而言LLM可能过于复杂,但传统OCR技术的应用范围可能会逐渐缩小。在印度多语言环境下,OCR与新型AI技术的融合将是未来发展的重要方向。