心流logo

AI落地难题:数据工程是关键

AI应用现状

AI的渗透正在不断加深。我们开始将基于AI的技术进步应用到从护士到建筑工程师等各个领域。这些进步建立在深度学习机制之上,涉及模式识别、复杂的扩展算法逻辑,以及基于检索增强生成(retrieval augmented generation)等技术的定制化专业智能。

企业AI应用实例

在当今的生产线上,制造商使用成像设备扫描零部件内部,然后通过AI模型分析这些数据文件。这些系统能够实时发现难以察觉的缺陷,提高产品质量并降低成本。然而,尽管AI带来的好处显而易见,企业部署AI的过程却并非如此简单直接。

数据工程的核心挑战

纳苏尼(Nasuni)公司首席创新官吉姆·利德尔(Jim Liddle)指出,AI企业部署实质上是一个复杂的数据工程挑战。"成功部署AI最大且最不为人所知的障碍之一是企业IT架构中的'文件数据'。虽然结构化数据对大多数组织来说较为熟悉,但文档、图像、视频等非结构化数据占所有生成数据的90%。这些正是组织希望AI工具处理的原始材料。"

数据工程实施步骤

  1. 数据源识别:数据工程师需要确定非结构化数据的存储位置,包括本地设备、云端或各种软件平台。

  2. 数据整合与处理:进行深入的数据工程工作,包括数据探索、清理、规范化和系统化组织。

  3. AI工具选择:基于组织需求选择合适的AI模型,同时考虑数据偏差、隐私安全等因素。

实际应用案例分析

以全球媒体和营销公司为例,通过整合和优化文件管理系统,使创意团队能够快速访问公司的知识库,提高工作效率和质量。这种数据整合不仅提升了工作效率,还促进了跨区域团队的协作。

数据管理框架的重要性

利德尔强调:"关键不仅在于选择或开发何种AI工具,更重要的是完成使这些工具成功运行所需的数据工程工作。这需要建立强大的文件和非结构化数据管理框架,确保数据可见性和全球访问能力。"

未来发展展望

数据工程的复杂性正在不断提升。尽管没有捷径可走,但通过建立完善的数据管理框架,企业能够更好地利用AI技术并获得实际收益。这需要全面的数据工程方法,包括数据溯源控制、传播准备等多个环节的精细管理。