北京 2025年7月1日 /美通社/ -- IBM 正在从根本上简化面向 AI 的数据堆栈。IBM 在Think大会上预览 watsonx.data 的重大演进,以帮助组织做好数据准备为AI所用,同时提供一个开放的混合数据基础架构和企业级的结构化和非结构化数据管理。
测试结果显示,与传统RAG相比,IBM watsonx.data的AI准确性提高了40%。IBM于6月推出的产品和功能包括:
Watsonx.data 集成和 Watsonx.data 智能将作为独立产品提供,部分功能也将通过 Watsonx.data 提供,从而最大限度地提高客户选择和模块化程度。
为了补充这些产品,IBM 近期宣布了收购 DataStax 的意向,DataStax 擅长将非结构化数据用于生成式AI。借助 DataStax,客户可以访问其他矢量搜索功能。
基于内部测试,对比使用 watsonx.data Premium Edition 检索层与仅矢量 RAG 在三个常见用例中 AI 模型输出答案的准确性,测试使用 IBM 专有数据集,采用相同的选定开源通用推理、评估和嵌入模型以及额外变量。测试结果可能因具体情况而异。
这一重大演进的背景
企业正面临着实现准确且高性能的生成式AI——尤其是具有自主决策能力的智能体AI人的重大障碍,但该障碍并非如大多数企业领导者所想。
问题不在于推理成本或难以捉摸的"完美"模型。问题在于数据。
企业需要可信且具有公司特性的数据,才能让智能体AI真正创造价值——这些数据存在于电子邮件、文档、演示文稿和视频等非结构化数据中。据估计,2022年企业产生的数据中90%是非结构化数据,但IBM预测其中仅有1%为大型语言模型(LLMs)所用。
非结构化数据的利用往往面临巨大挑战。这类数据分布广泛且动态变化,存储于多种格式中,缺乏清晰的标签,且常需额外上下文才能完整解读。传统检索增强生成(RAG)技术难以有效提取其价值,也无法妥善整合非结构化与结构化数据。
与此同时,各类孤立的工具会使AI数据处理架构变得复杂且繁琐。企业需要同时管理数据仓库、数据湖以及数据治理和数据集成工具。数据架构可能与它本应管理的非结构化数据一样令人困惑。
许多组织并未解决根本问题。它们仅关注生成式AI的应用层,而非其下方的核心数据层。除非组织修复其数据基础架构,否则AI智能体和其他生成式AI计划将无法充分发挥其潜力。
帮助组织实现数据的AI 就绪
IBM提供的新功能将使组织能够采集、治理和检索非结构化(及结构化)数据——在此基础上,实现准确、高性能的生成式AI的规模化应用。
关于 IBM
IBM 是全球领先的混合云、人工智能及企业服务提供商,帮助超过 175 个国家和地区的客户,从其拥有的数据中获取商业洞察,简化业务流程,降低成本,并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过数千家政府和企业实体依靠 IBM 混合云平台和红帽 OpenShift 快速、高效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。了解更多信息,请访问:https://www.ibm.com/cn-zh