从数据湖到数据海:AWS“女性数据经理”谈论矢量时代的新基础

2025年,随着生成式人工智能和代理人工智能席卷全球,数据基础设施将经历“无声重组”。在re:Invent网站上,网易科技等与Mai-Lan Tomsen Bukovec进行了深入对话。她是亚马逊云技术公司的技术副总裁,负责监督数据和分析业务。麦兰的判断清晰而直接。数据世界正在从“数据湖”走向“数据海洋”,真正决定人工智能上限的不再只是计算能力,而是以可承受的方式矢量化、理解和使用所有数据的能力。他领导着一支专注于 Amazon S3 产品的全球技术和服务团队。资料显示,Amazon S3(简单存储服务)是亚马逊云技术提供的对象存储服务。它用于以几乎无限的方式可扩展的方式在云中存储和访问各种数据。它是世界上最常用的数据存储基础设施之一。在乞求下谈话中,麦兰提到了“数据海洋”这个形象的比喻。他表示,索尼在今年的会议上提出这个概念,是因为索尼的业务长期以来都是深度数据驱动的。从游戏到娱乐,每项业务都依赖于数据。事实上,如果你想追踪传统数据存储的演变,是这样的:首先是日志、图像、视频、PDF文件等非结构化数据,这也是Amazon S3最初的典型场景。大约五年前,随着表格数据的快速增长,客户开始在对象存储之上构建集成的数据湖和仓库架构。此时,亚马逊云技术发布了Amazon S3 Table,并使其与各种分析引擎和Iceberg兼容。亚马逊云技术Iceberg 已成为 S3 数据湖事实上的标准表格式,并广泛应用于湖和仓库集成、实时分析和 AI 数据管道。位于麦兰在他看来,这是一个“数据湖扩展到数据海洋”的过程。各种结构化、半结构化、非结构化数据被整合并放置在同一个底层,通过表结构和治理功能逐步“重组”。真正将数据海洋提升到新水平的是矢量化。 “矢量是人工智能的语言,”梅兰强调。通过嵌入模型,您可以将源数据转换为向量,无论是表格、记录还是 PDF。目前,机器不仅查看文件名和标签,还可以理解该内容的语义。据andl报道,亚马逊云技术推出的Amazon S3向量存储可以在单个索引中容纳2亿个向量。单个“向量立方体”可以支持数十万亿级别的向量数据维度。语义和混合搜索可以在数百毫秒的响应时间内完成。与专业相比,节省高达约 90% 的成本最终向量数据库。麦兰用一系列客户故事来说明这一变革的价值。他告诉网易科技,宝马集团拥有20PB左右的数据链路水平,涵盖制造、工程和销售。和其他类型的数据。混合搜索结合了向量和 SQL 过滤,使您能够提出以前在表格和结构化文档中无法获得的问题,例如“上个月特定模型的特定部分发生了什么?”再比如,内容公司和社交网络 mixi 创建了所有用户照片的语义索引,这样用户就可以直接询问“帮我找到一张我儿子和女儿在一起的照片”,这甚至可以生成个性化的打印推荐。我想是的。以前,您必须依赖手动标记这些类型的场景。目前,向量可用于跨图像内容维度执行相似性搜索。麦兰认为,这些案件背后的本质是:值得一提的是,Vector 首次为公司提供了将“所有历史资产”纳入其 AI 愿景的能力,而不是“一些选定的数据集”。然而,可视化数据只是第一步。如何让每个人都“买得起”?麦兰进一步表示,亚马逊云技术在Amazon S3上实现的Intelligent-Tiering本质上是一种“自我成本优化”,细致入微。这意味着某类数据如果30天没有访问,价格就会自动降价,如果90天没有访问,价格还会进一步降价,客户不需要手动迁移“冷数据”,只需将存储类别设置为Smart Tiers即可。他透露,从2019年开始,这种机制自动为客户节省了超过 60 亿美元的存储成本,从长远来看,麦兰认为,当数百万个智能体 24/7 运行时,真正的瓶颈不是模型,而是为模型提供数据的能力。超大、长期存储、可扩展、低成本的数据层。这是一个“数据海洋基地”,也是她和她的团队所押注的方向(作者/定西) 本文来自网易科技报道 关注我们,了解更多资讯和内容。

文章已创建 184

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部