什么是大数据?

大数据是指任何数据收集量太大,传统方法无法处理或分析的数据。

学习目标

阅读本文后,您将能够:

  • 定义大数据
  • 了解大数据的用途和挑战
  • 描述大数据与 AI 之间的关系

复制文章链接

什么是大数据?

大数据指的是极其庞大、复杂且快速增长的数据集合——事实上,大到传统数据处理软件无法管理的程度。这些数据集可能包含结构化数据和非结构化数据。虽然“大数据”在技术上没有一个广为接受的精确定义,但这个术语通常用于指快速扩展的海量数据集合。

自从第一台计算机问世以来,数字存储容量呈指数级增长。数据可以大规模保存,并在数秒内检索。云计算使得数据存储几乎不受限制。这些发展共同促成了大数据时代的到来。此外,随着互联网的广泛使用,来自用户活动、Web 以及物联网 (IoT) 设备的数据都可以进行记录和分析,以便进行预测或训练先进的人工智能 (AI) 模型。

大数据可以来自公开来源,也可以是专有数据。大数据的示例包括:

  • 客户调查数据
  • 应用程序中的用户行为记录
  • 传感器数据
  • 社交媒体信息流
  • 网页内容
  • 监测数据
  • 音频记录

大数据的常见用途包括:

  • 预测分析
  • 用户行为分析
  • AI 模型训练
  • 产品开发
  • 优化客户体验

大数据的三大特点(三个 V)是什么?

尽管对“大数据”的具体构成还没有达成一致意见,但这个术语通常适用于符合体量、速率和多样性等一般标准的数据集合:

  • Volume(体量):大数据通常指数百 TB 或更多的数据
  • Velocity(速率):大数据集迅速扩展,而且往往是持续扩展,以极快的速度不断获取更多数据
  • Variety(多样性):大数据集可能包含结构化数据或非结构化数据,数据的种类也多种多样,从文档和照片到音频、视频和日志不等

这些属性合称为“三个 V”。

大数据和 AI

AI 是指计算机执行认知任务的能力,如生成文本或创建推荐。在某种程度上,大数据和人工智能是一种共生关系:

  • AI 需要大量数据集来进行训练
  • 在另一方面,在 AI 的帮助下,大数据集更容易管理和分析

海量数据集使有效的 AI 成为可能,为先进的算法提供更准确、更全面的训练。经过整理和加标签的大型数据集可用于训练机器学习模型;深度学习模型能够处理未加标签的原始数据,但需要相应更强的计算能力。

比如说,大型语言模型 (LLM) ChatGPT 是在数百万个文档的基础上训练出来的。它从用户那里获得的输入有助于进一步训练它,使得它产生的回答像是人类做出的反应一样。再比如,社交媒体平台利用机器学习算法为用户策划内容。由于有数百万个用户浏览帖子并点赞,它们掌握了大量关于人们想看什么内容的数据,并能利用这些数据根据用户行为来策划新闻推送或“为您推荐”页面。

在另一方面,AI 的快速处理和联想能力意味着它可以用来分析人类或传统数据查询软件无法独立处理的庞大数据集。Netflix 等流媒体服务提供商使用基于以往观看行为的专有算法来预测观众最喜欢哪类节目或电影。

大数据管理面临哪些挑战?

信息过载:正如过于杂乱的房间会让人难以找到所需的物品一样,具有讽刺意味的是,如此庞大的数据库也会让人难以找到可用的相关数据。

数据分析:通常情况下,数据越多,得出的结论就越准确。但是,从海量数据集中得出结论并非易事,因为传统软件难以处理如此大量的数据(而且大数据远远超出了人类的分析能力)。

数据检索:检索数据的成本可能很高,当数据存储在云中时尤甚。对象存储的维护成本低,几乎不受限制,因此非常适合大型数据集。但对象存储提供商通常会对检索存储数据收取出口费用

确保数据准确性:不准确或不可信的数据会导致预测模型和机器学习算法产生错误的结果。然而,很难做到实时检查大量快速增长的数据的准确性。

隐私和监管问题:大数据集合可能包含通用数据保护条例 (GDPR) 等监管框架认为属于个人数据的数据。即使数据集目前不包含此类数据,新的框架也可能会扩大个人信息的定义,使已经存储的数据也属于个人信息的范畴。组织可能没有意识到他们的数据集包含这些数据,但如果他们意识到了,当他们的数据被不当访问或使用,他们就会受到罚款和处罚。此外,如果数据库包含个人信息,一旦发生数据泄露,数据库拥有者将面临加重的责任。

Cloudflare 如何帮助开发人员将其大型数据集用于 AI?

Cloudflare for AI 是一套产品和功能,可帮助开发人员在任何地方构建 AI。Cloudflare R2 是没有出口费用的对象存储,使开发人员能够轻松存储训练数据。Vectorize 可将数据转化为嵌入,用于训练和完善机器学习模型。Cloudflare 还提供 NVIDIA GPU 全球网络,用于运行生成式 AI 任务。了解 Cloudflare 用于 AI 开发的所有解决方案