。各种规模的公司都在继续加快数字化转型工作,并利用人工智能和机器学习驱动的解决方案(包括可观测性工具)来跟上当今日益复杂的网络环境。
不管是GenAI,还是各种各样的数据应用,大数据的挑战——我们如何存储、管理、治理和使用大数据——从未像现在这样紧迫。
人工智能的进步可能是2024年的驱动力,但如果你的大数据失控,这并不意味着什么。
Hadoop大数据应用微信号,结合国内外传媒的观点,整理了2024年大数据发展的18大方向,与你我都有关!
我们存储的大多数的数据都是非结构化的,管理规模日益增大的非结构化数据成为一个线 年将出现管理的新方法。
到2024年,随着AI应用的蓬勃发展,我们将见证非结构化数据(如音频、视频、会议记录、演讲、演示)的企业爆炸式增长。这些非结构化数据对于AI来说,具有高度可学习的价值,将其收集到AI数据湖中,将大大提升整个企业的智能能力,同时也带来了一些独特的挑战。
保持性能在数十PB数据量级上面临明显的挑战。传统的SAN/NAS解决方案往往无法满足这些需求,而现代高性能的对象存储才能胜任。这也是为什么大多数AI/ML技术(如OpenAI、Anthropic、Kubeflow)都利用对象存储的原因,以及为什么大多数数据库都转向以对象存储为中心的原因。
到2024年,以对象存储为中心的新方法,将主力您应对非结构化数据大爆炸的挑战,帮助企业高效地管理和处理这些数据。
根据Forrester的数据,到2024年,企业管理的非结构化数据将翻倍增长,为AI开启了潜在的市场和利润机会。
全球数据和分析决策者表示,组织中只有27%的托管数据是非结构化的。随着公司给客户和员工推出更多的对话式体验,生成式人工智能将得到更广泛应用。企业将抓住机会,存储、分析和理解这些大量的非结构化数据。
这一趋势将在数据管道领域得到体现,到2024年新建的数据管道中将有80%用于接入、处理和存储非结构化数据。
Faction,Inc.的技术和运营副总裁Jeff Heller表示,公司正在经历一种范式转变,他们要么选择一种云,要么选择架构师来满足他们的需求。到2024年,组织将需要评估哪种云最适合自己,以充分利用其数据。基于短期目标而不是长期增长做出的决策可能导致数据锁定。
因此,准确且易于访问的数据对于及时做出决策至关重要。随着企业数据管理的日益复杂,对高效数据管理策略的需求变得至关重要。企业将转向提供从各个云平台访问单个数据集的解决方案,以确保数据的准确性和提高效率。
根据Hammerspace营销高级副总裁Molly Presley的观点,数据工程师一直对不同数据孤岛的存在感到困扰。然而,随着集中式数据编排成为中心舞台,2024年将带来一丝希望。
Presley表示:“组织将开始从存储和复制转向数据编排的世界。在人工智能的推动下,现在有强大的工具可以分析数据并提取可操作的见解。然而,文件存储基础架构并没有跟上这些进展的步伐。”
与解决存储孤岛和分布式环境问题的方法不同,试图通过在不同位置移动文件副本来管理数据的编排,能够帮助组织将数据从各个孤岛和位置集成到单个命名空间中,并在最有价值的时间和位置自动放置数据,从而更轻松地进行分析和获取见解。
现代计算领域中,不断发展的云迁移之旅是其中最重要的故事之一。随着企业寻求适应当今快速变化的数字世界,向云的转变成为公司实现效率、灵活性和可扩展性的关键一步。
然而,云迁移是一个复杂而多方面的过程。尽管有94%的企业正在使用云服务,但是研究表明,三分之一的企业在迁移期限内失败,只有25%的企业能够在期限内成功完成迁移。
导致迁移成功或失败的原因有很多。成功的过渡取决于对数据库的深刻理解和透明度。企业需要不断地将数据和工作负载传输到云中,而之后可能又将数据迁回本地基础设施,在公共云和私有云之间转换,或在不同的超大规模提供商之间进行迁移。因此,云迁移是一个持续的动态过程,不断成为一个自我维持的改进过程。
对于云迁移并没有一种放之四海而皆准的解决方案,因此您需要一种有针对性的方法来了解如何以及将哪些内容进行迁移。这需要了解多个因素,如应用依赖关系、互操作性、性能、本地和云之间的成本分析以及合规性等变量。
2024年该行业继续朝着可观测性转变的方向迈进。数据库的可观测性为公司提供了最难以察觉和最有价值的系统内部事态的全面视图。强大的可观测性系统是任何试图持续改进和成熟流程的组织的基础。可观测性可以确保您的云之旅与业务目标正确保持一致,并确保业务交付结果以支持目标本身。
2023年实践表明,数据不再只是大公司的工具。如今,每家企业都是数据企业,为了保持竞争力,公司需要使用数据分析来了解要做出哪些决策来支持业务。
许多公司都拥有丰富的数据,需要发达的系统和原则来管理,他们可以通过先进的云数据库以及企业范围的政策和实践来确保最高的数据质量、安全性和合规性。
如果没有这些政策和系统,数据的价值就无法最大化,组织将失去运营效率、明智的决策等。
虽然您可能已经对自己的大数据存储库感到满意,但是2024年将成为数据治理“左移”的一年。
组织将在数据旅途的早期,即在云数据仓库中的左侧,实施数据治理和安全措施。这不仅可以保护敏感信息,还可以提高收集数据的整体质量。随着与数据隐私和安全相关的法规越来越多,那些早期优先考虑数据治理和安全的公司将能够更好地遵守这些法规要求。
到2024年,预计将有许多公司将数据治理和安全作为优先事项,通过在云数据仓库和数据湖上启用强大的数据访问治理和数据安全功能,确保在数据离开源系统时也能够扩展这些控制措施。
“数据智能”一词已经发展了几年,指的是组织对其数据产生的各种数据管理工具。未来12个月将是这个概念的成败的关键时期,Nasuni首席创新官Jim Liddle表示。
Liddle指出:“令人震惊的是,许多公司存储大量数据仅仅是因为他们不知道其中有什么,或者他们是否需要它。数据是否准确和最新?它是否被正确分类和可搜索?是否合规?它是否包含个人身份信息(PII)、受保护的健康信息(PHI)或其他敏感信息?它是按需提供还是存档?”
在未来的一年里,各行各业的公司将被迫接受人工智能的数据质量、治理、访问和存储要求,然后才能推进数字化转型或改进计划,从而获得所需的竞争优势。
9.忽视数据质量、完整性,既不能做出明智的决策,也将告别GenAI 计划
如果不能保持数据的质量和完整性,你就可以告别你的2024年GenAI计划。
Coalesce首席执行官兼联合创始人 Armon Petrossian 说:“到2024年,随着数据从宝贵的资产发展成为蓬勃发展的企业的命脉,技术格局将发生变革性转变。”
忽视数据质量、完整性和血缘的组织将面临挑战,不仅要做出明智的决策,还要实现生成式人工智能、LLM和ML应用程序和用例的全部潜力。对于这一年的发展,忽视制定强大数据基础和战略的组织将发现在快速发展的科技行业中生存越来越具有挑战性。那些未能适应和优先考虑数据基础的人将难以超越竞争对手,甚至可能在这个竞争激烈的环境中面临生存风险。
2023年,数据网格在其他技术趋势中处于次要地位。然而,到了2024年,数据网格的好处将变得显而易见,不容忽视。
Denodo的首席执行官Angel Viña表示,2024年将是数据网格崛起的关键一年,因为数据网格涉及到数据的固有分布式性质。
在数据网格中,IT的角色将转变为为数据域提供工作基础,即在整个企业中创建和分发数据产品。人们将意识到数据产品应该与其他产品一样重要,并予以同等对待,这将是一个转折点。在这个以数据为中心的时代,仅仅将数据包装得有吸引力是不够的,组织需要增强整个最终用户体验。
数据库提供商Percona的技术布道者Dave Stokes表示,人们对向量数据库的兴趣将激增。然而,它不会持续绕“太阳”转。
向量数据库将成为许多人讨论的热门新领域,但最终会在几年后被关系数据库所吸收。每隔10年左右,就会有一种新数据库技术被宣布为关系数据库的终结。
开发人员加入这一潮流,却重新发现关系模型非常灵活,关系数据库供应商可以很容易地将新技术应用到其产品中。
将DevOps框架引入数据库可以简化数据库开发和管理,帮助公司更好地利用数据的潜力。
尽管软件开发领域长期以来一直在采用DevOps框架,是一种将开发和运营团队聚集在一起以提高软件开发和交付效率的方法,但在数据库社区中并不为人所知,也不常见。然而,实施数据库DevOps实践可以确保数据和应用程序高效运行,同时避免停机和系统崩溃。
数据库DevOps提供了简化的部署、更高的灵活性、更低的风险和停机时间等特性。通过有效地将DevOps实践引入数据库,组织可以快速满足其多样化和广泛的数据库基础设施的复杂需求。这种战略集成使用户能够满足数据库性能管理的需求并推动现代化工作。
数据管道商店Matillion的首席产品官Ciaran Dynes表示,人工智能革命正在触及生活的方方面面,包括大数据管理。
在过去十年中,数据工程师的角色从根本上扩大了。未来 12 个月将是科技公司让数据工程师的生活更简单的一年。
工具将进入市场,集成到现有平台中,以便将生成式人工智能添加到现有数据管道中,并能够在内部部署这些模型,以便用户可以与这些模型进行实时交互,就像他们已经使用 ChatGPT 一样。
无论进入市场的工具如何,2024年还将看到对数据工程师的巨大需求,他们需要重新培训以掌握快速工程,如何微调这些模型,如何大幅提高他们的生产力。2024年,数据工程师的生活将变得更加有趣。
根据Snowflake产品管理总监Jeff Hollan的说法,到2024年,对数据工程师的重视程度将进一步提高。
Hollan表示,很多人错误地认为人工智能革命将取代数据工程师的角色。实际上,数据工程师的专业知识将比以往任何时候都更加重要,只是以新的和不同的方式出现。
为了跟上不断变化的情况,数据工程师需要了解如何利用生成式人工智能来增加价值。由数据工程师构建和管理的数据管道可能是组织与大型语言模型连接以释放价值的第一个地方。数据工程师将学会如何使用模型,并将其插入数据管道以自动提取价值。他们还将被期望监督和理解人工智能的工作过程。
当数据由云中的第三方管理时,您可能会觉得数据失控。2024 年将是你开始夺回对数据控制权的一年,Ngrok 的首席技术官 Peter Shafton 预测。
2024 年的数据管理将显著转向更大的可访问性和可控性。虽然过去十年见证了基于云的数据解决方案的热潮,但钟摆正在向更多的自我管理摆动。
这种转变背后的原因有两个:隐私和成本效益。数据泄露的持续威胁和对更严格的访问控制的需求使企业对仅依赖外部云平台持谨慎态度。
此外,云数据存储和处理成本的不可预测性促使组织寻求更具可预测性和成本效益的解决方案。
可访问且用户友好的数据管理工具的激增也促进了这一趋势,这些工具通常源于Uber、Netflix和Airbnb等科技巨头开创的开源解决方案。
根据Altair云首席工程师Yeshwant Mummaneni的预测,到2024年,区块链将在数据血缘方面发挥作用。
Mummaneni指出,由于AI/ML模型在关键决策中发挥着重要作用,无论是人类监督还是完全自主,模型的来源和谱系变得至关重要。支持区块链的基础技术利用密码学提供记录、数字身份、签名和验证的不变性,将成为防止企业人工智能模型来源被篡改的关键方面。
因此,区块链有望在确保模型来源的透明度和完整性方面发挥重要作用,使跨境共享敏感数据成为可能。
另一个大数据趋势将在 2024 年寒冷的冬夜像冰晶一样增长:合成数据。这是SAS高级分析产品经理Spiros Potamitis说的。
Potamitis说:“随着组织面临更严格的监管,跨境共享敏感数据变得更加具有挑战性,合成数据将获得很大的关注。”
合成数据可以高精度地捕获原始数据源的统计属性,以克服监管障碍并为组织解锁创新。
人工智能和机器学习已经改变了IT专业人员管理和分析大量数据的方式,优化了性能并改善了整体业务成果。在2019年至2021年期间,人工智能在帮助IT专业人员管理大量数据和优化性能方面发挥了关键作用,这段时间所创造的数据比人类历史上总和还要多。
人工智能通过能够管理和解析大量信息和数据,可以确保应用和服务正常运行,防止应用程序或系统崩溃和中断。这一点至关重要,因为根据SolarWinds最近的研究显示,典型的企业每月平均遭受9次限电或停电,每次持续约12小时,这导致的平均年成本为1370万美元。
考虑到公司的系统通常在多个云环境中运行,并依靠数百个应用来完成工作,将人工智能集成到IT运营 (AIOps) 已成为一种强大的解决方案。借助AI,IT专业人员可以提高这些应用程序和服务的性能,使员工能够更高效地工作。