为什么 AI 需要依托 IT 自动化?
企业亟需把握人工智能(AI)带来的机遇,而采用和维护 AI 工具会带来一系列的基础架构挑战。同时,为了确保 AI 工作负载的稳定运行,并满足日益增长的定制模型训练需求,企业需要更强大的算力、网络带宽和存储容量。AI 应用所处理的数据通常很敏感,因此数据的安全性、合规性和隐私性同样重要。
这种日益增加的复杂性必须得到高效管理,以控制成本并提高开发人员的工作效率,确保 AI 能够加快您的进展,而不是拖慢您的步伐。
若想抓住 AI 带来的机遇并实现转型,企业必须建立强大的基础架构基础,而要实现企业级规模,则唯有通过 IT 自动化。无论是构建、扩展和维护现有 IT 系统,还是引入 AI 所需的新基础架构,自动化都能帮助企业平衡这两方面的复杂性。
自动化与 AI 有何不同?
自动化和 AI 均有助于企业提高运维的速度和效率,同时减少手动任务。不过,二者之间存在明显的区别:
- 自动化总是以相同的方式执行任务,其基础是预定义的、由人编写的规则。它遵循设定的指令,不会从经验中学习。然而,人类可以将他们的知识编写到这些规则中,从而可以在很短的时间内准确无误地完成复杂的流程,而手动完成这些流程所需的时间要长得多。自动化平台充当着一个框架,确保 IT 基础架构的不同部分之间能够快速、安全地相互通信。其中包括通过 Secure Shell(SSH)协议、应用编程接口(API)及其他机制进行通信,并且能够使用凭据并执行所提供的自动化操作。
- AI 根据学习到的行为或经验执行任务,这些行为或经验建立在观测到的模式和过去取得的结果之上。AI 在更智能的层面上模仿人类,能够从数据中学习,随着时间的推移不断改进,并根据经验做出决策。在理想情况下,AI 可以从经验中学习并适应新情形。AI 依赖于现有的自动化工具、框架和插件与不同的 IT 系统保持通信。通常情况下,AI 工具需要通过 AI 代理与模型及其运行时环境之外的环境和基础架构进行交互。
由于 AI 在做出明智的决策和复制人类智能方面颇具潜力,因此对于希望更快地做出复杂决策的企业而言,AI 工具极具吸引力。然而,即使是最成熟、最先进的 AI 工具,其潜在回报也完全取决于使用方式,在现代化企业的分布式 IT 环境中,采用 AI 技术远非易事。通过将 AI 解决方案与自动化基础相结合,您可以加速实现长期目标。
Forrester Wave™:基础架构自动化平台(2024 年第四季度)
您的企业组织是否已准备好采用 AI?
企业组织在寻求采用企业级 AI 或扩大规模时,必须在技术和战略层面做好充分准备,以满足由此产生的各项需求,进而最大限度地发挥 AI 优势。
确保基础架构的正常运行时间和可用性
AI 工具需要持续不断地从所监控的来源获取数据,才能有效地进行实时决策。因此,正常运行时间至关重要。无论是在医院提供准确的患者数据,还是在工厂关闭故障设备以防止发生代价高昂的事故,AI 驱动的业务运维都离不开弹性基础架构来保障正常运行时间和可用性。如果基础架构出现故障并且数据受到干扰,AI 模型的失误可能会对运维产生不利影响,损害客户体验,并造成巨大的经济损失。为了保持稳定的正常运行时间,必须妥当配置从数据中心到边缘位置的数据流和数据存储。
建立实践方法,帮助团队管理和扩展工作负载
由于 AI 模型依赖于始终可靠且可用的 IT 基础架构,因此,企业组织需要对数据中心进行评估以确定其资源是否充足。您可能需要升级基础架构,以提供额外的电力和冷却能力,同时扩展服务器、存储和网络容量,从而满足 AI 工作负载对正常运行时间和可用性的更高要求。然而,即使拥有合适的资源,许多企业组织也难以有效地管理这些流程。借助自动化,您可以高效管理工作流,确保快速且一致地执行基础架构任务,从而减少发生人为错误的可能性。
对于能够利用 AI 作为竞争优势的企业组织而言,成功并不取决于拥有最大的数据模型或在 GPU 上投入过多的资金。他们的成功在于运维自动化且富有弹性的基础架构,这类基础架构支持无缝扩展 AI 工作负载,同时可与 AI 工具集成以变得更加智能。简而言之,如果您既没有积极地推进自动化,也没有不断完善自动化之旅,那么会大大延缓您采纳 AI 并从中受益的进程。
Ansible 自动化平台:为成功采用 AI 奠定基础
红帽® Ansible® 自动化平台可简化 AI 模型和基础架构组件的部署、管理、配置以及生命周期管理,为 AI 的实施奠定坚实的基础。Ansible 自动化平台可以帮助您:
实现标准化部署。Ansible Playbook 提供了一种一致且可重复的方法来部署 AI 组件,例如操作系统、服务器、存储、模型、容器以及数据和网络资源。通过将基础架构编写为代码,Ansible 自动化平台可提高所有 AI 环境的一致性和可靠性,从而降低了出现配置错误或不一致的可能性。您还可以将标准化部署作为业务连续性和灾难恢复(BCDR)计划和运维的蓝图。
集成监控和警报工具。Ansible 自动化平台可与监控和警报工具无缝集成,使得 IT 运维团队能够自动为 AI 基础架构组件设置监控代理、阈值和警报规则。通过持续跟踪性能指标和系统运行状况,Ansible 自动化平台可帮助您主动识别并解决潜在问题,防止 AI 运行中断。
管理数据。在训练 AI 模型的过程中,将数据从其创建位置传输到训练位置,是最具挑战性的任务之一。Ansible 自动化平台有助于将数据从服务器移动到区域内的存储位置,以增强数据安全性并确保数据可供正确的用户使用,以便使用红帽 OpenShift® AI 来训练模型。
Ansible 自动化平台为管理混合 IT 环境提供必要的自动化支撑。
从 AI 用例入手
通过自动化以下用例,有助于 Day 2 运维的标准化、规范化和智能化。
自动化 AI 基础架构
借助 Ansible 自动化平台,您可以优化 IT 基础架构以提高 AI 工作负载的性能,同时利用 AI 改进堆栈。您可以使用 Ansible 自动化平台来设置和配置 AI 服务、安装和管理不同的模型、配置 GPU,以及协调基础架构的不同部分。
利用 Ansible 自动化平台,您可以:
- 部署和配置 AI。自动化部署和配置 AI 工作负载,以确保持续稳定的状态。使用基于 YAML 的单一语言,实现对技术堆栈中存储、服务器、边缘设备、网络交换机、GPU、数据等资源配置的流程优化,并简化 AI 功能的启用过程。
- 协调红帽 AI 基础架构。连接并配置 AI 平台的所有组件,确保其在生产环境中无缝运行。
- 接入边缘数据。简化诸如物联网(IoT)设备等新边缘部署的上线流程,以便收集数据并与 AI 解决方案同步。协调 AI 训练和推理模型的数据接入设置和分发。
实现切实可行的 AIOps
AIOps 将大数据与 AI 相结合,以增强或部分替代广泛的 IT 运维任务,使企业组织能够在日益复杂的环境中提高可靠性、可扩展性和敏捷性。在您的技术堆栈中,许多现有工具可能都已内置预测性 AI 功能,但如何有效地利用这些功能以最大限度地发挥其优势取决于您自己。
Ansible 自动化平台可将 AI 功能与跨整个基础架构的系统和工具编排在一起,从而帮助您立即将 AI 技术投入使用。通过将现有的 AI 解决方案整合到这些统一的工作流中,您可以利用事件驱动的 Ansible 将任何类型的可观测性数据转化为自动化操作,并开始:
- 构建自我修复式基础架构。将红帽 AI 解决方案与事件驱动的 Ansible 结合使用,以自动响应 IT 事件并解决问题。例如,如果您要监控某台服务器上的内存使用情况,并预定义了利用率阈值为 80%,则可以设置一个警报,在服务器接近其限制时提示您增加内存。您可以创建从可观测性工具自动收集数据的端到端工作流,使用事件驱动的 Ansible 获取事件,利用 AI 平台来解释事件,提醒 Ansible Lightspeed 生成 playbook,并解决问题。然后,您可以将这些数据整合到一个全周期循环中并利用生成的日志来训练您的 AI,从而提升其应对未来突发事件的能力。
- 丰富支持工单和事件工单。使用红帽智能分析或其他第三方可观测性解决方案,协调来自事件驱动的 Ansible 的未知事件,并为 IT 基础架构工程师提供上下文信息。如果事件驱动的 Ansible 处理了一个事件,但您不知道该如何处理,可以将其与 AI 解决方案(例如红帽企业 Linux® AI 或红帽 OpenShift AI)集成,以确定错误的具体含义,这样不仅可以自动创建问题,还可以立即提供上下文信息,以便工程师开始排查问题,从而缩短平均解决时间(MTTR)。
- 优化成本和资源。红帽智能分析可以根据 AI 角色的需求确定节点、集群和项目的优化方式。而且,可在自动化工作流中执行优化,无需用户参与 AI 工作流。
借助 Ansible Lightspeed 激发更高生产力
借助红帽的生成式 AI 服务,自动化开发人员和运维人员能够更快地启动和实施自动化。无论您是刚开始学习如何编写自动化代码,还是在使用 Ansible 自动化平台 UI 时需要帮助,只需动动手指,红帽 Ansible Lightspeed 就能为您提供支持,就如同拥有一支红帽专家团队随时在您身边指导一样。
加快自动化管理
借助 Ansible Lightspeed 智能助手,您可以使用自然语言提示来提出与 Ansible 自动化平台的安装、管理和故障排除相关的问题。这款智能助手通过直接嵌入平台的聊天界面提供服务,为您提供准确且个性化的回复,帮助您消除工作中的阻碍,提高工作效率。
高效创建代码
Ansible Lightspeed 编码助手通过 Visual Studio Code 的 Ansible 扩展在您的代码编辑环境中提供建议,从而帮助您更快地创建 Ansible 内容。您可以通过单个提示来创建单个任务、多个任务或整个 Ansible Playbook。此服务需要订阅 IBM watsonx Code Assistant 以将其作为连接的大语言模型(LLM)。
保持代码质量
Ansible 代码机器人可扫描您的现有内容并提供代码质量改进建议,帮助您使自动化代码库与最新的最佳实践保持一致。这些建议可供审查、测试和应用,帮助您主动实现 Ansible 代码的现代化和强化。
为什么选择红帽?
红帽助力企业加速拥抱 AI,凭借量身定制的小型模型、高效的定制方案以及灵活的开发和部署能力,让您无论身在何处都能轻松驾驭 AI。IT 自动化是企业组织充分利用 AI 功能的关键所在。想要在现代企业中充分利用 AI,自动化是必不可少的基石。 它可以增强 IT 基础架构的弹性和延长正常运行时间,整合现有 IT 解决方案以利用新兴 AI 功能,并通过启用 AIOps 来直接辅助 IT 基础架构工程师。
红帽 Ansible 自动化平台是一个端到端自动化平台,配备了在整个企业中创建、管理和扩展自动化所需的所有工具。通过降低运营复杂性并提供一致的用户体验,该平台能够促进架构师、开发人员和系统管理员之间的协作,从而���除沟通壁垒。Ansible 自动化平台订阅包含一个事件驱动型解决方案、一套不断扩展的开发工具,以及对 Ansible 内容集的访问权限,其中包含可帮助您的跨职能团队快速开始实施自动化的模块、playbook 和文档。
红帽 AI
红帽 AI 提供灵活且经济高效的解决方案,可加速混合云环境中 AI 解决方案的开发和部署。