从日常断路器到专门嵌入大语言模型(Large Language Models,LLMs)中的人工智能断路器。
在生成式AI和大语言模型中嵌入专门断路器已成为一个重要趋势。这些计算断路器的主要目的是防止AI失控,包括:
传统电气断路器通过监测电流异常来保护电路安全。当电器出现故障时,突然的电流过载会触发断路器跳闸,从而避免更大的损失。这一理念被引入到AI系统中,用于监控和控制AI的输出。
目前主要有两种类型的AI断路器:
AI断路器可在三个关键节点触发:
触发后的应对措施包括:
随着代理AI的发展,跨实例的断路器系统将发挥更重要作用。这不仅能确保单个AI应用的安全,还能协调多个AI实例的协作过程,防止整个系统偏离预期目标。
AI断路器技术的发展对确保人工智能安全具有重要意义。它既是AI安全的重要保障,也是实现人机价值观对齐的关键工具。