心流logo

印度AI公司推出低延迟多语言语音API

产品核心功能

总部位于古尔冈(Gurugram)的人工智能初创公司Soket AI Labs推出实时语音API(Realtime Speech API),致力于提升AI语音交互体验。该产品具备500毫秒超低延迟,确保实时交互的即时响应能力。

技术特点

Soket AI Labs的实时语音API支持多语言功能,可有效克服语言障碍。同时集成了工具调用、检索增强生成(RAG)支持、自定义语音创建和克隆等高级功能,并能处理动态语音中断,实现自然对话体验。

开发者支持

开发者可通过Python和JavaScript的SDK在1-4周内完成API集成。服务定价为每分钟0.012美元,较OpenAI等竞品更具价格优势。平台支持模型微调和语音定制,可满足不同行业需求,特别适用于银行、金融服务、保险、医疗保健和电信等领域。

公司发展历程

Soket AI Labs创始人兼首席执行官阿比谢克·阿珀瓦尔(Abhishek Upperwal)在领英(LinkedIn)强调:"语音是当今人工智能最重要的接口之一,而语言模型是智能的核心。"公司成立于2019年,初期专注于智慧城市数据交换平台建设。在OpenAI首席执行官萨姆·奥特曼(Sam Altman)访印后,团队转向开发本土AI模型。

行业竞争态势

5月,Soket AI Labs推出印度首个开源多语言基础模型Pragna-1B,历时六个月完成1500亿标记的训练。目前,Sarvam AI和CoRover.ai等印度初创公司也在积极开发语音模型。在Cypher 2024会议上,Sarvam AI首席执行官维韦克·拉加万(Vivek Raghavan)展示的AI语音模型引发与会者关注。