OpenAI将推出多模态人工智能数字助理，可语音对话、识别物体

据 The Information 报导，据悉，OpenAI 近期向一些客户展示了一款新型多模式人工智能模型，能够进行语音交流和物体识别。知情人士透露，这可能是 OpenAI 即将在 5 月 13 日正式发布的内容之一。

报道指出，新模型相较于OpenAI现有的独立图像识别和文本转语音模型，能够更快、更精准地处理图像和音频信息。例如，它有助于客服人员更好地理解来电者的语气和语调，以判断是否在使用讽刺语气。根据理论，该模型还可以辅助学生学习数学知识或翻译现实世界的标志文字。

然而，值得注意的是，尽管这个模型在某些问题的解答方面可能比 GPT-4 Turbo 更优秀，但仍存在可能过于自信地给出错误答案的情况。

有人留意到，开发者Ananay Arora发布了一张截图，截图包含了与通话有关的代码，这似乎在示威OpenAI可能为ChatGPT添加电话功能。Arora还发现了迹象显示OpenAI正在设置用于实时音视频通信的服务器。

OpenAI 的首席执行官萨姆・阿尔特曼已经明确表示，即将发布的新产品并非代号为 GPT-5 的大型语言模型（传言其性能将远超 GPT-4）。据 The Information 报道，GPT-5 有可能在今年年底之前正式推出。阿尔特曼还强调，OpenAI 不会推出新的人工智能搜索引擎。

如果"The Information"的报道属实，OpenAI的新产品发布可能会在即将举行的Google I/O开发者大会上产生一定影响。众所周知，谷歌也在测试利用人工智能进行电话呼叫的技术。此外，谷歌还有一个据传即将发布的项目，代号为"Pixie"。Pixie是一款可以通过设备摄像头识别物体的多模态Google Assistant替代品，可以向用户提供诸如"如何到达购买地点"或"如何使用"等信息。

OpenAI将推出多模态人工智能数字助理，可语音对话、识别物体

相关问题

相关内容