OpenAI将推出多模态人工智能数字助理,可语音对话、识别物体

来源:IT之家圈子:AI前沿 2024-05-12 21:20:12 490阅读 举报

据 The Information 报导,据悉,OpenAI 近期向一些客户展示了一款新型多模式人工智能模型,能够进行语音交流和物体识别。知情人士透露,这可能是 OpenAI 即将在 5 月 13 日正式发布的内容之一。

报道指出,新模型相较于OpenAI现有的独立图像识别和文本转语音模型,能够更快、更精准地处理图像和音频信息。例如,它有助于客服人员更好地理解来电者的语气和语调,以判断是否在使用讽刺语气。根据理论,该模型还可以辅助学生学习数学知识或翻译现实世界的标志文字。

然而,值得注意的是,尽管这个模型在某些问题的解答方面可能比 GPT-4 Turbo 更优秀,但仍存在可能过于自信地给出错误答案的情况。

有人留意到,开发者Ananay Arora发布了一张截图,截图包含了与通话有关的代码,这似乎在示威OpenAI可能为ChatGPT添加电话功能。Arora还发现了迹象显示OpenAI正在设置用于实时音视频通信的服务器。

OpenAI 的首席执行官萨姆・阿尔特曼已经明确表示,即将发布的新产品并非代号为 GPT-5 的大型语言模型(传言其性能将远超 GPT-4)。据 The Information 报道,GPT-5 有可能在今年年底之前正式推出。阿尔特曼还强调,OpenAI 不会推出新的人工智能搜索引擎。

如果"The Information"的报道属实,OpenAI的新产品发布可能会在即将举行的Google I/O开发者大会上产生一定影响。众所周知,谷歌也在测试利用人工智能进行电话呼叫的技术。此外,谷歌还有一个据传即将发布的项目,代号为"Pixie"。Pixie是一款可以通过设备摄像头识别物体的多模态Google Assistant替代品,可以向用户提供诸如"如何到达购买地点"或"如何使用"等信息。


合作联络微:vapehome
链接:https://www.aiddithome.com/p/17fda09ad7fdd2.html
版权归原作者所有,未经允许请勿转载。若此文章存在违规行为,您可以点击 “举报”
AI玩家论坛社区

登录 后发表评论
0条评论
还没有人评论过~