Google Gemini 1.5 Pro | 支持原生音频理解

来源:IT之家圈子:AI写作 2024-05-10 12:51:21 314阅读 举报
Gemini 1.5 Pro

据2024年4月10日的消息透露,Gemini 1.5 Pro已经在超过180个国家通过Gemini API进行了公开预览。此次更新引入了原生音频(语音)理解能力和新的File API,方便处理文件。另外,新增了系统指令和JSON模式等功能,为开发者提供了更多控制模型输出的能力。最后,还发布了性能卓越的下一代文本嵌入模型。

Gemini 1.5 Pro的重点更新是什么?

  1. 全球可用性:Gemini 1.5 Pro已经通过Gemini API在180多个国家公开预览,让全球开发者都能够访问和使用这一最新模型。
  2. 音频的基础知识:Gemini 1.5 Pro现在具备了原生音频(语音)理解能力,这表示它可以直接处理和理解音频输入,为开发者提供强大的工具来进行音频处理和语音识别。
  3. 文件API最新版本:全新发布的File API简化了文件处理流程,让开发人员更便于在应用程序中处理音频、视频和其他文件格式。
  4. 系统指令:系统指令功能使开发人员能够定义角色、格式、目标和规则,从而精确控制模型的输出,使其更适用于特定的应用场景和需求。
  5. JSON架构:JSON 模式的引入使模型能够仅输出 JSON 对象,有助于从文本或图像中提取结构化数据,极大地提升了数据处理的效率和便利性。
  6. 提升功能调用:优化了功能调用方式,开发者现在可以根据需求选择不同模式以限制模型的输出,提升了模型输出的可靠性和实用性。
  7. 文本嵌入的最新一代模型:我们发布了性能卓越的全新一代文本嵌入模型(text-embedding-004),在MTEB基准测试中展示出比现有模型更高的检索能力,为文本分析和语义理解提供了更强大的支撑。
  8. 更全面的输入方式支持:Gemini 1.5 Pro提升了对多种输入模式的支持,包括声音理解,并预计将很快推出支持视频内容图像(帧)和音频(语音)的跨模态推理API,以便开发者创造更丰富多样的应用。

合作联络微:vapehome
链接:https://www.aiddithome.com/p/1f314764d57be2.html
版权归原作者所有,未经允许请勿转载。若此文章存在违规行为,您可以点击 “举报”
AI玩家论坛社区

登录 后发表评论
0条评论
还没有人评论过~