Google Gemini 1.5 Pro | 支持原生音频理解

据2024年4月10日的消息透露，Gemini 1.5 Pro已经在超过180个国家通过Gemini API进行了公开预览。此次更新引入了原生音频（语音）理解能力和新的File API，方便处理文件。另外，新增了系统指令和JSON模式等功能，为开发者提供了更多控制模型输出的能力。最后，还发布了性能卓越的下一代文本嵌入模型。

Gemini 1.5 Pro的重点更新是什么？

全球可用性：Gemini 1.5 Pro已经通过Gemini API在180多个国家公开预览，让全球开发者都能够访问和使用这一最新模型。
音频的基础知识：Gemini 1.5 Pro现在具备了原生音频（语音）理解能力，这表示它可以直接处理和理解音频输入，为开发者提供强大的工具来进行音频处理和语音识别。
文件API最新版本：全新发布的File API简化了文件处理流程，让开发人员更便于在应用程序中处理音频、视频和其他文件格式。
系统指令：系统指令功能使开发人员能够定义角色、格式、目标和规则，从而精确控制模型的输出，使其更适用于特定的应用场景和需求。
JSON架构：JSON 模式的引入使模型能够仅输出 JSON 对象，有助于从文本或图像中提取结构化数据，极大地提升了数据处理的效率和便利性。
提升功能调用：优化了功能调用方式，开发者现在可以根据需求选择不同模式以限制模型的输出，提升了模型输出的可靠性和实用性。
文本嵌入的最新一代模型：我们发布了性能卓越的全新一代文本嵌入模型（text-embedding-004），在MTEB基准测试中展示出比现有模型更高的检索能力，为文本分析和语义理解提供了更强大的支撑。
更全面的输入方式支持：Gemini 1.5 Pro提升了对多种输入模式的支持，包括声音理解，并预计将很快推出支持视频内容图像（帧）和音频（语音）的跨模态推理API，以便开发者创造更丰富多样的应用。

Google Gemini 1.5 Pro | 支持原生音频理解

Gemini 1.5 Pro的重点更新是什么？

相关问题

相关内容