100万高低文关闭用谷歌最弱小模型收费开明了！长音频了解配置唯一份

2024-11-15

谷歌最弱小模型 Gemini 1.5 Pro 当天起，“片面”对外开明。

目前齐全收费，开发者可以经过 API调用 的形式经常使用，个别玩家也可以在谷歌AI Studio中间接体验。

（Ps. 颁布这则信息的谷歌工程师Logan Kilpatrick正是原来OpenAI开发者相关的担任人，刚刚跳槽到谷歌。）

最让人等候的是，Gemini 1.5 Pro API初次参与了 音频了解 配置。

无论是财报电话会、电视节目还是大神演讲， 不须要咱们再提供字幕文档 它就可以间接解读了。

如下图所示：

上行Jeff Dean长约117000+token的演讲录音，Gemini 1.5 Pro在30.8s内就成功了解析。

而因为Gemini 1.5 Pro 100万的高低文窗口 这次也间接对外开明，因此它可以解决的 最长音频约为11小时，最长视频则为1小时 ，相当够用。

咱们也连忙实测了一把，结果是真香。

Gemini 1.5 Pro开明API了

谷歌官网给这次收费开明的Gemini 1.5 Pro版本定义为 “地下预览版” 。

它重要面向开发者，可在谷歌AI Studio中取得API密钥：

目前最有目共睹的音频了解配置还没参与到API中，但听说很快就会补上。

疑问不大，咱们可以先在Google AI Studio中间接体验：

在实测中，咱们上行了比尔盖茨1995年做客Late Show节目的一段音频，时长1分钟。

咱们没有揭示这段音频的任何背景信息，Gemini 1.5 Pro间接就听进去了是谁。

并在10s左右精准整理出了全对话的精髓局部，一点“正确的废话”都没有：

体现令人折服。

接上去，来个更具应战的，Andrej Karpathy1小时长的大模型科普教程。

咱们提取音频文件，足足 10万多个token （这种在UI里间接显示消耗token数量的方法也广受好评）。

Gemini 1.5 Pro最终在53s内按要求给出了10个亮点剖析：

可以说一分钟就让咱们对1小时的演讲内容有了全体认知，再也不用吃力扒字幕文件了。

继续回到API自身。

除了音频了解，为了让开发者更好地控制模型输入，Gemini 1.5 Pro还提供了另外3项新配置/改良：

首先是 系统指令 。

咱们可以自定义一些不凡用例，包含它们的角色、输入格局/格调/语气、指标和规定等等。

设置成功后，这个指令就会运行于接上去的整个恳求。

示例如下：

其次， JSON形式 。

也就是可以批示模型仅输入JSON对象了，十分繁难咱们从文本或图像中提取结构化数据。

第三， 函数调用上也有改良 。

为了提高牢靠性，Gemini 1.5 Pro也可以选用不同形式来限度模型的输入了。

可以是文本形式，将生成文本作为输入；也可以是函数调用形式，或许罗唆只输入函数自身（不带任何参数或其余信息）。

最后，还没完，从当天起，开发者还能经过该API调用谷歌的 下一代文本嵌入模型：

text-embedding-004 （又名“Gecko”）。

该模型在MTEB基准上成功了十分弱小的检索性能，优于可比维度的一切对手。

两个月前降生的谷歌最弱小模型

Gemini 1.5 Pro于2月15日颁布，距今还不到两个月。

它是Gemini Pro的更新版，多模态多言语，最大的亮点无疑是高低文窗口长度：

从128k到最多100万。

100万个token相当于可解决70万个单词或约3万行代码，折分解音频就是约11小时，视频约1小时。

无疑是很大的一个量级了（如今则齐全在API中开明）。

过后官网的演示包含用它搜查阿波罗11号登月的电视转播信息，一共402页文字记载。

模型的照应期间大概在20s到1分钟。稍微有点慢，但谷歌承诺会优化提后期间。

而Gemini 1.5 Pro颁布之后，网友也很快分享了一些还不错的内测结果，包含：

甄别Sora视频能否AI生成，给出关键证据；

在一场14分钟的NBA扣篮视频中，判别出哪个扣篮得分最高，并给出其中扣篮细节；

还有剖析比拟《星际穿梭》和《星际探求》两个完整的电影脚本，合起来凑近10万token，结果三十几秒内就给出了完整详尽的报告。

可以说，这次谷歌全体是没有让大伙绝望的。

最高能的是，它还能 看录像改BUG ：

有网友在编写一个网页的代码时故意留了3个bug，并区分录制了3个bug视频，外加代码库打包成文件一起丢给Gemini 1.5 Pro，结果所有分分钟给出正确代码。

这位网友过后就示意：这“小伙子”出路无法限量啊。

而在当天，随着Gemini 1.5 Pro API的“片面”开明，大伙可以更进一步地感触其凶猛了。

咳咳，就是目前速率限度还有点高：

每分钟恳求量为5次，每分钟token为1000万个，每日恳求量为2000个～

友谊链接：

原文链接:

<<当你钻研过了900个开源大模型名目后你能学到什么

大型言语模型与自动机器人集成的调查钻研>>

100万高低文关闭用 谷歌最弱小模型收费开明了！长音频了解配置唯一份

Gemini 1.5 Pro开明API了

两个月前降生的谷歌最弱小模型

您可能还会对下面的文章感兴趣：

随便看看

100万高低文关闭用谷歌最弱小模型收费开明了！长音频了解配置唯一份