100万高低文关闭用 谷歌最弱小模型收费开明了!长音频了解配置唯一份

谷歌最弱小模型 Gemini 1.5 Pro 当天起,“片面”对外开明。

目前齐全收费,开发者可以经过 API调用 的形式经常使用,个别玩家也可以在谷歌AI Studio中间接体验。

(Ps. 颁布这则信息的谷歌工程师Logan Kilpatrick正是原来OpenAI开发者相关的担任人,刚刚跳槽到谷歌。)

最让人等候的是,Gemini 1.5 Pro API初次参与了 音频了解 配置。

无论是财报电话会、电视节目还是大神演讲, 不须要咱们再提供字幕文档 它就可以间接解读了。

如下图所示:

上行Jeff Dean长约117000+token的演讲录音,Gemini 1.5 Pro在30.8s内就成功了解析。

而因为Gemini 1.5 Pro 100万的高低文窗口 这次也间接对外开明,因此它可以解决的 最长音频约为11小时,最长视频则为1小时 ,相当够用。

咱们也连忙实测了一把,结果是真香。

Gemini 1.5 Pro开明API了

谷歌官网给这次收费开明的Gemini 1.5 Pro版本定义为 “地下预览版”

它重要面向开发者,可在谷歌AI Studio中取得API密钥:

目前最有目共睹的音频了解配置还没参与到API中,但听说很快就会补上。

疑问不大,咱们可以先在Google AI Studio中间接体验:

在实测中,咱们上行了比尔盖茨1995年做客Late Show节目的一段音频,时长1分钟。

咱们没有揭示这段音频的任何背景信息,Gemini 1.5 Pro间接就听进去了是谁。

并在10s左右精准整理出了全对话的精髓局部,一点“正确的废话”都没有:

体现令人折服。

接上去,来个更具应战的,Andrej Karpathy1小时长的大模型科普教程。

咱们提取音频文件,足足 10万多个token (这种在UI里间接显示消耗token数量的方法也广受好评)。

Gemini 1.5 Pro最终在53s内按要求给出了10个亮点剖析:

可以说一分钟就让咱们对1小时的演讲内容有了全体认知,再也不用吃力扒字幕文件了。

继续回到API自身。

除了音频了解,为了让开发者更好地控制模型输入,Gemini 1.5 Pro还提供了另外3项新配置/改良:

首先是 系统指令

咱们可以自定义一些不凡用例,包含它们的角色、输入格局/格调/语气、指标和规定等等。

设置成功后,这个指令就会运行于接上去的整个恳求。

示例如下:

其次, JSON形式

也就是可以批示模型仅输入JSON对象了,十分繁难咱们从文本或图像中提取结构化数据。

第三, 函数调用上也有改良

为了提高牢靠性,Gemini 1.5 Pro也可以选用不同形式来限度模型的输入了。

可以是文本形式,将生成文本作为输入;也可以是函数调用形式,或许罗唆只输入函数自身(不带任何参数或其余信息)。

最后,还没完,从当天起,开发者还能经过该API调用谷歌的 下一代文本嵌入模型:

text-embedding-004 (又名“Gecko”)。

该模型在MTEB基准上成功了十分弱小的检索性能,优于可比维度的一切对手。

两个月前降生的谷歌最弱小模型

Gemini 1.5 Pro于2月15日颁布,距今还不到两个月。

它是Gemini Pro的更新版,多模态多言语,最大的亮点无疑是高低文窗口长度:

从128k到最多100万。

100万个token相当于可解决70万个单词或约3万行代码,折分解音频就是约11小时,视频约1小时。

无疑是很大的一个量级了(如今则齐全在API中开明)。

过后官网的演示包含用它搜查阿波罗11号登月的电视转播信息,一共402页文字记载。

模型的照应期间大概在20s到1分钟。稍微有点慢,但谷歌承诺会优化提后期间。

而Gemini 1.5 Pro颁布之后,网友也很快分享了一些还不错的内测结果,包含:

甄别Sora视频能否AI生成,给出关键证据;

在一场14分钟的NBA扣篮视频中,判别出哪个扣篮得分最高, 并给出其中扣篮细节;

还有剖析比拟《星际穿梭》和《星际探求》两个完整的电影脚本,合起来凑近10万token,结果三十几秒内就给出了完整详尽的报告。

可以说,这次谷歌全体是没有让大伙绝望的。

最高能的是,它还能 看录像改BUG

有网友在编写一个网页的代码时故意留了3个bug,并区分录制了3个bug视频,外加代码库打包成文件一起丢给Gemini 1.5 Pro,结果所有分分钟给出正确代码。

这位网友过后就示意:这“小伙子”出路无法限量啊。

而在当天,随着Gemini 1.5 Pro API的“片面”开明,大伙可以更进一步地感触其凶猛了。

咳咳,就是目前速率限度还有点高:

每分钟恳求量为5次,每分钟token为1000万个,每日恳求量为2000个~

友谊链接:​​ ​​ ​

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: