100万高低文关闭用 谷歌最弱小模型收费开明了!长音频了解配置唯一份
谷歌最弱小模型 Gemini 1.5 Pro 当天起,“片面”对外开明。
目前齐全收费,开发者可以经过 API调用 的形式经常使用,个别玩家也可以在谷歌AI Studio中间接体验。
(Ps. 颁布这则信息的谷歌工程师Logan Kilpatrick正是原来OpenAI开发者相关的担任人,刚刚跳槽到谷歌。)
最让人等候的是,Gemini 1.5 Pro API初次参与了 音频了解 配置。
无论是财报电话会、电视节目还是大神演讲, 不须要咱们再提供字幕文档 它就可以间接解读了。
如下图所示:
上行Jeff Dean长约117000+token的演讲录音,Gemini 1.5 Pro在30.8s内就成功了解析。
而因为Gemini 1.5 Pro 100万的高低文窗口 这次也间接对外开明,因此它可以解决的 最长音频约为11小时,最长视频则为1小时 ,相当够用。
咱们也连忙实测了一把,结果是真香。
Gemini 1.5 Pro开明API了
谷歌官网给这次收费开明的Gemini 1.5 Pro版本定义为 “地下预览版” 。
它重要面向开发者,可在谷歌AI Studio中取得API密钥:
目前最有目共睹的音频了解配置还没参与到API中,但听说很快就会补上。
疑问不大,咱们可以先在Google AI Studio中间接体验:
在实测中,咱们上行了比尔盖茨1995年做客Late Show节目的一段音频,时长1分钟。
咱们没有揭示这段音频的任何背景信息,Gemini 1.5 Pro间接就听进去了是谁。
并在10s左右精准整理出了全对话的精髓局部,一点“正确的废话”都没有:
体现令人折服。
接上去,来个更具应战的,Andrej Karpathy1小时长的大模型科普教程。
咱们提取音频文件,足足 10万多个token (这种在UI里间接显示消耗token数量的方法也广受好评)。
Gemini 1.5 Pro最终在53s内按要求给出了10个亮点剖析:
可以说一分钟就让咱们对1小时的演讲内容有了全体认知,再也不用吃力扒字幕文件了。
继续回到API自身。
除了音频了解,为了让开发者更好地控制模型输入,Gemini 1.5 Pro还提供了另外3项新配置/改良:
首先是 系统指令 。
咱们可以自定义一些不凡用例,包含它们的角色、输入格局/格调/语气、指标和规定等等。
设置成功后,这个指令就会运行于接上去的整个恳求。
示例如下:
其次, JSON形式 。
也就是可以批示模型仅输入JSON对象了,十分繁难咱们从文本或图像中提取结构化数据。
第三, 函数调用上也有改良 。
为了提高牢靠性,Gemini 1.5 Pro也可以选用不同形式来限度模型的输入了。
可以是文本形式,将生成文本作为输入;也可以是函数调用形式,或许罗唆只输入函数自身(不带任何参数或其余信息)。
最后,还没完,从当天起,开发者还能经过该API调用谷歌的 下一代文本嵌入模型:
text-embedding-004 (又名“Gecko”)。
该模型在MTEB基准上成功了十分弱小的检索性能,优于可比维度的一切对手。
两个月前降生的谷歌最弱小模型
Gemini 1.5 Pro于2月15日颁布,距今还不到两个月。
它是Gemini Pro的更新版,多模态多言语,最大的亮点无疑是高低文窗口长度:
从128k到最多100万。
100万个token相当于可解决70万个单词或约3万行代码,折分解音频就是约11小时,视频约1小时。
无疑是很大的一个量级了(如今则齐全在API中开明)。
过后官网的演示包含用它搜查阿波罗11号登月的电视转播信息,一共402页文字记载。
模型的照应期间大概在20s到1分钟。稍微有点慢,但谷歌承诺会优化提后期间。
而Gemini 1.5 Pro颁布之后,网友也很快分享了一些还不错的内测结果,包含:
甄别Sora视频能否AI生成,给出关键证据;
在一场14分钟的NBA扣篮视频中,判别出哪个扣篮得分最高, 并给出其中扣篮细节;
还有剖析比拟《星际穿梭》和《星际探求》两个完整的电影脚本,合起来凑近10万token,结果三十几秒内就给出了完整详尽的报告。
可以说,这次谷歌全体是没有让大伙绝望的。
最高能的是,它还能 看录像改BUG :
有网友在编写一个网页的代码时故意留了3个bug,并区分录制了3个bug视频,外加代码库打包成文件一起丢给Gemini 1.5 Pro,结果所有分分钟给出正确代码。
这位网友过后就示意:这“小伙子”出路无法限量啊。
而在当天,随着Gemini 1.5 Pro API的“片面”开明,大伙可以更进一步地感触其凶猛了。
咳咳,就是目前速率限度还有点高:
每分钟恳求量为5次,每分钟token为1000万个,每日恳求量为2000个~
友谊链接:
原文链接: