ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用
3262点击    2024-04-10 17:07


谷歌最强大模型Gemini 1.5 Pro今天起,“全面”对外开放。


目前完全免费,开发者可以通过API调用的方式使用,普通玩家也可以在谷歌AI Studio中直接体验。


(Ps. 发布这则消息的谷歌工程师Logan Kilpatrick正是原来OpenAI开发者关系的负责人,刚刚跳槽到谷歌。)


最让人期待的是,Gemini 1.5 Pro API首次增加了音频理解功能。


无论是财报电话会、电视节目还是大神演讲,不需要我们再提供字幕文档它就可以直接解读了。



如下图所示:


上传Jeff Dean长约117000+token的演讲录音,Gemini 1.5 Pro在30.8s内就完成了解析。



而由于Gemini 1.5 Pro100万的上下文窗口这次也直接对外开放,因此它可以处理的最长音频约为11小时,最长视频则为1小时,相当够用。


我们也赶紧实测了一把,结果是真香。


Gemini 1.5 Pro开放API


谷歌官方给这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”


它主要面向开发者,可在谷歌AI Studio中获得API密钥:



目前最引人注目的音频理解功能还没添加到API中,但据说很快就会补上。


问题不大,我们可以先在Google AI Studio中直接体验:



在实测中,我们上传了比尔盖茨1995年做客Late Show节目的一段音频,时长1分钟。



我们没有提示这段音频的任何背景信息,Gemini 1.5 Pro直接就听出来了是谁。


并在10s左右精准整理出了全对话的精华部分,一点“正确的废话”都没有



表现令人折服。


接下来,来个更具挑战的,Andrej Karpathy1小时长的大模型科普教程。



我们提取音频文件,足足10万多个token(这种在UI里直接显示当前消耗token数量的方法也广受好评)



Gemini 1.5 Pro最终在53s内按要求给出了10个亮点分析:


可以说一分钟就让我们对1小时的演讲内容有了整体认知,再也不用费劲扒字幕文件了。



继续回到API本身。


除了音频理解,为了让开发者更好地控制模型输出,Gemini 1.5 Pro还提供了另外3项新功能/改进:


首先是系统指令


我们可以自定义一些特殊用例,包括它们的角色、输出格式/风格/语气、目标和规则等等。



设置完成后,这个指令就会应用于接下来的整个请求。


示例如下:



其次,JSON模式


也就是可以指示模型仅输出JSON对象了,非常方便我们从文本或图像中提取结构化数据

第三,函数调用上也有改进


为了提高可靠性,Gemini 1.5 Pro也可以选择不同模式来限制模型的输出了。


可以是文本模式,将生成文本作为输出;也可以是函数调用模式,或者干脆只输出函数本身(不带任何参数或其他信息)


最后,还没完,从今天起,开发者还能通过该API调用谷歌的下一代文本嵌入模型:


text-embedding-004(又名“Gecko”)


该模型在MTEB基准上实现了非常强大的检索性能,优于可比维度的所有对手。



两个月前诞生的谷歌最强大模型


Gemini 1.5 Pro于2月15日发布,距今还不到两个月。


它是Gemini Pro的升级版,多模态多语言,最大的亮点无疑是上下文窗口长度:


从128k到最多100万。


100万个token相当于可处理70万个单词或约3万行代码,折合成音频就是约11小时,视频约1小时。


无疑是很大的一个量级了(现在则完全在API中开放)



当时官方的演示包括用它搜索阿波罗11号登月的电视转播信息,一共402页文字记录。


模型的响应时间大约在20s到1分钟。稍微有点慢,但谷歌承诺会优化延迟时间。


而Gemini 1.5 Pro发布之后,网友也很快分享了一些还不错的内测结果,包括:


鉴别Sora视频是否AI生成,给出关键证据;



在一场14分钟的NBA扣篮视频中,判断出哪个扣篮得分最高, 并给出其中扣篮细节;



还有分析比较《星际穿越》和《星际探索》两个完整的电影脚本,合起来接近10万token,结果三十几秒内就给出了完整详尽的报告。



可以说,这次谷歌整体是没有让大伙失望的。


最高能的是,它还能看录像改BUG


有网友在编写一个网页的代码时故意留了3个bug,并分别录制了3个bug视频,外加代码库打包成文件一同丢给Gemini 1.5 Pro,结果全部分分钟给出正确代码。



这位网友当时就表示:这“小伙子”前途不可限量啊。


而在今天,随着Gemini 1.5 Pro API的“全面”开放,大伙可以更进一步地感受其厉害了。


咳咳,就是目前速率限制还有点高:


每分钟请求量为5次,每分钟token为1000万个,每日请求量为2000个~


友情链接:


https://aistudio.google.com/app/prompts/new_chat


参考链接:


https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html


https://twitter.com/OfficialLoganK/status/1777733743303696554


文章来源公众号“量子位”,作者“丰色 ”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0