大背景窗口很重要

上周,我试用了 Google 最新的生成模型:Gemini 1.5,这是一个多模式庞然大物,可以处理长达一小时的视频、11 小时的音频、30,000 行代码或 700,000 个单词。就上下文长度而言,这是一个巨大的飞跃:Gemini 接受的输入是其最强大的前身 Claude 2.1 的 5 倍。我一直兴奋地期待着长上下文窗口时代的到来,不仅因为它们使生成模型能够解决全新类型的问题,还因为它们可能会改变我们使用 LLM 进行开发的方式。但我有点操之过急了。首先,让我与您分享一些我最喜欢的 Gemini 1.5 实验。使用 VideoAI Family Video Archive 2.0 进行提示早在石器时代,即 2020 年,我花了一个月的时间建立了一个由 AI 驱动的家庭视频档案。这个想法是使用机器学习(图像识别、语音转文本、嵌入等)来创建本质上是 Google 搜索的东西,但用于我的个人家庭视频档案。它成功了,但椅子和键盘之间存在一个缺陷:我不知道要搜索什么。这么多小时的视频,来自很久以前!我完全忘记了哪些珍贵的家庭时刻,或者我太小而无法形成记忆?进入 Gemini 1.5。我上传到这个坏男孩的第一件事是 1996 年的一段一小时的家庭视频。与我花了一个月时间建立的原始 AI 档案不同,这个实验只花了几分钟就设置好了,而且大部分时间都在

来源:Dale on AI

上周,我试用了 Google 最新的生成模型:Gemini 1.5,这是一个多模式庞然大物,可以处理长达一小时的视频、11 小时的音频、30,000 行代码或 700,000 个单词。就上下文长度而言,这是一个巨大的飞跃:Gemini 接受的输入是其最强大的前身 Claude 2.1 的 5 倍。

一段时间以来,我一直兴奋地期待着长上下文窗口时代的到来,这不仅是因为它们使生成模型能够解决全新类型的问题,还因为它们可能会改变我们使用 LLM 进行开发的方式。但我有点操之过急。首先,让我与您分享一些我最喜欢的 Gemini 1.5 实验。

使用视频进行提示

AI 家庭视频档案 2.0

回到石器时代,即 2020 年,我花了一个月的时间建立了一个由 AI 驱动的家庭视频档案。这个想法是使用机器学习(图像识别、语音转文本、嵌入等)来创建本质上是 Google 搜索的东西,但用于我的个人家庭视频档案。它成功了,但椅子和键盘之间存在一个缺陷:我不知道要搜索什么。这么多小时的视频,来自很久以前!我完全忘记了哪些珍贵的家庭时刻,或者太小而无法形成记忆?

AI 驱动的家庭视频档案

进入 Gemini 1.5。我上传到这个坏男孩的第一件事是 1996 年的一段一小时的家庭视频。与我花了一个月时间建立的原始 AI 档案不同,这个实验只花了几分钟就设置好了,大部分时间都花在下载和将视频转换为正确的格式上。我将我的家庭视频上传到 Google Drive,将其插入提示中,然后添加了说明文本:

总结这个家庭视频。创建一个项目符号列表,其中包含对每个场景的简短描述。确保不要忘记任何场景,并仔细注意确保非常准确。

成功了!

人工智能园丁

**龙舌兰** **丝兰** **破损的花盆**

提高我的网球发球