to LLMCI- llm -Vision UI操作的多模式AI__

to LLMCI- llm -Vision UI操作的多模式AI

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

to LLMCI- llm -Vision UI操作的多模式AI

¥ 1.0

热度

人类计算机的相互作用（HCI）已经显着发展，但它仍然在很大程度上取决于通过屏幕和手动输入设备的视觉通信。虽然该范式在可预见的未来可能仍然占主导地位，但这项研究表明，现有的用户界面（UI）也可以由大语言模型（LLMS）利用，以与计算机进行交互。通过将视觉模式集成到多模式框架中，LLM可以获得理解和操作UI元素的能力，使它们能够检索信息，运行功能并像人类一样执行各种任务。该框架利用视觉模型将UI组件和信息传达给LLM，然后将其语言理解功能杠杆化来检索信息，并操作键盘和鼠标输入。本文介绍了人类计算机交互的新元素（HCI），称为LLM-Computer交互（LLMCI），该元素将大型语言模型（LLMS）与通过智能代理结合的计算机视觉结合在一起。这些代理处理用户文本命令并使用视觉感知来识别计算机接口的视觉和文本元素。这允许Mul-timodal AI独立执行复杂的任务，并以类似于人类行为的方式导航应用程序。我们提出了一个概念验证框架，该框架说明了代理如何使用LLM和计算机愿景来处理相互元素，完成任务并根据其说明提供支持。这种策略密切模仿人类的互动，并提出了增强HCI实践的前进道路。

添加pdf代下载 VIP点击下载文件

to LLMCI- llm -Vision UI操作的多模式AI

主要关键词

输入设备元素应用程序 UI LLMS 视觉模型概念验证复杂的 HCI 代理处视觉感知互作用框架任务多模式根据代理视觉结合视觉通信输入结合的视觉计算机交互相互作用 LLM 人类实践的操作信息检索交互的完成任务设备的现有的用户界面

to LLMCI- llm -Vision UI操作的多模式AIPDF文件第1页

to LLMCI- llm -Vision UI操作的多模式AIPDF文件第2页

to LLMCI- llm -Vision UI操作的多模式AIPDF文件第3页

to LLMCI- llm -Vision UI操作的多模式AIPDF文件第4页

to LLMCI- llm -Vision UI操作的多模式AIPDF文件第5页

可下载资源数量

已经购买

下载数量：1

to LLMCI- llm -Vision UI操作的多模式AI

to LLMCI- llm -Vision UI操作的多模式AI

相关文件推荐

通过多模式AI

使用Vision AI

从大型语言模型到多模式AI

太阳能操作的汽车启用了AI

AI在多模式成像中的应用中用于心血管疾病

基于AI的痴呆病因鉴别诊断多模式数据

gen ai llm-每个人都有生成AI的新时代

用于航空母舰甲板操作的多模式通灵板

基于AI的技术和多模式系统中的情况意识：建筑，挑战和应用

通过AI

AI

与AI

AI

AI

与AI

在AI

对AI

AI

基于AI

AI

通过AI

AI

为AI

AI

AI

基于AI

AI

通过AI

3D Vision

AI

XiaoMi-AI