ControlLLM: 使用大语言模型控制工具,用户轻松定制个性化多模态模型

以GPT-4为代表的大语言模型(LLM)对话能力和文字能力已经足够出色,但我们认为,也许LLM能做的远不止对话聊天,它也可以作为多模态大模型的控制中枢但由于用户提示不明确、工具选择和参数设置的不精确,以及工具调度低效,它们仍然面临工具调用的挑战。一些方法目前基于的假设是每个子任务最多只有一个前置任务,这在现实应用中不够灵活。
ControlLLM推出了基于图搜索和任务分解的能够精确控制工具使用的多模态交互框架。能够将LLM为主要控制器,整合具有不同功能的工具作为插件,使用自研的图上搜索(Thoughts on Graph,ToG)算法进行合理的任务分解、工具选择以及高效的工具执行调度,使得模型可以更高效、更准确的理解用户需求。未来,用户可以使用ControlLLM,为大语言模型赋予自己需要的工具,轻松定制自己的多模态模型!

论文:
https://arxiv.org/abs/2310.17796
开源代码(点击“阅读原文”直达):
https://github.com/OpenGVLab/ControlLLM
试用Demo:
https://cllm.opengvlab.com/

ControlLLM通过其丰富的多模态的对话和生成能力,将人机交互提升到了新的高度,降低了各个模态任务之间的壁障,和相对于现有方法具有更高的准确性、效率和多功能性,能在涉及图像、音频和视频处理的各种任务中展现出卓越的性能。了基于图搜索和任务分解的能够精确控制工具使用的。

结语

ControlLLM是一次创新性的尝试,研究人员希望更好的利用工具,提高LLM的性能,可以完成用户使用各种模态数据的各种复杂问题!未来,研究团队计划在现有的多模态交互框架的ControlLLM的基础上进一步加入性能更好的工具,也欢迎大家发掘更多好用的工具,告诉我们,或者是希望使用ControlLLM定制自己的多模态模型欢迎与我们进行交流

微信号:gvxiaozhushou,回复“工具” 即可加入讨论群!

论文:
https://arxiv.org/abs/2310.17796
开源代码(点击“阅读原文”直达):https://github.com/OpenGVLab/ControlLLM
试用Demo:
https://cllm.opengvlab.com/

关注下方公众号,了解通用视觉团队更多科研动态

本篇文章来源于微信公众号: 医工学人

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注