【final matka】智谱 AI 开源视频理解模型 CogVLM2-

【final matka】智谱 AI 开源视频理解模型 CogVLM2

[娱乐] 时间：2024-09-20 16:54:06 来源：作者：百科点击：155次

感谢IT之家网友 USER 的智谱线索投递！

IT之家 7 月 12 日消息，开源智谱 AI 宣布，视频final matka训练了一种新的理解视频理解模型 CogVLM2-Video，并将其开源。模型

据介绍，智谱当前大多数的开源视频理解模型使用帧平均和视频标记压缩方法，导致时间信息的视频丢失，无法准确回答与时间相关的理解问题。一些专注于时间问答数据集的模型final matka模型过于局限于特定格式和适用领域，使得模型失去了更广泛的智谱问答能力。

▲ 官方效果演示

智谱 AI 提出了一种基于视觉模型的开源自动时间定位数据构建方法，生成了 3 万条与时间相关的视频视频问答数据。基于这个新数据集和现有的理解开放领域问答数据，引入了多帧视频图像和时间戳作为编码器输入，模型训练出 CogVLM2-Video 模型。

智谱 AI 表示，CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能，还在视频字幕生成和时间定位方面表现出色。

IT之家附相关链接：

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

(责任编辑：休闲)