InternVideo
InternVideo copied to clipboard
InternVideo2.5行为时空定位代码有没有案例代码?
想其输出某个行为在每一帧的坐标信息,曾经试过用提示词让其输出<xmin, ymin, xmax, ymax>的坐标,但它回复说不能输出像素坐标值。想知道论文中是如何实现的,有没有大佬能提供一些参考的代码或者思路?谢谢