Vbs2024比赛复盘

KIS-V

  • 在我们以为结束之前,我们处于所有队伍的二三名次。在marine和V3C上我们都做的很好,就是LHE的题目比较难,我们一道也没做对,但其他队伍在这个数据集上也很少得分。
  • 建议marine和LHE可以考虑1秒切1帧(marine是小数据集,LHE的精度明显不够)

image.png

  • 自动化上再提高,比如我感觉左键设置开始时间右键设置结束时间明显比点击悬停的“S”“E”按钮会快很多。

image.png

KIS-T

  • 成绩在中下游水平
  • 目前主要依靠算法。简单的题目在第一次给出信息时候,排名靠前就有答案。大部分难的题目需要修改官方给的query,去猜哪些元素在画面中占比较小可以忽略/哪些元素占比较大需要重点关注。e.g.
    We see a girl in a dark dress pushing the door of a convenience store, after it closes, she runs away. There are two bikes and four trash cans in front of the shop windows. The store's brand colors are green, white and  blue.
    如何想象图片,告诉model,给句子加权
    搜第一句话离答案很远,最后看视频才知道是小女孩太小了
    
  • 搜索第一句话时: image.png

  • 搜索倒数两句话时 image.png

  • 最终正确答案 image.png

  • 驴子 和 赛车 答案和我们提交的片段很像。

  • 参考一下得分较高的队伍的系统功能,比如temporary search。(有些队伍(vibro、VISIONE)在我们觉得很难的题目也能很快提交)

AVS

  • 每个视频只出现一帧。后续考虑能够刷新看到排在后面的图片。目前只能看到前350
  • 策略:不求数量,只求符合描述。
  • 改进:类似KIS-T加入往年队伍的新功能
  • 现象:题目简单大家都交的多,题目难只有一个对的。比如下面这道题
    Find shots of a person opening a beverage can(e.g. beer or soda), and with liquid being spilled.(翻译的时候我们认为是饮料洒了,结果交正常倾倒饮料罐的图片被判对了)
    

    image.png

QA

  • 强烈要求加入播放视频的功能!!!
  • 判题:就算你答对了也会判错,从根本上杜绝多个子系统有预谋地通过试答案垫高某一个主系统的分数。(对我们来说就是没法知道到底做对没有)
  • 很难,根本没有可能单凭官方给出的视频片段找到答案。大部分都要找到视频,去视频的前后文或者语音里找答案。

远程连接

  • 向日葵远程连接,可以用来录屏,网速也还可以
  • 中途有段时间我这边的键盘输入没法同步到那边,导致ctrl键和windows键用不了。用一些需要快速复制粘贴和截屏的操作不能做,只能用鼠标点,有些题目没做好。重启向日葵能解决。
  • 公布题目的网站到我们这里有延迟,大概在1000ms-8000ms。最好是直接在zoom会议里进行截图,那里延迟最低。

其他

  • Novice task线上的队伍不用参加,是现场找新手来使用你的系统。

This line appears after every note.

Notes mentioning this note


Here are all the notes in this garden, along with their links, visualized as a graph.