这个人很懒,什么都没有留下~
“小朋友出生后接收的是视觉、图像、语言,综合的信号,现在市面上的多模态模型是先将语言学到非常高的水平,再把视觉信息做了桥接。更像是打补丁的方法。”将多模态模型比作小朋友,智源研究院院长...