通过GPT-4和DELL-3的结合,使用ChatGPT模拟庞贝古城火山爆发时的历史情景,并展示了多模态人工智能的强大功能。
LLaVA是一个端到端训练的多模态大模型,它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合,具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型,拥有110亿个视觉参数和70亿个语言参数。
LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面,LLaVA的表现相对于GPT-4的评分达到了85%,在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时,能够全面而有逻辑地生成回答,并且可以以JSON格式输出。
我知道我们已经聊过不少次《蛋仔派对》(下称蛋仔),但最近,我发现一件听上去很离谱的事:对不少年轻人来说,这款产品已经成了他们「赖以生存」的「精神乐园」。
我想,这或许是因为玩家们真的需要一个包容的精神乐园,而蛋仔恰好成了一个乌托邦。它让玩家在生活中错过的那些欢笑或感动、放肆或沉思,拥有一个恰当的场景来释放。在这些情绪体验的支撑下,蛋仔才能够让玩家的内心得以重新变得柔软、并重新捡起对新一年的期望。