飞搜侠

为了有效处理包括具有不同持续时间、分辨率和宽高比的图像和视频在内的多样化视觉输入，一个关键方法涉及将所有形式的视觉数据转换为统一表示，这有助于生成模型的大规模训练 ...

而在2024年开年，OpenAI就发布了王炸文生视频大模型Sora，它能够仅仅根据提示词，生成60s的连贯视频，“碾压”了行业目前大概只有平均“4s”的视频生成长度。为了方便理解，我们 ...

... 视频序列的能力，克服了早期视频生成模型所特有的短片段和简单视觉呈现的限制。这一能力代表了AI 驱动创意工具向前的一大步，允许用户将文本叙述转换为丰富的视觉故事。

该模型经过训练，能够根据文本指令生成逼真或富有想象力的场景视频，并展现出在模拟物理世界方面的潜力。本文基于公开的技术报告和逆向工程，全面回顾了该模型的背景、相关 ...

Sora 炸场之后，视频生成持续广受关注，不断掀起新的热潮。近日，在奇绩创坛路演日上，世界模型公司「极佳科技」联合清华大学自动化系正式发布中国首个超长时长、高性价比、端 ...

该综述通过260 余篇文献，对世界模型在视频生成、自动驾驶、智能体、通用机器人等 ... 最近，大语言模型（LLMs）在语言理解和生成方面表现出革命性的能力，但仍 ...

（大模型）去年爆火的大模型综述，如今出书了（附下载） ... 该书一共五大部分，包括大模型基础、大模型预 ... Gatekeep，仅用一句话，生成优雅的教学视频。 AI+ ...

2024 年8 月版AI 大模型周报总结了过去一周AI 技术进展，涵盖Eleven apps 的多语言配音服务、XAI 的预览版、stable diffusion 团队的模型、谷歌的对话和乒乓球机器人、 ...

生数科技联合清华大学最新发布的视频大模型「Vidu」可以看出，它生成的视频不再是持续几秒的「GIF」，而是达到了十几秒（最长可以达到16 秒左右）。

多模态大语言模型“视觉表征定律”：降低99.7% 计算成本在这项工作中，来自斯坦福大学和加州大学伯克利分校的研究团队提出了多模态大语言模型（MLLM）“视觉表征定律”（Law of ...