实现通用人工智能(AGI)可能比我们想象的更近 用户kenshin9000的Twitter帖子表明,我们离实现人工通用智能(AGI)比看起来更接近。该用户提供了初步证据,即当以命题逻辑上的“概念”提示GPT4时,这个基于transformer的自回归大型语言模型在被认为是AGI级别的ConceptARC基准测试中的性能从13%跃升至100%,而无需训练示例。...
Huggingface:混合专家模型解释 Hugging Face的博客文章《混合专家解释》深入探讨了在Transformer模型的背景下,混合专家(MoEs)概念,讨论了它们的架构、训练以及使用中涉及的权衡。 MoEs是一类能够通过使用稀疏MoE层而不是密集前馈网络(FFN)层来实现高效预训练和更快推断的模型。这些层包括一个门控网络,将标记路由到一定数量的...
W.A.L.T:谷歌视频生成模型 刚注意到李飞飞团队的这个视频生成模型W.A.L.T,这效果也太好了,感觉比 Pika 1.0 还要好的多。 清晰度和动作都非常好,特别是光剑打斗的那个视频。可惜不开源。 方法有两个关键的设计决策。首先,我们使用因果编码器在统一的潜在空间内联合压缩图像和视频,从而实现跨模态的训练和生成。其次,为了提高记忆和训练效率,我们使用专...
ConTorlNetXS:优化版Contorlnet 海德堡大学开源了一个优化版本的 ContorlNet 模型:ConTorlNetXS。这个架构的 ContorlNet 模型精简了原来的模型推理和训练的时间都提高了两倍,同时生成图片的质量更高,控制更加精准。 这个项目中,我们研究了用于控制基于稳定扩散模型的图像生成过程的ControlNet的大小和架构设...
Notdiamond-0001:自动选择LLM模型 Notdiamond-0001这个项目可以自动帮你选择将用户的问题发送给GPT-4还是GPT-3.5,从而大幅降低调用模型的成本提高回答的准确性。 以后还会推出Gemini、Mistral、Claude 和 Llama这几个模型的自动选择。 下面是几个重点功能: ◇ 在用作路由器时,Notdiamond-0...
阿里开源视频生成模型2VGen-XL 阿里之前11月发布了论文要开源的I2VGen-XL图像生成视频模型,终于发布了具体的代码和模型。演示里面没有人物大幅动作的视频。 I2VGen-XL包括两个阶段: i) 基础阶段通过使用两个分层编码器保证连贯的语义,并保留输入图像的内容, ii) 优化阶段通过整合额外的简短文本来增强视频的细节,并将分辨率提高到1280&...
人工智能世界正在以惊人的速度发展,出现了能够执行各种任务的新模型。谷歌最近发布的一个版本是其新的双子座人工智能。谷歌的 Gemini Pro 现在直接与 OpenAI 的 GPT-3.5 和 GPT-4 等公司竞争,它们也在人工智能领域处于领先地位,每个产品都提供了一套满足不同需求的功能。 谷歌的 Gemini Pro 具有类似于 ChatGPT 的多模态功...
在 6 月的 Google I/O 2023 大会上,该公司向我们展示了其功能最强大的 AI 模型 Gemini 的一瞥。最后,在 2023 年底之前,谷歌向公众发布了 Gemini AI 模型。谷歌称其为“双子座时代”,因为这是该公司的一个重要里程碑。但究竟什么是谷歌双子座 AI,它能推翻长期统治的王者 GPT-4 吗?为了找出答案,让我们通过我们对 Ge...
Mixtral 8X7B AI Agent 以其最先进的技术掀起波澜,有望增强我们与 AI 系统交互的方式。这种新的人工智能模型不仅仅是该领域的又一次迭代;它是一种复杂的工具,有望提供高性能和效率,使其成为 GPT3.5 等现有模型的显着竞争对手。 Mixtral 8X7B 建立在稀疏专家混合模型 (SMoE) 之上,这是 AI 开发中的一种前沿方法。这使得...
EAGLE(提高语言模型效率的外推算法)是快速解码大型语言模型 (LLM) 的新基准,具有可证明的性能维护。这种方法涉及外推法学硕士的第二顶层上下文特征向量,从而显着提高生成效率。在理论驱动下(敬请关注我们即将发表的论文),EAGLE 建立在以下第一原则的基础上: LLM 特征向量序列可随时间压缩,从而可以轻松地根据先前特征向量预测后续特征向量。 EAGLE...