苹果悄悄开源“嗅探者”:多模态 LLM 引领 AI 新探索

2023 年 10 月,一个重大新闻悄然发生:苹果公司与康奈尔大学合作,推出了一款开源多模态 LLM 模型——Ferret(嗅探者)。这款模型并未大张旗鼓发布,却在 AI 研究界掀起波澜。

google Ferret

为何 Ferret 引发关注

  • 打破苹果传统: 一直以来,苹果以封闭的生态系统闻名。Ferret 的开源发布展现了苹果在 AI 领域更加开放的姿态,也标志着公司迈入多模态 AI 领域的领军地位。
  • 独到的能力: Ferret 的亮点在于其独特的**“嗅探”功能**。它可以分析图像的特定区域,提取关键元素,并将其作为查询的一部分,进而生成更细致准确的回应。例如,用户可以圈选出一张包含多只动物的图片中的某只,Ferret 不仅能识别其物种,还能结合图片上下文给出进一步信息,如这只动物在做什么、与其他动物的关系等。
  • 引领 AI 潮流: Ferret 的开放性为业界带来了新的探索机会。研究人员可以基于该模型进一步开发应用,推动多模态 AI 技术的应用落地。

Ferret 的工作原理

  1. 识别关键区域: Ferret 首先会定位图像中的特定区域,并确定该区域内可能与查询相关的元素。
  2. 提取元素: 模型随后会识别这些元素,并用方框将其圈出。
  3. 生成回应: 最后,Ferret 会将识别的元素纳入查询的一部分,以传统 LLM 的方式生成回应。

Ferret 的潜在影响

  • 开放生态助力竞争: 苹果在 AI 领域资源有限,难以与微软和谷歌等巨头直接竞争。Ferret 的开源发布一方面可以吸引更多开发者参与完善模型,另一方面也有助于苹果与学术界、开源社区建立更紧密的关系,从而提升竞争力。
  • 促进多模态 AI 发展: Ferret 的出现凸显了多模态 AI 的重要性。这种能够综合文本、图像、声音等多种信息的人工智能模型,为未来的人机交互、信息检索等领域提供了广阔的应用前景。

总结

Ferret 的诞生标志着苹果在 AI 领域迈出了重要一步。这款开源多模态 LLM 不仅展现了其在技术上的领先地位,也体现了公司更加开放的心态。相信 Ferret 的出现将加速 AI 技术的演进,为未来的人工智能应用开拓全新的可能。

苹果悄悄开源“嗅探者”:多模态 LLM 引领 AI 新探索

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注