当AI长出眼睛长出耳朵,AI第二浪即将到来!

in hive-180932 •  4 months ago 

先来看个简单的案例,体会下。

aiview2.jpg

需求:将图中(左侧)的电费输入excel表中,分两列,一列是电费数据,一列是日期。最后给出电费总额。

我用gpt-4o测试了下,非常简单就跑通了(上图右侧)。提示词非常简单,加上图片的url就可以使用,如下所示:

Openai.chat.completions.create({
    model: "gpt-4o",
    messages: [
      {
        role: "user",
        content: [
          { type: "text", text: "将图片中的电费按表格的形式录入,分两列,一列是电费数据,一列是日期。最后给出电费总额" },
          {
            type: "image_url",
            image_url: {
              "url": "https://ipfs.ilark.io/ipfs/QmRavxx",
            },
          },
        ],
      },
    ],
  })

这是多模态大模型(文字、图像、语音等多种信息形式)的典型应用。虽然以上的案例很简单,但是通过叠加等形式就可以开发出复杂的应用。

多模态简介

多模态就是指多种信息来源或表现形式,比如文字、图像、语音、视频等。而多模态大模型,就是能够同时处理和理解这些不同模态信息的模型。 多模态大模型通过理解和融合文字、图像、语音等多种信息形式,提升人机交互的智能与便利性。它可以在自动驾驶和医疗等领域中应用。在上文的案例中就是通过识别图像来写入数据。

aijoe2.jpg

拓展案例

具体的应用场景称为agent(智能体),表示它在一个或多个领域中的使用。 比如专用于读图读片的、办公的、维修的或是写作的等等。可以想见,各式的智能体必将涌现。

  1. 维修助手
    当复杂机械需要维修时,在故障点拍照传给agent, 实时返回维修建议。

  2. 视觉问答
    用户可以向模型提出与图像相关的问题,模型能够理解图像内容并给出准确的回答。例如,问“图中有多少只狗?”模型可以识别并回答。

  3. 医疗影像分析
    结合医学影像(如X光、CT扫描)和病历文本,帮助医生进行更准确的诊断和治疗建议。

  4. 教育与培训
    在线教育平台中,结合视频讲解、文本资料和互动问答,提供个性化的学习体验。

  5. 内容创作与生成
    利用多模态模型生成创意内容,如结合文本和图像生成漫画、插图或短视频。

这些应用展示了多模态大模型在各个领域的广泛潜力,能够提升用户体验和工作效率。随着AI的不断发展,将会有更多创新的应用出现。

第一浪(各种大模型的开发)已经打完,第二浪即将到来,你准备好了吗?

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!