先来看个简单的案例,体会下。
需求:将图中(左侧)的电费输入excel表中,分两列,一列是电费数据,一列是日期。最后给出电费总额。
我用gpt-4o
测试了下,非常简单就跑通了(上图右侧)。提示词非常简单,加上图片的url就可以使用,如下所示:
Openai.chat.completions.create({
model: "gpt-4o",
messages: [
{
role: "user",
content: [
{ type: "text", text: "将图片中的电费按表格的形式录入,分两列,一列是电费数据,一列是日期。最后给出电费总额" },
{
type: "image_url",
image_url: {
"url": "https://ipfs.ilark.io/ipfs/QmRavxx",
},
},
],
},
],
})
这是多模态大模型(文字、图像、语音等多种信息形式)的典型应用。虽然以上的案例很简单,但是通过叠加等形式就可以开发出复杂的应用。
多模态简介
多模态就是指多种信息来源或表现形式,比如文字、图像、语音、视频等。而多模态大模型,就是能够同时处理和理解这些不同模态信息的模型。 多模态大模型通过理解和融合文字、图像、语音等多种信息形式,提升人机交互的智能与便利性。它可以在自动驾驶和医疗等领域中应用。在上文的案例中就是通过识别图像来写入数据。
拓展案例
具体的应用场景称为agent(智能体),表示它在一个或多个领域中的使用。 比如专用于读图读片的、办公的、维修的或是写作的等等。可以想见,各式的智能体必将涌现。
维修助手
当复杂机械需要维修时,在故障点拍照传给agent, 实时返回维修建议。视觉问答
用户可以向模型提出与图像相关的问题,模型能够理解图像内容并给出准确的回答。例如,问“图中有多少只狗?”模型可以识别并回答。医疗影像分析
结合医学影像(如X光、CT扫描)和病历文本,帮助医生进行更准确的诊断和治疗建议。教育与培训
在线教育平台中,结合视频讲解、文本资料和互动问答,提供个性化的学习体验。内容创作与生成
利用多模态模型生成创意内容,如结合文本和图像生成漫画、插图或短视频。
这些应用展示了多模态大模型在各个领域的广泛潜力,能够提升用户体验和工作效率。随着AI的不断发展,将会有更多创新的应用出现。
第一浪(各种大模型的开发)已经打完,第二浪即将到来,你准备好了吗?