今天又被OpenAI刷屏了! 多模态GPT-4o的发布和演示又一次引发了大众的热情!看了官方的演示,我觉得还好:有些进步,但也谈不上有多兴奋!大概是兴奋期过去了,除非是革命性的进展,否则有些难打动我啰!
与其临渊羡鱼,不如退而结网。自己亲自动手测测才有发言权。在它的文档中,和gpt-4-vision-preview
一样有个 image_url
的参数,这是支持传入图片。演示中的语音功能看来是用别的模型实现的。
以下是测试代码:
GPT-4o
GPT-4o (“o” for “omni”) is our most advanced model. It is multimodal (accepting text or image inputs and outputting text), and it has the same high intelligence as GPT-4 Turbo but is much more efficient—it generates text 2x faster and is 50% cheaper. Additionally, GPT-4o has the best vision and performance across non-English languages of any of our models. GPT-4o is available in the OpenAI API to paying customers. Learn how to use GPT-4o in our text generation guide.
GPT-4o ("o "表示 "omni")是我们最先进的型号。它是多模态的(接受文本或图像输入并输出文本),具有与 GPT-4 Turbo 相同的高智能,但效率更高--生成文本的速度快 2 倍,成本低 50%。此外,GPT-4o 在非英语语言方面的视觉和性能也是我们所有型号中最好的。
import OpenAI from "openai"
import dotEnv from "dotenv"
dotEnv.config()
const apiKey = process.env.API_KEY
const Openai = new OpenAI({
apiKey: apiKey
})
async function main() {
const response = await Openai.chat.completions.create({
model: "gpt-4o",
messages: [
{
role: "user",
content: [
{ type: "text", text: "图片里有什么" },
{
type: "image_url",
image_url: {
"url": "https://ipfs.ilark.io/ipfs/QmadtZxXPTVS9q2qArZHpZaRjYmF9o5HMxj6Hdgc59dGpR",
},
},
],
},
],
});
console.log(635, response.choices[0])
}
main()
例图如下:
回复:
content: '图片中展示了一个手工工艺品的工作台面。主要物体是一个带有复杂雕刻的绿色陶瓷花瓶,花瓶高大且装饰华丽。周围还有一些其他陶瓷物品,包括一个盖碗和几只小碗。背景中可以看到一些工 具、材料和一个正在工作的空间。工作台上比较凌乱,显示出这是一个正在进行手工制作的场景。'
从回复中可以看出GPT-4o基本上理解了这个场景和物体,主次分得挺清的,确实不错!基于图像功能的应用设计也在考虑中,希望能够在实际的场景中应用。GPT-4o的更新会是近几天调试后在AI·Joe上添加,敬请期待。