观看 vedal 看 chatgpt-4o 发布会……

(vedal:一个人工智能 vtuber 的家长、制作者)

【与 AI VTuber 工程师 Vedal 一起看 OpenAI GPT-4o 发布会 【Neuro-sama】(文化绿洲)】

# 发布会内容

# chatgpt-4o 可以在电脑上使用,而非和以前一样的网页端

看到的显示内容

……

# chatgpt-4o API

能在 chatgpt 以外的地方使用 chatgpt-4o

……

# chatgpt-4o 语音 Voice Mode

neuro 的语音输入是语音识别,然后把文字输入到模型。这样子存在听错的问题,且无法对环境音,声音的情况以及其他进行判断。我之前把讯飞语音接入到项目也是这样子做的。

# 多模态输入

可以语音、视觉、文字同时理解听得懂声音的缓急,且可以打断它的输出

# TTS

不是传统的 TTS,能有不同音色的转换(比如机器人式音色,唱歌的方法)。

(输入部分开源社区有相应项目)

# chatgpt-4o 视觉

# 线性方程指导

加入视觉,比如写下一个线性方程,然后让它给出提示(像一个老师一样)

它能一步步提示,并很好地做到 指导 这件事

最后画上,爱心,有误导性的 t(+),G(6),能正确识别,并有感情的返回(似乎有笑声)

image-20240517095423190

# 识别屏幕

电脑版,可以获取到屏幕内容,看得懂代码,并分析输出

image-20240517095650310

# 其他

# 实时翻译 + 输出

实现了意大利语和英语的实时翻译

# 识别人表情的情感

……

#