观看 vedal 看 chatgpt-4o 发布会……
(vedal:一个人工智能 vtuber 的家长、制作者)
【与 AI VTuber 工程师 Vedal 一起看 OpenAI GPT-4o 发布会 【Neuro-sama】(文化绿洲)】
# 发布会内容
# chatgpt-4o 可以在电脑上使用,而非和以前一样的网页端
看到的显示内容
……
# chatgpt-4o API
能在 chatgpt 以外的地方使用 chatgpt-4o
……
# chatgpt-4o 语音 Voice Mode
neuro 的语音输入是语音识别,然后把文字输入到模型。这样子存在听错的问题,且无法对环境音,声音的情况以及其他进行判断。我之前把讯飞语音接入到项目也是这样子做的。
# 多模态输入
可以语音、视觉、文字同时理解,听得懂声音的缓急,且可以打断它的输出。
# TTS
不是传统的 TTS,能有不同音色的转换(比如机器人式音色,唱歌的方法)。
(输入部分开源社区有相应项目)
# chatgpt-4o 视觉
# 线性方程指导
加入视觉,比如写下一个线性方程,然后让它给出提示(像一个老师一样)
它能一步步提示,并很好地做到 指导 这件事
最后画上,爱心,有误导性的 t(+),G(6),能正确识别,并有感情的返回(似乎有笑声)
# 识别屏幕
电脑版,可以获取到屏幕内容,看得懂代码,并分析输出
# 其他
# 实时翻译 + 输出
实现了意大利语和英语的实时翻译
# 识别人表情的情感
……