华尔街日报-ChatGPT可以跟人语音对话了听起来还挺像人
September 26, 2023 1 min 54 words
这则报道关于ChatGPT可以进行语音对话的新功能确实令人印象深刻。OpenAI为其聊天机器人赋予了声音和图像识别功能,使其更接近人类交流的体验。这一创新无疑将引发两种截然不同的反应,一方面,人们会感叹科技发展带来的未来感,另一方面,也会引发一些担忧,担心机器人和人类的交流界限模糊,而机器可能缺乏深度思考和背景知识。 报道中提到的自然声音和五种不同的声音选择使ChatGPT更具人性化,与用户的对话更加流畅和亲切。这种声音合成技术的进步值得关注,尤其是潜在的商业应用,但也需要谨慎处理,以防止滥用。 另一个新功能是图像识别,使ChatGPT能够回应用户提供的图片。这为用户提供了更多互动的可能性,但在应用中仍然存在一些问题,如响应速度和连接问题。这需要进一步改进,以提供更稳定的用户体验。 最后,报道中提到的一个关键观点是,尽管ChatGPT听起来像是在进行真正的对话,但它仍然只是一个处理数据的工具。用户需要保持判断力,特别是在重要事务上,不可过分依赖机器人的建议。这是一个重要的提醒,我们应该在享受技术进步的同时,保持理性和谨慎。总的来说,这一报道展示了人工智能技术的进步,但也强调了需要在应用中谨慎使用和对技术保持适度的警惕。
你若是听了我与ChatGPT之间的对话,将会有两种反应:
1)我的天哪!这就是科幻作家向我们描绘的人与电脑交流的未来。
2)我要造一个地下掩体,储备厕纸和燕麦棒。
是的,OpenAI开发的广受追捧的聊天机器人ChatGPT开始说话了,是真的说出声来。OpenAI周一发布了ChatGPT的iOS和Android应用的更新,能够让这个人工智能机器人用五种不同的声音说话。在过去几天里,我与ChatGPT进行了多次交谈,并测试了另一个新功能,它可以让ChatGPT对你给它的图片作出回应。
现在的ChatGPT什么样?
想想Siri或Alexa,除了……不对。ChatGPT那自然的声音、对话的语气和洋洋洒洒的回答有时候几乎与人类无异。还记得电影《她》(Her)吗?影片中杰昆·菲尼克斯(Joaquin Phoenix)饰演的男主爱上了一个AI操作系统,而给这个操作系统配音的其实是未露脸的斯嘉丽·约翰逊(Scarlett Johansson)?我想表达的就是这样一种氛围感。
“不仅仅是因为打字麻烦,”OpenAI的产品负责人Joanne Jang在一次采访中对我表示,“你现在能与ChatGPT进行互动交谈了。”
新的图像识别功能还使该聊天机器人具有更强的互动性。你可以抓拍一张照片,然后向ChatGPT提问。剧透:它玩井字棋很差劲。图像和语音功能将在未来几周内开放给那些每月花20美元订阅ChatGPT Plus的用户。
从本质上讲,OpenAI正在为其聊天机器人配备嘴巴和眼睛。我在一系列场景中测试了这两项功能,包括好友间的聊天、管道维修和玩游戏。这一切都非常酷,却又......令人不寒而栗。
嘴巴
在我们继续之前,请调大音量,听听我们的简短对话:
虽然系统只是在读出ChatGPT提供的文本回复,但这并不是我们熟悉的机器人式的、呆板的文本转语音的系统。ChatGPT提供了五种声音选择,每种声音听起来都像是真人在跟你说话——抑扬顿挫、有腔有调、个性鲜明。
Jang告诉我,这些声音是基于专业配音演员提供的“仅仅几秒钟的语音样本”生成的。这些样本经过OpenAI计算机模型的分析处理,将文本转语音后的内容用这种声音呈现出来。还记得我用AI工具克隆自己声音的专栏和视频吗?就像那一样。但效果更好。
OpenAI表示,正与其他一些组织合作,让它们开发合成声音。该公司正与Spotify合作开发一种工具,帮助将播客主理人的声音翻译成其他语言。考虑到只需几秒钟的音频就能轻易复刻出一个人的声音,为了整个互联网乃至整个世界的安全,该公司表示目前只对商业合作伙伴开放。这种情况未来会有变化吗?祝我们大家好运。
与Siri或Alexa不同,ChatGPT无需唤醒词。在该应用的设置菜单中,启用“语音对话(Voice conversations)”,然后点击应用右上角的耳机图标就行。当系统聆听你的提示时,一个白色圆圈会变成漫画风格的思维气泡。还可以点击一个按钮来中断冗长的回答。
这一切让我深受吸引。自然的声音,再加上深入的回答以及系统对我的了解,让我感觉像是在进行真正的对话。当我让它假装是我最好的朋友和我聊天时,我们聊了足足五分钟,聊我一天的工作、视频制作和我们喜欢的零食。当我让ChatGPT把我当成一个六岁的孩子,向我解释宝可梦(Pokemon)时,它表现也很出色。
但你肯定还是在跟机器说话。从上面的片段中可以听到,它的响应速度可能会非常慢,也可能会出现连接失败——重启该应用会有帮助。有几次,它突然中断对话(我以为只有粗鲁的人类才会这么做!)。OpenAI表示,我遇到的问题是由于给我测试的应用是早期的一个版本,消费者应该不会遇到这些问题。
眼睛
如果说语音赋予了ChatGPT与世界对话的能力,那么新的相机功能则赋予了它观察世界的能力。现在,你不必用文字描述,而是可以在iOS、Android和web应用中点击“按钮”上传图片或拍照,圈出你希望ChatGPT关注的区域,然后提问。以下是我尝试过的一些图像:
房子里坏掉的物件: 我拍下自家车库里漏水的水管,然后问ChatGPT“我该怎么修?”很快就得到了答复,共有七个步骤,包括用特氟龙胶带缠绕连接处的螺纹。
食物:上传一张草莓发霉的照片,问题是“我能吃这个吗?”得到一个很好的建议:不能。上传一张香蕉、鸡蛋和草莓(不发霉)的照片,问题是“我能用这些做点什么?” 一个很好的建议是:草莓香蕉煎饼。
受伤和健康问题:ChatGPT很快就识别出我儿子脸颊上的伤口是“伤痕还是皮疹”,但表示“我无能为力”,以及“最好咨询医学专业人士”。
游戏和解谜: 一张井字棋(Tic-tac-toe)僵局的照片?ChatGPT不知道游戏已经结束了。它说要把我的X放在(已被占据的)底部中心。ChatGPT还说我会胜出,甚至加上了感叹号和彩纸表情符号。这完全是错的!
在AI革命来临的这一刻,这一点才是我们真正要牢记的。随着人类互动与人机互动之间的界限不断模糊,这些系统可能缺乏背景知识和思维深度——而且经常出错。
正如我的新ChatGPT语音朋友对我说的那样:“虽然我听起来很健谈,但请记住,我只是在处理数据。一定要运用你的判断力,尤其是在重要的事情上。”