可以做翻译的网站WordPress logo生成

当前位置: 首页 > news >正文

可以做翻译的网站,WordPress logo生成,重庆整站seo,南阳谁会做网站以下文章来源于共识粉碎机 #xff0c;作者AI芋圆子 前面的话#xff1a; GPT-4o 发布当周#xff0c;我们的社区伙伴「共识粉碎机」就主办了一场主题为「GPT-4o 对实时互动与 RTC 的影响」讨论会。涉及的话题包括#xff1a; GPT-4o 如何降低延迟#xff08;VAD 模块可…以下文章来源于共识粉碎机 作者AI芋圆子 前面的话 GPT-4o 发布当周我们的社区伙伴「共识粉碎机」就主办了一场主题为「GPT-4o 对实时互动与 RTC 的影响」讨论会。涉及的话题包括 GPT-4o 如何降低延迟VAD 模块可能也应用了 LLMGPT-4o 怎么影响实时互动场景分析了医疗、法律、教育、陪伴和客服等场景GPT-4o 应用到实时也有不完善的地方GPT-4o 为什么要用到 RTCInput 场景 RTC 可以被视作解决方案。Output 场景 RTC 不一定是必须。怎么选择 RTC 供应商实时场景对端侧的影响 另外此次讨论会嘉宾史业民在我们的播客《编码人声》里深度解析了 GPT-4o 的能力边界并基于实时多模态开发的一手经验给开发者提出了不少建议也欢迎收听。 这次讨论会的信息量极大Enjoy 本期讨论会参与者 杜金房老师 烟台小樱桃网络科技有限公司创始人FreeSWITCH 中文社区创始人RTS 社区和 RTSCon 创始人《FreeSWITCH 权威指南》、《Kamailio 实战》、《深入理解 FFmpeg》作者FreeSWITCH 开源项目核心 Committer。杜老师同时是 RTE 实时互动开发者社区联合主理人。 刘连响老师 资深RTC技术专家推特leeoxiang。 史业民老师 实时互动AI创业者前智源研究院研究员。 徐净文老师 负责百川的战略、投融资、开源生态、海外等业务。 1、GPT4o如何降低延迟 GPT4o前调用OpenAI API延迟极限情况下可以压缩到2秒 中美跨海光缆差不多100-200ms如果考虑丢包那平均在300-400ms。 语音场景需要经过ASR语音转文本在大模型无法流式输入的情况下一般需要说完一句话再喂给大模型平均需要400-500ms延迟。 如果不考虑Planning和RAG等环节只计算First Token的话过去平均需要700-1000ms延迟。 大模型可以流式输出但一般第一句话节后给TTS文本转语音TTS环节也需要400-500ms延迟。 所以整体延迟最低可以低到2秒。 上述场景主要是考虑的网络良好的情况如果在室外体验丢包概率会大幅增加延迟还会再往上波动。
但在客服等场景中还经常需要做Planning和RAG延迟会进一步增加 上述主要是可以用First Token来判断延迟的场景对话内容比较简单。 像在类似客服等场景在First Token前还需要先做Planning和RAG就可能还需要经历1-2次完整延迟整体延迟就会远远超过2秒可能到4-5秒或者更高。
GPT4o优化延迟的机制 VADVoice Activity Detection提升VAD主要用于尽早发现用户说完话用于触发大模型过去用停顿时间判断现在可能有了语义理解能力。 端到端能力端到端可以替换掉ASR和TTS的延迟开发者未来可以用GPT4o的ASR/TTS也可以自己做。 其他延迟优化还包括流式处理、异步处理多个模块在向量画的过程中如何统一在GPT4o的设计上有很多巧思。
VAD模块可能也应用了LLM 之前有一些简单的VAD判断标准比如停顿1000毫秒就默认用户说完话了。 但现在GPT4o为了节省时间单纯用停顿判断肯定不可能应该要走到语义层面。 最极端或者暴力的方案可以拿GPT4o的模型去Finetune一个小的VAD模型 模型可以控制在0.5B-1B的规模类似于向下降维打击的方式实现VAD。 这样对于VAD模型来说Input是AudioOutput就是说完与否的“Yes or No”。
GPT4o后还可以通过工程并发的方式进一步降低延迟 在GPT4o前工程角度已经可以在一些特殊场景提前做好RAG等检索工作然后再将TTS与Output等场景做成并行通过很多工程做法在不考虑跨海传输的情况下有机会将延迟控制在1秒以内。 现在在复杂一点的场景甚至到Planning和RAG相关的场景也可以尝试做并行进一步压缩延迟。 基于DSLDomain SPecific Language结果做RAG、对输入的Vision和Audio做向量化预处理、刚刚提到的VAD这三个部分也可以做并行。 现在还不确定OpenAI会不会开放着三个接口从模型工程角度来说如果这几个部分都做好几乎可以把RAG的延迟都覆盖掉。
在做应用的时候还可以用一些鸡贼的产品体验进一步降低“延迟感” 为了提高用户体验可以在产品层面做一些改动。例如OpenAI的Demo中在响应时间的过程里手机中的画面会有波动的动画在这个过程中哪怕没有任何的实质性输出人看到动画也会觉得亲切一些对延迟的敏感度也会降低。 在下面杜金房老师演示的视频中也可以通过“嘟”的方式给用户起到心理安慰“AI马上就要说话了”。 但这种场景也会有明显的局限只适合用户已经知道对面是AI的情况这种情况对延迟的容忍度也会相对较高。在不想让用户知道对面是AI的场景这类产品功能也会容易暴露对面是AI不是真人。
2、GPT4o怎么影响实时互动场景 有哪些实时互动场景可以开始做了 类似Hume.AI等各种陪伴产品。 VR游戏Vision Pro/PICO场景的互动产品。 互动机器人互动机器人加入实时互动能力后对用户体验提升帮助很大。 AI音箱可能会出现新的落地场景。 还包括现在也有在讨论车载互动能力让开车的过程中没那么无聊以及解放双手做一些车内的控制任务。
还有一些典型的行业场景也很适合实时互动需求 这些场景一般都非常个性化。 出现的时候会比较紧急一点点延迟提高都能带来使用者的体验改善。 可以通过季节性、年龄等维度进行预处理进一步减少延迟。
医疗进入实时互动可以大大减缓患者焦虑 远程诊断咨询个性化建议都可以做非常多的实时性提升。 疾病症状季节性集中度非常高所以在Planning和RAG上可以做非常多预处理可以压缩模型时间。 即时交互可以解决心理焦虑从用户端体验会变得非常好。像美国有个机构Hippocratic AI正在做延迟大概在5秒那等5秒的过程患者会非常焦虑的。因为机构Hippocratic AI是用视频/语音方式来解决的所以需要差不多5秒延迟。模型在延迟上小小提升就可以解决患者焦虑的状态。 医疗场景中每个人都认为自己的小病是大事但不一定很严重。如果能够更快的得到权威的回应就在心理层面有很大的帮助 甚至不一定要在物理层面上改善。只要是及时的回答就可能能解决问题。 医疗也要分场景疾病会有轻重之分。如果是重症那调用Planning和RAG的成分就会非常多但大部分的医疗场景中高频发生的还是小病疾病。比如小朋友发烧、老人摔跤、吃过敏药后忘记医嘱喝了酒等场景不需要调用非常厚的医疗词典也不需要让很多专家模型介入这些场景的延迟改善会更加明显一点。在这些场景5秒到1秒的改善对于用户体验的提高是非常大的。 目前还没到OTC开药和重症阶段现在短期还很难因为实时互动改变。但是比如心理辅助比如患者就站在桥旁边那实时互动就能立刻见效。
法律引入实时互动后适合现场处理场景 过去的处理周期非常长形成文档然后通过人去解决。比如车险报警过去是拍照上传、交警介入。 现在有了GPT4o的实时机制后非常多的裁决是可以现场发生的当然最后处理部分还是需要人来介入。 除了车险和现场暴力事件剩下的还是一定程度能接受延迟。
教育引入实时后适合在线解题和语言教学场景 GPT4o的Demo上就有在线解题。 解题是个高度个性化的过程还包括题库的应用结合RAG和模型能力提高再加上RTC的实时效果在线教育领域的教学和辅助能力会有巨大提升也可以做更多市场化的尝试了。 过去需要上传需要等待。那现在变成了更像辅导和学习伴侣的过程在语言教学等场景会实质性的改变学生的学习曲线和接受度。
GPT4o后最快会是哪些场景能跑出来 最直接的场景是陪伴因为陪伴对Planning和RAG的要求低只需要定义好角色背景和音色而且非常适合应用到GPT4o的端到端场景。很容易就可以把延迟迅速降下来。 客服等场景稍微复杂点需要用到Planning和RAG延迟没有陪伴降的这么厉害。在这类场景里延迟不是主要取决于端到端和First Token还要取决于整个Pipeline的系统级延迟。但如果做好并行机制和各种优化也可以到1-2秒的延迟。
3、GPT4o应用到实时也有不完善的地方 在触发机制等问题上还无法做到完全实时 之前提到VAD的进步是延迟降低的一个关键是因素需要尽早触发多模态模型那就需要符合VAD的触发条件在用户无法说话或者 用户正在说话过程中的情况大模型就无法触发。 举一个例子在OpenAI的Demo里有一个例子是两个人一个AI互动但如果假设A停了几秒B再去说就会发现AI提前介入B的话就会被AI抢了。就必须要提前设计好AB角色以及AI对应角色的角色分析添加更多的限定条件。 在实时互动场景中也需要AI能够在用户沟通中回复一些内容可以更好激发用户去表达现那也做不到。 如果你要他说话之前就能回答那还需要做很多工程工作中间可能还会有误触发方案但长期应该可以解决。这更多是场景决定的需求例如实时翻译和需要插话的场景要设置提前触发的请求规则。但在类似Assistant的场景就不需要设置插话的提前触发条件。
具体举一些场景来看的话 例如开着摄像头要试试去看场景有什么变化有什么危险如果不设定定时触发机制那GPT4o无法实时提醒。 例如同声传译和语法纠错场景需要在说话过程中就进行处理或者实时纠错。这里也不能直接应用因为VAD机制需要判断说完话。 例如盲人眼睛场景用户希望的是戴上眼镜就能实时感受路况。但现在的需要用户不断地问有没有违宪或者工程上设置一个1-2秒的自动请求机制来帮助GPT4o高频判断。 总体来讲GPT4o如果是从助手级别接收完人类指令已经几乎完美了。但到了上述要更进一步的实时交互还存在失望的地方可能到下一代GPT5可以满足。
4、GPT4o为什么要用到RTC GPT4o为什么需要RTC用RTC的LLM会产生时空穿越 在GPT4o的RTC场景中有两个方向Input和Output。 Input场景中LLM需要实时接收用户的视频人不能加速产生内容为了降低100-200毫秒的延迟RTC可以被视作是必须的解决方案。 Output场景中RTC不一定是必须也可以用WebSocket等方案链路存在但是开发者还没有大范围集成。 与Input场景不同在Output场景中 LLM生成音视频未来可能做到两倍速甚至四倍速、八倍速。那Output的Token生成速度会比时间还快但是播放时候必须是一倍速这就造成了在倍速场景中会有时空穿越的感觉延迟实际上是负数。 只要解决首帧、First Token的延迟就可以了。内容会因为生成比播放还快而先预存在本地然后再播放就类似现在听网络小说、看视频一样。 如果开发者有很强的优化能力或者传输数据量没那么大的情况提前做好ASR/TTS等那可能可以不用RTC。
LLM可能还会影响新的RTC技术 RTC行业发展这么多年了已经很成熟了看不到明显的增长了LLM出来后大家很兴奋觉得应该能做点事情。 最直接的交互方式还是语音和视频也是RTC的强项有些人在探索结合也有直接转型LLM的。 GPT4o出来后大家又看了新挑战比如做四倍速RTC、八倍速RTC可能还会有新的RTC技术出来。 我们现在很多假设都是RTC一倍的情况未来RTC可能是两倍、四倍场景。那在正常情况下比如RTC是500毫秒延迟但是弱网可能就是1秒稍微慢一点也能接受。但如果未来有了两倍速RTC那可能网络条件差了点延迟还是在500毫秒到1秒之间那也会有很大帮助。
但目前的LLM RTC需求还不复杂 主要还是一进一出的场景。 以前RTC场景里复杂的比如小班课一堂课可能有几十路RTC就比一进一出高很多。 难度可能还比不上直播连麦的难度直播间里玩法也非常多样。 未来也要看LLM玩法的迭代越复杂的玩法需求越大 RTC国内最大的是社交娱乐和教育后面来来回回想了很多场景要起来比如IoT等但最后还是没起来。现在还不确定LLM会不会也是这样一个需求谨慎乐观。
除了直接延迟外RTC在网络不好的场景以及对打断有需求的场景有明显优势 网络好的时候延迟差别不大。但是网络不好的时候差别很大比如丢了个包那来回200毫秒就没了如果再丢一个包那20毫秒又没了。TCP是最后组件前面的延迟炸了后面也会累积。 RTC做了很多抗弱网策略加重传策略包括猜测下一个声音做补全等。 没办法直接给出和CDN延迟差多少还是Case by Case只能说不好的情况下差比较多。 RTC也适合互相打断流式传输必备。CDN不适合打断场景。 5、怎么选择RTC供应商 先讲讲RTC的发展历史 Google在2010年收购了WebRTC技术公司然后再2011年通过Chrome开放了WebRTC源代码相当于Chrome就具有了实时能力。因为要做一套RTC引擎成本还很高涉及到算法、编解码、各种规范Google 开放 WebRTC 之前 有能力把 RTC 做好的并不多。 2013-2014就有第一波热潮那时候出现了很多RTC创业公司然后很快都接着死了。迎来了第一波低谷。 2015年出现了声网后面国内也有几家。2016-20187国内出现了上千直播平台开始有了连麦的需求。然后紧接着2018年在线教育跑起来了。 2020年最大的一波来了疫情期间包括各种视频会议、在线教育等居家办公需求。 疫情热度过后RTC需求就开始降温了进入第二次低谷。
OpenAI目前选择了LiveKit但未来API可能可以不与LiveKit绑定 看全球的RTC供应商除了国内的声网、腾讯TRTC等也多数不能打。 OpenAI在选择方案的时候肯定非常谨慎可能会更多考虑开放标准也会考虑到中国公司的情况。如果是闭源方法就会涉及到开发者怎么选择不能绑定一家商业公司。在这个层面LiveKit是个非常好的生态位你想用的话可以用LiveKit的Cloud也可以自己建。 OpenAI现在也开始自己招人那和LiveKit可能就是合作关系前期可能会给一些咨询费一起共建但后面可能还是会自建。 未来可能是ChatGPT产品用LiveKitAPI端可能不绑定RTC。
未来客户可能也能使用商业RTC方案 现在给不出一个准确的答案这个要取决于OpenAI的决策。 但推测OpenAI可以采用一个开放的标准让各家产品都可以接入这是一个更加平台风格的选择。 比如客户想做成商业产品或者在全球应用那就采用商用方案这是最省研发成本的。
使用GPT4o不一定必须用其自带的TTS TTS都在一个大模型里面对开发者不是那么友好。 比如Hume.AI已经带有情感TTS的那怎么和新4o去闭环客户不一定能接受OpenAI现在给的几种声音模式会有更多样化的需求比如更像某个人的声音定制化的或者更卡通化等风格需求。 那可能4o API最好同时支持Voice出和Text出。
各方是怎么看要不要用RTC的 模型公司角度很可能会优选RTC成熟可拓展性也好同时可以开放给开发者不同选择。 开发者角度延迟还是越少越好越实时互动的场景越需要RTC。
6、实时场景对端侧的影响 Vocie Assistant场景对于端侧硬件的要求 如果全部使用GPT4o端侧只接收视频就几乎不需要算力 如果要将VAD技术放在端侧那端侧就需要一定算力。但总体会远远低于LLM的算力。
对RTC/RTE感兴趣的朋友也欢迎访问 RTE开发者社区 https://www.rtecommunity.dev/ 最后我们放一张本次活动的听众Agent创业者 王轶老师 参与互动后画的一张图也比较清晰的展现了RTC引入后LLM的流程变化