智能语音识别技术
AI 正在深度重构产业生态。作为核心技术引擎的大模型已广泛融入智能设备□□□□、音视频交互□□□、企业数字化等诸多场景。以
近日,网易数智副总经理□□、网易云信总经理段毓铮与网易云信音视频技术负责人□□、流媒体首席架构师吴桐亮相爱分析《对话首席》直播间,与爱分析合伙人&首席分析师李喆进行交流,围绕近期 DeepSeek 技术热点□□、实际落地价值□□□、AI 未来技术趋势等话题展开深度探讨。
有三点原因。第一点,是最㊣朴素也是最重要的一点,因为DeepSeek就是好用。抛开技术上的测评,实际使用的过程中,DeepSeek对不同行业的从业者都非常友好,无论是专业领域的从业者,还是泛✅互联网用户都在尝试使用,它的推理能力展示了思维链,给予用户新鲜感,也显著提升了用户体验,让问答逻辑更贴近人类思维,且在多场景下表现稳定。
第二点,DeepSeek足够㊣吸引眼球,作为“小厂逆袭”的代表,它以低成本□□、高性能和开源策略打破了传统大厂主导AI领域的格局,拥有足够吸睛的反差感。且最近一两周又在持续的进行“开源周”活动,公开了技术细节,进一步活跃在大众的视野里。
第三点,DeepSeek的创新历程激㊣发了国内用户的民族自豪感和对国产技术的信心。给以大家强烈的民族认同感。
“提到推㊣理能力,DeepSeek与OpenAI相比性能如何?如何看待中美AI差距和未来发展?”
仅从网易云信内部测试的效果层面来看,DeepSeek的V3模型和GPT4o整体的效果差异不大,可能在知识的广度层面还存在一些差距,但在A✅I大模型使用比㊣较多的娱乐社交场景下,这种差距并不会明显影响产品体验。在 token 数量较多的情况下,DeepSeek 成本有很大的优化。不过自从DeepSeek 爆火,整体的调用量大,官方的 API 接口耗时长,不能满足✅稳定的调用,迫于无奈还是切回到了其他相对稳定的大模型。
DeepSeek R1是基于 V3大模型的预训练,在知识的广度层面,一样有一定的差距。OpenAI 在预训练层面,不管是在显卡芯片数量,还是其他投入都远远大于DeepSeek,这个差距在短期之内应该很难被磨平。但是推理模型是一个重要攻坚方向,网易云信在会议的摘要生成的场景中发现使用推理的R1效果会优于V3,之后云信也会继续在基于推理链的这些大✅模型去完善一些应用的场景。
第一大场景是AI语音助手,它拥有大模型加上音视频的能力,目前大模型已经集成了DeepSeek的V3,之所以用V3的核心原因是这种语聊助手对于返回内容的实时性要求是比较高的,之前我们用的是OpenAI 4o这种大模型,在体验上相差不大,但V3的成本会低很多。
第二大场景是会议,主要用于生成会议摘要和对摘要的分析。使用的是DeepSeek R1,因为㊣会议摘本身需要推理过程,对于生成会议过程中每个发言人的目的□□、后续的待办以及会议的核心要点,都需要一定的推理能力,在这种场景下,对于实时性的要求也相对低,我们会在不同的场景使用DeepSeek的不同模型。
最近一两年网易云信对大模型的应用面也很广,DeepSeek出现之后,有很多场景可以很快使用起来。网易内部有比较多的落地使用,在协同办公上,网易POPO文档通过智能知识服务平台整合,打通企业知识库与行业专业知识,结合 DeepSeek 的推理能力,在服务支持□□□□、销售赋能□□□□、流程自动化等 ToB 场景中实现效率提升与能力拓展。技术支持团队可快速定位客户问题解决方案,销售团队实时获取客户画像分析,工单处理实现自动提醒与任务分配。目前看来DeepSeek 更重要的作用是赋能,提效可能是一个长期的目标。
在游戏领域它推动了NPC 的智能化,网易《逆水寒》游戏上线了官方版本DeepSeek驱动的NPC“沈秋索”,她已经拥有了很强的思考和对话能力。在教育场景,结合音视频技术提供口语教练服务。未来,网易将持续探索多模型协✅同与行业垂直优化,通过平台化整合降低适配成本,推动 AI 从“提效工具”向“生态化赋㊣能”升级。
DeepSeek也被大量央国企和政府机构纳入数字化转型任务,爱分析也有报㊣道,45%左右的央企都陆续在进行DeepSeek模型部署,使用DeepSeek进行复杂业务的逻辑理解。但多数案例仍处于纸面宣传或早期测试阶段,效果需进一步验证。从云信这样一个做 ToB 服务的一个公司的视角来看,这些应用场景的商业化价值仍然比较有限,处在比较早期的不成熟阶段,坦诚地说,云信自己的一些产品应用也仍在探索过程中。
当前厂商在DeepSeek的应用实践中,售前环节与交互流程的效率提升尤为显著智能语音识别技术。传统模式下,企业需投入 10-20 万元成本完成 POC(概念验证),且响应周期较长。而通过整合知识库构建□□□、知识图谱与工作流工具,厂商可将成本降低约 30%,并加速需求响应。这种优化在当前人力资源紧张的市场环境下尤为关键语音识别系统流程图,短期内即可✅实现效率的量化提升。
从长期视角看,大模型技术的快速迭代推动 ToB 商业模式发生根本性变革。传统项目制合作难以适应模型能力的持续进化,企业需依赖长期合作伙伴提供顾问式服务—— 既需深度理解行业场景,又需快速整合推理链□□□、多模态交互等新技术,形成 “能力迭代 - 场景适✅配” 的闭环。这一趋势或将率先在金融□□□、零售等市场化程度高的行业落地,并逐步向央国企渗透,重塑企业服务生态的竞争格局。
我认为,一方面是知识,另一方面是流程,这两个词其实很简单,但确实是落地应用中凸显价值的两个重要因素。一方面大模型的应用落地要和企业自有的知识库以及行业的专业知识结合,如果只是简单部署一个DeepSeek和它聊天对话,价值并不能充分体现。另一方面,要和企业的内部的一些业务流程结合,包括一些协作㊣协同的流程,甚至是长时间线的跟踪,这样的价值会大大增加。
换句话说,现在大模型更多的还是个人日常使用的工具,每个人的使用方法□□、姿势各不相同,如果某天它从一个个人工具变成一个组织的助手的时候,价值就会飞跃上升到一个更高的高度。
当然即便这么说,我们仍然不否认现在DeepSeek出色的表现,比如说思维链的开放让很多人感受到大模型稳定的思考过程和优秀的思维结构,它的思考过程可能比最后的答案还更有启发。
云信为很多企业提供IM 和音视频这种基础设计的能力,也能够从中观察到一些风向,当前 AI 技术的突破显著推动了三大领域的应用落地,前两个领域和软件应用相关,一个领域和硬件设✅备相关。
第一,社交应用,通过实时生成㊣式对话能力,之前也多次提到,网易内部如云音乐□□□□、LOFTER 等产品已实现用户生命周期关键节点转化率提升,并探索出情感陪伴类产品的商业化路径,市场同类应用正加速涌现。
第二,协同办公,也是我们正在做的,以网易会议为基础,通过智能纪要功能从个人工具向组织助手升级,深度整合企业知识流程,未来将覆盖更多复杂沟通场景。现在世面上也有很多优秀的协同办公产品,也是用量增长非常大的领域。
第三,智能设备,物联网与 AI 结合催生设备智能化革命,从工业✅巡检机器人到儿童 AI 玩具,甚至适老化陪伴设备均呈现爆发趋势,这类产品对实时音视频交互能力产生刚性需求,驱动相关技术应用场景扩展。
目前云信也正在积极推进IM□□、RTC与大模型能力结合,并逐渐应用到社交陪㊣伴□□□□、AI口语教练□□□□、AI玩具□□□、AI客服□□□、AI心理咨询等场景,能够快速实现定制□□□□、真声□□□□、实时的对话式AI语音互动。
大家都知道DeepSeek是不支持㊣语音输入的,如何让这种不支持语音输入的模型能够有一个语音上的交互?其实是我们团队✅比较擅长的事,我们专注于音视频技术研发多年,针对这类仅支持文字交互的大模型,设计了㊣一套云端语音交互解决方案:首先通过自研的 ASR(自动语音识别)模块将用户语音实时转换为文字,再将文字输入DeepSeek模型进行处理,最后通过 TTS(文本转语音)技术将模型回复转换为自然语音流,利用云端的媒体处理能力,结合各个不同模型的工作流,实现了端到端语音交互闭环,完成大模型的多模态应用。
在嵌入式设备场景中,可以将大模型意图理解能力与传统语音控制结合,系统可通过大模型的上下文理解能力精准解析意图,替代传统依赖关键词匹配的指令控制方式。
AI 技术正在颠覆各行业工作范式,例如内容创作从 “观点驱动素㊣材收集” 转向 “素材反推观点提炼”,这种变革对产品经理能力提出新要求。未来超级应用可能由多智能体组合构成,当前大厂与创业公司各有优势:大厂依托资源生态,创业㊣公司凭借创新敏捷,但尚无明确主导者。产品经理需适应智能化应用设计思维,从传统软㊣件工程框架转向场景化□□□□、协同化的智能体组合设计,同时关注技术落地与业务目标的结合,推动 AI 在垂直领域的深度应用。
未来 AI 的形态将突破传统软件框架,由具备特定任务处理能力的智能体agent叠加构成,可能以接口□□、SDK 或交互界面形式呈现,如 “套壳到极致” 的协同模式。技术演进方㊣向包括多模态能力深化□□、端侧模型性能提升,以及医疗□□、法律等高复杂度□□、低容错场景等垂直领域的深度渗透。在此✅背景下,软件工程思维需㊣从平台开发转向智能化应用设计,关注智能体协同调度□□、跨领域任务分解及基于自然语言的新型通信协议。产品经理角色将发生根本性转变,需弱化传统接口参数设计,强化场景化业务目标实现,掌握提示词工程□□、多智能体协作逻辑等核心能力。
至于 “超级应用” ,当前定义✅尚未明确,但技术进步与用户需求及接受度的显著提升已为其发展奠定基础。尽管搜索□□□□、代码辅助等场景因 AI 技术的出色表现而广泛应用,但这些可能并非未来超级应用的核心方向,真正的超级应用可能诞生于更具潜力的新兴场景,通过跨领域智能体的灵活叠加与协同,实现更复杂的任务处理与场景适配。
在AI大模型时代,音视频技术领域其实也正面临新的发展机遇。尽管传统音视频技术在协议□□□□、编解码和传输策略等方面已趋于成熟,但 AI 与人机交互场景的结合催生了新的需求。例如,在嘈杂环境中,人类可自然过滤背景噪音,但 AI 语音识别系统却易受干扰。为此,需通过客户端降噪与服务器端声纹识别定位技术优化处理链,确保模型精准捕获目标声音。此外,视频编码也需从单纯满足人眼清晰度转向为 AI 视觉系统保留更多有效信息,以适应多模态交互的发展方向。这些技术优化将推动未来语音交互成为主流人机交互方式。
在VR/AR技术上,目前的发展受限于网络基建和硬件形态两大瓶颈,高清视频传输需要 5G/6G 网络升级支撑,而当前设备体积庞大□□□、成本高昂,难以普及。但随着技术演进,轻量化解决方案正成为突破口:类似 Meta 雷朋眼镜和 Rokid 的智能眼镜,弱化高清显示需求,通过摄像头采集结合语音交互和 AI 实时反馈,在工业巡检□□、安防等领域展现潜力。这类设备 2023 年已实现百万级销量,预计未来 1-2 年将迎来爆发。中长期来看,6G/7G 网络成熟后或催生隐形眼镜式穿戴设备,推动工业□□□□、医疗等场景深度应用,而硬件形态的革命性突破将是技术普及的关键节点。