智算多多联系我们


关注我们

公众号

视频号
隐私协议用户协议
◎ 2025 北京智算多多科技有限公司版权所有京ICP备 2025150592号-1
一个家庭的客厅里,语音助手同时面对父亲、母亲和孩子三人的对话指令——“帮我放首歌”“今天天气怎么样”“我想听故事”——它能否准确分辨出每句话出自谁口,并给出个性化的回应?结果显示,项目全部技术指标均已达成,部分核心数据超出预期目标。
说话人识别(Speaker Recognition),又称声纹识别,是通过分析语音信号中的个性特征来确认说话人身份的技术。在金融认证、安防监控、智能家居等领域,它被视为下一代人机交互的关键基础设施。
正是这些痛点,构成了十方融海与广东工业大学产学研合作的核心命题。
验收数据显示,该项目在精度突破、推理响应速度、小样本识别能力、拒识能力等核心项目指标全部达标,且关键性能超出预期:EER是声纹识别领域衡量系统整体精度的核心指标,降幅越大意味着误识率和漏识率的综合表现越好。
在推理加速优化方面,团队针对高采样率音频优化了特征提取与模型前向推理流程,使其适配L20高性能算力平台。42毫秒的推理时间意味着,用户说完一句话后,系统几乎在“听到的瞬间”就能完成身份判断,为人机交互的流畅性提供了保障。