程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
VibeVoice 深度解析:微软如何用 7.5Hz 连续语音分词器重新定义语音 AI 的边界
编程
VibeVoice 深度解析:微软如何用 7.5Hz 连续语音分词器重新定义语音 AI 的边界
2026-04-18 07:48:59 +0800 CST
view 13
微软开源的 VibeVoice 用 7.5Hz 连续语音分词器和 Next-token Diffusion 框架,实现了 60 分钟长音频单次处理,正在重新定义语音 AI 的技术边界。本文深度解析其架构设计、工程实践和部署优化。
VibeVoice
语音AI
ASR
TTS
微软开源
Next-token Diffusion
连续语音分词器
ICLR 2026
Whisper替代
长音频处理
PersonaPlex 深度解析:当 NVIDIA 让全双工语音对话进入「角色扮演」时代
编程
PersonaPlex 深度解析:当 NVIDIA 让全双工语音对话进入「角色扮演」时代
2026-04-09 11:32:36 +0800 CST
view 187
NVIDIA发布的PersonaPlex在Moshi架构基础上增加了角色扮演和语音克隆能力,让AI可以扮演教师、客服等不同身份进行实时语音对话。本文从架构、代码、实战角度全面解析这项技术突破。
PersonaPlex
NVIDIA
Moshi
全双工语音
AI对话
角色扮演
VibeVoice 深度解析:当微软把60分钟语音识别压缩进一颗 GPU
编程
VibeVoice 深度解析:当微软把60分钟语音识别压缩进一颗 GPU
2026-04-11 08:44:54 +0800 CST
view 114
VibeVoice 是微软2026年开源的前沿语音AI框架,支持60分钟长音频单次转录、90分钟多说话人语音合成、300ms首字延迟的实时流式TTS,是目前最强大的开源语音AI解决方案。
语音AI
ASR
TTS
开源项目
微软
人工智能
综合
FishSpeech是一个全新的文本到语音(TTS)解决方案,采用变分自编码器、声码器和生成对抗网络等先进技术,提供高质量、自然的语音合成
2024-11-19 04:18:33 +0800 CST
view 2132
FishSpeech是一个全新的文本到语音(TTS)解决方案,采用变分自编码器、声码器和生成对抗网络等先进技术,提供高质量、自然的语音合成。支持多种语言,开源代码便于开发者定制,适用于虚拟助手、有声读物、客户服务和教育工具等场景。提供详细的部署指南和在线演示,帮助用户快速上手。
语音技术
人工智能
开源项目
VibeVoice深度解析:微软如何用7.5Hz超低帧率Tokenizer突破语音AI的「超长上下文」困境
编程
VibeVoice深度解析:微软如何用7.5Hz超低帧率Tokenizer突破语音AI的「超长上下文」困境
2026-04-12 14:25:53 +0800 CST
view 98
深入解析微软VibeVoice开源语音AI框架,探讨其7.5Hz超低帧率Tokenizer、LLM+Diffusion混合架构如何突破60分钟ASR和90分钟TTS的长上下文困境,附完整工程实践代码。
语音AI
ASR
TTS
VibeVoice
微软
开源
深度学习
Python中使用macosx-tts库来实现MacOS的文本到语音功能
编程
Python中使用macosx-tts库来实现MacOS的文本到语音功能
2024-11-18 23:46:50 +0800 CST
view 1393
本文介绍了如何在Python中使用macosx-tts库来实现MacOS的文本到语音功能。内容涵盖了库的安装、基本用法和一些高级功能,如自定义发音和异步朗读。通过示例代码,读者可以轻松上手并将语音合成功能集成到自己的项目中。
编程
语音技术
MacOS
Python库
开发工具
VibeVoice 深度解析:微软如何用双分词器与扩散解码器重新定义语音AI的天花板
编程
VibeVoice 深度解析:微软如何用双分词器与扩散解码器重新定义语音AI的天花板
2026-04-14 11:25:32 +0800 CST
view 83
深度解析微软开源的 VibeVoice 语音 AI 框架,涵盖双分词器架构、σ-VAE 声学分词器、语义分词器、扩散解码器、长序列建模等核心技术,配完整代码示例和本地部署教程。
VibeVoice
微软
语音AI
TTS
ASR
扩散模型
tokenizer
开源
VibeVoice 深度解析:微软如何用连续语音Tokenizer和Next-Token Diffusion重塑语音AI边界
编程
VibeVoice 深度解析:微软如何用连续语音Tokenizer和Next-Token Diffusion重塑语音AI边界
2026-04-15 22:19:22 +0800 CST
view 42
深度解析微软VibeVoice开源语音AI全家桶:7.5Hz连续Tokenizer如何压缩60分钟音频,Next-Token Diffusion如何驱动90分钟对话合成,附完整代码实战与性能对比。
VibeVoice
微软
语音AI
ASR
TTS
Diffusion
LLM
Vosk-API 是一款开源的离线语音识别工具包
综合
Vosk-API 是一款开源的离线语音识别工具包
2024-11-19 07:51:49 +0800 CST
view 3483
Vosk-API是一款开源的离线语音识别工具包,支持多种编程语言和超过20种语言,提供准确可靠的语音识别服务。其特点包括轻量级模型、零延迟响应和可重构词汇量,适用于聊天机器人、智能家居设备等多种场景。Vosk-API适合在各种设备上使用,从小型设备到大型集群均可扩展。
语音识别
开源工具
技术支持
Vosk-API
Pynini是一个开源的Python库,专注于构建语言模型和处理字符串
编程
Pynini是一个开源的Python库,专注于构建语言模型和处理字符串
2024-11-19 04:26:54 +0800 CST
view 3337
Pynini是一个开源的Python库,专注于构建语言模型和处理字符串,利用有限状态转换器(FST)实现高效的字符串匹配和转换。它提供丰富的操作符和函数,易于与其他NLP工具集成。Pynini可用于语音识别、拼写检查和词性标注等多个领域,适合处理复杂的语言结构。
编程
自然语言处理
开源工具
机器学习
语音识别
VibeVoice 深度解析:微软如何用 7.5Hz 超低帧率重塑语音 AI——从 ASR 到实时 TTS 的全栈技术内幕
编程
VibeVoice 深度解析:微软如何用 7.5Hz 超低帧率重塑语音 AI——从 ASR 到实时 TTS 的全栈技术内幕
2026-04-17 10:48:42 +0800 CST
view 45
深入解析微软开源的 VibeVoice 语音 AI 框架,涵盖 7.5Hz 超低帧率连续 tokenizer、Next-Token Diffusion 架构、三大模型(ASR/TTS/Realtime)全栈设计,以及生产环境部署与性能优化实践。
语音AI
VibeVoice
微软
TTS
ASR
深度学习
开源
微软开源 VibeVoice:60分钟长音频转录、实时TTS,这个语音AI全家桶有点猛
编程
微软开源 VibeVoice:60分钟长音频转录、实时TTS,这个语音AI全家桶有点猛
2026-04-08 11:36:14 +0800 CST
view 157
微软开源的 VibeVoice 语音 AI 全家桶,集 ASR 和 TTS 能力于一身,支持 60 分钟长音频转录、90 分钟多说话人音频生成、300ms 实时 TTS。本文深入解析其技术架构与实测代码。
TTS
ASR
语音AI
微软
VibeVoice
开源项目
TEN Framework 深度解析:当实时多模态语音 AI 遇上真正的"即插即用"
编程
TEN Framework 深度解析:当实时多模态语音 AI 遇上真正的"即插即用"
2026-04-08 19:04:47 +0800 CST
view 105
TEN Framework 是一个开源的实时多模态对话 AI 框架,让开发者能够像搭积木一样快速构建低延迟、高质量的实时语音/视频 AI Agent。本文深度解析其核心架构、实战应用与性能优化策略。
TEN Framework
语音AI
实时多模态
WebRTC
AI Agent
PersonaPlex 深度解析:NVIDIA 如何用 7B 参数实现 0.17 秒延迟的全双工语音对话
编程
PersonaPlex 深度解析:NVIDIA 如何用 7B 参数实现 0.17 秒延迟的全双工语音对话
2026-04-18 04:43:48 +0800 CST
view 11
深度解析 NVIDIA 开源的 PersonaPlex 全双工语音对话模型,7B 参数实现 0.17 秒延迟,支持角色控制与 16 种预置声音,MIT 协议开源。
AI
语音交互
NVIDIA
全双工
开源项目
让你的 Python 程序开口说话,实现文字转语音只需几行代码!
编程
让你的 Python 程序开口说话,实现文字转语音只需几行代码!
2025-03-21 08:56:12 +0800 CST
view 1229
本文介绍了如何使用Python库`pyttsx3`实现文字转语音功能,适合零基础用户。通过简单的几行代码,用户可以创建自己的语音助手,支持离线运行、个性化设置和多平台兼容。文中提供了安装步骤、基本代码示例及实用功能,如语音保存、时间播报和智能阅读助手等,展示了`pyttsx3`的强大应用潜力。
编程
Python
语音技术
人工智能
大家都在搜索什么?
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
企业官网建站费用