程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
VibeVoice 深度实战:当 TTS 遇见扩散模型与 LLM——从 3200 倍压缩到 90 分钟多人对话的生产级完全指南(2026)
编程
VibeVoice 深度实战:当 TTS 遇见扩散模型与 LLM——从 3200 倍压缩到 90 分钟多人对话的生产级完全指南(2026)
2026-06-16 02:16:25 +0800 CST
view 13
微软VibeVoice深度解析:基于LLM与扩散模型融合的TTS系统,支持90分钟多人对话,3200倍压缩率,300ms流式延迟,完整实战指南。
语音AI
TTS
微软开源
扩散模型
大语言模型
音频生成
实时语音
多人对话
开源无限时长虚拟人视频生成,1.6K Stars 的 InfiniteTalk 来了
编程
开源无限时长虚拟人视频生成,1.6K Stars 的 InfiniteTalk 来了
2026-04-19 09:44:57 +0800 CST
view 516
InfiniteTalk是美团MeiGen-AI团队开源的音频驱动视频生成框架,基于Wan2.1-14B,支持无限时长生成,嘴唇、头部、身体、表情全同步
开源
AI
视频生成
数字人
Python
HunyuanVideo 1.5 深度解析:腾讯 8.3B 参数视频生成模型,消费级显卡的革命性突破
编程
HunyuanVideo 1.5 深度解析:腾讯 8.3B 参数视频生成模型,消费级显卡的革命性突破
2026-05-09 18:51:15 +0800 CST
view 284
腾讯混元开源 HunyuanVideo 1.5 视频生成模型,8.3B 参数 Diffusion Transformer 架构,14G 显存消费级显卡可运行。SSTA 稀疏注意力机制实现推理速度 1.87 倍提升,3D 因果 VAE 实现空间 16 倍、时间 4 倍压缩。
AI视频生成
腾讯混元
HunyuanVideo
Diffusion Transformer
SSTA
开源模型
消费级显卡
SANA-WM 深度解析:2.6B 参数开源世界模型如何颠覆视频生成——从扩散Transformer到1分钟720p实时渲染的完整技术架构
编程
SANA-WM 深度解析:2.6B 参数开源世界模型如何颠覆视频生成——从扩散Transformer到1分钟720p实时渲染的完整技术架构
2026-05-16 21:15:15 +0800 CST
view 787
SANA-WM是NVIDIA Lab开源的2.6B参数世界模型视频生成系统,支持1分钟720p视频生成。本文从扩散Transformer底层数学到Flow Matching推理优化,完整解析其Dual-Pathway架构、3D VAE时空压缩、因果注意力掩码等核心技术,并提供完整PyTorch代码示例。
AI视频生成
世界模型
扩散模型
Transformer
Flow Matching
MoneyPrinterTurbo 深度实战:用 AI 大模型一键生成高清短视频——从 LLM 调度策略到批量视频生产的工程化完全指南(2026)
编程
MoneyPrinterTurbo 深度实战:用 AI 大模型一键生成高清短视频——从 LLM 调度策略到批量视频生产的工程化完全指南(2026)
2026-06-02 19:44:20 +0800 CST
view 365
MoneyPrinterTurbo 深度实战,详解用 AI 大模型一键生成高清短视频的完整工程化方案,涵盖 LLM 调度、素材检索、TTS 配音、FFmpeg 合成与批量生产优化。
AI视频生成
LLM应用
Python实战
短视频自动化
FFmpeg
Helios深度解析:北大袁粒团队如何用14B参数重塑实时视频生成——从架构革命到工程落地的全解
编程
Helios深度解析:北大袁粒团队如何用14B参数重塑实时视频生成——从架构革命到工程落地的全解
2026-04-13 05:23:52 +0800 CST
view 611
深入解析北京大学袁粒团队发布的Helios 14B实时长视频生成模型,涵盖三阶段训练流程、统一历史注入、金字塔预测校正器、对抗层次蒸馏等核心技术创新,以及完整部署实战指南
视频生成
Helios
扩散模型
深度学习
实时推理
PyTorch
HuggingFace
Pixelle-Video:阿里开源全自动视频生成,输入一句话串起整条产线,GitHub 2.2万 Star
编程
Pixelle-Video:阿里开源全自动视频生成,输入一句话串起整条产线,GitHub 2.2万 Star
2026-06-13 12:45:50 +0800 CST
view 53
Pixelle-Video是阿里国际AI团队开源的全自动视频生成工具,输入主题自动写文案/生成配图/合成语音/加BGM,支持ComfyUI本地/RunningHub云端/直连API三种配图方案,数字人口播+动作迁移,零成本可选。
Pixelle-Video
阿里开源
视频生成
AI
全自动
ComfyUI
数字人
动作迁移
Streamlit
AIGC
HeyGen开源HyperFrames:用HTML写视频,Claude Code的第二条腿
案例
HeyGen开源HyperFrames:用HTML写视频,Claude Code的第二条腿
2026-05-05 19:08:55 +0800 CST
view 309
HeyGen开源HyperFrames:用HTML+CSS+GSAP写视频并渲染成MP4,54.9万播放背后的技术解析,video-use解决素材剪辑,两头夹击传统剪辑软件GUI
AI视频
HeyGen
HyperFrames
Claude Code
视频生成
GSAP
HTML视频
Taisly Agent Kit 深度实战:当 AI Agent 学会「视频发布」——从 SDK 架构原理到生产级自动化视频管线的完全指南(2026)
编程
Taisly Agent Kit 深度实战:当 AI Agent 学会「视频发布」——从 SDK 架构原理到生产级自动化视频管线的完全指南(2026)
2026-06-14 05:50:18 +0800 CST
view 39
深入剖析Taisly Agent Kit的架构设计、核心SDK能力、CLI工作流,并通过完整代码示例展示如何从零构建生产级AI视频发布管线。
AI Agent
视频生成
Taisly
SDK设计
自动化管线
Python
TypeScript
从一张产品图到TikTok带货视频:Image2+Seedance 2.0全自动闭环工作流
编程
从一张产品图到TikTok带货视频:Image2+Seedance 2.0全自动闭环工作流
2026-04-28 03:24:00 +0800 CST
view 402
从一张产品图到TikTok带货视频的全自动闭环工作流。Image2锁死画面视觉DNA,Seedance 2.0赋予导演级运动控制。四个实战案例:多宫格分镜TikTok视频、数字人带货、Instagram Live动图、品牌创意短片。
AI视频
Seedance 2.0
Image2
跨境电商
TikTok
视频生成
VoxCPM2:无分词 Tokenizer-Free 语音合成——从架构革命到工程落地的完整指南
编程
VoxCPM2:无分词 Tokenizer-Free 语音合成——从架构革命到工程落地的完整指南
2026-04-19 14:46:06 +0800 CST
view 644
深度解析面壁智能开源的VoxCPM2:2B参数、Tokenizer-Free连续空间生成、236万小时训练数据、RTF 0.13、8GB显存可跑,30语言支持。包含架构分析、代码实战、性能优化指南。
语音合成
TTS
VoxCPM2
面壁智能
AI音频
Pydub是一个强大的Python音频处理库,提供简单直观的API,支持音频文件的剪切、拼接、格式转换和音量调整等功能
综合
Pydub是一个强大的Python音频处理库,提供简单直观的API,支持音频文件的剪切、拼接、格式转换和音量调整等功能
2024-11-18 17:27:54 +0800 CST
view 2147
Pydub是一个强大的Python音频处理库,提供简单直观的API,支持音频文件的剪切、拼接、格式转换和音量调整等功能。它依赖于FFmpeg,能够处理多种音频格式。本文介绍了Pydub的安装、基本用法、高级功能及实际应用案例,适合音乐制作、语音处理等场景,帮助用户快速上手音频处理。
音频处理
编程
Python库
音乐制作
技术
vue ios微信无法自动播放背景音解决办法
编程
vue ios微信无法自动播放背景音解决办法
2024-11-18 12:59:50 +0800 CST
view 3772
该文本讨论了由于ios系统导致的问题,并提供了解决方案,即使用微信的api。代码片段展示了如何在特定条件下创建音频播放器并播放音频,尤其是在微信环境下的处理方式。
技术
开发
音频处理
ffmpeg安装报错Unknown encoder 'libmp3lame'
编程
ffmpeg安装报错Unknown encoder 'libmp3lame'
2024-11-19 06:55:32 +0800 CST
view 1737
在使用ffmpeg将.m4a文件转换为.mp3文件时,遇到Unknownencoder'libmp3lame'的错误。经过多种尝试,最终通过下载静态编译版本的FFmpeg成功解决了问题。提供了四种解决方案,包括通过PPA安装、源代码编译、下载静态版本和安装额外编码器库。推荐使用静态编译版本以避免依赖冲突。
音频转换
软件安装
编程
技术支持
MTools:免费开源的本地 AI 工具集,一个顶好几个
编程
MTools:免费开源的本地 AI 工具集,一个顶好几个
2026-05-13 17:55:20 +0800 CST
view 261
MTools是一款完全本地运行的开源AI工具集,集成抠图、证件照制作、人声分离、音频转文字、视频插帧、超分辨率等功能,保护隐私且不限次数使用。
AI工具
本地运行
开源软件
图像处理
音频处理
视频处理
人声分离
抠图工具
OmniVoice Studio:5k Star开源声音克隆工具,646种语言,无GPU也能跑
编程
OmniVoice Studio:5k Star开源声音克隆工具,646种语言,无GPU也能跑
2026-05-28 20:50:27 +0800 CST
view 251
OmniVoice Studio是5k Star全本地运行ElevenLabs开源替代方案,支持零样本声音克隆、646种语言、无GPU也能跑(最低4GB内存),跨平台桌面客户端,支持MCP。
声音克隆
开源
TTS
AI音频
OmniVoice
语音合成
多语言
CosyVoice
MCP
如何在Vue3中使用音频库Howler.js实现音频播放?
编程
如何在Vue3中使用音频库Howler.js实现音频播放?
2024-11-18 15:35:49 +0800 CST
view 1862
本文详细讲解了如何在Vue3项目中集成Howler.js音频库,实现音频播放功能。包括初始化Vue3项目、安装Howler.js、创建音频播放组件以及实现播放、暂停、停止和音量调节等功能。通过这些步骤,开发者可以轻松为Web应用添加音频功能,提升用户体验。
Web开发
音频处理
前端技术
综合
Sound.js是一个强大的JavaScript音频库
2024-11-19 03:47:13 +0800 CST
view 1902
Sound.js是一个强大的JavaScript音频库,提供统一的API来处理不同浏览器中的音频播放,支持多种音频格式和跨浏览器兼容性。它适用于游戏开发、教育应用和交互式网站,能够提升用户体验。通过简单的代码,开发者可以快速集成音频功能,使用预加载、事件监听和音量控制等最佳实践,创建丰富的多媒体应用。
音频处理
JavaScript库
用户体验
游戏开发
多媒体应用
VibeVoice 深度解析:微软如何用 7.5Hz 连续语音分词器重新定义语音 AI 的边界
编程
VibeVoice 深度解析:微软如何用 7.5Hz 连续语音分词器重新定义语音 AI 的边界
2026-04-18 07:48:59 +0800 CST
view 328
微软开源的 VibeVoice 用 7.5Hz 连续语音分词器和 Next-token Diffusion 框架,实现了 60 分钟长音频单次处理,正在重新定义语音 AI 的技术边界。本文深度解析其架构设计、工程实践和部署优化。
VibeVoice
语音AI
ASR
TTS
微软开源
Next-token Diffusion
连续语音分词器
ICLR 2026
Whisper替代
长音频处理
如何在Vue项目中生成二维码和条形码
编程
如何在Vue项目中生成二维码和条形码
2024-11-19 08:05:12 +0800 CST
view 1665
本文介绍了如何在Vue项目中生成二维码和条形码。首先,确保安装Node.js和VueCLI,然后创建新项目并安装所需依赖qrcode和bwip-js。接着,创建二维码和条形码组件,分别实现二维码和条形码的生成。最后,在主应用中使用这两个组件,完成二维码和条形码的生成过程。
前端开发
Vue
二维码生成
条形码生成
JavaScript
BrickNet开源:AI玩乐高不再翻车,连接图让积木组装零误差
案例
BrickNet开源:AI玩乐高不再翻车,连接图让积木组装零误差
2026-05-09 07:38:19 +0800 CST
view 269
BrickNet开源项目:用连接图替代绝对坐标预测,解决AI乐高组装的误差累积问题。基于Qwen 3训练,标注五种连接器类型,使用32万+组装样本数据集,生成物理可行的分步组装程序,可直接用于机器人执行
AI乐高
连接图生成
3D组装
Qwen 3
结构推理
LDraw
机器人组装
GPT Image 2 + Codex 深度解析:从「vibe art」到高端网站,AI 工作流的最后一公里
编程
GPT Image 2 + Codex 深度解析:从「vibe art」到高端网站,AI 工作流的最后一公里
2026-05-09 18:28:12 +0800 CST
view 639
当 AI 能生成代码、能生成图片,却始终生成不出「好看」的网站——这个问题,终于被一个不到 100 行的 SKILL.md 解决了一半。本文深度解析 Taste-Skill + GPT Image 2 + Codex 的完整工作流,从设计图到可上线的品牌网站,全流程实操演示。
AI图像生成
OpenAI
Codex
Taste-Skill
GPT Image 2
前端开发
工作流
RAG 2026 生产级工程化完全指南:从朴素检索到 Agentic RAG 的架构演进与性能优化实战
编程
RAG 2026 生产级工程化完全指南:从朴素检索到 Agentic RAG 的架构演进与性能优化实战
2026-05-23 03:16:51 +0800 CST
view 194
2026 年最新 RAG 生产级工程化完全指南,从 Naive RAG 到 Agentic RAG 的架构演进,11 个性能优化策略,准确率从 60% 到 94%。
RAG
检索增强生成
生产级工程化
LangChain
Agentic RAG
用 Rust 宏创建灵活、复杂且可复用的结构
编程
用 Rust 宏创建灵活、复杂且可复用的结构
2024-11-19 09:16:55 +0800 CST
view 2011
本文探讨了如何使用Rust的宏系统,特别是`macro_rules!`,来创建灵活、复杂且可复用的配置结构。通过定义宏,开发者可以生成具有默认值的结构体和相关函数,提升代码的可维护性和可读性。文章还介绍了如何处理弃用字段和自定义验证逻辑,增强代码的健壮性和用户友好性。
编程
Rust
元编程
软件开发
代码生成
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
3
下一页