程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
Vue 如何识别图片中的文字,并把这些文字转化成文本
编程
Vue 如何识别图片中的文字,并把这些文字转化成文本
2024-11-19 10:07:00 +0800 CST
view 1702
本文介绍了如何在Vue.js中实现图像文字识别(OCR),主要通过集成Tesseract.js和GoogleCloudVisionAPI两种方法。Tesseract.js是一个前端JavaScript库,允许在浏览器中直接处理OCR,而GoogleCloudVisionAPI是一个强大的云端服务,提供更高的识别准确性。根据项目需求选择合适的方案,可以高效处理图像文字识别任务。
前端开发
图像处理
文字识别
JavaScript
API集成
百度 ERNIE-Image 文生图模型深度解析:8B参数可商用,24G显卡即可运行
资讯
百度 ERNIE-Image 文生图模型深度解析:8B参数可商用,24G显卡即可运行
2026-04-23 16:22:16 +0800 CST
view 587
百度开源了ERNIE-Image文生图模型,基于DiT架构,仅8B参数,可在24G显存显卡上运行。该模型在GenEval和LongTextBench基准测试中表现优异,尤其擅长文字渲染、指令遵循和结构化生成(如海报、漫画)。提供标准版(50步)和Turbo版(8步),支持Diffusers、SGLang和ComfyUI部署,完全开源可商用。
AI绘画
开源模型
百度
图像生成
文字渲染
海报设计
漫画创作
技术教程
Papacito OS:本地转录+图片OCR+搜索,开源AI第二大脑有点实用
编程
Papacito OS:本地转录+图片OCR+搜索,开源AI第二大脑有点实用
2026-06-20 13:43:05 +0800 CST
view 119
Papacito OS 是一个本地优先的个人知识系统,基于 whisper.cpp 本地语音转文字 + Tesseract 图片 OCR + SQLite 关键词搜索。100% Local,适合会议录音、截图、白板、零散笔记整理。
AI
第二大脑
本地优先
知识管理
转录
OCR
语音转文字
开源
Next.js
whisper.cpp
Tesseract
编程
PHP中集成腾讯云人脸识别服务,并将结果写入数据库
2024-11-18 23:24:17 +0800 CST
view 1594
本文展示了如何在PHP中集成腾讯云人脸识别服务,并将结果写入数据库。通过调用腾讯云的API,获取人脸识别Token,处理返回结果,并更新用户信息到本地数据库。文章还包括错误处理和数据库操作的最佳实践,确保身份验证的安全性和有效性。
人脸识别
身份验证
云计算
PHP开发
数据库
VibeVoice 深度解析:微软 45K Star 开源语音 AI,重新定义长音频处理范式
编程
VibeVoice 深度解析:微软 45K Star 开源语音 AI,重新定义长音频处理范式
2026-04-29 11:11:12 +0800 CST
view 342
深度解析微软开源语音AI框架VibeVoice:60分钟单次ASR、90分钟多说话人TTS、200ms实时语音合成,7.5Hz超低帧率Tokenizer+Next-Token Diffusion架构,45K Star项目技术全解析
VibeVoice
语音AI
ASR
TTS
微软
开源
深度学习
语音识别
语音合成
Insanely Fast Whisper 深度解析:比原版快 10 倍的语音转文字引擎——从原理到生产级部署的完整实战
编程
Insanely Fast Whisper 深度解析:比原版快 10 倍的语音转文字引擎——从原理到生产级部署的完整实战
2026-04-29 16:24:38 +0800 CST
view 363
深入解析Insanely Fast Whisper的优化原理、代码实战与生产部署,比原版Whisper快10倍的语音转文字方案
AI
语音识别
Whisper
Insanely Fast Whisper
VibeVoice 深度解析:微软开源语音AI全家桶——从7.5Hz超低帧率到Next-Token Diffusion的技术革命
编程
VibeVoice 深度解析:微软开源语音AI全家桶——从7.5Hz超低帧率到Next-Token Diffusion的技术革命
2026-05-17 18:16:11 +0800 CST
view 321
微软开源的VibeVoice通过7.5Hz超低帧率连续语音分词器和Next-Token Diffusion框架,实现了60分钟长音频识别、90分钟多角色语音合成、300ms实时流式TTS三大突破,被ICLR 2026接收为Oral论文。
AI语音
语音识别
语音合成
开源项目
微软
WiFi 信号穿墙感知与人体姿态识别:从 CSI 到 DensePose 的工程化完全指南(2026)
编程
WiFi 信号穿墙感知与人体姿态识别:从 CSI 到 DensePose 的工程化完全指南(2026)
2026-05-25 01:21:49 +0800 CST
view 393
:本文深度解析基于 WiFi 信号的人体姿态识别技术,从物理层的 CSI(Channel State Information)采集到深度学习模型推理,涵盖 RuView、WiFi-DensePose 等开源项目的工程实践,提供完整的 Rust/Python 混合编程方案、ESP32-S3 硬件部署指南,以及穿墙探测、生命体征监测的实战代码。
WiFi感知
人体姿态识别
RuView
InvisPose
CSI
Rust
深度学习
穿墙探测
生命体征监测
边缘计算
WiFi-DensePose 深度实战:用普通路由器实现穿墙人体姿态识别——2026年完全指南
编程
WiFi-DensePose 深度实战:用普通路由器实现穿墙人体姿态识别——2026年完全指南
2026-05-25 05:52:18 +0800 CST
view 431
无需摄像头、无需穿戴设备,仅用普通WiFi路由器即可实现穿墙实时人体姿态识别。本文深入解析WiFi-DensePose的技术原理、CSI信号处理、DensePose模型架构,并提供完整的工程化实现方案。
WiFi
人体姿态识别
DensePose
穿墙感知
CSI
隐私保护
如何使用PHP操作摄像头进行情感识别,通过表情解析分析人的情绪
编程
如何使用PHP操作摄像头进行情感识别,通过表情解析分析人的情绪
2024-11-18 11:32:03 +0800 CST
view 1680
本文介绍了如何使用PHP操作摄像头进行情感识别,通过表情解析分析人的情绪。包括准备工作、获取摄像头视频流的代码示例,以及如何使用开源的情感识别库Fer2013进行情绪推断。提供了完整的PHP代码示例,展示了实时视频流的获取和情感识别的实现,旨在帮助开发者在项目中应用摄像头情感识别技术。
编程
人工智能
情感识别
图像处理
PHP
百度 Unlimited OCR 深度解读:R-SWA 如何将 KV Cache 压成常数,5天 GitHub Star 破万的端到端 OCR 新范式
编程
百度 Unlimited OCR 深度解读:R-SWA 如何将 KV Cache 压成常数,5天 GitHub Star 破万的端到端 OCR 新范式
2026-06-27 09:15:20 +0800 CST
view 42
百度开源 Unlimited OCR,5天 GitHub Star 破万。本文深度解析其核心创新 R-SWA(Reference Sliding Window Attention),如何将解码器 KV Cache 从线性增长压成常数,OmniDocBench v1.6 刷榜 SOTA(93.92%),30B 总参/5B 激活,32K 超长上下文,一次前向全稿转录,附完整代码实战。
Unlimited OCR
R-SWA
KV Cache
MoE
端到端 OCR
百度
深度学习
Transformer
文档识别
OCR
Vosk-API 是一款开源的离线语音识别工具包
综合
Vosk-API 是一款开源的离线语音识别工具包
2024-11-19 07:51:49 +0800 CST
view 3791
Vosk-API是一款开源的离线语音识别工具包,支持多种编程语言和超过20种语言,提供准确可靠的语音识别服务。其特点包括轻量级模型、零延迟响应和可重构词汇量,适用于聊天机器人、智能家居设备等多种场景。Vosk-API适合在各种设备上使用,从小型设备到大型集群均可扩展。
语音识别
开源工具
技术支持
Vosk-API
零成本在本地跑 Whisper:从视频自动生成双语字幕
编程
零成本在本地跑 Whisper:从视频自动生成双语字幕
2026-06-08 15:48:58 +0800 CST
view 253
详解 whisper_v3 项目核心代码:用 Faster-Whisper 从视频自动生成带时间戳的 SRT 字幕,配合 DeepSeek API 翻译,全程跑在本地 RTX 5060 Ti 上,零成本隐私友好。
Whisper
语音识别
Faster-Whisper
Python
SRT字幕
综合
34.4K Star 最牛 OCR !!! 不要服务器, 浏览器识别 100+ 语言文本
2024-11-19 07:16:38 +0800 CST
view 2262
Tesseract.js是一款纯JavaScript的OCR库,支持超过100种语言的文本识别,能够在浏览器中独立运行,无需服务器支持。它提供自动文本检测和用户友好的API,适用于多种应用场景,如图像文本提取和文档分析。无论是初学者还是开发者,都能轻松上手,确保数据安全且响应迅速。
光学字符识别
JavaScript库
前端开发
Pynini是一个开源的Python库,专注于构建语言模型和处理字符串
编程
Pynini是一个开源的Python库,专注于构建语言模型和处理字符串
2024-11-19 04:26:54 +0800 CST
view 3600
Pynini是一个开源的Python库,专注于构建语言模型和处理字符串,利用有限状态转换器(FST)实现高效的字符串匹配和转换。它提供丰富的操作符和函数,易于与其他NLP工具集成。Pynini可用于语音识别、拼写检查和词性标注等多个领域,适合处理复杂的语言结构。
编程
自然语言处理
开源工具
机器学习
语音识别
百度 Unlimited OCR 深度解析:R-SWA 如何让长文档 OCR 从"逐页煎熬"走向"一次搞定"
编程
百度 Unlimited OCR 深度解析:R-SWA 如何让长文档 OCR 从"逐页煎熬"走向"一次搞定"
2026-06-28 14:13:06 +0800 CST
view 28
深度解析百度 Unlimited OCR 的 R-SWA 参考滑动窗口注意力机制,如何将 KV Cache 从线性增长压到常数,使长文档 OCR 性能恒定不衰减。含完整架构分析、训练配方、性能基准和实战代码。
Unlimited OCR
R-SWA
OCR
端到端
百度
文档识别
KV Cache
MoE
DeepEncoder
长文档处理
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调