LLM驱动的强大网络爬虫工具
项目简介
CyberScraper 2077 不仅仅是一个普通的网络抓取工具,它是未来数据提取的预览。它诞生于赛博朋克世界的霓虹灯光街道,利用 OpenAI 模型以无与伦比的精确度和风格获取所需数据。无论你是公司数据分析师、街头智慧的网络运行者,还是想从数字领域获取信息的人,CyberScraper 2077 都能满足你的需求。
✨ 特性
- 🤖 AI驱动的提取:借助先进的 AI 模型智能解析网络内容。
- 💻 精美 Streamlit 界面:即使是技术小白也能轻松操作。
- 🔄 多格式支持:支持导出为 JSON、CSV、HTML、SQL 或 Excel 格式。
- 🌐 隐身模式:可避免被识别为机器人,增强隐私。
- 🤖 Ollama 支持:集成开源 LLMs,提升数据处理能力。
- 🚀 异步操作:快速高效的数据抓取。
- 🧠 智能解析:结构化数据处理,智能识别网页内容。
- 🛡️ 道德抓取:尊重站点的
robots.txt
和相关政策。 - 🌐 代理模式(即将推出):支持代理服务,实现隐身抓取。
- 🛡️ 页面导航抓取(即将推出):支持自动浏览多个页面并抓取数据。
Windows 用户(热修复)
在使用 Windows 版本时,可能会遇到一些问题。你可以通过以下步骤解决:
切换到热修复分支:
git checkout windows-hotfix
按照以下步骤进行安装和设置。
安装步骤
克隆项目仓库:
git clone https://github.com/itsOwen/CyberScraper-2077.git cd CyberScraper-2077
创建并激活虚拟环境:
Windows:
python -m venv myenv myenv\Scripts\activate
Unix/MacOS:
python -m venv myenv source myenv/bin/activate
退出虚拟环境:
deactivate
安装依赖包:
pip install -r requirements.txt
安装 Playwright:
playwright install
设置 OpenAI API Key:
Linux/MacOS:
export OPENAI_API_KEY='your-api-key-here'
Windows:
set OPENAI_API_KEY=your-api-key-here
使用 Ollama(可选):
如果你想使用 Ollama,请确保性能强劲的系统配置,以获得更好的生成和展示效果。
安装 Ollama:
pip install ollama
下载 Ollama:
官方下载链接拉取模型:
ollama pull llama3.1
🚀 使用方法
启动 Streamlit 应用:
streamlit run main.py
在浏览器中访问 http://localhost:8501。
输入要抓取的网站 URL 或提问所需的数据。
与聊天机器人互动,选择所需的数据导出格式。
观察 CyberScraper 2077 迅速抓取并提取数据!
调整 PlaywrightScraper 设置(可选)
你可以根据需求自定义 PlaywrightScraper 的设置:
- 浏览器启动选项:调整
headless
模式以控制浏览器行为。 - 浏览器上下文:调整视口大小和
user_agent
。 - 页面特性:更新 HTTP 头部,模仿真实用户。
- 绕过 Cloudflare:配置重试策略和延迟处理。
- 人类行为模拟:可自定义滚动和鼠标移动模拟用户操作。
这些设置可以根据目标网站的需求进行调整,以获得最佳的爬虫效果。
项目链接
项目地址:GitHub