如何搭建免费的本地版 Llama 3.2 AI 网络爬虫

无需联网、不依赖API，用本地运行的Llama 3.2 + ScrapeGraphAI搭建自然语言驱动的AI爬虫：输入网址和中文提示，即可自动提取网页结构化数据。全程免费，支持离线使用，适合开发者快速实现定制化信息采集。

发布于2024年10月12日 06:51

编辑零重力瓦力

评论0 条

阅读77

#Llama #智能体 #浏览器自动化

通过 Streamlit 我们可以使用 Meta 最新的开源大模型 Llama 3.2 轻松搭建自己的 AI 网络爬虫，通过自然语言就能抓取各种网络信息。

搭建环境

在开始搭建之前，请确保具备以下条件：

在本地电脑上安装 Python（建议使用 3.7 版本或更高版本）
下载并安装 Ollama，并确保 Llama 3.2 能够正常运行
对 Python 编程有基本的了解，选择一个代码编辑器（建议使用 VS Code 或 PyCharm）

安装 AI 网络爬虫

1. 克隆 GitHub 仓库

git clone https://github.com/Shubhamsaboo/awesome-llm-apps.git

2. 进入 web_scrapping_ai_agent 文件夹

cd web_scrapping_ai_agent

3. 安装所需的依赖

pip install -r requirements.txt

4. 检查是否能在本地的 11434 端口运行 Ollama

创建Streamlit应用程序

创建一个新的文件 local_ai_scrapper.py，并添加以下代码

导入所需库

在文件的顶部添加

Streamlit 用于构建网页应用
Scrapegraph AI 用于创建与 LLM 的抓取管道

import streamlit as st
from scrapegraphai.graphs import SmartScraperGraph

设置 Streamlit 应用

Streamlit 允许我们创建用户界面。对于这个应用，我们将使用 st.title() 和 st.caption() 添加标题和副标题

st.title("AI 网络爬虫")
st.caption("此应用允许您使用 Llama 3.2 抓取网站")

配置 SmartScraperGraph

将 LLM 设置为 ollama/llama3，并在本地服务，输出格式为 JSON。
将嵌入模型设置为 ollama/nomic-embed-text

graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "temperature": 0,
        "format": "json",  # Ollama 需要明确指定格式
        "base_url": "http://localhost:11434",  # 设置 Ollama URL
    },
    "embeddings": {
        "model": "ollama/nomic-embed-text",
        "base_url": "http://localhost:11434",  # 设置 Ollama URL
    },
    "verbose": True,
}

获取网站 URL 和用户提示

使用 st.text_input() 获取要抓取的网站 URL。
使用 st.text_input() 获取用户提示，指定要从网站抓取的内容。

url = st.text_input("请输入您想要抓取网站的 URL")
user_prompt = st.text_input("您希望 AI 爬虫从网站抓取什么？")

初始化 SmartScraperGraph

使用用户提示、网站 URL 和图形配置创建 SmartScraperGraph 实例。

smart_scraper_graph = SmartScraperGraph(
    prompt=user_prompt,
    source=url,
    config=graph_config
)

抓取网站并显示结果

使用 st.button() 添加一个“抓取”按钮。
当按钮被点击时，运行 SmartScraperGraph，并使用 st.write() 显示结果。

if st.button("抓取"):
    result = smart_scraper_graph.run()
    st.write(result)

运行网络爬虫应用

进入项目文件夹，运行以下命令

streamlit run local_ai_scrapper.py

Streamlit 会提供一个本地 URL（通常是 http://localhost:8501）。通过浏览器打开链接就可以用它抓取我们想要的网络信息了。

JetBrains Junie 正式版：AI 编程 Agent 学会了用调试器断点

JetBrains AI 编程 Agent Junie 正式 GA，在 SWE-Rebench 基准测试中排名第一。其核心优势在于深度集成 IDE 原生工具链，而非模拟替代。主要特性包括：Plan 模式生成结构化计划文档以防跑偏；原生调试器集成支持断点与运行时状态检查；支持异步远程控制长任务；基于项目上下文的交互式代码审查；以及模型自由切换以优化成本。Junie 标志着 AI 编程竞争正从模型能力转向工具集成深度。

Visa 把支付网络接进了 ChatGPT，AI 智能体终于能自己花钱了

Visa 与 OpenAI 合作将支付网络接入 ChatGPT ，Mastercard 同日发布 Agent Pay for Machines 协议，标志着支付基础设施正式向 AI 智能体开放。Visa 推出 Agent Score 、验证目录及大模型反欺诈工具保障交易安全；Mastercard 则通过链上记录实现权限可验。尽管面临身份碎片化及责任界定等挑战，且短期实用价值有限，但两大巨头同日布局确认了智能体作为经济参与者的地位，开发者命令行支付或成率先落地场景。

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

Google 推出 Information Agents 功能，面向 AI Ultra 订阅用户开放。该功能将搜索从被动查询转变为主动监测，智能体可 7×24 小时追踪用户需求并推送变化信息。其底层依托 Personal Intelligence 战略，通过整合 Gmail、Photos 等跨应用数据实现个性化推理。尽管存在隐私与准确性挑战，但凭借二十年数据积累，Google 正推动 AI 助手从对话工具向自主代理进化，重塑“信息找人”的交互范式。

#Google#智能体

阅读全文

互动讨论

评论区

围绕《如何搭建免费的本地版 Llama 3.2 AI 网络爬虫》展开交流，未登录用户可浏览评论，登录后可参与讨论。

评论数

登录后参与评论

支持发表观点与回复一级评论，互动后将同步到消息中心。

登录后评论

暂无评论，欢迎成为第一个参与讨论的人。

如何搭建免费的本地版 Llama 3.2 AI 网络爬虫

搭建环境

安装 AI 网络爬虫

创建Streamlit应用程序

导入所需库

设置 Streamlit 应用

配置 SmartScraperGraph

获取网站 URL 和用户提示

初始化 SmartScraperGraph

抓取网站并显示结果

运行网络爬虫应用

相关文章

JetBrains Junie 正式版：AI 编程 Agent 学会了用调试器断点

Visa 把支付网络接进了 ChatGPT，AI 智能体终于能自己花钱了

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

评论区