【开源项目】探索 browser-use:让大模型轻松驾驭浏览器的开源神器

玩技站长
玩技站长
管理员, Keymaster
6911
文章
1
粉丝
软件头条评论14字数 367阅读1分13秒阅读模式

【开源项目】探索 browser-use:让大模型轻松驾驭浏览器的开源神器

一、简介

  • browser-use 是一个开源工具,通过将 AI 能力与浏览器自动化相结合,实现网页的智能化操作
  • 支持视觉识别、html提取、多tab管理、元素追踪、自定义动作、自动纠错、多种AI模型
  • 开源地址:https://github.com/browser-use/browser-use
  • 网页代理准确度领先于其他工具

二、安装使用

  1. 提前安装python环境,版本大于等于3.11
  2. 安装browser-use
    pip install browser-use
  3. 安装浏览器自动化工具playwright
    playwright install
  4. 代码操作示例
    import asyncio
    from browser_use import Agent
    from langchain_openai import ChatOpenAI
    async def main():
        agent = Agent(
            task="请严格使用中文回答,帮我看看开源项目browser-use/browser-use有多少颗星星了",
            llm=ChatOpenAI(
                model="gpt-4o", # 可以设置成其他模型
                base_url="https://api.openai.com/v1", # 设置成你的模型访问基础路径
                openai_api_key="sk-xxx" //设置成你的模型访问秘钥
            ),
        )
        await agent.run()
    asyncio.run(main())

    执行效果:

三、总结

  • 非常好的探索性项目,值得关注,有助于扩展大模型的能力
  • 除了python代码控制,还可以部署成可视化操作web-ui界面(支持docker部署),参考:https://github.com/browser-use/web-ui
  • browser-use对于复杂任务的处理效果还是有待优化。比如输入我的github账号,叫他爬取我有多少个开源项目,他只会找到我的主页上几个开源项目,还不能自动深度挖掘和分页处理

 最后更新:2025-9-22
匿名

发表评论

匿名网友
确定

拖动滑块以完成验证