标签: MCP

AI Agent 面试题第四弹：MCP、Chrome DevTools、CDP 会话复用

content

01、MCP 是什么，解决了什么问题

MCP 全称 Model Context Protocol，是 A 厂在 2024 年底推出的开放协议，一句话概括就是：给 AI 应用和外部工具之间定了一套标准通信接口。

沉默王二大约 11 分钟

Agent 终于能看图了！GLM-5V 让 PaiCLI 在图像识别上有了一双眼睛。

大家好，我是二哥呀。

PaiCLI 已经非常强大了，有 ReAct、Multi-Agent、MCP、Skill、Function Calling，基本上 Claude Code 有的功能都覆盖到了。

今天这篇，我们给 PaiCLI 再追加一个能力：图片输入。听起来简单，但真正做起来涉及到的东西很多。

这个功能的核心前提是多模态模型。单纯的文本模型是看不了图的，比如说 GLM-5.1，于是我们追加了 GLM-5V 模型的 endpoint。

沉默王二大约 13 分钟

Agent 直连你日常使用的 Chrome 浏览器，天然携带登录态。

大家好，我是二哥呀。

上一期我们给 PaiCLI 接上了 Chrome DevTools MCP，Agent 终于能开浏览器了。能导航页面、截图、拿 DOM 快照，微信公众号文章也能读了。

但存在另外一个问题。

每次 Agent 打开的都是一个“新”的 Chrome，没有登录态，没有 Cookie。你让它去看 GitHub 私有仓库的 README，它无能为力，因为需要登录。

沉默王二大约 13 分钟

Agent 终于能开浏览器了！Chrome DevTools MCP 接入全解析

大家好，我是二哥呀。

做了联网搜索，做了 MCP，我发现 PaiCLI 还有一个问题，Agent “看不见”一些固有生态的内容，比如说微信的内容。

直接用 web_fetch 去读微信的内容，是读不到的，因为微信生态的内容，外部的搜索引擎无能为力。

还有一些动态渲染的网页内容，抓回来的 HTML 里几乎没有内容。

以及想让 Agent 填表单、截图、看看控制台报错等，更是想都别想。

沉默王二大约 11 分钟

大家好，我是二哥呀。

上一期我们给 PaiCLI 接入了 MCP 协议的核心能力，能调用外部工具了。但用了几天之后我就发现，光能调工具还不够。

MCP Server 除了暴露工具，还能暴露数据。比如一个文件系统 Server，它不光能帮你读写文件（工具），还能把整个目录结构作为资源列表暴露出来（resources）。再比如一个数据库 Server，工具是执行 SQL，resources 是表结构和字段说明。

这些数据如果 Agent 能直接读到，很多任务根本不需要先"调工具查一下"，直接把数据喂给模型就行了。

说实话这一期的内容我自己写的时候也比较懵，因为 MCP 协议的 resources 和 notifications 在日常使用中很少被提到，大部分文章和教程都只讲 tools/call。但如果你想完整实现 MCP 协议，或者看 Claude Code 的 MCP 对接代码，会发现 resources 和 notifications 是绕不过去的。

沉默王二大约 16 分钟

GPT-5.4 实测：Codex+Chrome MCP操控浏览器，终于搞定这个难缠的 Bug

大家好，我是二哥呀。

GPT-5.3-Codex 还没捂热，OpenAI 又正式发布了 GPT-5.4。

这不是一次普通的模型更新，而是被 OpenAI 定位为 AI 数字员工的首个大一统模型。它整合了推理、编程及百万级上下文能力，原生支持电脑操作，Agent 任务成本直接降低 47%。

基准测试成绩相当亮眼：SWE-Bench Pro 拿下 57.7%，MMMU-Pro 达到 81.2%，BrowseComp 更是飙到 82.7%。在内部投行建模测试中，GPT-5.4 的得分从 GPT-5 的 43.4% 直接干到了 87.3%。

沉默王二大约 9 分钟

汉武帝发难：“连Skills都没玩过，还敢说自己掌握AI辅助编程？”东方朔反驳：“不就是渐进式披露的Prompt嘛，没啥了不起。”

大家好，我是二哥呀。

话说公元前 141 年，未央宫里正在进行一场特殊的面试。

汉武帝刘彻端坐龙椅，手里拿着一份竹简，眉头紧锁：“东方朔，朕听闻你精通 AI 辅助编程，可解天下难题？”

东方朔躬身答道：“回陛下，臣虽不敢言精通，但确有一些心得。”

“哦？那你倒是说说，什么是 Skills？和普通的 Prompt 有何区别？”

东方朔略一思索：“启禀陛下，Skills 是预置的最佳实践指南（SKILL.md 文件），包含针对特定任务的详细操作步骤和注意事项。通过渐进式披露机制，让 LLM 节点更智能、能力更强。”

沉默王二大约 11 分钟