content
01、MCP 是什么,解决了什么问题
MCP 全称 Model Context Protocol,是 A 厂在 2024 年底推出的开放协议,一句话概括就是:给 AI 应用和外部工具之间定了一套标准通信接口。

MCP 全称 Model Context Protocol,是 A 厂在 2024 年底推出的开放协议,一句话概括就是:给 AI 应用和外部工具之间定了一套标准通信接口。

大家好,我是二哥呀。
PaiCLI 已经非常强大了,有 ReAct、Multi-Agent、MCP、Skill、Function Calling,基本上 Claude Code 有的功能都覆盖到了。
今天这篇,我们给 PaiCLI 再追加一个能力:图片输入。听起来简单,但真正做起来涉及到的东西很多。
这个功能的核心前提是多模态模型。单纯的文本模型是看不了图的,比如说 GLM-5.1,于是我们追加了 GLM-5V 模型的 endpoint。

大家好,我是二哥呀。
上一期我们给 PaiCLI 接上了 Chrome DevTools MCP,Agent 终于能开浏览器了。能导航页面、截图、拿 DOM 快照,微信公众号文章也能读了。
但存在另外一个问题。

每次 Agent 打开的都是一个“新”的 Chrome,没有登录态,没有 Cookie。你让它去看 GitHub 私有仓库的 README,它无能为力,因为需要登录。
大家好,我是二哥呀。
做了联网搜索,做了 MCP,我发现 PaiCLI 还有一个问题,Agent “看不见”一些固有生态的内容,比如说微信的内容。
直接用 web_fetch 去读微信的内容,是读不到的,因为微信生态的内容,外部的搜索引擎无能为力。
还有一些动态渲染的网页内容,抓回来的 HTML 里几乎没有内容。
以及想让 Agent 填表单、截图、看看控制台报错等,更是想都别想。

大家好,我是二哥呀。
上一期我们给 PaiCLI 接入了 MCP 协议的核心能力,能调用外部工具了。但用了几天之后我就发现,光能调工具还不够。
MCP Server 除了暴露工具,还能暴露数据。比如一个文件系统 Server,它不光能帮你读写文件(工具),还能把整个目录结构作为资源列表暴露出来(resources)。再比如一个数据库 Server,工具是执行 SQL,resources 是表结构和字段说明。
这些数据如果 Agent 能直接读到,很多任务根本不需要先"调工具查一下",直接把数据喂给模型就行了。
说实话这一期的内容我自己写的时候也比较懵,因为 MCP 协议的 resources 和 notifications 在日常使用中很少被提到,大部分文章和教程都只讲 tools/call。但如果你想完整实现 MCP 协议,或者看 Claude Code 的 MCP 对接代码,会发现 resources 和 notifications 是绕不过去的。
大家好,我是二哥呀。
GPT-5.3-Codex 还没捂热,OpenAI 又正式发布了 GPT-5.4。
这不是一次普通的模型更新,而是被 OpenAI 定位为 AI 数字员工的首个大一统模型。它整合了推理、编程及百万级上下文能力,原生支持电脑操作,Agent 任务成本直接降低 47%。
基准测试成绩相当亮眼:SWE-Bench Pro 拿下 57.7%,MMMU-Pro 达到 81.2%,BrowseComp 更是飙到 82.7%。在内部投行建模测试中,GPT-5.4 的得分从 GPT-5 的 43.4% 直接干到了 87.3%。

大家好,我是二哥呀。
话说公元前 141 年,未央宫里正在进行一场特殊的面试。
汉武帝刘彻端坐龙椅,手里拿着一份竹简,眉头紧锁:“东方朔,朕听闻你精通 AI 辅助编程,可解天下难题?”
东方朔躬身答道:“回陛下,臣虽不敢言精通,但确有一些心得。”
“哦?那你倒是说说,什么是 Skills?和普通的 Prompt 有何区别?”
东方朔略一思索:“启禀陛下,Skills 是预置的最佳实践指南(SKILL.md 文件),包含针对特定任务的详细操作步骤和注意事项。通过渐进式披露机制,让 LLM 节点更智能、能力更强。”