## 核心功能概述 本文档详细阐述了如何利用Claude Skill和模型上下文协议(MCP)服务器,实现从多种格式文档中高效提取知识并自动化生成结构化报告的解决方案。该方案旨在显著提升组织和知识工作者的工作效率,尤其是在处理分散于不同文件类型(如.docx、.pdf、.ppt、.xlsx、图像、音频/视频录音)中的信息时。通过自定义Claude Skill和MCP服务器,用户可以根据预设模板或参考文档,快速生成符合特定业务场景需求的报告,从而将耗时的人工任务转化为AI驱动的自动化流程。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) ## MCP 服务器搭建与配置 ### 转录 MCP 服务器的创建 为了处理音频/视频输入,需要搭建一个转录MCP服务器。该服务器将作为Claude Skill可调用的工具,负责将音频/视频文件转录为文本。 1. **环境准备**: * 安装Claude Desktop并使用Anthropic凭据登录。Claude Desktop是连接MCP服务器的必要组件。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * 安装Node.js,因为文件系统服务器需要npx。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * 创建项目目录,例如`transcription-mcp`。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) 2. **依赖安装**: * 安装Python的FastMCP框架和GAIK的转录器包。可以通过`pip install fastmcp gaik[transcriber]`命令安装。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) 3. **`server.py` 文件实现**: * 创建`server.py`文件,其中包含MCP服务器的主要实现。该文件使用GAIK的`Transcriber`类,并通过`@mcp.tool()`装饰器将`transcribe_audio`函数公开为MCP工具。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * `transcribe_audio`函数接受`file_path`(字符串)和`enhanced`(布尔值)参数,并使用stdio传输进行通信。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) 4. **`.env` 文件配置**: * 添加`.env`文件,配置OpenAI API密钥(`OPENAI_API_KEY`)用于音频/视频转录。如果使用本地Whisper模型,则不需要OpenAI API密钥,但需要GPU以实现更快的处理。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) 5. **FFmpeg 安装 (可选)**: * 对于超过25MB的音频/视频文件,GAIK的转录器包通过FFmpeg隐式处理分块。建议从官方网站下载并安装FFmpeg,并将其二进制文件路径添加到系统PATH中。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) 6. **Claude Desktop MCP 配置文件**: * 打开或创建`%APPDATA%Claudeclaude_desktop_config.json`文件。该文件用于配置Claude Desktop允许启动和使用的本地MCP服务器。 * 配置`gaik-transcriber`和`filesystem`两个MCP服务器。`filesystem`服务器允许Claude在本地系统上读/写文件。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * 关闭并重启Claude Desktop以加载新的MCP服务器配置。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) 7. **测试**: * 在Claude Desktop中,可以使用类似“Transcribe the file in C:Usersh02317Downloadsvideo.mp4”的提示来测试转录功能。可以通过添加`enhanced: true`来请求增强转录。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) ## Claude Skill 的创建与应用 ### `documenting-meetings` Skill 示例 本文以`documenting-meetings`为例,展示如何构建一个自定义Claude Skill,将分散的会议数据转换为结构化的MS Word文档。 1. **Skill 结构**: * `documenting-meetings/`目录包含`SKILL.md`(主Skill定义和工作流)、`EVALUATION.md`(测试场景和评估标准)和`reference/`子目录(包含`INPUT_FORMATS.md`和`OUTPUT_SECTIONS.md`)。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) 2. **`SKILL.md` 文件**: * `SKILL.md`是主文件,包含Skill的名称、描述以及Claude何时运行Skill的指令。它假设存在MCP `filesystem`服务器和MCP `gaik-transcriber`服务器。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * 工作流程包括:询问会议标题/目的、输出格式、特殊关注点;列出`input_documents`、`templates`、`sample_documents`文件夹内容;处理音频/视频文件(调用`gaik-transcriber:transcribe_audio`)、图像文件(解释内容并创建文本描述)、文本文档(直接读取);使用内置Skill处理PDF、PPTX、XLSX、DOCX文件;合并所有处理后的输入;检查模板和样本文档;生成结构化报告。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * 如果未提供模板或样本,Skill将使用预定义的结构生成报告,包括摘要、决策、行动项、开放问题和后续消息。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) 3. **`INPUT_FORMATS.md`**: * 该文件定义了Skill支持的输入格式,以及对每种类型应执行的操作和应跳过或标记的内容。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) 4. **`OUTPUT_SECTIONS.md`**: * 该文件重新定义了报告的章节模式、每个章节的含义以及在缺少证据时应省略的内容。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) 5. **`EVALUATION.md`**: * 该文件包含测试场景和评估标准,用于验证Skill在不同情况下的正确运行。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) ### Skill 的运行与结果 * 在示例数据上运行Skill,例如包含PDF、TXT、XLSX、PPTX、PNG等多种格式的`input_documents`文件夹,以及可选的`sample_documents`和`templates`文件夹。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * 通过Claude Desktop提示处理文档,并指定额外的音频文件路径。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * Skill将根据提供的模板和样本文档生成结构化报告,其长度、风格、格式和语气将严格遵循这些参考。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) ## Skill 的修改与扩展 ### 适应其他用例 该示例Skill具有通用性,可以轻松修改以适应其他用例,例如法律团队的合同或合规报告、项目经理的研讨会总结、采购团队的供应商评估报告或HR团队的候选人评估。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * **`Skill.md` 修改**: * 需要更改`name`、`description`、输入发现和预处理步骤(扫描哪些文件夹、哪些文件类型重要)以及输出构建步骤(章节结构、语气以及最终文件的写入位置/方式)。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * 步骤7和步骤10也可能需要修改。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * **参考文件更新**: * 更新`INPUT_FORMATS.md`以适应新的媒体类型(如网络研讨会录音、访谈、客户电话)。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * 编辑`OUTPUT_SECTIONS.md`以适应新的交付物类型(如事件报告、销售电话摘要、合规备忘录)。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * **`EVALUATION.md` 更新**: * 每当更改输入、工具或输出模式时,更新测试用例以验证Skill是否仍然正确运行。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) ### 潜在扩展 * **Claude Agent SDK 集成**: 将Skill转变为应用程序工作流,通过SDK代理以编程方式调用Skill、文件系统工具和MCP工具。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * **生成-修订-更正工作流**: 扩展Skill以实现对生成报告的检查和修正,直到通过验证标准。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) * **探索其他用例**: 例如简历分析和改进、销售提案生成、合规文档综合等。[53ai.com](https://www.53ai.com/news/LargeLanguageModel/2026012481624.html) ## 结论 通过Claude Skill和MCP服务器的结合,可以有效地自动化多格式文档的知识提取和报告生成过程,极大地提高工作效率并减少人工干预。这种灵活且可扩展的框架为各种业务场景提供了强大的AI驱动解决方案。