🤖AI & 大模型
1,814
103

ai-multimodal

使用 Google Gemini API 处理和生成多媒体内容。功能包括音频文件分析(带时间戳的转录、摘要、语音理解、音乐/声音分析长达9.5小时)、图像理解(标题生成、物体检测、OCR、视觉问答、分割)、视频处理(场景检测、问答、时间分析、YouTube URL、最长6小时)、文档提取(PDF 表格、表单、图表、示意图、多页)、图像生成(文本到图像、编辑、构图、优化)。适用于处理音频/视频文件、分析图像或截图、处理 PDF 文档、从媒体中提取结构化数据、根据文本提示创建图像或实现多模态 AI 功能。支持多个模型(Gemini 2.5/2.0),上下文窗口最大达 2M token。

#multimodal#api#content-creation#gemini#audio-processing
分享
快速安装
>_npx skills add mrgoonie/claudekit-skills
技术文档
正在加载文档...
仓库
仓库mrgoonie/claudekit-skills
Star1,814
最后更新2026年2月4日
相关技能
271,400
6,331

find-skills

帮助用户根据查询发现和安装代理技能。

vercel-labs
vercel-labs/skills
46,800
19,561

agent-browser

AI代理浏览器自动化CLI工具。

vercel-labs
vercel-labs/agent-browser
34,600
79,803

browser-use

自动化浏览器交互,用于网页测试、表单填写、截图和数据提取。

browser-use
browser-use/browser-use
32,600
86,065

skill-creator

创建有效AI技能的指南,扩展Claude的能力。

anthropics
anthropics/skills
24,400
55,506

brainstorming

用于在创意工作前探索用户意图和需求的头脑风暴技能。

obra
obra/superpowers