我一直觉得飞书妙记是一个很不错的产品,可以解决很多场景下的问题,比如会议纪要、长视频转文字,甚至给视频做字幕。
而这款 Memo AI 的出现,很让我感到惊喜,它在本地就给出了一套类似飞书妙记的完整解决方案,解决了很多常见的痛点,比如音视频转文字、字幕生成、翻译和 AI 摘要等功能,甚至还能实现字幕语音二次合成,让用户能够高效处理各种视频音频内容。
Memo 绝大部分功能都是免费提供与使用,如基础模型语音转写文本不限制分钟,本地字幕不限制翻译数量,字幕合成语音不限制合成数量。
目前下载后使用 App 只需要输入邮箱,就能获取激活码,无需付费。使用也非常简单,基本做到了开箱即用。
语音转文字功能完全免费
Memo AI 的语音转文字功能是免费提供的。支持对 MP4、MP3、AAC、M4A 等音频和视频格式的本地文件进行本地转译。
在转写前会自动下载一个 77 MB 的 Tiny 级别的转写模型,如果追求更高的质量和特定的语言优化,可以在设置中找到更大规模的转写模型,这些高级模型也是免费的。
作为对比,阿里云的云端语音转文字识别的价格约为 30 小时/100 元。
然后你只需要添加视频,然后就可以实时看到转写的进度。
由于 Memo AI 是直接在本地设备上用本地的性能进行的文字转写,也就不存在云端上传的步骤了。
这一点对于大型视频文件转文字来说,也是省时省力,在确保隐私安全的同时,也变相提升了处理速度。
如果你想识别发言人,Memo 也提供了一个 260 MB 的发言人识别组件 ,对于处理会议记录、多人播客节目等转写任务应该会很有帮助。
等待转写完成后,可以导出为纯文本(TXT、MD、DOCX)、字幕格式(SRT、ASS)。甚至可以直接将字幕嵌入视频进行 MP4 格式的导出。
如果你只进行这一步,是不需要调用任何外部 AI 模型、翻译 API 的,自然也是免费的。
目前 Memo 的免费版可以用 CPU 进行字幕转写。如果你的设备是 M 系列的 Mac 设备,直接使用免费版就足够发挥性能优势了。
如果想提升一下速度,比如 Windows 机器想用 GPU 进行加速,可以考虑购买一个 Pro 版本,可以解锁 GPU 转写功能来提高效率。
AI 翻译 TTS 语音合成等高级功能
Memo AI 的主要收费点则是在于 AI 相关的高级功能,比如 GPU 加速、语音合成、批量模式、用它提供的高级模型等,从功能角度看,更多是面向商业的批量用途。对于个人用户而言,付费并不是必选项。
模型支持非常丰富,不仅支持 OpenAI、ChatGLM、DeepSeek、本地的 Ollama 等语言模型。(如果你有自己的 API Key,使用这些模型也是不需要付费的。)