最近在 GitHub 上看到 InkSight 这个 Google 开源的手写转换系统,能把手写笔记照片转成矢量笔迹,保留书写轨迹的同时支持编辑和搜索。
基于视觉转换器(ViT)和 mT5 编码解码架构,通过 “阅读” 和 “书写” 双重训练,让模型既能理解手写内容,又能还原书写过程。
GitHub:http://github.com/google-research/inksight
支持多语言识别,能处理各种背景和书写风格,提供单词级和整页文本两种转换模式。输出的是矢量格式数字笔迹,可以直接编辑、搜索,或导入笔记应用。
已在 Hugging Face 提供在线演示和完整数据集,还有配套的 Jupyter 示例代码,支持本地部署运行。