个人头像

天涯古巷

AI | 图像 | 大模型

关于我

我的兴趣包括开源贡献、技术创新和解决复杂问题。业余时间我喜欢阅读、写作和户外运动。

开源项目

视频硬字幕提取器

视频硬字幕提取,生成srt文件。无需申请第三方API,本地实现文本识别。基于深度学习的视频字幕提取框架,包含字幕区域检测、字幕内容提取。

视频字幕去除器

基于AI的图片/视频硬字幕去除、文本水印去除,无损分辨率生成去字幕、去水印后的图片/视频文件。

视频字幕生成器

视频音频生成字幕,生成srt文件。无需申请第三方API,本地实现音频转文本。

视频字幕翻译器

视频字幕翻译,输入srt文件生成翻译后的srt文件。无需申请第三方API,本地实现字幕翻译。

学术论文

CLIP4HOI: Towards Adapting CLIP for Practical Zero-Shot HOI Detection

Advances in Neural Information Processing Systems (NeurIPS), September 2023

Yunyao Mao, Jiajun Deng, Wengang Zhou, Li Li, Yao Fang, and Houqiang Li

Masked Motion Predictors are Strong 3D Action Representation Learners

International Conference on Computer Vision (ICCV), July 2023

Yunyao Mao, Jiajun Deng, Wengang Zhou, Yao Fang, Wanli Ouyang, and Houqiang Li

SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval

ACM International Conference on Multimedia (ACM MM), July 2024

Longtao Jiang, Min Wang, Zecheng Li, Yao Fang, Wengang Zhou, and Hougiang Li