如果是专注于文档理解任务的话，vision tower选用layoutlmv3初始化是不是会比vit更有竞争力？

Question

whalefa1I opened this issue 5 months ago · comments

如题

Anwen Hu · Answer 1 · Tue Apr 09 2024 13:56:18 GMT+0800 (China Standard Time)

Hi，@whalefa1I ， layoutlmv3是依赖ocr识别的文本和位置作为输入的，docowl系列都是不依赖ocr的～