## TODO: [2024.12.31] - [X] 采用数据集多次训练 - [X] 整理evaluate的代码 [2025.01.01] - [X] 处理peft逻辑 [2025.01.03] - [ ] 处理量化逻辑 - [X] 严查moelora的原始代码,太粗糙了😡 - [X] 未知原因trainer后处理时间长 [2025.01.19] - [x] 多个数据集引入 - [ ] 对于混合模态数据 batchsize只能为1 性能太低 要调整模型代码(也不一定有用) - [ ] 引入EWC和LWF [2025.05.15] - [x] vizwiz处理 [2025.05.16] - [ ] 处理不同的持续学习框架,使得整体框架能够兼容 [2025.05.28] - [x] MoeLora - [ ] Coin Benchmark - [x] 确定保存什么,便于后期测试 - [x] Olora (非实现问题,loss越来越高,感觉很难训练) - [ ] Hide-Llava(复写基类引入clip,不同的adapter做平均,loralinear根据不同的name做插入top layer或正常layer,模型要求接受传入task_id即clip计算的最大相似) - [ ] Hide-llava问题,前些层平均fusion很没有道理,后些层的moe处理,却整整引入了clip的计算量,(任务数确定task数量,使得一些方法没有扩展性)。现实场景要求:没法知道后面还有多少个数据集,然后减少遗忘,最好能够对后续未见数据集产生效果,moelora问题只能适当缓解,利用不同的参数承接不同的任务。 那这个benchmark,每次输入保留数据,baseline是进一个把之前所有的都训练一边,持续学习方法使用update的方式,比较不同数据集按批次输入的收益(找函数定义[How Efficient Are Today’s Continual Learning Algorithms?],[]),也就是准确度的积分。 [2025.05.30] - [x] 评价指标 [2025.06.03] - [ ] 预期算法,低计算成本,