48 lines
1.7 KiB
Markdown
48 lines
1.7 KiB
Markdown
## TODO:
|
||
|
||
[2024.12.31]
|
||
|
||
- [X] 采用数据集多次训练
|
||
- [X] 整理evaluate的代码
|
||
|
||
[2025.01.01]
|
||
|
||
- [X] 处理peft逻辑
|
||
|
||
[2025.01.03]
|
||
|
||
- [ ] 处理量化逻辑
|
||
- [X] 严查moelora的原始代码,太粗糙了😡
|
||
- [X] 未知原因trainer后处理时间长
|
||
|
||
[2025.01.19]
|
||
|
||
- [x] 多个数据集引入
|
||
- [ ] 对于混合模态数据 batchsize只能为1 性能太低 要调整模型代码(也不一定有用)
|
||
- [ ] 引入EWC和LWF
|
||
|
||
[2025.05.15]
|
||
|
||
- [x] vizwiz处理
|
||
|
||
[2025.05.16]
|
||
|
||
- [ ] 处理不同的持续学习框架,使得整体框架能够兼容
|
||
|
||
[2025.05.28]
|
||
|
||
- [x] MoeLora
|
||
- [ ] Coin Benchmark
|
||
- [x] 确定保存什么,便于后期测试
|
||
- [x] Olora (非实现问题,loss越来越高,感觉很难训练)
|
||
- [ ] Hide-Llava(复写基类引入clip,不同的adapter做平均,loralinear根据不同的name做插入top layer或正常layer,模型要求接受传入task_id即clip计算的最大相似)
|
||
- [ ] Hide-llava问题,前些层平均fusion很没有道理,后些层的moe处理,却整整引入了clip的计算量,(任务数确定task数量,使得一些方法没有扩展性)。现实场景要求:没法知道后面还有多少个数据集,然后减少遗忘,最好能够对后续未见数据集产生效果,moelora问题只能适当缓解,利用不同的参数承接不同的任务。 那这个benchmark,每次输入保留数据,baseline是进一个把之前所有的都训练一边,持续学习方法使用update的方式,比较不同数据集按批次输入的收益(找函数定义[How Efficient Are Today’s Continual Learning Algorithms?],[]),也就是准确度的积分。
|
||
|
||
[2025.05.30]
|
||
|
||
- [x] 评价指标
|
||
|
||
[2025.06.03]
|
||
|
||
- [ ] 预期算法,低计算成本,
|