你好啊,
我最近在做模型微调时,需要对一些数据进行预处理和生成一些 DPO 使用 Rejected 的负面数据(虽然我后来才发现智谱的 GLM4-Flash 有提供免费的批量推理),
我很自然的想要使用 Ollama 上部署的 Qwen3 30B A3B ,但是意外的发现似乎还没有 Ollama 适用的 JSONL 批量推理工具。我总觉得它本应该存在,于是我就做了一个。
https://github.com/mili-tan/Onllama.OllamaBatch
当然使用起来也非常简单,如果你的 Ollama 在默认端口最简单的方法是只需要将你的 JSONL 重命名成 input.jsonl
丢到和程序同一个目录底下然后运行就可以了,当然记得把 JSONL 中的模型名称改成你需要的模型名称,或者用 --model qwen3:30b
参数来指定你的模型名称。还有记得参考 这里 配置一下并发( CPU 推理和混合推理是没有并发的,改了环境变量似乎也没用)。
更多的用法可以参考 --help
中的帮助。
顺带一提因为 Deepseek 的夜间半价,所以我也做了 OpenAI Style API 的支持,--use-oai --oai-url=https://api.deepseek.com/v1/chat/completions --oai-sk=sk-balabalabala
使用起来就像这样。另外因为我个人的偏好默认的输出格式是直接将助手的回答添加到消息列表中,如果你希望获得与 OpenAI 相似的包含result
的结果你也可以使用 --oai-output
来指定。另外针对一些厂商的并发和 RPM 限制我也添加了一些对应的参数你也可以参考下 --help
来看看有没有合适的。
Leave a Reply Cancel reply