数据预处理

首先根据需要修改配置文件中的 language、platform、include_type。
WeClone 首先会过滤个人隐私信息，使用 Microsoft Presidio 进行 PII（个人身份信息）数据脱敏。

默认过滤： 默认会去除数据中的电话号码、电子邮件地址、信用卡号码、IP地址、地理位置名称、国际银行账户号码、加密货币钱包地址、年龄信息、通用身份证号码等PII,但是不能保证100%识别。
自定义过滤： 项目提供一个禁用词词库参数 blocked_words，你可以自定义禁止词句（包含禁用词的整句会被过滤掉，不再出现在训练数据中）。

执行预处理脚本

激活虚拟环境，在 WeClone 项目根目录，运行：

bash

weclone-cli make-dataset

💡 使用 vLLM 时的注意事项

如果你选择使用vllm进行离线推理，且显存有限，需要启用vLLM的bitsandbytes量化加载，否则这一步也可能会显存溢出。进一步调整、优化vllm参数请查询 vLLM 引擎参数

配置文件vLLM 引擎参数vllm_args：

json

...
"vllm_args": {
    "gpu_memory_utilization": 0.9,
    "quantization": "bitsandbytes", // 是否启用vllm的 bitsandbytes 的量化加载
    "load_format": "bitsandbytes"
    ...
    },
...

TIP

如果遇到报错ImportError: Please install bitsandbytes>=0.45.3，可以尝试重新安装bitsandbytes：

bash

uv pip install bitsandbytes>=0.39.0

如果你使用了型号比较老的GPU（例如，计算能力 Compute Capability 低于 8.0 的NVIDIA GPU，如Tesla T4, V100, GTX 10xx/20xx系列等）可能会遇到下面报错：

bash

ValueError: Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your xxx GPU has compute capability xx. You can use float16 instead by explicitly setting the idtype flag in CLI, for ecample: --dtype=half.

这时候你可以尝试在原本的CLI后加上--dtype=half然后重新执行：

bash

weclone-cli make-dataset --dtype=half

数据预处理 ​

执行预处理脚本 ​

相关参数 ​

💡 使用 vLLM 时的注意事项 ​

数据预处理

执行预处理脚本

相关参数

💡 使用 vLLM 时的注意事项