써우거우 세포 어휘는 scel 형식으로 유니코드로 한자와 병음을 인코딩한다. 전체 scel 형식의 내용은 헤더 정보, 어휘 소개, 병음 조합 목록, 항목 목록입니다. Scel 형식의 항목 데이터 구조는 여전히 잘 설계되었다. 한어병음 포인터를 사용하여 엔트리에서 반복되는 병음 점유 내용을 방지하고 동음자를 결합하여 공간을 절약합니다.
QQ 분류 어휘는 qpyd 형식으로, 원래 zip 압축 항목 목록을 사용했습니다. Qpyd 형식의 내용은 제목 정보, 어휘 소개, 압축된 용어 목록입니다. Qpyd 형식은 zip 압축을 사용하기 때문에 항목 수가 같을 경우 전체 파일은 다른 형식의 동의어 사전보다 작게 보입니다. 그러나 써우거우 scel 형식과 달리 qpyd 형식에서는 각 항목이 병음에 해당합니다. 단어는 UTF8 로 인코딩되지만 병음은 유니코드로 인코딩됩니다.