多场景适配,支持定制化,优质交付,高效快捷
本成品数据集整合了多模态、中文方言语音、多语种语音及安全评测等多样化数据资源,适用于大模型训练与人工智能应用开发
融合文本、图像、音视频等训练数据,涵盖不同语言与题材场景。支持定制化。其中,音视频数据10万小时以上;高质量通用场景OCR与原始图片数据300万张以上;多领域UGC图文数据1000万条以上。
汇聚国内各地特色方言与中文普通话语音数据,总时长累计10000小时以上。覆盖通用行业男女声日常交流对话、特定话题场景朗读、新闻播报等。支持定制化适配。
包含西班牙语、法语、德语、意大利语、土耳其语、日语、韩语、泰语、阿拉伯语等20个国家及地区的成品小语种数据。时长1000-10000小时以上,支持定制化适配。
安全类问答对数据集,支持大模型毒性测试与安全性评测训练,保障模型输出内容的安全可靠。
覆盖多种场景优质数据集,一键检索,即刻获取最新样例,助力高效训练
多领域精选高清图像集
多类型原始视频素材数据集
社交媒体UGC图文数据
中文普通话语音数据
国内方言语音数据
其他地区方言定制语音数据
成品小语种语音数据
定制化小语种语音数据
大模型内容安全问答对数据集
更多数据请咨询定制...