대규모 언어 모델(LLM)을 훈련하는 데 어떤 데이터 소스를 사용하시나요?

Genesys는 오픈 소스 대화와 음성 통화, 다양한 디지털 채널의 채팅을 포함하여 제품 개선에 참여하기로 동의한 Genesys Cloud 고객으로부터 모델 미세 조정에 사용되는 데이터를 큐레이션합니다. 데이터가 여러 도메인과 산업에 걸쳐 있는지 확인하기 위해 세심한 주의를 기울이고 있으며, 자동화된 프로세스와 수동 주석을 통해 무결성과 정확성을 엄격하게 검토합니다.

데이터는 실제 생산 시나리오에서 모델이 접할 것으로 예상되는 대화 유형을 반영합니다. 도메인, 성별, 인종 또는 기타 보호되는 특성과 관련된 편견을 완화하기 위한 조치가 마련되어 있습니다. Genesys는 또한 부적절한 언어를 걸러내기 위해 엄격한 프로세스를 시행하고 있으며, 모든 데이터는 엄격하게 통제된 액세스를 통해 Genesys Cloud에 안전하게 보관됩니다.