머신 러닝 데이터 세트 선택의 9 가지 대죄

[ad_1]

으로 Sandeep Uttamchandani, Ph.D., 제품 / 소프트웨어 빌더 (Engg 부사장) 겸 전사적 데이터 / AI 이니셔티브 (CDO) 운영의 리더

분명한 사실부터 시작하겠습니다. ML 모델은 모델을 구축하는 데 사용 된 데이터 세트만큼만 우수 할 수 있습니다! ML 모델 구축 및 알고리즘 선택에 많은 강조가 있지만 팀은 종종 데이터 세트 선택에 충분한주의를 기울이지 않습니다!



Unsplash 이미지

제 경험상 데이터 세트 선택에 시간을 미리 투자하면 나중에 모델 디버깅 및 프로덕션 롤아웃 중에 끝없는 시간을 절약 할 수 있습니다.

9 가지 대죄 ML 데이터 세트 선택

1. 데이터 세트의 이상 값을 제대로 처리하지 않음

빌드중인 ML 모델에 따라 이상 값은 무시할 노이즈이거나 고려해야 할 중요한 요소 일 수 있습니다. 수집 오류로 인해 발생하는 이상 값은 무시해야하는 항목입니다. 머신 러닝 알고리즘은 이상 값에 대한 민감도가 다릅니다. AdaBoost는 이상 값을 잘못된 분류로 간주하는 의사 결정 트리보다 더 민감한 XgBoost에 비해 이상 값에 더 민감합니다. 이상 값을 올바르게 처리하려면 무시할 수 있는지 여부를 이해하고 민감도에 따라 적절한 알고리즘을 선택해야합니다.

2. 특성 값을 조정하기 위해 표준화 대신 정규화 사용

기능을 동일한 스케일로 가져 오려면 데이터가 균일하게 분산 된 경우 정규화 (MinMaxScaler)를 사용하고 기능이 대략 가우스 인 경우 표준화 (StandardScaler)를 사용하십시오. 데이터 세트를 사용하기 전에 다음 속성을 확인하세요. iid, 고정 (시간이 지나도 변하지 않음), 교육 및 테스트 중에 동일한 분포를 보장합니다. 계절성은 종종 누락되며 이는 고전적인 정상 성 위반입니다.

3. 훈련 데이터 세트에서 중복을 확인하지 않음

종종 우리는 매우 정확한 숫자에 흥분했습니다. 이중 확인은 종종 테스트 세트의 많은 예제가 훈련 세트의 예제와 중복됨을 나타냅니다. 이러한 시나리오에서 모델 일반화의 측정은 비 결정적 (또는 무의미)입니다. 관련 측면은 훈련 세트의 무작위 화입니다. 무작위 화가 없으면 모든 가을 데이터가 훈련에서, 여름 데이터가 테스트에서 나올 수 있습니다. 이로 인해 불필요한 디버깅이 필요한 손실 시대 그래프가 발생할 수 있습니다.

4. 고유 한 데이터 세트 편향을 확인하지 않음

데이터 세트는 통계적 관점에서 궁극적 인 진실을 포착하지 못합니다. 애플리케이션 소유자가 해당 사용 사례에 필요한 속성 만 캡처합니다. 데이터 세트에서 편향 및 누락 된 데이터를 분석하는 것이 중요합니다. 데이터 세트의 컨텍스트를 이해하는 것은 매우 중요합니다. 데이터 세트에는 종종 하나 이상의 오류 패턴이 있습니다. 이러한 오류가 무작위이면 모델 학습에 덜 해 롭습니다. 그러나 특정 행이나 열이 체계적으로 누락되는 버그가있는 경우 데이터 세트의 편향으로 이어질 수 있습니다. 예를 들어 Andriod 사용자에게는 버그로 인해 고객 클릭에 대한 기기 세부 정보가 누락되고 데이터 세트가 iPhone 사용자 활동에 편향됩니다.

5. 입력 데이터 검증을위한 단위 테스트 없음

기존 소프트웨어 개발 프로젝트에서는 단위 테스트를 작성하여 코드 종속성을 검증하는 것이 가장 좋습니다. ML 프로젝트에서 모든 입력 데이터 세트를 지속적으로 테스트, 확인 및 모니터링하려면 유사한 모범 사례를 적용해야합니다. 여기에는 테스트 세트가 통계적으로 의미있는 결과를 산출하고 전체 데이터 세트를 나타내는 것이 포함됩니다.

6. 데이터 속성 의미에 대한 잘못된 가정

데이터 속성은 일반적으로 문서화하지 않음디. 빅 데이터 시대 이전에는 데이터가 중앙 데이터웨어 하우스에 추가되기 전에 큐레이팅되었습니다. 이것은 스키마 쓰기. 오늘날 데이터 레이크의 접근 방식은 먼저 데이터를 집계 한 다음 소비 당시 데이터의 의미를 추론하는 것입니다. 이것은 읽기 스키마. 관련 문제는 주어진 비즈니스 메트릭에 대한 여러 정의가 존재한다는 것입니다. 즉, 비즈니스 메트릭 표준화가 부족합니다. 가장 단순한 메트릭과 관련된 여러 진실 소스 및 비즈니스 정의가있을 수 있습니다. 예를 들어, “신규 고객 수”와 같은 기본 메트릭은 판매, 재무, 마케팅, 고객 지원 팀에서 계산하는지 여부에 따라 다른 정의를 가질 수 있습니다.

7. 데이터 소스에서 조정되지 않은 변경

소스의 스키마 변경은 종종 다운 스트림 처리 팀과 조정되지 않습니다. 변경 사항은 스키마 변경 (기존 파이프 라인 중단)에서 데이터 속성에 대한시 매틱 변경을 감지하기 어려운 것 (모델이 예기치 않게 미치기 시작하는 경우 매우 추함)까지 다양합니다. 또한 비즈니스 메트릭이 변경되면 정의의 버전 관리가 부족합니다.

8. 대표적이지 않은 데이터 사용

데이터에 만료일이 있습니다. 10 년 전의 고객 행동 기록은 대표 할 수 없습니다. 또한 데이터 보장은 IID (독립적이고 동일하게 분산 됨) 모델 학습과 데이터의 계절성을 고려합니다. 또한 데이터 세트는 지속적으로 진화하고 있습니다. 데이터 분포 분석은 모델 생성시에만 필요한 일회성 활동이 아닙니다. 대신, 특히 온라인 교육을 위해 드리프트에 대한 데이터 세트를 지속적으로 모니터링해야합니다. 종종 데이터의 사일로 화 된 특성을 고려할 때 서로 다른 팀에서 서로 다른 데이터 세트를 관리하고 분류합니다. 많은 부족 지식이 데이터 세트를 찾는 데 사용됩니다. 적절한 실사없이 팀은 사용 가능한 첫 번째 데이터 세트를 사용합니다. 그들은 종종 모든 데이터 세트가 똑같이 신뢰할 수 있다고 가정하는 고전적인 실수를 범합니다. 일부는 소스 팀이 매우 밀접하게 업데이트하고 관리하는 반면 다른 데이터 세트는 폐기되거나 정기적으로 업데이트되지 않거나 비정상적인 ETL 파이프 라인이 있습니다.

9. 대규모 데이터 세트 내에서 임의의 샘플 선택

매우 큰 데이터 세트가 주어지면 일반적으로 샘플링은 임의적입니다. 종종 팀은 훈련에 모든 데이터를 사용하기로 결정합니다.. 더 많은 데이터가 정확한 모델을 구축하는 데 도움이되지만 때로는 수십억 개의 레코드가있는 데이터가 방대합니다. 더 큰 데이터 세트에 대한 학습에는 시간과 리소스가 모두 필요합니다. 각 교육 반복은 전체 프로젝트 완료 속도를 늦추는 데 더 오래 걸립니다. 데이터 샘플링을 효과적으로 사용할 필요가 있습니다. 다음과 같은 기술 활용에 특별한주의를 기울입니다. 중요도 샘플링.

요약하면이 체크리스트를 데이터 세트 선택에 통합해야합니다. 이러한 단계는 노력을 추가하고 잠재적으로 초기에 속도를 늦추지 만 나중에 ML 수명주기에서 여러 번 비용을 지불합니다!

이 블로그에 나열된 ML 함정을 보호하려면 따르다 다가오는 블로그 “AI 체크리스트”에 대한 알림을받습니다. 프로덕션에서 데이터 + AI를 관리하는 전략은 체크 아웃 데이터 풀기

약력 : Sandeep Uttamchandani, Ph.D.: 데이터 + AI / ML-제품 / 소프트웨어 빌더 (Engg 부사장)이자 전사적 데이터 / AI 이니셔티브 (CDO) 운영의 리더 | O’Reilly 도서 작가 | 설립자-DataForHumanity (비영리)

실물. 허가를 받아 재 게시되었습니다.

관련 :

[ad_2]

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *