초오오오오오짜개발자의낙서장
AWS bedrock에 사용할 데이터 생성기 본문
1차 데이터 생성
- 제품을 생산하는 도중 환경요인으로 불량에 영향을 줄것이라 가정.
- 제품 생산 기간동안 센서 데이터를 임의로 생성
- 제품 불량 검사 데이터와 센서 데이터를 가지고 bedrock이 연관성을 판단할 것이라 예상
1차 데이터 생성 결과
- 제품 불량 검사 데이터와 센서데이터를 생성하는데 시간이 너무 오래 걸림 -> 데이터 생성 알고리즘 수정 필요.
- 만들어진 데이터로 bedrock이 결과를 도출하기에는 데이터의 수가 너무 많음-> bedrock 에 입력할 데이터 수량 감소 필요.
- 제품을 만드는 시간이 4~5시간으로 너무 길어 24시간을 기준으로 만들어지는 제품 불량 검사 데이터가 너무 적음. -> 제품 불량 검사 데이터 수량 증가 필요
2차 데이터 생성
- 센서데이터를 생성할때 임계치를 넘기는 센서 데이터를 랜덤하게 생성
- 불량 판정 데이터 생성시 임계치를 넘지 않을때 1% 확률로 불량이 발생, 임계치를 넘길때 10% 확률로 불량이 발생.
- 제품 만드는 시간을 5~20 분으로 줄여 제품 불량 검사 데이터 수를 늘림.
2차 데이터 생성 결과
- 임계치를 넘기는 빈도가 너무 많아 모든 제품 생산 과정에서 한번 이상 임계치를 넘김. -> 임계치 넘기는 빈도를 줄여야함
- 임계치를 넘기는 시각에만 제품이 불량일 확률을 높혀 데이터 생성하는데 소모되는 시간을 25일에서 40분으로 줄임
3차 데이터 생성
- 센서가 임계치를 넘기는 빈도를 줄여 데이터를 생성
3차 데이터 생성 결과
- 임계치를 넘기는 빈도를 줄인 결과 하루 20000건의 mes 데이터 중 10% 정도 불량이였던 이전 데이터에 비해 3~5% 정도의 데이터가 불량으로 생성
- 여전히 bedrock에게 데이터를 입력하기에 수가 너무 많음.
4차 데이터 생성
- 판정 결과가 불량일 때의 센서 데이터만 만들기로함.
- 판정 결과 1건당 센서 데이터 1건으로 데이터 생성
- 존 별로 30개의 데이터를 생성.
4차 데이터 생성 결과
- 총 90개의 데이터를 생성
- bedrock에게 입력한 결과 token에 무리가 없음
Learnd
- 앞선 과정들이 ai에게 입력하기 전의 데이터 전처리 과정과 비슷했다.
- 데이터를 생성하는 과정에서 의도를 넣고 싶었지만 실패하여 데이터 전처리 과정을 정교하게 적용했더라면 성공하지 않았을까 싶다.
'Back-end > Cloud' 카테고리의 다른 글
| 스케일 업, 스케일 아웃 (0) | 2025.09.21 |
|---|---|
| AWS signature version 4 (0) | 2025.08.31 |
| MSA - 개요 (0) | 2025.06.01 |
