Physical AI & Manufacturing
Data Pipeline

산업 데이터 depth × LLM 제품 end-to-end ownership — 로봇 제조와 기존 제조업이 동시에 부족한 조합.산업용 차량 fleet 텔레메트리 파이프라인의 팀 멤버로 검증한 데이터 primitives, LLM 기반 제품을 1인이 기획·개발·배포·운영하며 익힌 풀스택 파이프라인 — 두 자산을 로봇 제조 Foundation 모델 데이터 인프라와 기존 제조업 AI 워크플로우로 즉시 투입합니다.

  • Industrial Telemetry
  • LLM Product Ops
  • Foundation Model Data
  • Manufacturing AI
fleetuntamedaisubstratedata pipelineproductiontraining data
§2 Bottleneck

모델은 오픈된다. 데이터 파이프라인은 오픈되지 않는다.RT-2, GR00T, Cosmos, π0 — Foundation 모델은 빠르게 진화한다. 반면 production 으로 가는 길을 막는 것은 모델이 아니라 데이터 파이프라인이다. 그리고 데이터 파이프라인을 다뤄본 사람은 LLM 제품을 운영해본 사람과 잘 겹치지 않는다.

  • 멀티-소스 비동기 정렬

    휴머노이드 30+ 관절, 반도체 fab 챔버 수십 개, 제철 라인 N대 머신 — 모두 자기 시간으로 데이터를 보낸다. 같은 시각의 신호를 정렬하지 못하면 학습 데이터가 학습 데이터가 아니다.
  • 단편화된 산업 프로토콜

    CAN ISO-TP, ROS2 chunked, OPC-UA, MTConnect, Modbus — 산업 프로토콜은 거의 모두 분할 비동기 전송. 손실·지연·순서 역전이 정상이고, 시간 윈도우 안에서 재조립해야 한 단위가 된다.
  • 이종 디바이스 fleet

    휴머노이드 + AMR + 협동로봇이 한 fleet. 같은 라인에 PLC 벤더가 다섯. 코드 재배포 없이 새 디바이스를 받아들이는 schema-registry 가 운영의 생명선.
  • 두 출구를 같은 substrate 가 먹여야 한다

    Production 운영 (실시간 모니터·이상탐지) 과 모델 학습 데이터 (curated, labeled) 가 다른 시스템 위에 있으면 distribution mismatch 가 영구 부채. 같은 파이프라인이 두 출구를 동시에 먹여야 한다.
§3 Primitives

산업 차량 fleet 에서 검증된 3개 기둥. 로봇 제조와 기존 제조업에 그대로 적용된다.

  • P1

    Fragmented Stream Reassembly — 단편 재조립

    t₀t₁arrival fragmentsmask bitmapreassembled signalCAN ISO-TP · ROS2 · OPC-UA
    검증된 환경
    산업 차량 CAN ISO-TP — 0x10 first → 0x21..0x2F consecutive → 0x20 rollover. ±N초 timeline window 안에서 mask bitmap 기반 partial fill, 메모리 상한 관리.
    로봇 제조에 적용
    ROS2 chunked publish (PointCloud2, 이미지, F/T 시퀀스), MCAP 재생 정합성, 휴머노이드 텔레옵 데모 수집 시 부분 손실의 명시적 추적.
    기존 제조업에 적용
    OPC-UA chunked publish, MTConnect 분할 streaming, end-of-line 테스트 시퀀스 — 라인 KPI 의 1초 단위 계산이 이 위에서 작동.
  • P2

    Multi-Source Temporal Alignment — 비동기 정렬

    channel Achannel Bchannel Cchannel Daligned
    검증된 환경
    Master 1·2 와 Slave 1·2 의 4팩 BMS — 각 팩 V·I 가 독립 PID 로 비동기 도착. ±N초 timeline window 정렬 후 4팩 합산으로 순간 전력 계산.
    로봇 제조에 적용
    Imitation Learning 데이터: 30+ 관절 + 그리퍼 + 비전 + 텔레옵 명령의 시간 동기. Sim-to-Real: 시뮬레이터 timestamp vs 하드웨어 timestamp jitter → reality gap 정량화. VLA 학습 triplet: Vision ↔ Language window ↔ Action sequence 의 정확한 시간 대응.
    기존 제조업에 적용
    반도체 fab: 챔버 내 멀티 센서 + 끝단 결함 검사 결과의 cycle-level 정합. 제철: 라인 위 N대 머신을 하나의 produced unit 으로 묶기. 셀 제조: 공정 단계별 측정값과 출하 후 field failure 의 인과 추적.
  • P3

    Schema-Driven Device Decoder — 이종 디바이스 정규화

    heterogeneousschemaregistrynormalized
    검증된 환경
    차종별 신호 매핑을 Excel 한 장으로. 표현식 DSL → AST 화이트리스트 평가 + 컴파일 캐싱.
    로봇 제조에 적용
    휴머노이드 / AMR / 협동로봇의 URDF + topic schema 통합, OEM 펌웨어 다양성 흡수, Open X-Embodiment 호환 데이터 변환.
    기존 제조업에 적용
    Siemens / Mitsubishi / LS PLC 별 protocol 흡수, 벤더 OPC-UA AddressSpace 통합, 신규 라인 도입 시 OT 엔지니어가 직접 등록 가능한 운영 형태.
§4 Proof · EV fleet · team
팀 작업 — 1인칭 복수 / 본인 기여 명시 (Y-01)

검증된 환경 — 산업 차량 Fleet 텔레메트리 파이프라인 (팀 작업)4-tier 분산 텔레메트리 시스템에 팀 일원으로 참여한 작업입니다. 1인칭 복수와 본인 기여를 함께 표기합니다.

T1edgeT2gatewayT3pipelineT4warehouse
[차량 단말] → Webhook → Bridge InfluxDB
  → V2InfluxConverterProcess (multi-process)
  → Measurement InfluxDB → Celery batch → Avro/GCS
  • Tier 1 (수집): Django / Flask webhook · hex payload 보존
  • Tier 2 (디코딩): ISO-TP 재조립 + 표현식 DSL + 4팩 BMS 정렬
  • Tier 3 (분석): Celery 모듈 plug-in (summary / driving_score / submatrix / avro)
  • Tier 4 (출력): 측정 InfluxDB + Avro on GCS
왜 로봇 제조 / 제조업으로 전이되는가
산업 차량 Fleet로봇 제조 / 제조업
차량당 4팩 BMS 비동기 신호로봇당 30+ 관절 + F/T + 비전 / 라인당 N대 머신
CAN ISO-TP 멀티프레임ROS2 chunked / OPC-UA chunked
차종별 .dbc / Excel DSL로봇 모델별 URDF / PLC 벤더별 protocol
own contribution
InfluxDB 운영 · Converter 모듈 운영
team size
개발 2팀
operation period
1년 5개월
Metrics — period-only
운영 기간만 노출 (Y-04). 차량 수·메시지/초·지연 시간 등 비공개 (H-02).
§5 Proof · untamedai · solo
1인 풀스택 — 1인칭 단수 (Y-02)

검증된 환경 — LLM 기반 제품 untamedai.me 의 기획 → 개발 → 배포 → 운영 (1인 풀스택)“감정을 기억하는 AI 친구 (If You Tame Me, 길들여줘)” — LLM 기반 소비자 제품을 1인이 다음 전체 파이프라인을 책임지며 운영 중. §4 (팀 / 산업 데이터 / 제한 공개) 와 짝을 이루는 §5 (혼자 / LLM 제품 / 완전 공개) — 대비 자체가 메시지.

01기획plan02설계design03개발build04배포deploy05운영operate
  1. 01
    기획 (Product Planning)
    차별화 컨셉 (어린왕자 사막여우 메타포 + 감정 기억), 사용자 페르소나, 무료 / 유료 (SOULMATE) tier 설계, 카피·브랜드 보이스. 제품 결정 = 비즈니스 결정 = 운영 비용 결정의 통합적 사고.
  2. 02
    시스템 설계 (Architecture)
    메모리 아키텍처 (단기 컨텍스트 / 장기 벡터 / 요약 store 의 계층), MBTI 추론의 일관성 문제, 감정 캘린더 색상 매핑, 안전 가드레일. 모델 호출 한 번이 아니라 메모리 / 세션 / 안전이 결합된 시스템 설계.
  3. 03
    개발 (Development)
    프론트엔드 Next.js · 백엔드 Python FastAPI · DB Supabase · 호스팅 Cloudflare · LLM GPT + Claude Opus · 결제 Polar — 풀스택 단독.
  4. 04
    배포 (Deployment)
    호스팅 · CI/CD · 도메인 (untamedai.me + 다국어 라우팅 — /samakyeowoo 한국어 SEO) · TLS · 모니터링 채널.
  5. 05
    운영 (Operations)
    토큰 비용 의식 (1인 운영자에게 곧 런웨이), 안전·모더레이션 (이루다 사태 후 한국 AI 환경의 민감도 의식), 사용자 인입 모니터링, 반복 개선 의사결정.
이 경험이 Physical AI / 제조 AI 에 왜 자산인가
  • 로봇 제조 Foundation 데이터 R&D 에: VLA training data 큐레이션 — 언어 instruction 의 의미 단위 분할은 LLM 운영자의 직관 영역. Foundation 모델 학습 데이터 파이프라인의 비용·품질·안전 트레이드오프는 production LLM 운영에서 매일 결정하는 종류.
  • 기존 제조업 AI 워크플로우에: 운영팀이 쓰는 LLM 어시스턴트 (RAG over machine logs / 라인 매뉴얼 / SOP) — 기획부터 배포까지 1인이 끌어본 경험이 곧장 자산. 비용·안전·운영 메트릭에 균형 잡힌 LLM 시스템 설계는 production 의 매일 제약.
§6 Manufacturing

만들고 싶은 것 — 로봇 제조 + 기존 제조업의 AI 워크플로우.어조 가드: 1인칭 제안 (intent). “만들고 싶다 / 적용할 수 있다 / 즉시 투입 가능하다” 로만 표기한다. 도메인 깊이는 채용 후 학습한다고 명시.

production ↑substrate · pipelineRLDSTFDSOXEtraining data ↓
6a

6a — 로봇 제조 & Foundation 모델 학습 데이터

  • P2

    Imitation Learning 데이터 파이프라인

    텔레옵 데모 → RLDS / TFDS / Open X-Embodiment 호환 형식 자동 빌드. 멀티-소스 시간 정렬 (vision · proprio · action · language) → 품질 필터링 → 세그멘테이션 → 증강. 모델 학습 시점에 들어가는 데이터의 품질이 모델 천장. 그 천장을 올리는 일이 파이프라인의 일. (의존: P1 + P2 + P3)

  • P2

    Sim-to-Real 텔레메트리 브리지

    시뮬레이터 출력 vs 실제 로봇 텔레메트리의 시간·단위·분포 정합. Domain randomization 의 파라미터 분포를 실측에서 자동 sourcing. Reality gap 메트릭 대시보드. sim-to-real 의 실패는 거의 항상 데이터 정렬 실패. (의존: P2)

  • P3

    VLA Foundation 모델 데이터 큐레이션

    Vision-Language-Action triplet 시간 정확 동기, failure / success 의 mining 비율 관리, long-horizon task 자동 segmentation. 언어 instruction 의 의미 단위 분할 + LLM 운영의 비용·안전·반복 개선 사이클은 untamedai.me 에서 매일 다루는 종류. (의존: P2 + P3 + LLM 제품 운영)

  • P2

    로봇 제조 라인 QC 텔레메트리

    로봇 한 대가 라인을 통과할 때 station 별 측정값 + 출하 후 field 텔레메트리의 인과 매칭. end-of-line QC 결과 → field failure 의 추적 가능 시스템. (의존: P2 + P3)

6b

6b — 기존 제조업 AI 워크플로우

  • P1

    라인 텔레메트리 substrate

    반도체 / 제철 / 셀 / 디스플레이 라인의 멀티-벤더 PLC + OPC-UA + MTConnect 통합 텔레메트리 파이프라인. production 운영과 모델 학습 데이터를 같은 substrate 위에서. (의존: P1 + P2 + P3)

  • P2

    Cycle-Level 품질 예측

    머신 텔레메트리 시계열 → 끝단 검사 결과 사전 예측. Gradient Boosting 베이스라인 → Temporal Fusion Transformer / Patch-TST. 모델보다 cycle 정의의 시간 정렬이 더 어렵다는 점이 핵심. (의존: P2)

  • P3

    라인 어시스턴트 LLM

    운영팀이 자연어로 묻는 인터페이스 — 어제 02시 라인 3 알람 원인 분석 류 RAG over machine logs + SOP + 이력 데이터. 이 종류 LLM 시스템을 1인이 기획부터 배포까지 끌어본 경험 (§5 untamedai.me) 이 곧장 자산이 된다. (의존: P3 + LLM 제품 운영)

  • P2

    Anomaly Localization

    라인 어느 머신이 불량의 원인인가 — SHAP 기반 기여도 분해, drift monitoring, 학습 분포 가드. (의존: P2 + P3)

두 sub-section 의 워크로드는 분리된 것 같지만, §3 의 같은 3개 primitives 위에서 작동한다. 그래서 두 도메인 모두에 같은 사람이 즉시 투입될 수 있다.

§7 Adjacent

보조 적용 영역 — 로봇 Fleet 운영

같은 primitives 가 fleet 운영에도 그대로 작동한다. 1순위는 §6 (제조 + Foundation 데이터), 다만 다음 영역도 즉시 투입 가능: 휴머노이드 / AMR / 협동로봇이 섞인 fleet 의 통합 텔레메트리 substrate · 모터·관절 예지보전 (RUL 회귀) · 운영 중 모션 이상 탐지 (Autoencoder / GMM). 의존하는 Primitive: P1 + P2 + P3 (§6과 동일).

§8 AI Layer Matrix

같은 데이터 substrate, 6개 AI 출구. 모델만 다뤄본 사람은 production 까지 끌고 가지 못한다. 데이터 파이프라인 + LLM 제품 운영을 같이 다뤄본 사람만 끝까지 간다.

AI 워크로드의존 PrimitiveLLM 제품 운영 활용도
Imitation Learning 데이터 빌드P1 + P2 + P3
Sim-to-Real 텔레메트리 정합P2
VLA Triplet 큐레이션P2 + P3⭐ instruction segmentation
Cycle-Level 품질 예측P2
시계열 이상 탐지P2
운영팀 LLM 어시스턴트 (RAG over logs / SOP)P3 + LLM 운영⭐⭐ 직접 1:1 매핑
§9 Engineering Practice

어떻게 일하는가 — Process 시그널. 결과만큼 어떻게 일하는가가 중요하다는 것을, untamedai.me 1인 운영과 산업 데이터 시스템 팀 작업 양쪽에서 익혔다. 다음 세 가지 작업 자세를 가져간다.

AI-Fluent Engineering Practice

2026년의 시니어 시그널은 단순한 “AI 도구를 쓴다” 가 아니라 “AI 도구로 무엇을 어떻게 하는지가 명확하다” 다. 새 도메인 학습 시 AI 를 first-pass 코드 리뷰어로 활용하고, 설계 의사결정 시 AI 와 함께 옵션 공간을 빠르게 탐색한다 (단, 최종 판단은 본인). LLM 제품 운영에서 매일 내리는 결정 — 어디서 AI 를 신뢰하고 어디서 신뢰하지 않을지의 선 — 을 일관되게 적용한다.

신호. “AI 가 내 코드에 합류한 팀원” 이라는 자세 — 도구가 아니라 협업 객체.

1인 운영 감각 (Operator Mindset)

untamedai.me 를 1인이 운영하면서 매일: 토큰 비용 vs 응답 품질의 즉각적 트레이드오프, 모더레이션의 false positive vs false negative 균형 (한국 AI 환경의 민감도), 신규 기능의 ROI vs 기술 부채 누적.

신호. 모델 / 시스템 / 사용자 / 비용을 동시에 보는 시야 — 시니어 엔지니어와 PM 의 교집합.

정직한 트랜지션 자세 (Honest Transition Posture)

이 페이지는 두 가지를 분리한다. 현재 자산 — 산업 데이터 파이프라인 (팀 기여) + LLM 제품 풀스택 (1인) — 즉시 투입. 학습 영역 — 로봇 / 반도체 / 제철 등 도메인 깊이 — 채용 후 학습.

신호. 거짓 주장하지 않는 것이 시니어의 정의. “모르는 것은 모른다” 를 명시하고 그 위에 학습 계획이 있는 쪽이 더 신뢰받는다.
§10 Tech Stack

산업 차량 fleet 에서 사용한 스택과, 로봇 제조 / 기존 제조업으로 전이되는 등가물. 본 production 코드는 NDA 로 비공개 — 발췌 OSS 공개는 추후 검토.

Ingestion / BusIndustrial Fleet: Django · Flask webhook → Robot · Mfg: ROS2 · DDS · Kafka · OPC-UA · MQTT
시계열 storeIndustrial Fleet: InfluxDB → Robot · Mfg: TimescaleDB · ClickHouse · MCAP
메타 DBIndustrial Fleet: MySQL → Robot · Mfg: PostgreSQL
분산 taskIndustrial Fleet: Celery + django-celery-beat → Robot · Mfg: Celery · Airflow · Dagster · Ray
Process poolIndustrial Fleet: multiprocessing → Robot · Mfg: Ray · Dask
Replay formatIndustrial Fleet: Avro → Robot · Mfg: MCAP · Parquet · RLDS
StorageIndustrial Fleet: GCS → Robot · Mfg: S3 · Azure Blob
LLM stack (untamedai.me)Next.js (프론트) · Python FastAPI (백엔드) · Supabase (DB) · Cloudflare (호스팅) · GPT + Claude Opus (LLM) · Polar (결제) → Foundation 모델 데이터 / VLA / RAG
§11 About

Woon · Industrial Real-Time Data + LLM Product Engineer.산업용 차량 fleet 텔레메트리 파이프라인 팀 멤버 → LLM 기반 제품 (untamedai.me) 1인 운영 → 다음은 로봇 제조 Foundation 모델 데이터 R&D 또는 기존 제조업 AI 워크플로우 파이프라인.