소장자료

검색화면

000		nam c
001		2210080943883
005		20260403113559
007		ta
008		260327s2026 bnkad m FB 000a kor
040		▼a221008
041		▼akor▼beng
056		▼a004▼25
245	00	▼aSmall eureka :▼b소형 언어 모델을 활용한 인간 수준의 강화학습 보상 설계 자동화 프레임워크 /▼d정현교
260		▼a부산 :▼b동아대학교 대학원,▼c2026
300		▼avi, 49 p. :▼b삽화(일부천연색), 도표 ;▼c26 cm
500		▼z지도교수: 신승태
500		▼a부록 수록
500		▼a'저자요청에 의한 원문비공개(2028.01.01 이후 공개)'
500		▼jSmall eureka
502		▼a학위논문(석사)--▼b동아대학교 대학원 :▼c기계공학과,▼d2026.2
504		▼a참고문헌: p. 31-36
653		▼a강화학습 (Reinforcement Learning, RL)▼a보상 함수 (Reward Function)▼a보상 함수 설계 (Reward Function Design)▼a소형 언어 모델 (Small Language Model, SLM)▼a대형 언어 모델 (Large Language Model, LLM)▼aIsaac Sim▼aPPO (Proximal Policy Optimization)▼a코드 생성 (Code Generation)
700	1	▼a정현교
856		▼adcoll.donga.ac.kr▼uhttp://donga.dcollection.net/common/orgView/200000951256
950	0	▼a비매품▼b\0

Small eureka :소형 언어 모델을 활용한 인간 수준의 강화학습 보상 설계 자동화 프레임워크

종류

학위논문 동서

서명

Small eureka :소형 언어 모델을 활용한 인간 수준의 강화학습 보상 설계 자동화 프레임워크

저자명

정현교

발행사항

부산 : 동아대학교 대학원 2026

형태사항

vi, 49 p : 삽화(일부천연색), 도표 ; 26 cm

학위논문주기

학위논문(석사)-- 동아대학교 대학원 : 기계공학과, 2026.2

주기사항

부록 수록 / '저자요청에 의한 원문비공개(2028.01.01 이후 공개)' / 참고문헌: p. 31-36

주제

강화학습 (Reinforcement Learning, RL) 보상 함수 (Reward Function) 보상 함수 설계 (Reward Function Design) 소형 언어 모델 (Small Language Model, SLM) 대형 언어 모델 (Large Language Model, LLM) Isaac Sim PPO (Proximal Policy Optimization) 코드 생성 (Code Generation)

예도서예약

서서가부재도서 신고

보보존서고신청

캠캠퍼스대출

우우선정리신청

검검색지인쇄

등록번호	청구기호	별치기호	소장위치	대출상태	반납예정일	서비스
등록번호 E1095792	청구기호 004 정94S	별치기호 D	소장위치 부민학위논문실	대출상태 대출불가 (소장처별 대출 불가)	반납예정일	서비스 검검색지인쇄

DAU Library