본 연구는 동시 무선 정보 및 전력 전송(SWIPT) 기반 장치 간(D2D) 네트워크에서 비례 공정성과 잔여 베터리를 고려한 에너지 효율성의 최적화를 연구한다. 사용자 간 공정성과 에너지 효율성을 나타내는 목적함수를 최대화하기 위해 D2D 사용자의 부채널 할당과 전송 전력 수준을 결정하는 최적화 모델을 공식화한다. 위 최적화 문제를 분산네트워크 환경에서 해결하기 위해 다중 에이전트 DRL(Deep Reinforcement Learning)을 제안하여 해결한다. 공정성을 고려하기 위해서는 다른 에이전트의 정보를 알아야 하므로 멀티 에이전트 DRL의 상태 공간에 대한 다른 D2D 쌍의 매개 변수를 추정하기 위해 LSTM(장단기 메모리) 알고리즘을 적용하여 성능을 향상시킨다. 시뮬레이션을 통해 제안한 알고리즘의 성능을 Exhaustive search (ES) 및 gradient search (GS)와 같은 기존 반복 알고리즘과 비교한다. 결과는 제안된 다중 에이전트 DRL이 기존 알고리즘에 비해 더 낮은 계산 복잡성으로 거의 전역 최적 솔루션을 달성함을 보여준다. 또한 제안된 알고리즘은 D2D 쌍에 대한 잔여 배터리의 표준 편차를 줄이고 네트워크 수명을 증가시킨다.
In this article, we study the optimization of proportional fairness and energy efficiency with residual battery in the context of simultaneous wireless information and power transfer (SWIPT)-based device-to-device (D2D) net-works. We formulate the optimization model which determines the subchannel allocation, and transmission power level of D2D users to maximize the objective function which presents the user fairness and energy efficiency. To solve this problem, we propose the multi-agent deep reinforcement learning (DRL) to solve this optimization problem in a distributed manner. We need to know the information of other agents to consider the fairness, therefore, we apply long-short term memory (LSTM) algorithm to estimate the parameters of other D2D pairs for the state space of multi-agent DRL to enhance the per-formance. Through the simulations, we compare the performance of our pro-posed algorithm with existing iterative algorithms; exhaustive search (ES) and gradient search (GS). Results show that the proposed multi-agent DRL achieves near-global-optimal solution compared with conventional algorithms, with lower computational complexity. In addition, the proposed algorithm reduces the standard deviation of the residual battery for D2D pairs and in-creases the network lifetime.