[Logger] Logger hlgr 이 지속적으로 restart 되는 현상

2020. 12. 21. 17:05

[증상]

1. Logger 서비스중 hlgr 서비스가 지속적으로 Restart 되는 현상 발생

2. Router는 정상이나 Logger 가 Restart되면서 A Side와 B Side의 Data가 틀어지는 현상이 발생

[Log분석]

1. 문제가 발생되는 Logger 서버의 EventViewer에서 Error 발생
-> Loss of heartbeats from side: B: hlgr.
이벤트 252, Cisco Systems, Inc. ICM

-> Process: hlgr at the central site side: B is down.

-> hlgr 서비스 restart 이후 Logger 전체 서비스 restart 실시 됨

2. ICM Dumplog 분석
-> ICM Dumplog에서 hlgr 서비스 log 확인

16:00:00:458 lb-hlgr Trace: Send: PhysicalControllerID = 5001 DateTime 1368667072 
16:00:00:458 lb-hlgr Trace: Send: PhysicalControllerID = 5002 DateTime 1368667072 
16:00:00:474 lb-hlgr Trace: Send: PhysicalControllerID = 5005 DateTime 1368667072 
16:00:00:489 lb-hlgr Trace: Send: PeripheralID = 5008 DateTime 1368667552 
16:00:00:489 lb-hlgr Trace: Send: PeripheralID = 5009 DateTime 1368667552 
16:00:00:489 lb-hlgr Trace: Send: PhysicalControllerID = 5004 DateTime 1368667072 
16:00:00:786 lb-hlgr Trace: Send: PeripheralID = 5007 DateTime 1368667552 
16:00:00:786 lb-hlgr Trace: Send: PhysicalControllerID = 5003 DateTime 1368667072 
16:00:00:864 lb-hlgr Trace: Send: PeripheralID = 5000 DateTime 1368667552 
16:00:00:864 lb-hlgr Trace: Send: PhysicalControllerID = 5000 DateTime 1368667072 
16:02:32:930 lb-hlgr Trace: Local Time 12/20/2020 16:02:13.442 
16:02:32:930 lb-hlgr Trace: Local Time Has Stopped for 0 Milliseconds  ==> 문제 발생
16:02:32:930 lb-hlgr Trace: Logger running MDS Message Handler ProcessMDSMsg for Msg Class MSGCLASS_MDS 
16:07:11:442 lb-hlgr Trace: 0% of the available log space is used in ucce_sideB database. 
16:07:11:442 lb-hlgr Trace: 4% of the available free space is used in ucce_sideB database. 
16:08:43:014 lb-hlgr Trace: Local Time 12/20/2020 16:08:32.951 
16:08:43:014 lb-hlgr Trace: Local Time Has Stopped for 0 Milliseconds 
16:08:43:014 lb-hlgr Trace: Logger running MDS Message Handler ProcessMDSMsg for Msg Class MSGCLASS_MDS 
16:08:53:015 lb-hlgr Trace: Local Time 12/20/2020 16:08:32.951 
16:08:53:015 lb-hlgr Trace: Local Time Has Stopped for 0 Milliseconds 
16:08:53:015 lb-hlgr Trace: Logger running MDS Message Handler ProcessMDSMsg for Msg Class MSGCLASS_MDS 
16:09:03:017 lb-hlgr Trace: Local Time 12/20/2020 16:08:32.951 
16:09:03:017 lb-hlgr Trace: Local Time Has Stopped for 0 Milliseconds 
16:09:03:017 lb-hlgr Trace: Logger running MDS Message Handler ProcessMDSMsg for Msg Class MSGCLASS_MDS 
16:09:13:031 lb-hlgr Trace: Local Time 12/20/2020 16:08:32.951 
16:09:13:031 lb-hlgr Trace: Local Time Has Stopped for 0 Milliseconds 
16:09:13:031 lb-hlgr Trace: Logger running MDS Message Handler ProcessMDSMsg for Msg Class MSGCLASS_MDS 
16:09:33:032 lb-hlgr Trace: Local Time 12/20/2020 16:08:41.951 
16:09:33:032 lb-hlgr Trace: Local Time Has Stopped for 0 Milliseconds 
16:09:33:032 lb-hlgr Trace: Logger running MDS Message Handler ProcessMDSMsg for Msg Class MSGCLASS_MDS 
16:09:43:033 lb-hlgr Trace: Local Time 12/20/2020 16:08:41.951 
16:09:43:033 lb-hlgr Trace: Local Time Has Stopped for 0 Milliseconds 
16:09:43:033 lb-hlgr Trace: Logger running MDS Message Handler ProcessMDSMsg for Msg Class MSGCLASS_MDS 
16:09:53:034 lb-hlgr Trace: Local Time 12/20/2020 16:08:41.951 
16:09:53:034 lb-hlgr Trace: Local Time Has Stopped for 0 Milliseconds 
16:09:53:034 lb-hlgr Trace: Logger running MDS Message Handler ProcessMDSMsg for Msg Class MSGCLASS_MDS 
16:10:23:036 lb-hlgr Trace: Local Time 12/20/2020 16:09:12.453 
16:10:23:036 lb-hlgr Trace: Local Time Has Stopped for 0 Milliseconds

16:02:32:930 lb-hlgr Trace: Local Time Has Stopped for 0 Milliseconds ==> 문제 발생

[해결방안]

1. Logger 서비스는 MSSQL의 응답시간이 지연될때 해당 오류를 내보낸다
-> "Local Time Has Stopped"
2. SQL Sever가 50 초 이상 응답하지 않으면 5 개의 오류 메시지가 연속적으로 발생하고
이 경우 Logger의 Node Manager는 오류를 제거하기 위해 lgr 프로세스를 다시 시작하거나

Logger를 재부팅 (중지)한다 (ICM 설정시 Request Error일경우 재부팅 옵션을 빼서 서버는 재부팅 안됨 )

->12:25:31:247 lb-hlgr Trace: Local Time Has Stopped for 50020 Milliseconds <- crossing 50 seconds

3. 문제되는 서버의 레시스트리를 수정한다
-> "MessageTimeout" 설정을 50에서 120으로 변경한다
-> HKEY_LOCAL_MACHINE\Software\Cisco Systems Inc.\ICM <cust_inst>\LoggerA\Logger\CurrentVersion\Configuration\Time\MessageTimeout

-> 해당 설정을하게 되면 Logger 서비스가 죽는걸 방지할 수 있다

4. 근본적인 원인은 콜 양이 많은경우 MS-SQL에서 메모리를 많이 사용하며 Router의 데이터를 Logger로
적재시키는데 이때 MS-SQL 메모리 제한이 걸려있어서 처리 속도가 현저하게 떨어졌고 이에 MSSQL 반응
속도가 적어지면서 MessageTimeout에 걸려 서비스가 리스타 되었던 것

5. Logger에 할당된 MS-SQL Memory 제한을 5G로 변경하니 MS-SQL 반응속도가 올라감

함부로 MSSQL의 메모리를 제한하면 안될듯 하다

Error Log 첨부 :

20201221_loggerB.zip

3.15MB

저작자표시 비영리 동일조건 (새창열림)

'Cisco > ICM' 카테고리의 다른 글

[PCCE] 12.5 라이센스 Enforcement 상태 (0)	2021.06.10
IPCC Live Data - 자료 검색 품목 (0)	2019.10.23
[CCMP] rest api를 이용한 상담원 설정 환경 (1)	2019.06.14
[CCMP] 계정 Lock 또는 비밀번호 변경 사항 (0)	2019.06.14
[EV] Logger Event ID 7399 Error (4)	2019.04.28

생각하며 살자 YoonYeoJun

[Logger] Logger hlgr 이 지속적으로 restart 되는 현상

'Cisco > ICM' 카테고리의 다른 글

티스토리툴바