<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Tue, Oct 1, 2013 at 8:19 AM, Ric <span dir="ltr">&lt;<a href="mailto:389-users-list@vorticity.org" target="_blank">389-users-list@vorticity.org</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hello All,<br>
<br>
I hope you can forgive a request which I am sure doesn&#39;t have enough<br>
information in it, please let me know what else I can add if you might<br>
be able to help.<br>
<br>
I have a problem with our installation of RHDS9 and practically<br>
nothing in the logs to suggest where to look.<br>
<br>
We have a multi-master pair, with DNS round robin to load balance.<br>
Due to the problem I have updated DNS to point all traffic to the<br>
working server so I hope I can get this working again without<br>
impacting the users. But while I don&#39;t know the reason I&#39;m concerned<br>
it may occur on the working server and prevent all logins. :(<br>
<br>
We first noticed that replication was not working, now it seems that I<br>
can&#39;t get slapd to start on one of the pair.<br>
Have restarted both dirsrv and both servers.<br>
<br>
There is woefully little in the log files, but if there is a way to<br>
increase logging levels I haven&#39;t found it yet. If there is, please<br>
advise and I&#39;ll do that and post.<br>
<br>
This is the info I have gathered so far. Please let me know what else<br>
might help.<br>
<br>
<br>
/usr/sbin/ns-slapd -v<br>
389 Project<br>
389-Directory/<a href="http://1.2.11.15" target="_blank">1.2.11.15</a> B2013.211.1952<br>
<br>
dirsrv dir01 is stopped<br>
There is no:<br>
/var/run/dirsrv/slapd-dir01.pid<br>
<br>
# service dirsrv start<br>
  *** Error: 1 instance(s) failed to start<br>
<br>
The start-up runs the wait loop and finally exists, with the message above.<br>
errors log includes the message:<br>
<br>
[01/Oct/2013:12:14:47 +0100] - 389-Directory/<a href="http://1.2.11.15" target="_blank">1.2.11.15</a> B2013.211.1952<br>
starting up<br>
[01/Oct/2013:12:14:47 +0100] - WARNING: userRoot: entry cache size<br>
10485760B is less than db size 10739712B; We recommend to increase the<br>
entry cache size nsslapd-cachememsize.<br>
<br>
<br>
The start-up process leaves one slapd running:<br>
# ps -ef |grep slapd<br>
dsuser   12560     1  0 09:51 ?        00:00:03 /usr/sbin/ns-slapd -D<br>
/etc/dirsrv/slapd-dir01 -i /var/run/dirsrv/slapd-dir01.pid -w<br>
/var/run/dirsrv/slapd-dir01.startpid<br>
<br>
but no working ns-slapd.<br>
<br>
I recognise that we need to tune the cache, but don&#39;t believe that it<br>
will cause the start-up failure, just a performance hit. To tune via<br>
the console I suspect I have to get it running first!<br>
The working server shows the same error, along with:<br>
<br>
[01/Oct/2013:12:16:26 +0100] slapi_ldap_bind - Error: could not send<br>
bind request for id [cn=repman,cn=config] mech [SIMPLE]: error -1<br>
(Can&#39;t contact LDAP server) 0 (unknown) 107 (Transport endpoint is not<br>
connected)<br>
<br>
Which makes sense.<br>
<br>
The logs errors and access provide no other content at all, so nothing<br>
to indicate what is failing.<br>
<br>
Any ideas where I might start will be greatly welcomed.<br>
<br>
Many thanks, Ric.<br>
--<br>
389 users mailing list<br>
<a href="mailto:389-users@lists.fedoraproject.org">389-users@lists.fedoraproject.org</a><br>
<a href="https://admin.fedoraproject.org/mailman/listinfo/389-users" target="_blank">https://admin.fedoraproject.org/mailman/listinfo/389-users</a></blockquote></div><br></div><div class="gmail_extra">I&#39;m surprised to see that the failing node doesn&#39;t produce a real working output from a startup failure. Try permissions of the /var/run/dirsrv folder to root:nobody and then nobody:nobody. Remove any PID files from within the directories.<br>
</div><div class="gmail_extra"><br></div><div class="gmail_extra">A few to start:<br> - Check for 
differences in the dse.ldif files. Node specific info will show normal 
differences like agreements, etc. See if something was changed on the 
non starting node. What logs are you looking at? <br></div><div class="gmail_extra"> - Permissions on the files/directories that directory server uses (nobody:nobody) should be the permissions for 389 DS.<br></div><div class="gmail_extra">
 - Location and status of a PID file such as /var/run/dirsrv/admin-serv.pid and /var/run/dirsrv/slapd-dirsrv1.pid<br></div><div class="gmail_extra"> - Check logs of working node during the time of initial failure<br><br></div>
<div class="gmail_extra">A few for the hopeful:<br></div><div class="gmail_extra">- Do you have backups? Mine are in &quot;/var/lib/dirsrv/slapd-baldirsrv1/bak&quot;<br></div><div class="gmail_extra">- Can you build a new node and join it to the multimaster? I think it supports 20+ masters now. Add more as they are fairly easy to get up and running after working out the kinks.<br>
- <br></div><div class="gmail_extra"><br></div></div>