Diary of Changes for INFN-PADOVA site
---
05/07/2016
[sergio] - voms-02.pd.infn.it - aggiunta nuova VO, vo.dampe.org come padme.org e disabilitato la possibilità di registrarsi anche alla vo vo.padme.org (file /etc/voms-admin/vo.dampe.org/service.properties al rigo 7 voms.registration.enabled a False
10/06/2016
[cristina] - voms-02.pd.infn.it - aggiunta nuova VO, vo.padme.org, come replica del voms2.cnaf.infn.it
- Abilitare replica con aggiunta righe necessarie in /etc/my.cnf
- Lanciare la replica con
#./next_replica.sh --master-db=voms_vo_padme_org --db=voms_vo_padme_org
- Configurare VO:
voms-configure install --vo vo.padme.org --core-port 15020 --hostname voms2.cnaf.infn.it --dbtype mysql --createdb --deploy-database --dbauser root --dbapwd ###### --dbusername vo_adm --dbpassword ###### --dbname voms_vo_padme_org --mail-from emanuele.leonardi@roma1.infn.it --smtp-host localhost
- Avviare servizi VO:
# service voms start vo.padme.org
# service voms-admin vo.padme.org
01/06/2016
[marco] - decommissionate eu-india-*
04/05/2016
[sergio] - prod-ce-01, prod-se-01, prod-se-02, prod-wms-01, prod-bdii-01, prod-bdii-02: Scratchate e installate con SL6, installati tutti i profili grid e riconfigurati usando repo UMD. Modificata la doc macchine di produzione.
29/04/2016
[sergio] - voms-01, voms-02: Scratchata la cert-05 con SL6, installato KVM e creati 2 LVM per le due virtuali voms-01 e voms-02 che sono stati portati a SL6. Lunedi' aggiornero' anche tutta la doc qui di gimo2. Poi mettero' un altro downtime e poteremo anche prod-wms-01, prod-ce-01, prod-se-01, prod-se-02,prod-bdii-01 e prod-bdii-02 a SL6.
17/08/2015
[sergio] - gimo2: c'era il disco che aveva degli errori e da lunedi' 10 agosto la macchina e anche gw-master che e' virtuale su questo master avevano dei problemi. Ho fatto un fsck di /dev/sda1 e i problemi sono stati risolti. Ho fatto i backup di etc var/lib var/www di gimo2 e etc var e opt di gw-master e li ho messi in /root di gimo.
09/07/2015
[marco] - in cert-37: montata directory egi-cloud:/var/spool/apel/outgoing/openstack, creato file /etc/apel/sender-cloud.cfg e cron file /etc/cron.d/ssm-cloud per inviare una volta al giorno gli usage records della EGI-FedCloud al GOC
25/05/2015
[marco] - modificata configurazione di cmvfs per wenmr e biomed come da istruzioni in questa wiki
17/02/2015
[sergio] - prod-ce-01 Per problemi di pubblicazione, provato a updatare e riconfigurare il ce. Poi scoperto un baco sul link di un file per pubblicazione ramo glue 1. Vedere GGUS ticket: #111592
12/02/2015
[sergio] - vm-master-01, vm-master-02, voms-01, voms-02, prod-bdii-01, prod-ce-01 Le macchine vm-master-01 e vm-mastrer-02 che tengonosu via xen le 4 macchine di produzione, avevano il avo alimentazione allentato e si erano spente. Sono state fatte ripartire. Sono state fatte ripartire anche le 4 macchine di produzione e sono stati sicronizzati i voms con quelli del CNAF.
05/02/2015
[marco] - Implementata in prod-ce-01 la action richiesta in Broadcast #1236 (enabling multicore accounting)
09/01/2015
[sergio] - all prod-wn-* rebootati i WN per prendere il nuovo kernel. LSF aperta la coda grid.
08/01/2015
[sergio] - all prod-wn-* updatato il kernel di tutti i worker node. Chiusa la coda grid per permettere il riavvio dei worker node per prendersi ultimo kernel installato. EGI RT #7856
23/12/2014
[sergio] - voms-01 voms-02 aggiornati i certificati host in tutti i punti e restartato i servizi.
04/11/2014
[cris] - egi-cloud - abbilitati i nuovi VOMS server per OPS installando wlcg-voms-ops-1.0.0-1.noarch.rpm
30/10/2014
[cris] - ca-policy-egi-core-1.60-1 - aggiornato su prod_all e cert_all
03/10/2014
[sergio] - prod-wn-0XX - come richiesto da Lisa, per fare i suoi test ho aggiunto la configurazione per CVMFS per la VO virgo.
25/09/2014
[cris] - bash - aggiornato bash su prod_all e cert_all (ref. CVE-2014-6271
02/09/2014
[cris] - voms-02 - resincronizzato con il voms2, per rispondere al tkt #17259. Log file con tutte le operazioni e commandi: [[https://gimo2.pd.infn.it:25555/notes/docs_mw/voms-02_resync_2.txt |
voms-02_resync_2.txt]]
[cris] - aggiornati su sanctorum i certificati di: cream-01, gimo2, cert-10, cert-27, cream-03, eu-india-03, cream-05, eu-india-02, cert-06. NON ho richiesto certificati per: cert-02, cert-04, cert-29
02/09/2014
[marco] prod-ce-01, prod-wms-01, prod-se-01,02, prod_wn - installati gli rpm wlcg-voms-* come da broadcast del 17 Marzo sollecitato dal GGUS ticket #108050
27/08/2014
[sergio] cert-37 - la macchina reale dava segni di cedimento di memoria, il tomcat andava in core dump tutti i giorni e anche uno yum update non funzionava piu'. Ho eliminato la cert-29 virtuale di cert-03 (che teneva un vecchio storm) e ho reinstallato da zero usando foreman cert-37 e ho reinstallato CREAM EMI3. Ho aggiornato la documentazione
07/07/2014
[cris]
- prod-ce-01, prod-wms-01 - aggiornati all'ultimo update, EMI 3 Update 18, come verifica prima del rilascio ufficiale, eseguito anche test Nagios senza problemi
- tutti i nodi - aggiornato la ca-policy-egi-core alla versione 1.58
23/05/2014
[sergio] - prod-wn-0XX - come richiesto nel ticket Tkt #105444 aggiunta la configurazione per CVMFS per la VO biomed. E riconfigurati tutti i WNs.
09/04/2014
Richiesti e aggiornati su passtore i certificati di:
prod-wms-01.pd.infn.it
cream-14.pd.infn.it
cert-34.pd.infn.it
cream-43.pd.infn.it
cream-25.pd.infn.it
cream-08.pd.infn.it
cert-31.pd.infn.it
cert-36.pd.infn.it
cert-39.pd.infn.it
cert-38.pd.infn.it
cert-40.pd.infn.it
cert-33.pd.infn.it
cert-35.pd.infn.it
cert-37.pd.infn.it
cert-30.pd.infn.it
cert-32.pd.infn.it
Aggiornate le CA sui nodi di produzione, su cert-37, su prod-wms-01, prod-ce-01.
# rgang prod_wn "rpm -qa | grep egi-core"
prod-wn-010= ca-policy-egi-core-1.56-1
prod-wn-011= ca-policy-egi-core-1.56-1
prod-wn-012= ca-policy-egi-core-1.56-1
prod-wn-013= ca-policy-egi-core-1.56-1
prod-wn-014= ca-policy-egi-core-1.56-1
prod-wn-015= ca-policy-egi-core-1.56-1
prod-wn-016= ca-policy-egi-core-1.56-1
prod-wn-038= ca-policy-egi-core-1.56-1
cert-37# rpm -qa |grep policy
ca-policy-egi-core-1.56-1
prod-wms-01# rpm -qa |grep policy
ca-policy-egi-core-1.56-1
prod-ce-01# rpm -qa |grep ca-policy-egi-core
ca-policy-egi-core-1.56-1.noarch
Aggiornati i certificati host su cert-37, cert-39, prod-wms-01
31/03/2014
[cris] - prod-ce-01 - come richiesto da Tkt #16691 cambiato da "amd64" a "x86_64":
[root@gw-master ~]# grep x86_64 /opt/nfs_install/emi3/emi-site-info.def.current
CE_OS_ARCH=x86_64
# grep -r x86_64 /var/lib/bdii/gip/ldif/*
/var/lib/bdii/gip/ldif/ExecutionEnvironment.ldif:GLUE2ExecutionEnvironmentPlatform: x86_64
/var/lib/bdii/gip/ldif/static-file-Cluster.ldif:GlueHostArchitecturePlatformType: x86_64
## /etc/init.d/bdii restart
Stopping BDII update process: [ OK ]
Stopping BDII slapd: [ OK ]
Starting BDII slapd: [ OK ]
Starting BDII update process: [ OK ]
17/02/2014
[marco] - Applied the following fix to prod-wms-01 WMS for EDGI submission:
===================================================
2010-09-29 12:39, original submission:
Because of this bug, ICE is unable for a certain user on a certain CE to retrieve her/his job status changes. This bug is not completely adressed yet.
There's a workaround to re-enable the correct job status change polling in ICE:
1. stop ICE
2. cd into ICE's persist directory (see glite_wms.conf)
3. execute this command:
sqlite3 ice.db "UPDATE event_id SET eventid='0' WHERE ceurl='<CEURL>' AND userdn='<USERDN>';"
4. make sure the operation succeded:
sqlite3 ice.db "SELECT * FROM event_id;" | grep <USERDN> | grep <CEURL>
5. start ICE
Where <USERDN> is the user's dn+fqan and CEURL is the complete URL of the CE ICE is unable to retrieve the events from for the user (https://<hostname>[:tcpport]/ce-cream/services/CREAM2.
===================================================
Comandi 3 e 4 eseguiti:
[root@prod-wms-01 persist_dir]# sqlite3 ice.db "UPDATE event_id SET eventid='0' WHERE ceurl='https://cr2.edgi-grid.eu:8443/ce-cream/services/CREAM2' AND userdn='/O=dutchgrid/O=robots/O=universiteit-utrecht/OU=chem/CN=Robot: grid client - Alexandre Bonvin 2008-/enmr.eu/haddock/Role=NULL/Capability=NULL';"
[root@prod-wms-01 persist_dir]# sqlite3 ice.db "SELECT * FROM event_id;" | grep Bonvin | grep cr2.edgi
/O=dutchgrid/O=robots/O=universiteit-utrecht/OU=chem/CN=Robot: grid client - Alexandre Bonvin 2008-/enmr.eu/haddock/Role=NULL/Capability=NULL|https://cr2.edgi-grid.eu:8443/ce-cream/services/CREAM2|0
13/02/2014
[sergio] - le crl non si erano aggiornate e ci avevano aperto un ticket: 101198, ho modificato in /etc/cron.d/fetch-crl il parametro -a da 24 a 16. Vediamo se si aggiornano le crl.
[sergio] - prod-ce-01, prod-se-02, prod-ui-02, cert-39, eu-india-03, gilda-02 come richiesto dal ticket xoops tkt 16447 questi host sono stati aggiornati a EMI3 e sono stati configurati via yaim.
10/02/2014
[cris] - prod-wn-0XX - per risolvere Tkt #16392 - installato glibc-devel.x86_64 che mancava da tutti i WNs, tranne prod-wn-010:
PRIMA:
prod-wn-010= glibc-devel-2.5-118.el5_10.2-x86_64
glibc-devel-2.5-118.el5_10.2-i386
prod-wn-011= glibc-devel-2.5-118.el5_10.2-i386
prod-wn-012= glibc-devel-2.5-118.el5_10.2-i386
prod-wn-013= glibc-devel-2.5-118.el5_10.2-i386
prod-wn-014= glibc-devel-2.5-118.el5_10.2-i386
prod-wn-015= glibc-devel-2.5-118.el5_10.2-i386
prod-wn-016= glibc-devel-2.5-118.el5_10.2-i386
prod-wn-038= glibc-devel-2.5-118.el5_10.2-i386
DOPO:
prod-wn-010= glibc-devel-2.5-118.el5_10.2-x86_64
glibc-devel-2.5-118.el5_10.2-i386
prod-wn-011= glibc-devel-2.5-118.el5_10.2-i386
glibc-devel-2.5-118.el5_10.2-x86_64
prod-wn-012= glibc-devel-2.5-118.el5_10.2-i386
glibc-devel-2.5-118.el5_10.2-x86_64
prod-wn-013= glibc-devel-2.5-118.el5_10.2-i386
glibc-devel-2.5-118.el5_10.2-x86_64
prod-wn-014= glibc-devel-2.5-118.el5_10.2-i386
glibc-devel-2.5-118.el5_10.2-x86_64
prod-wn-015= glibc-devel-2.5-118.el5_10.2-i386
glibc-devel-2.5-118.el5_10.2-x86_64
prod-wn-016= glibc-devel-2.5-118.el5_10.2-i386
glibc-devel-2.5-118.el5_10.2-x86_64
prod-wn-038= glibc-devel-2.5-118.el5_10.2-i386
glibc-devel-2.5-118.el5_10.2-x86_64
20/01/2014
[cris] - prod-ce-01 - abilitato il "ARGUS central banning" come descritto nella documentazione, sezione "Site without Argus"
05/01/2014
[cris] - prod-hlr-01- restart del dgas-hlrd. Detagli nel file prod-hlr-01_05_01_2014.txt
02/01/2014
[cris] - voms-01, voms-02, gilda-01, gilda-02 - aggiornati i certificati in scadenza e restart servizi come indicato in Services to be restarted
18/12/2013
[cris] - passtore.pn - installata in new_sanctorum/ l'ultima versione di sanctorum, ricevuta da StefanoDP, che fissa le e-mail doppie. La versione vecchia si trova in sanctorum_old/
03/12/2013
[sergio] - aggiornate le CA (ca-policy-egi-core) in tutte le macchine di produzione bdii, wms, SE, HLR server, voms.
[cris] - prod-wn-012 - per risolvere EGEESA1-16143 - installato emi-wn e reconfiurato, disabilitato yum-autoupdate
02/12/2013
[sergio] - Aggiorante le CA (ca-policy-egi-core) nei CE e in WN di produzione
27/11/2013
[sergio] - prod-hlr-01 - messo il nuovo certificato host e riavviato i servizi dgas-hlrd. Vedere sempre HLR Known Issue per vari mess anomali considerati normali.
21/11/2013
[cris] - cream-mstr-020 - correggere l'errore di "INIT: Id "co" respawning too fast: disabled for 5 minutes" su ogni singola VM:
- Shutdown forzato:
[root@cream-mstr-020 ~]# xm destroy cream-48
- Trovare vmid corrispondente a cream-48:
[root@cream-mstr-020 ~]# less /etc/xen/xmdefconfig
vmid=8
- Modificare inittab:
[root@cream-mstr-020 ~]# mount /dev/xenvg/vm8 /mnt/vm8/
[root@cream-mstr-020 ~]# grep "co:" /mnt/vm8/etc/inittab
co:2345:respawn:/sbin/agetty xvc0 96 9600 vt100-nav
[root@cream-mstr-020 ~]# vi /mnt/vm8/etc/inittab
[root@cream-mstr-020 ~]# umount /mnt/vm2
[root@cream-mstr-020 ~]# grep "co:" /mnt/vm8/etc/inittab
co:2345:respawn:/sbin/agetty xvc0 9600 vt100-nav
[root@cream-mstr-020 ~]#
[root@cream-mstr-020 ~]# umount /mnt/vm8
[root@cream-mstr-020 ~]# xm create -c vmid=8
21/11/2013
[cris] - gimo2 - modificato sl5x-x86_64-domU-sl5x-x86_64-dom0.img.gz per risolvere i errori di varie xenVM(guests) "INIT: Id "co" respawning too fast: disabled for 5 minutes"
15/11/2013
[cris] - gimo2 - restartato dhcpd, fermo per mottivi "sconosciuti", facendo si che nel momento del esaurimento delle lease (6 ore dopo 14:44) voms-01 e voms-02 smettessero di funzionare
[cris] - voms-01,voms-02 - causa problemi dhcp server reboot ci sono stati problemi, risolti disabilitando completamente tomcat5:
Mess d'errore:
voms-01 login: java.net.BindException: Address already in use
[root@voms-01 ~]# service tomcat5 stop
Stopping tomcat5: [ OK ]
[root@voms-01 ~]# chkconfig --list tomcat5
tomcat5 0:off 1:off 2:on 3:on 4:on 5:on 6:off
[root@voms-01 ~]# chkconfig tomcat5 off
[root@voms-01 ~]# chkconfig --list tomcat5
tomcat5 0:off 1:off 2:off 3:off 4:off 5:off 6:off
05/11/2013
[cris] - prod-ce-01 - corretto il valore di SI00 da 2265 a 2260 ( = 250x9.04 (=HEP_SPEC06)) nel site-info.def e reconfigurato, restartatto il bdii su prod-bdii-02 e prod-bdii-01 per risolvere l'errore "The value is incorrect, The difference between the converted SI00 benchmark and HEP-SPEC06 is more than 5%" presente su GSTAT (Site Views, check-ce). FAQ_HEP_SPEC06, EGI Manual TS190
[cris] - voms-02 - resincronizzato con il voms2, per mancanza user della VO ams02.cern.ch. Log file con tutte le operazioni e commandi: voms-02_resinc.txt
17/10/2013
[sergio] - prod-ce-01 - copiato il nuovo certificato e riconfigurato il CE in modo che il certificato sai copiato nei 3 posti usati da cream per il suo funzionamento e i servizi siano restartati.
07/10/2013
[cris] - prod-wms-01 - aggiornato glite-ce-cream-client-api-c alla versione 1.15.3-3.el5 - che fissa il bug CREAM-125/GGUS #97354. Detagli disponibili nel LOG
22/09/2013
[cris] - voms-01, voms-02 - stop/start del servizio "voms" per "Status voms(XXXXX): dead but subsys locked". Info presenti nei log:
Sun Sep 22 20:14:09 2013:voms-01.pd.infn.it:vomsd[11092]: msg="LOG_INFO:REQUEST:logconnection (ipv6sock.cc:115):Received connection from: doctorwho.cnaf.infn.it (131.154.101.121):44854."
Sun Sep 22 20:14:09 2013:voms-01.pd.infn.it:vomsd[11092]: msg="LOG_INFO:REQUEST:Run (vomsd.cc:723):Reached number of maximum active requests: 50. Waiting for some children process to finish."
Sun Sep 22 20:14:09 2013:voms-01.pd.infn.it:vomsd[11091]: msg="LOG_INFO:REQUEST:AcceptGSIAuthentication (Server.cpp:429):Error enstabilishing SSL context."
Sun Sep 22 20:14:09 2013:voms-01.pd.infn.it:vomsd[11091]: msg="LOG_INFO:REQUEST:Run (vomsd.cc:746):Failed to authenticate peer."
Sun Sep 22 20:14:09 2013:voms-01.pd.infn.it:vomsd[11091]: msg="LOG_INFO:REQUEST:Run (vomsd.cc:747):OpenSSL error: SSL Handshake error:"
Sun Sep 22 20:14:09 2013:voms-01.pd.infn.it:vomsd[11092]: msg="LOG_INFO:REQUEST:Run (vomsd.cc:738):Started child executor with pid = 11091"
19/09/2013
[sergio] - prod-ce-01 rebootata la macchina. Aggiornati i pacchetti. Riconfigurata via yaim. Per Per risolvere problemi al ticket: https://ggus.eu/ws/ticket_info.php?ticket=97354
03/09/2013
[cris] - modificati tutti i sl6x-x86_64-*.ks per cambiare i repositories SL6x:
- IP address of installation server
#url --url http://linuxsoft.cern.ch/scientific/6x/x86_64/os
url --url http://ftp.scientificlinux.org/linux/scientific/6x/x86_64/os/
03/09/2013
[cris] - voms-01, voms-02 - aggiornati a VOMS-admin 3.2.0 - log file con tutte le operazioni e commandi: voms_update_3_2_0.txt
06/08/2013
[cris] - prod-wn-10,11,12,13,14,15,16,38 - applicato il hotfix richiesto nelt tkt https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=15689, per vulnerabilità CVMFS < 2.1.14
[root@gw-master ~]# rgang prod_wn "/usr/local/nfs/apply_vuln_fix.sh"
[root@gw-master ~]# rgang prod_wn "ls -l /etc/auto.cvmfs*"
prod-wn-010=
-rwxr-xr-x 1 root root 388 Aug 13 20:21 /etc/auto.cvmfs
-rwxr-xr-x 1 root root 388 Aug 23 10:51 /etc/auto.cvmfs.vulnerable
prod-wn-011=
-rwxr-xr-x 1 root root 388 Aug 13 20:21 /etc/auto.cvmfs
-rwxr-xr-x 1 root root 137 Aug 23 10:51 /etc/auto.cvmfs.vulnerable
prod-wn-012=
-rwxr-xr-x 1 root root 388 Aug 13 20:21 /etc/auto.cvmfs
-rwxr-xr-x 1 root root 137 Aug 23 10:51 /etc/auto.cvmfs.vulnerable
prod-wn-013=
-rwxr-xr-x 1 root root 388 Aug 13 20:21 /etc/auto.cvmfs
-rwxr-xr-x 1 root root 137 Aug 23 10:51 /etc/auto.cvmfs.vulnerable
prod-wn-014=
-rwxr-xr-x 1 root root 388 Aug 13 20:21 /etc/auto.cvmfs
-rwxr-xr-x 1 root root 137 Aug 23 10:51 /etc/auto.cvmfs.vulnerable
prod-wn-015=
-rwxr-xr-x 1 root root 388 Aug 13 20:21 /etc/auto.cvmfs
-rwxr-xr-x 1 root root 137 Aug 23 10:51 /etc/auto.cvmfs.vulnerable
prod-wn-016=
-rwxr-xr-x 1 root root 388 Aug 13 20:21 /etc/auto.cvmfs
-rwxr-xr-x 1 root root 137 Aug 23 10:51 /etc/auto.cvmfs.vulnerable
prod-wn-038=
-rwxr-xr-x 1 root root 388 Aug 13 20:21 /etc/auto.cvmfs
-rwxr-xr-x 1 root root 137 Aug 23 10:51 /etc/auto.cvmfs.vulnerable
09/08/2013
[sergio] - gilda-01 - stoppato munge, killato il processo di munge e restartato munge
06/08/2013
[cris] - prod-se-01 - reconfigurato per risolvere https://ggus.eu/ws/ticket_info.php?ticket=96379, abilitando checksum seguendo la guida: https://www.gridpp.ac.uk/wiki/StoRM#Checksums. In site-info.def:
e nel nodes/prod-se-01.pd.infn.it
STORM_CKSUM_SUPPORT="false"
05/08/2013
[sergio] - prod-ce-01,prod-se-01,prod-se-02,cert-37 rimozione della VO cyclops come richiesto neol ticket GGUS #95782
31/07/2013
[sergio] - prod-wn-010- prod-wn-038 Su tutti i worker node cambiata una riga del /etc/nsswitch.conf da "automount: files nisplus" a "automount: files" e modificati i permessi di quel file in 0644 che causavano problemi a cvmfs
18/07/2013
[sergio] - voms-01, voms-02 configurato il bdii che non era stato fatto completamente il 14/05/2013 sempre seguendo stessa documentazione.
16/07/2013
[sergio] - prod-se-01 updatato StoRM a EM3 per supportare certificati SHA2. Eseguita riconfigurazione
14/05/2013
[sergio] - prod-se-01, cert-37, prod-ce-01 come richiesto nel GGUS ticket 93497, rimossa la VO lights.infn.it
14/05/2013
[sergio] - voms-01, voms-02 aggiornati a EMI3 seguendo la guida: https://github.com/italiangrid/voms/wiki/System-Administrator-guide in EMI3 per voms non si usa piu' yaim lanciato per ogni VO come da documentazione il comando voms-configure install con tutti i parametri
23/04/2013
[sergio] - prod-hlr-01 Dato accesso a Guarise mediante chiave ssh per monitorare hlr server. Chiedendo che eventuali modifiche o altro vengano documentate e descritte e che ci tenga aggiornati.
23/04/2013
[sergio] - voms-01, voms-02 riconfigurati i voms che dopo il riavvio fatto dopo il black out avevano problemi con librerie di security. Probabilemnte si era installato un tomcat o un java piu' nuovo. Rifatte le repliche mendiante lo script next_replica.sh per tutte le VO.
19/04/2013
[sergio] - prod-wnriconfigurati tutti WN per avere CVMFS anche per Wenmr. (Fatto dopo il black out) vedere doc: https://www.gridpp.ac.uk/wiki/RALnonLHCCVMFS
04/04/2013
[sergio] - prod-bdii-01 aggiunta la riga descritta da Maria nel ticket GGUS 92959 nel file /etc/init.d/bdii
02/04/2013
[sergio] - prod-se-01 riconfigurato dando nel nodes/prod-se-01 600 GB alla VO biomed vedi ticket: GGUS 92970
01/04/2013
[cris] - cert-28 problema "Stale NFS". Soluzione: http://www.cyberciti.biz/tips/nfs-stale-file-handle-error-and-solution.html
[root@cert-28 ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 40G 2.8G 36G 8% /
tmpfs 50M 0 50M 0% /dev/shm
df: `/usr/local/nfs': Stale NFS file handle
[root@cert-28 ~]# umount -f /usr/local/nfs
[root@cert-28 ~]# cat /etc/fstab
/dev/sda1 / ext3 defaults 1 1
tmpfs /dev/shm tmpfs defaults 0 0
devpts /dev/pts devpts gid=5,mode=620 0 0
sysfs /sys sysfs defaults 0 0
proc /proc proc defaults 0 0
/dev/sda3 swap swap defaults 0 0
gw-master:/opt/nfs_install /usr/local/nfs nfs ro,defaults 0 0
[root@cert-28 ~]# mount -t nfs gw-master:/opt/nfs_install /usr/local/nfs
[root@cert-28 ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 40G 2.8G 36G 8% /
tmpfs 50M 0 50M 0% /dev/shm
gw-master:/opt/nfs_install
195G 57G 129G 31% /usr/local/nfs
26/03/2013
[sergio] - gilda-02 - reinstallata la macchina, e il DPM di GILDA EMI2. gilda-01 stoppato maui e killato il processo e fatto ripartire.
19/03/2013 - 21/03/2013
[sergio] - prod-bdii-01, prod-bdii-02 portati alla versione EMI3 di top e site bdii. prod-ce-01, cert-37, prod-se-02 aggiornati con ultima EMI2 version. prod-wn-010 - prod-wn-016, prod-wn-038 portati alla versione EMI3. Tutte le macchine in oggetto sono state riconfigurate.
13/03/2013
[marco] - gilda-02 VM migrata dal KVM server gilda-11 al KVM server gilda-10. Il testbed GILDA-PADOVA ora e' composto da gilda-01 (CE), gilda-02 (SE) e gilda-wn-[01,02].pn (WNs) tutti ospitati da gilda-10. Il server gilda-11 viene scratchato e dedicato al deployment di OpenStack.
07/03/2013
[cris] - voms-02 - restart voms (fare "stop", seguito da "start", vedi sotto) a causa pb con le VO enmr.eu e superbvo.org:
# /etc/init.d/voms status
Status voms(ams02.cern.ch): (pid 24996) is running...
Status voms(compassit): (pid 25011) is running...
Status voms(comput-er.it): (pid 25026) is running...
Status voms(cyclops): (pid 25041) is running...
Status voms(enmr.eu): dead but subsys locked
Status voms(euchina): (pid 25071) is running...
Status voms(euindia): (pid 25086) is running...
Status voms(eumed): (pid 20617) is running...
Status voms(glast.org): (pid 25116) is running...
Status voms(ipv6.hepix.org): (pid 25131) is running...
Status voms(pacs.infn.it): (pid 25146) is running...
Status voms(superbvo.org): (pid 25161) is running...
Status voms(tps.infn.it): (pid 25176) is running...
[root@voms-02 ~]# /etc/init.d/voms stop enmr.eu
Stopping voms(enmr.eu): (already stopped)
[root@voms-02 ~]# /etc/init.d/voms start enmr.eu
Starting voms(enmr.eu): [ OK ]
26/02/2013
Aggiunto vo.SAM service al GOCDB per il Nagios di WeNMR (come da mail di Tiziana del 26/2/2013 subject:[Ucb-discuss] registration of VO SAM installations in GOCDB)
18/02/2013
[cris] - prod-bdii-01 - causa pb notificati da "doctorwho" fatto:
# /etc/init.d/bdii restart
Stopping BDII update process: [ OK ]
Stopping BDII slapd: [ OK ]
Starting BDII slapd: [ OK ]
Starting BDII update process: [ OK ]
# /etc/init.d/yum stop
Disabling nightly yum update: [ OK ]
# chkconfig yum off
11/02/2013
[sergio] - gilda-01 fatto un yum update. Riavviata la macchina per problemi di NFS rispetto gw-master. C'era il servizio maui che se pur segnalato running si era bloccato. Pur facendo stop rimaneva attivo il processo. Dopo il riavvio tutto è tornato a funzionare regolarmente.
17/01/2013
[sergio] - gw-master migrato a SL6 x86_64.
- Lascisato solo interfaccia pubblica, perche' in gimo2 non e' possibile avere un brige privato perche' e' una BLADE HP e le connessioni sono tramite uno switch interno che poi vengono collegate al trunk verso switch generale. Ma funzionano solo le eth0 e non le eth1, servirebbe un'altro switch interno all'enclousure HP, oppure far si che eth0 di gimo2 appartenga a 2 VPN.
- LSF master migrato: Creato un link simbolito: ln -sf /lib64/libc.so.6 /lib/libc.so.6 per permettere la corretta esecuzione del comando: hostsetup --top="/opt/lsf_7.0/" --boot="y" --profile="y" --start="y".
- Ripristinata la directory NFS e rgang in gw-master
- prod-ce-01, cert-37 e tutti i WN prod-wn-010 prod-wn-011 prod-wn-012 prod-wn-013 prod-wn-014 prod-wn-015 prod-wn-016 prod-wn-038 riconfigurati via yaim (i WN anche per assolvere al ticket: https://ggus.eu/ws/ticket_info.php?ticket=89395 ) modificato solo in questi host il file /root/.ssh/authorized_keys2 con la nuova chiave pubblica di gw-master
07/01/2013
[sergio] - Su tutti i WN di produzione 10 11 12 13 14 15 16 38 eliminato il kernel esistente (conflitti con kernel AFS) installato il nuovo kernel e AFS mediante il profilo igi-wn-lsf e rebootati e riconfigurati. (Richiescta fatta da CDF)
04/01/2013
[sergio] - voms-01, voms-02 installati i nuovi certificati e copiati anche come tomcat-cert.pem e tomcat-key.pem e fatto restart dei servizi. gilda-01, gilda-02 instalalti i nuovi servizi e riconfigurato via yaim.
28/12/2012
[cris] - gw-master, cream-17 - modifica "temporanea" per le licenze LSF usando "old-style" license file:
# grep LICENSE /opt/lsf_7.0/conf/lsf.conf
LSF_LICENSE_FILE=/opt/lsf_7.0/conf/license.legacy.lsf.rtm.dat
#LSF_LICENSE_FILE=1700@flexserver-1.cr.cnaf.infn.it:1700@flexserver-2.cr.cnaf.infn.it:1700@flexserver-3.cr.cnaf.infn.it
# lsadmin ckconfig
Checking configuration files ...
No errors found.
# badmin ckconfig
Checking configuration files ...
No errors found.
# lsadmin reconfig -v
# lsadmin -C "Cris: applicato nuovo license file" reconfig
10/12/2012
[sergio] - prod-ui-01 - migrata la UI da SL4 a SL6 con profili UI e PX. Per utenti LDAP Alberto ha instalalto degli openladp patchati che si trovano in /root per permettere autenticazione agli ldap server di PD con protocollo ldaps
05/12/2012
[cris] - voms-02 - restart voms (stop/start) causa pb con le VO enmr.eu e superbvo.org:
]# /etc/init.d/voms status
Status voms(ams02.cern.ch): (pid 2333) is running...
Status voms(compassit): (pid 2349) is running...
Status voms(comput-er.it): (pid 2364) is running...
Status voms(cyclops): (pid 2385) is running...
Status voms(enmr.eu): dead but subsys locked
Status voms(euchina): (pid 2415) is running...
Status voms(euindia): (pid 2448) is running...
Status voms(eumed): (pid 2585) is running...
Status voms(glast.org): (pid 2712) is running...
Status voms(ipv6.hepix.org): (pid 2873) is running...
Status voms(pacs.infn.it): (pid 3056) is running...
Status voms(superbvo.org): dead but subsys locked
Status voms(tps.infn.it): (pid 3350) is running...
12/11/2012
[sergio] - prod-ce-01 - aggiornato il CE da EMI1 a EMI2 per un possibile problema sul BUpdaterLSF (vedi: https://ggus.eu/tech/ticket_show.php?ticket=88316). In prod-ce-01 creato utente mezzadri per permettere di vedere nei log cosa c'e' e di controlalre la memoria dei processi BLAH.
09/11/2012
[sergio] - gimo2 - spento il vecchio gimo2 SL4 i386 e rimpiazzato con il nuovo SL6 x86_64 nella BLADE HP (ex vm-master-04), migrati tutti i servizi. gimo2 e' anche KVM master, e ospitera' il nuovo gw-master.
[sergio] - gimo2 installata e configurata la nuova versione di pmwiki
22/10/2012
[cris] - prod-bdii-01 - cambiamenti richiesti per "performance monitoring"
[root@prod-bdii-01 ~]# cat /etc/bdii/bdii-slapd.conf|grep log
loglevel 256
[root@prod-bdii-01 ~]# /etc/init.d/bdii restart
[cris] - cert-11 - SL^ - installato nfs-utils e startato i servizi nfslock e rpcbind. Altriemnti non funzionava il mount.
18/10/2012
[marco] - Modifiche in gw-master per inserire la coda wnodes nei files: /opt/lsf_7.0/conf/lsf.cluster.pd_lsf70_sl4, /opt/lsf_7.0/conf/lsbatch/pd_lsf70_sl4/configdir/lsb.queues e lsb.hosts, e aggiunta dei files /opt/lsf_7.0/scripts/wnodes_preexec e /opt/lsf_7.0/conf/wnodes_preexec.conf
12/10/2012
[marco] - A quick manual for installing a VM with KVM is now available here
10/10/2012
[cris] - gilda-01 - corretto informazioni pubblicate per eliminare _LCG_, causa tkt #14172. File modificati:
- /etc/glite-info-static/site/site.cfg
- /etc/glite-info-static/site/site.cfg
- /opt/nfs_install/gilda/gilda-site-info.def (su gw-master)
- /opt/nfs_install/gilda/services/glite-bdii_site (su gw-master)
i primi due per non dover reconfigurare, i ultimi due file per preparargli per le future configurazioni.
[cris] - prod-ui-02 - aggiunto downtime per rimpiazzare SL4, fermato bdii per non essere più vista.
10/09/2012
[sara] Misono fatta aiutare da Alberto Crescente per sistemare la cert-39 (avevamo un ticket e un unscheduled downtime). Aveva un banco di memoria rotto, abbiamo lasciato solo 1G. I banchi tolti sono in sala macchine vicino al monitor etichettati cert-39. Da velutare se cannibalizzare della memoria da un'altra macchina spenta.
[sara] Dei certificati da rinnovare
- ho richiesto:
cream-01.pd.infn.it
cert-04.pd.infn.it
gimo2.pd.infn.it
cert-10.pd.infn.it
cert-27.pd.infn.it
cream-03.pd.infn.it
eu-india-03.pd.infn.it
cert-29.pd.infn.it
cream-05.pd.infn.it
cert-02.pd.infn.it
cert-06.pd.infn.it
eu-india-02.pd.infn.it
- non ho richiesto quelli per:
eu-india-04
cert-28
cert-27
perche` sono macchine che non rispondono al ping.
20/08/2012 - 28/08/2012
[sergio] prod-mon-01, prod-se-01, prod-se-02 - installato in prod-mon-01 il kvm master con SL6 e installate 2 virtuali che sono prod-se-01 e prod-se-02. Partizionato i pool di dischi in 3 parti 2TB dedicati a prod-mon-01, 4,2TB dedicati a prod-se-01 e 4TB dedicati a prod-se-02. Installati con EMI2 i profili StoRM in prod-se-01 e DPM in prod-se-02. Copiati i file presenti negli SE dui pool di dischi al 20/08/2012 (cirsa 2TB per DPM e circa 1TB per StoRM). Reinstalalti tutti i WN di produzione e installato emi1 e igi release. Seguendo questa documentazione https://wiki.italiangrid.it/twiki/bin/view/SiteAdminCorner/HowToEnableIGI installati 2 squid server in prod-wn-010.pn e in prod-wn-011.pn e in tutti i WN installato cvmfs. problemi nello startup di cvmfs (mandata mail a Paolo Veronesi in attesa di risposta). Dismesso prod-ce-02 (vecchio lcgCE), rimosse le voci production e monitored dal GOC-DB. In tutte le macchine di produzione (eccetto la UI) riconfigurate per far vedere la nuova VO igi.italingrid.it e il CE prod-ce-01 come CE di riferimento del sito. Attendiamo un mesetto per rimuovere dal BDII il prod-ce-02 e spegnerlo definitivamente.
14/08/2012
[cris] prod-wms-01 - aggiornato al ultimo Update EMI (18) - con nuovo bdii, wms-ice (3.3.5-4) e globus 5.2.1. See log_update_prod-wms-01
13/08/2012
[sara] Il DNS ha problemi (chi lo usa da solo non risolve piu i nomi o li risolve a tratti). I voms server hanno nagios che segnala problemi continuamente. Poi ha dato problemi anche prod-bdii-01 (segnalazione nagios). Ho cambiato gli /etc/resolv.conf
da:
; generated by /sbin/dhclient-script
search pd.infn.it
nameserver 192.84.143.224
a:
; generated by /sbin/dhclient-script
search pd.infn.it
nameserver 192.84.143.31
nameserver 192.84.143.16
nameserver 192.84.143.224
su:
voms-01
voms-01
prod-bdii-01
prod-ce-01
prod-ce-02
prod-hlr-01
cert-37 prod-wms-01 prod-lb-01 prod-se-01 prod-se-02 avevano gia` un altro dns. Io non conosco la topologia della rete e non so quali sono i dns corretti da usare, ma forse sarebbe bene ridondarli comunque in configurazione.
09/08/2012
[sara] Aggiornate le ca in produzione:
yum update ca-policy-egi-core
su
cert-37
prod-ce-01
prod-ce-02
prod-wn-010
prod-wn-011
prod-wn-012
prod-wn-013
prod-wn-014
prod-wn-015
prod-wn-016
prod-wn-038
prod-wms-01
prod-lb-01
prod-hlr-01
prod-se-01
prod-se-02
prod-ui-02
Su voms-01 e voms-02 le ca erano gia` aggiornate.
08/08/2012
[cris] voms-02 - restart tomcat5 (stop/start) causa ricezione messaggi da nagios@doctorwho
voms-01 - problemi con VO cdf:
[root@voms-01 ~]# /etc/init.d/voms status
Status voms(argo): (pid 26715) is running...
Status voms(bio): (pid 26730) is running...
Status voms(cdf): dead but subsys locked
Status voms(compchem): (pid 26760) is running...
Status voms(enea): (pid 26775) is running...
Status voms(gridit): (pid 26790) is running...
Status voms(inaf): (pid 26805) is running...
Status voms(infngrid): (pid 26820) is running...
Status voms(libi): (pid 26854) is running...
Status voms(pamela): (pid 26870) is running...
Status voms(planck): (pid 26888) is running...
Status voms(theophys): (pid 30840) is running...
Status voms(virgo): (pid 26922) is running...
[root@voms-01 ~]# /etc/init.d/voms stop cdf
Stopping voms(cdf): (already stopped)
[root@voms-01 ~]# /etc/init.d/voms start cdf
Starting voms(cdf): [ OK ]
[root@voms-01 ~]# /etc/init.d/voms status
Status voms(argo): (pid 26715) is running...
Status voms(bio): (pid 26730) is running...
Status voms(cdf): (pid 12037) is running...
Status voms(compchem): (pid 26760) is running...
Status voms(enea): (pid 26775) is running...
Status voms(gridit): (pid 26790) is running...
Status voms(inaf): (pid 26805) is running...
Status voms(infngrid): (pid 26820) is running...
Status voms(libi): (pid 26854) is running...
Status voms(pamela): (pid 26870) is running...
Status voms(planck): (pid 26888) is running...
Status voms(theophys): (pid 30840) is running...
Status voms(virgo): (pid 26922) is running...
19/07/2012
[sergio] prod-lb-01 prod-wms-01 prod-bdii-02 instalalto bacula-client come da doc.
17/07/2012
[sergio] prod-lb-01 prod-wms-01 reinstalalte le macchine con SL5 e reinstallato il middleware (EMI) LB e WMS. prod-bdii-02 spenta la macchina, e messa in una virtuale e reinstallato il middleware (EMI)
[cris] prod-wms-01 - applicato fix "issue" WMS
03/07/2012
[sergio] voms-01 modificata la variabile timeout nel file /etc/voms/theophys/voms.conf in accordo con i voms del CNAF e la VO theophys. Modificato il relativo services/glite-voms in /root di voms-01
23/05/2012
[sergio] voms-02 voms-01 update e reconfigure passando a EMI2
11/05/2012
[sergio] prod-ce-01, prod-ce-02, cert-37, prod-se-01, prod-se-02 rispondendo al ticket xoops #13229 e' stata rimossa la VO ingv da tutti i profili installati su quelle macchine. Ho lanciato lo scriptino ig-delete-users.sh e solo in prod-se-02. In prod-se-02 piccoli problemi in /etc/group /etc/passwd (mancava utente root), sistremati da Cristina.
19/04/2012
[sergio] prod-bdii-01 aggiunto nel file di conf in gw-master questa costante BDII_LFC2_URL="ldap://lfc.italiangrid.it:2170/mds-vo-name=resource,o=grid" e riconfigurato il servizio. prod-wms-01 prod-ce-02 cert-37 cert-39 copiato il nuovo certificato host in tutti i punti e riavviati i servizi. Per il CE anche riconfigurato, per il WMS cancellati alcuni job che bloccavano i servizi e fatto ripartire tutto.
15/04/2012
[cris] voms-02 - restart tomcat5 (stop/start) causa ricezione messaggi da nagios@doctorwho:
subject: [grid-services-pd] ** PROBLEM: voms-admin GLAST.ORG is CRITICAL on voms-02.pd.infn.it **
***** INFN-CNAF - Nagios del Servizio Grid *****
Date-Time: 04-14-2012-01:20:03
NotificationType: PROBLEM
Host: voms-02.pd.infn.it
Address: 193.206.210.184
Service: voms-admin GLAST.ORG
Status: CRITICAL
Output: (Service Check Timed Out)
06/04/2012
[sergio]gilda-02 rimossa la VO biomed come richiesto via mail
04/04/2012
[sergio] Seguendo questo ticket #13084, prod-hlr-01 cancellate le risorse di Parma solo (emi-ce.pr.infn.it cream-ce.pr.infn.it) e riaggiunte mediante procedura automatica (dal bdii)
prod-bdii-01 riconfigurato, perche' non appariva il sito INFN-Pavia, magicamente ricomparso il giorno dopo (05/04/2012)
03/04/2012
[sergio] aggiornate le CA in tutte le macchine di produzione.
27/03/2012
[sergio] in prod-wms-01 e eu-india-02 installatom ultimo rpm di lcg-vomscerts: lcg-vomscerts-6.9.0-1.slc4.noarch.rpm
aggiunto il TAG: HYDRA-CLIENT-3_1 nei site-info.def dei rispettivi CE prod-ce-01 prod-ce-02 cert-15 cert-37 e poi riconfigurati per pubblicare il tag coem richiesto in xoops 12904
23/03/2012
- [sara] installato lsf su cert-08 (prima volta su sl6)
Prima di tutto ho dovuto sistemare nfs:
yum install nfs-utils
chkconfig nfs on
chkconfig rpcbind on
chkconfig nfslock on
service rpcbind start
service nfs start
service nfslock start
Sto aspettando di recuperare le librerie glibc
02/02/2012
- [simone] migrato voms-02 da gLite 3.2 a EMI
Passi eseguiti:
- backup dei file di configurazione (/root/*, /etc/my.cnf, /etc/cron.monthly/*.sh) della versione gLite 3.2 in gw-master:/usr/local/nfs/voms-02/
- installazione SL5/x86_64 su VM (in vm-master-02) con upgrade dell'ultimo kernel XEN
- copia dei certificati hostcert.pem e hostkey.pem
- installazione bacula
- preparazione repository:
#yum install yum-priorities yum-protectbase
#cd /etc/yum.repos.d/
#mv dag.repo dag.repo.orig
#rpm -ivh http://emisoft.web.cern.ch/emisoft/dist/EMI/1/sl5/x86_64/updates/emi-release-1.0.1-1.sl5.noarch.rpm
#wget http://repo-pd.italiangrid.it/mrepo/repos/egi-trustanchors.repo
#wget http://download.fedoraproject.org/pub/epel/5/i386/epel-release-5-4.noarch.rpm
#rpm -ivh epel-release-5-4.noarch.rpm
- installazione:
#yum install ca-policy-egi-core
#yum install xml-commons-apis
#yum install emi-voms-mysql
- setup mysql:
#service mysqld start
#/usr/bin/mysqladmin -u root password <admin-pw>
#mysql -u root -p<admin-pw>
mysql>grant all on *.* to 'root'@'voms-02' identified by 'admin-pw';
mysql>grant all on *.* to 'root'@'voms-02.pd.infn.it' identified by 'admin-pw';
mysql>grant all on *.* to 'root'@'localhost' identified by 'admin-pw';
mysql>exit
- copia dei file di configurazione (/root/*, /etc/my.cnf, /etc/cron.monthly/*.sh) dalla vecchia versione gLite 3.2
- aggiunto a /root/services/glite-voms la variabile VOMS_ADMIN_CA_RELOAD_PERIOD=-1 per disabilitare l'aggiornamento delle CA da parte di voms-admin
- modificati gli script in /root/voms-script/ e i cron in /etc/cron.monthly/ per adattarli alla versione EMI
- configurazione yaim:
#/opt/glite/yaim/bin/yaim -d 6 -c -s /root/site-info.def -n VOMS 2>&1 | tee /root/conf_glite_VOMS.`hostname -s`.`date +%Y-%m-%d-%H-%M-%S`.log
- replica da voms2.cnaf.infn.it:
#source /etc/profile.d/grid-env.sh
#service mysqld stop
#service mysqld start
#cd /root/voms-scripts
#./next_replicas.sh --master-db=voms_enmr_eu --db=voms_enmr_eu
#./next_replicas.sh --master-db=voms_ams02_cern_ch --db=voms_ams02_cern_ch
#./next_replicas.sh --master-db=voms_compassit --db=voms_compassit
#./next_replicas.sh --master-db=voms_computer_it --db=voms_computer_it
#./next_replicas.sh --master-db=voms_cyclops --db=voms_cyclops
#./next_replicas.sh --master-db=voms_eticsproject_eu --db=voms_ipv6_hepix_org
#./next_replicas.sh --master-db=voms_euchina --db=voms_euchina
#./next_replicas.sh --master-db=voms_euindia --db=voms_euindia
#./next_replicas.sh --master-db=voms_eumed --db=voms_eumed
#./next_replicas.sh --master-db=voms_glast_org --db=voms_glast_org
#./next_replicas.sh --master-db=voms_pacs_infn_it --db=voms_pacs_infn_it
#./next_replicas.sh --master-db=voms_superbvo_org --db=voms_superbvo_org
#./next_replicas.sh --master-db=voms_tps_infn_it --db=voms_tps_infn_it
26/01/2012
- [simone] Causa passati problemi di replica tra i VOMS del CNAF e di Padova in occasione di aggiornamenti delle CA, in voms-01 s'e' disabilitato il processo di voms-admin che aggiorna le CA nella tabella delle VO. Per effettuare tale operazione s'e' impostata nel file di configurazione yaim services/glite-voms la variabile VOMS_ADMIN_CA_RELOAD_PERIOD=-1, con successiva riconfigurazione del nodo.
La stessa operazione e' stata tentata su voms-02, ma senza successo perche' nella versione gLite 2.5.5 un bug impedisce la disattivazione dell'updater delle CA.
20/01/2012
#/etc/init.d/voms restart compchem
17/01/2012
- [simone] aggiunto blah 1.16.4 in cert-37
11/01/2012
- [simone] update di cert-39 a EMI LFC_mysql 1.8.2
10/01/2012
- [simone] cambiati gli script di voms-01 relativi alle statistiche mensili (in /root/voms-scripts/ e in /etc/cron.monthly/), perche' con il passaggio da gLite a EMI riportavano dei valori sbagliati
- [simone] upgrade a ig-vomscerts-all-1.1-15 sui profili gLite 3.1 lcg-CE, STORM, WMS
09/01/2012
- [simone] creato il pacchetto ig-vomscerts-all-1.1-15 (e aggiunto nel repo di produzione repo-pd.italiangrid.it) contenente i certificati aggiornati dei VOMS server:
grid12.lal.in2p3.fr
voms-01.pd.infn.it
voms-02.pd.infn.it
voms.cnaf.infn.it
voms.fnal.gov
voms.grid.sara.nl
vomsdir/voms.grid.sinica.edu.tw
voms.gridpp.ac.uk
voms.research-infrastructures.eu
voms2.cnaf.infn.it
22/12/2011
- [sergio/simone] migrato voms-01 da gLite 3.2 a EMI
dopo l'update alle CA 1.43-1 i 2 voms server (voms-01 e voms-02) avevano interfaccia web bloccata, si e' deciso di migrare voms-01 a EMI release. (per gLite 3.2 è necessario usare la backward compatible version - http://egi-igtf.ndpf.info/distribution/egi/current-old/ - a causa di problemi con VOMS-Admin: https://savannah.cern.ch/bugs/?78349), su voms-01 si sono registrati alcuni problemi, risolti, nelle repliche, inoltre l'interfaccia web non era più raggiungibile; per risolvere il problema e per allinearsi a voms.cnaf.infn.it, di cui voms-01 è copia, è stata installata la versione EMI.
Passi eseguiti:
- backup dei file di configurazione (/root/*, /etc/my.cnf, /etc/cron.monthly/*.sh) della versione gLite 3.2 in gw-master:/usr/local/nfs/voms-01/
- installazione SL5/x86_64 su VM (in vm-master-01) con upgrade dell'ultimo kernel XEN
- copia dei certificati hostcert.pem e hostkey.pem
- installazione bacula
- preparazione repository:
#yum install yum-priorities yum-protectbase
#cd /etc/yum.repos.d/
#mv dag.repo dag.repo.orig
#rpm -ivh http://emisoft.web.cern.ch/emisoft/dist/EMI/1/sl5/x86_64/updates/emi-release-1.0.1-1.sl5.noarch.rpm
#wget http://repo-pd.italiangrid.it/mrepo/repos/egi-trustanchors.repo
#wget http://download.fedoraproject.org/pub/epel/5/i386/epel-release-5-4.noarch.rpm
#rpm -ivh epel-release-5-4.noarch.rpm
- installazione:
#yum install ca-policy-egi-core
#yum install xml-commons-apis
#yum install emi-voms-mysql
- setup mysql:
#service mysqld start
#/usr/bin/mysqladmin -u root password <admin-pw>
#mysql -u root -p<admin-pw>
mysql>grant all on *.* to 'root'@'voms-01' identified by 'admin-pw';
mysql>grant all on *.* to 'root'@'voms-01.pd.infn.it' identified by 'admin-pw';
mysql>grant all on *.* to 'root'@'localhost' identified by 'admin-pw';
mysql>exit
- copia dei file di configurazione (/root/*, /etc/my.cnf, /etc/cron.monthly/*.sh) dalla vecchia versione gLite 3.2
- configurazione yaim:
#/opt/glite/yaim/bin/yaim -d 6 -c -s /root/site-info.def -n VOMS 2>&1 | tee /root/conf_glite_VOMS.`hostname -s`.`date +%Y-%m-%d-%H-%M-%S`.log
- replica da voms.cnaf.infn.it:
#source /etc/profile.d/grid-env.sh
#service mysqld stop
#cd /var/lib/mysql
#rm -rf voms-01-relay-bin.*
#service mysqld start
#cd /root/voms-scripts
#./next_replicas.sh --master-db=voms_argo --db=voms_argo
#./next_replicas.sh --master-db=voms_bio --db=voms_bio
#./next_replicas.sh --master-db=voms_cdf --db=voms_cdf
#./next_replicas.sh --master-db=voms_compchem --db=voms_compchem
#./next_replicas.sh --master-db=voms_enea --db=voms_enea
#./next_replicas.sh --master-db=voms_infngrid --db=voms_infngrid
#./next_replicas.sh --master-db=voms_gridit --db=voms_gridit
#./next_replicas.sh --master-db=voms_inaf --db=voms_inaf
#./next_replicas.sh --master-db=voms_ingv --db=voms_ingv
#./next_replicas.sh --master-db=voms_libi --db=voms_libi
#./next_replicas.sh --master-db=voms_pamela --db=voms_pamela
#./next_replicas.sh --master-db=voms_planck --db=voms_planck
#./next_replicas.sh --master-db=voms_theophys --db=voms_theophys
#./next_replicas.sh --master-db=voms_virgo --db=voms_virgo
- a questo punto il web non funzionava, affinché vada è necessario avviare voms-admin una VO alla volta
- sistemazione web:
#/etc/init.d/voms-admin stop
#/etc/init.d/voms-admin start <VO> #[da ripetete per ogni VO]
#/etc/init.d/voms-admin start-siblings
15/12/2011
- [sergio] in voms-01, voms-02 fatto i drop di tutti i database di tipo voms_<VO_name> e successivamente ricreati tutti i database (identici a prima ma vuoti). Poi lanciato lo script next_replicas.sh per tutte le VO. Lo script si trova in /root/voms-script e un esempio e' questo : ./next_replicas.sh --master-db=voms_virgo --db=voms_virgo ovviamente fatto per tutte le VO sia in voms-01 che in voms-02.
12/12/2011
- [sergio] in prod-wms-01 cambiato nel cron /etc/cron.d/glite-wms-wmproxy.restart.cron il parametro restart con graceful per avere un riavvio del processo wmproxy piu' soft e non con dei kill brutali che poi mandava mail.
08/12/2011
- [simone] in tutti i servizi di produzione, WeNMR ed euindia, rimossi i file repo con grid-it.cnaf.infn.it
e aggiunti quelli con repo-pd.italiangrid.it e repo-cnaf.italiangrid.it
- [simone] in tutti i servizi di produzione, WeNMR ed euindia aggiornate le CA 1.43-1
- [simone] creata la directory gw-master:/usr/local/nfs/emi1/ contenente i file di configurazione yaim per profili EMI; note:
emi-users.conf: fatta l'unione degli users.conf di gLite 3.1 e 3.2
emi-groups.conf: fatta l'unione dei groups.conf di gLite 3.1 e 3.2
emi-site-info.def, modificati:
-INSTALL_DIR=/usr/local/nfs/emi1
-CE_SMPSIZE=24
-SI00MeanPerCPU_2975
-SF00MeanPerCPU_2868
-CE_OTHERDESCR="Cores=10.75,Benchmark=9.04-HEP-SPEC06"
-CE_RUNTIMEENV= "...EMI..."
-CE_MINVIRTMEM=4096
-JOB_MANAGER=lsf
-#GRIDICE_SERVER_HOST=$MON_HOST
-#GRIDICE_MON_WN=yes
-#GRIDICE_HIDE_USER_DN=no
-USERS_CONF=${INSTALL_DIR}/emi-users.conf.current
-GROUPS_CONF=${INSTALL_DIR}/emi-groups.conf.current
-#in VOS aggiunta eumed (c'era su gLite 3.1, non su gLite 3.2), rimossa lights.infn.it
- [simone] spento prod-ce-01 sul vecchio host a 32 bit e reinstallato, virtuale su vm-master-02, come EMI creamCE con LSF_utils (SL5/x86_64); note:
-installati DGAS_sensors
-CE in no cluster mode
-attivato CEMON (USE_CEMON=true)
-non attivato MPI (ENABLE_MPI=no)
-usato nuovo BLAH (BLPARSER_WITH_UPDATER_NOTIFIER=true)
-installato bacula
-copiati i software tags dal vecchio prod-ce-01, files: /opt/edg/var/info/<VO>/<VO>.list
-per avviare correttamente LSF, è necessario 'lsadmin restart' sul LSF master (gw-master), altrimenti non va (lim e pim partono senza '-d /opt/lsf_7.0/conf')
- [simone] installato bacula su prod-bdii-01
seguite le istruzione del wiki https://gimo2.pd.infn.it:25555/pmwiki/pmwiki.php?n=Site.Backup (le stesse eseguite con successo su prod-ce-01, appena installato), ma viene installata una versione di bacula che richiede di impostare la variabile "WorkingDirectory = /var/spool/bacula" nel file /etc/bacula/bacula-fd.conf
07/12/2011
- [sergio] reinstallata la virtuale del prod-bdii-01 fatto update del kernel-xen e installato emi-bdii-top e configurato usando la nuova directory emi1 in nfs di gw-master (/usr/local/nfs/emi1/emi-site-info.def.current), fatti i fix descritti dalle known issues.
17/11/2011
- [simone] aggiunto fix-bdii-conf su tutti i servizi gLite 3.2 (di prod, cert, enmr, euindia) che hanno il demone bdii
- [simone] aggiunto ig-vomscerts-all-1.1-14 su lcg-CE, STORM, WMS
- [simone] rimosso eu-india-01 da INFN-PADOVA nel GOCDB
11/11/11
- [simone] prod-wms-01, eu-india-02
upgrade a lcg-vomscerts-6.8.0-1
05/11/2011
- [cris] 'prod-bdii-01 - problemi freshness - notifica Nagios (CNAF), processo slapd era fermo:
# /etc/init.d/ldap status
slapd is stopped
Soluzione - start slapd
20/10/2011
- [cris] voms-02 - problemi superbvo.org:
# /opt/glite/etc/init.d/voms-admin stop superbvo.org
# /opt/glite/etc/init.d/voms stop superbvo.org
# cd voms-scripts/
# ./next_replicas.sh --master-db=voms_superbvo_org --db=voms_superbvo_org
# /opt/glite/etc/init.d/voms start superbvo.org
# /opt/glite/etc/init.d/voms-admin start superbvo.org
18/10/2011
- [sergio] voms-02 ho inserito in la VO ipv6_hepix_org (come richiesto da Paolini) in VOS del /root/site-info.def, ho messo in services tutte le variabili necessarie e ho riconfigurato. Ho aggiunto in /etc/my.cnf il db e le tabelle e ho fatto un bel: ./next_replicas.sh --master-db=voms_ipv6_hepix_org --db=voms_ipv6_hepix_org
12/10/2011
- [simone] prod-wms-01, eu-india-02
upgrade a lcg-vomscerts-6.7.0-1
30/09/2011
- [simone] aggiornati lcg-CA-1.42-1 su prod-all (compresa cert-15) e ca-policy-egi-core-1.42-1 su cert-37 e cert-39
aggiunto downtime dal 3/10 al 4/10 e chiuse le code (tranne cert)
28/09/2011
- [simone] aggiornati lcg-CA-1.41-1 su prod-all (comprese cert-15 e cert-39) e ca-policy-egi-core-1.41-1 su cert-37
26/09/2011
- [simone/sergio] bannato l'utente con DN="/C=TW/O=AS/OU=GRID/CN=Tz Ke Wu 164236" negli host:
- cert-15
- inserito "/C=TW/O=AS/OU=GRID/CN=Tz Ke Wu 164236" in /opt/glite/etc/lcas/ban_users.db
- cert-37
- inserito "/C=TW/O=AS/OU=GRID/CN=Tz Ke Wu 164236" in /etc/lcas/ban_users.db
- eu-india-02
- inserito "/C=TW/O=AS/OU=GRID/CN=Tz Ke Wu 164236" in /opt/glite/etc/lcas/ban_users.db
- prod-ce-01
- inserito "/C=TW/O=AS/OU=GRID/CN=Tz Ke Wu 164236" in /opt/glite/etc/lcas/ban_users.db
- prod-ce-02
- inserito "/C=TW/O=AS/OU=GRID/CN=Tz Ke Wu 164236" in /opt/glite/etc/lcas/ban_users.db
- prod-se-01
- inserito "/C=TW/O=AS/OU=GRID/CN=Tz Ke Wu 164236" in /opt/glite/etc/lcas/ban_users.db
- inserito "/C=TW/O=AS/OU=GRID/CN=Tz Ke Wu 164236" .nonexist in /opt/edg/etc/grid-mapfile-local
- eseguito `/opt/edg/sbin/edg-mkgridmap --output=/etc/grid-security/dn-grid-mapfile --safe`
- prod-se-02
- inserito "/C=TW/O=AS/OU=GRID/CN=Tz Ke Wu 164236" .nonexist in /opt/edg/etc/grid-mapfile-local
- eseguito `/opt/edg/sbin/edg-mkgridmap --output=/etc/grid-security/grid-mapfile --safe`
- prod-wms-01
- inserito il "DN" in /opt/glite/etc/lcas/ban_users.db
16/09/2011
- [simone] prod-wms-01, eu-india-02
upgrade a lcg-vomscerts-6.6.0-1
23/08/2011
- [cris] prod-ce-01, cert-15, cert-37 - soluzione tkt #11992:
- aggiunto file /etc/grid-security/vomsdir/magic/voms01.pic.es.lsc
# cat /etc/grid-security/vomsdir/magic/voms01.pic.es.lsc
/DC=es/DC=irisgrid/O=pic/CN=voms01.pic.es
/DC=es/DC=irisgrid/CN=IRISGridCA
# /etc/init.d/gLite restart
Se ci sono problemi: stop, kill processi rimasti, start
04/08/2011
- [simone] eu-india-04
il WMS eu-india-02 non accettava più sottomissioni causa disk quota > 95%, dovuto ad errori, da Febbraio 2011,
nel purge della SandBox [Operation not permitted (matching jobs found but authorization failed)];
risolto impostando la variabile GLITE_LB_SUPER_USERS="/C=IT/O=INFN/OU=Host/L=Padova/CN=eu-india-02.pd.infn.it" nel file
gw-master:/opt/nfs_install/3_2/nodes/eu-india-04.pd.infn.it e riconfigurando il nodo LB eu-india-04
02/08/2011
- [simone] prod-wms-01, eu-india-02
upgrade a lcg-vomscerts-6.5.0-1
30/06/2011
- [sergio] cert-35 cert-39 diventati rispettivamente EMI Cluster e EMI LFC_mysql in stagerollout (eliminati i vecchi Rollout Glite 3.2)
28/06/2011
- [sergio] prod-bdii-02 reconfigured, inserendo ilcert-37 come nuovo CE-CREAM LSF EMI STAGE ROLLOUT. Inserito cert-37 nel GOCDB come CE-CREAM LSF Utils Stage Rollout
17/06/2011
- [simone] prod-ui-02
creato il database mysql "application_support_euindiagrid" e aggiunto /etc/cron.weekly/euindia-UAA per registrare l'utilizzo di risorse degli utenti di euindia (dati ricavati dal LB eu-india-04)
08/06/2011
31/05/2011
- [sergio-simone] vm-master-04
vm-master prende l'IP di gilda-19 (spento); installato su Blade HP come XEN master (SL-5.5 x86_64)
- [simone] ui-wenmr
ui-wenmr prende l'IP di gilda-17 (spento); installato come VM (SL-5.5 x86_64) su vm-master-04
installata una UI (con certificati per divenire un Condor Submit Node) usato da WeNMR per la sottomissione di job verso i siti OSG attraverso la VO SBGrid (/SBGrid/eNMR VOMS proxies)
informazioni su installazione e manutenzione:
https://gimo2.pd.infn.it:25555/pmwiki/pmwiki.php?n=Site.UI
- [simone] lfc
lfc prende l'IP di gilda-18 (spento); installato come VM (SL-5.5 x86_64) su vm-master-04
installato un Central LFC usato per la sola VO SBGrid, al fine di eseguire comandi lcg-* verso SE di OSG che supportino tale VO.
informazioni su installazione e manutenzione:
https://gimo2.pd.infn.it:25555/pmwiki/pmwiki.php?n=Site.LFC
- [simone] prod-bdii-02
aggiunto lfc.pd.infn.it al site-BDII (modifica di gw-master:/opt/nfs_install/3_1/nodes/prod-bdii-02.pd.infn.it e riconfigurazione del nodo)
- [simone] SBGrid
Nota: la VO americana SBGrid ha ufficialmente nel nome alcune lettere maiuscole (richieste dal server VOMS), cosa vietata per le VO europee.
La configurazione di yaim richiede lettere minuscole, altrimenti la VO viene ignorata. In alcuni casi segnati di seguito sono necessarie modifiche manuali.
La VO SBGrid (usata da WeNMR per sottomettere job verso i siti OSG) e' stata aggiunta ai seguenti file e nodi:
- gw-master:/opt/nfs_install/3_2/ig-groups.conf.current (necessarie le minuscole):
- "/sbgrid/*"::::
- "/sbgrid"::::
- gw-master:/opt/nfs_install/3_2/ig-users.conf.current (50 utenti, necessarie le minuscole sul campo VO):
- 56001:sbgrid001:56000:sbgrid:sbgrid::
- gw-master:/opt/nfs_install/3_1/ig-groups.conf.current (necessarie le minuscole):
- "/sbgrid/*"::::
- "/sbgrid"::::
- gw-master:/opt/nfs_install/3_1/ig-users.conf.current (50 utenti, necessarie le minuscole sul campo VO):
- 56001:sbgrid001:56000:sbgrid:sbgrid::
- prod-se-02
- aggiunta nella variabile VOS la VO "sbgrid" (necessarie le minuscole) in gw-master:/opt/nfs_install/3_2/nodes/prod-se-02.pd.infn.it e riconfigurazione
- copia della seguente directory con le maiuscole (obbligatorio per voms-proxy-init nella UI, presumo necessario anche per un SE)
- cp -r /etc/grid-security/vomsdir/sbgrid /etc/grid-security/vomsdir/SBGrid
- aggiunto script /etc/cron.monthly/sbgrid-chown-dirs-DPM.sh per cambiare i permessi DPM di /dpm/pd.infn.it/sbgrid (dall'utente sbgrid all'utente SBGrid)
- prod-wms-01
- aggiunta nella variabile VOS la VO "sbgrid" (necessarie le minuscole) in gw-master:/opt/nfs_install/3_1/nodes/prod-wms-01.pd.infn.it e riconfigurazione
- copia della seguente directory con le maiuscole (obbligatorio per voms-proxy-init nella UI, presumo necessario anche per un WMS)
- cp -r /etc/grid-security/vomsdir/sbgrid /etc/grid-security/vomsdir/SBGrid
- aggiunta delle seguenti righe nei file grid-mapfile e voms-grid-mapfile in /etc/grid-security/ (gia' presenti righe con sbgrid minuscolo)
- "/SBGrid/*/Role=NULL/Capability=NULL" .sbgrid
- "/SBGrid/*" .sbgrid
- "/SBGrid/Role=NULL/Capability=NULL" .sbgrid
- "/SBGrid" .sbgrid
- aggiunta delle seguenti righe nel file /etc/grid-security/groupmapfile (gia' presenti righe con sbgrid minuscolo)
- "/SBGrid/*/Role=NULL/Capability=NULL" sbgrid
- "/SBGrid/*" sbgrid
- "/SBGrid/Role=NULL/Capability=NULL" sbgrid
- "/SBGrid" sbgrid
- aggiunto nel file /opt/glite/etc/glite_wms_wmproxy.gacl
- <entry>
- <voms>
- <fqan>SBGrid/*</fqan>
- </voms>
- <allow>
- <exec/>
- </allow>
- </entry>
- <entry>
- <voms>
- <fqan>SBGrid</fqan>
- </voms>
- <allow>
- <exec/>
- </allow>
- </entry>
- aggiunta del file /etc/grid-security/vomsdir/hpc.sbgrid.org.pem (ottenuto con il comando openssl s_client -ssl3 -connect hpc.sbgrid.org:15002 | openssl x509)
- prod-lb-01
- aggiunta nella variabile VOS la VO "sbgrid" (necessarie le minuscole) in gw-master:/opt/nfs_install/3_1/nodes/prod-lb-01.pd.infn.it e riconfigurazione
- aggiunta del file /etc/grid-security/vomsdir/hpc.sbgrid.org.pem (ottenuto con il comando openssl s_client -ssl3 -connect hpc.sbgrid.org:15002 | openssl x509)
23/05/2011
- [sergio] gw-master chiuse le code cms e lhcb per svuotare LSF master (pre spegnimento macchine)
20/05/2011
- [marco] ho modificato il file /usr/local/nfs/3_1/ig-groups.conf.current in gw-master, aggiungendo la riga "/euindia/*":::: per implementare l'application accounting trmite gruppi VOMS anche per euindia. Sarebbe opportuno introdurre la modifica anche nella prossima release di ig-yaim. Successivamente ho ri-configurato il WMS eu-india-02 e testato che la sottomissione con voms-proxy-init -voms euindia:/euindia/climatec funzioni.
- [sergio] prod-hlr-01 aggiunta la risorsa briareo.grid.elettra.trieste.it per eu-india.
18/05/2011
- [sergio] ho modificato la documentazione di sanctorum, andate a guardare prima di usarlo. E' cambiata al directory degli eseguibili e c'e' una facilitazione per richiedere un certificato di un nuovo host
16/05/2011
- [simone] prod-ui-02
aggiornato il pacchetto lcg-infosites (da lcg-infosites-2.6.8-3 a lcg-infosites-3.0.1-2) causa problemi nella visualizzazione degli SE (bug https://savannah.cern.ch/bugs/?57787)
10/05/2011
27/04/2011
- [sergio] prod-ce-02 disinstallato rpm bdii e reinstallatato, fatto update di tutto host e riconfigurato il CE. Ora e' ok. cert-39 aggiornato certificato e fatto restart dei servizi per LFC PreProduction EA.
26/04/2011
- [cris] voms-01, voms-02 - dopo down causa "problemi switch", recreate delle macchine vistuali e restart dei servizi nel ordine menzionata soto:
# /opt/glite/etc/init.d/voms-admin stop
# /opt/glite/etc/init.d/voms stop
# service mysqld restart
# service tomcat5 restart
# /opt/glite/etc/init.d/voms start
# /opt/glite/etc/init.d/voms-admin start
22/04/2011
- [sergio] prod-wms-01 fatto update e sistemato il certitifaceto host. prod-ce-02 aggiornato certificato e fatto restart dei servizi
21/04/2011
- [sergio] eu-india-02 fatto update e ripristinata la patch che abilita MPI vedi doc in REMEMBER during upgrades
20/04/2011
- [simone] eu-india-02 ripristinata la patch che abilita MPI dopo una riconfigurazione:
[root@eu-india-02 ~]# cp /root/glite_wms.conf /opt/glite/etc/
[root@eu-india-02 ~]# service gLite stop
[root@eu-india-02 ~]# service gLite start
- [sergio/simone]
- gw-master cambiata nel file /opt/lsf_7.0/conf/lsf.conf la variabile LSF_LOG_MASK=LOG_WARNING (era LSF_LOG_MASK=LOG_DEBUG1) per evitare l'eccesso di log sui WN (/tmp/pim.log.<wn> di centinaia di GB in pochi giorni)
- prod-hlr-01 aggiunte code di ce-cr-02.ts.infn.it
- prod-wn-* e servizi di produzione SL5: update glibc-2.5-58 causa vulnerabilita' (CVE-2011-0536)
11/04/2011 - 12/04/2011
- [sergio] prod-se-02 install a new host SL5, copyed all the /flatfiles/SE00 from old host to new host. Install DPM on the new host. The old host is switched off. If someone turn on it the host is gilda-19
07/04/2011
Ricetta AlexP:
- inviati i file di configurazione per voms-02.pd.infn.it: site.def ed services/glite-voms
- cambiare hostname e password, e reimpostare le seguenti variabili:
- VOMS_ADMIN_WEB_REGISTRATION_DISABLE=true (per disabilitare le registrazioni via web)
- VOMS_DB_DEPLOY=true (per creare da subito i database nuovo tipo)
- modificare anche il valore di VOMS_ADMIN_SMTP_HOST
- per installare il servizio - seguire la guida https://twiki.cern.ch/twiki/bin/view/EGEE/VomsInstallGuide_32
- installate anche:
yum install xml-commons-apis
- dopo il lancio di yaim, nel file /usr/share/tomcat5/conf/tomcat5.conf impostate
CATALINA_OPTS="-Xmx1005M -server -Dsun.net.client.defaultReadTimeout=240000 -XX:MaxPermSize=512m"
di default viene messo "-XX:MaxPermSize=256m", ma noi c'abbiamo tante VO, serve piùà memoria
attenzione: yaim sovrascrive quel file
04/04/2011
- [simone] bdii-wenmr
fatto Update 24/25
01/04/2011
- [simone] voms-01
per consentire a Nagios del CNAF di effettuare dei controlli sul DB, sono stati effettuati questi comandi mysql:
- INSERT INTO mysql.user (host, user, password) VALUES ('gstore.cnaf.infn.it', 'nagios', PASSWORD('xxx'));
- INSERT INTO mysql.user (host, user, password) VALUES ('doctorwho.cnaf.infn.it', 'nagios', PASSWORD('xxx'));
- flush privileges;
- GRANT SELECT ON mysql.* TO nagios@doctorwho.cnaf.infn.it;
- GRANT SELECT ON mysql.* TO nagios@gstore.cnaf.infn.it;
- [simone] voms-02
per consentire a Nagios del CNAF di effettuare dei controlli sul DB, sono stati effettuati questi comandi mysql:
- INSERT INTO mysql.user (host, user, password) VALUES ('gstore.cnaf.infn.it', 'nagios', PASSWORD('xxx'));
- INSERT INTO mysql.user (host, user, password) VALUES ('doctorwho.cnaf.infn.it', 'nagios', PASSWORD('xxx'));
- flush privileges;
- GRANT SELECT ON mysql.* TO nagios@doctorwho.cnaf.infn.it;
- GRANT SELECT ON mysql.* TO nagios@gstore.cnaf.infn.it;
- INSERT INTO mysql.user (host, user, password) VALUES ('gstore.cnaf.infn.it', 'gstore', PASSWORD('xxxxx'));
- flush privileges;
- GRANT SELECT ON mysql.* TO gstore@gstore.cnaf.infn.it;
17/03/2011
- [simone] grid-monitor03
reinstallato Nagios con Update 09
informazioni su installazione, configurazione e manutenzione:
https://gimo2.pd.infn.it:25555/pmwiki/pmwiki.php?n=Site.NagiosGrid-monitor03
- [simone] prod-ui-02
aggiunto '/C=IT/O=INFN/OU=Host/L=Padova/CN=grid-monitor03.pd.infn.it' alle variabili GRID_AUTHORIZED_RETRIEVERS e GRID_TRUSTED_RETRIEVERS in gw-master:/opt/nfs_install/3_2/nodes/prod-ui-02.pd.infn.it e riconfigurato prod-ui-02
11/03/2011
- [sergio] gw-master aggiunti i wn nel file di lsf riconfigurato lsf. prod-wn-11.pn, prod-wn-12.pn, prod-wn-14.pn, prod-wn-18.pn installati e configurati aggiungendoli al cluster lsf
09/03/2011
- [sergio] gw-master change the prod-bdii-02 configuration file adding or changing the variables SITE_OTHER_GRID="WLCG|EGI", SITE_OTHER_EGI_NGI="NGI_IT". In prod-bdii-02 run function config_gip_site.
Check and change the Available IP documentation on the public IP (prod, cert, gilda, other host). Just check the cream association, but not check if the host is really running.
01/03/2011
- [simone] bdii-wenmr
fatto Update 21/22/23
28/02/2011
- [sergio] prod-bdii-01, prod-se-01, prod-se-02 installed the new version and reconfigured BDII_Top, StoRM, DPM
15/02/2011
11/02/2011
04/02/2011
01/02/2011
- [sergio]
- gw-master sistemato rgang (con liste in a/etc/rgang.d/farmlets prod prod_sl4 prod_sl5 prod_ wn)
- c'era un problema su prod-wn-015 che persiste e dobbiamo tenerlo sotto occhio: in dmesg: glite-brokerinf[10706]: segfault at 0000000000000000 rip 000000309dc9bbd6 rsp 00007fff78d74920 error 4
- sistemato LSF (commentata la riga #PRODUCTS=LSF_Make LSF_Base LSF_Manager in /opt/lsf_7.0/conf/lsf.cluster.pd_lsf70_sl4 problema con LSF_Make che non compare nelle licenze del CNAF e alcuni WN risultavano Unlicensed. Inserita la riga PRODUCTS=LSF_Base LSF_Manager). Eseguito lsadmin reconfig, badmin mbdrestart e badmin reconfig (tolto priorita' a CMs su prod-wn-13)
- gw-master aggiunte gli share in CE_CAPABILITY dei 2 site-info.def 3.1 e 3.2 e riconfigurati i 3 CE prod-ce-01, prod-ce-02, cert-15, solo con la funzione config_cream_gip per i cream
21/01/2011
- [simone] prod-wms-01 aggiornato lcg-vomscerts-6.3.0-1
#yum install lcg-vomscerts
#/opt/glite/etc/init.d/glite-wms-wmproxy restart
11/01/2011
29/12/2010
- [sergio] prod-hlr-01, gimo, grid-monitor aggiornati i certificati nella posizione standard
28/12/2010
- [simone] prod-hlr-01
Aggiunto un ulteriore HLR di secondo livello (grid-2lhlr-01.pd.infn.it);
la modifica consiste nell'aggiunta del nome del 2nd level HLR nel file /opt/glite/etc/glite-dgas-2l-servers.conf,
seguita dal comando service glite-dgas-hlrd restart.
Il riavvio del servizio non è stato automatico (vedi ticket #9596) :
- c'era il certificato scaduto, è stato aggiornato
- è stato necessario rimuovere il file /opt/glite/var/hlrTranslateDb.lock
- [simone] grid-2lhlr-01
grid-2lhlr-01 prende l'IP di gilda-29 (spento); installato come VM (SL-4.8 x86) su vm-master-03;
installato HLR di secondo livello per la VO enmr.eu;
informazioni su installazione e manutenzione:
https://gimo2.pd.infn.it:25555/pmwiki/pmwiki.php?n=Site.HLR
23/12/2010:
- [sergio] sui 2 CE di produzione prod-ce-01 e prod-ce-02 cabiato il file /opt/glite/etc/gip/ldif/static-file-Cluster.ldif togliendo tutti i supporti per MPI (salvata una copia del file originale static-file-Cluster.ldif.mpi nella stessa directory).
Commentato dai site-info.def la variabile di supporto MPI ENABLE_MPI (se viene richiesta risettarla a false o a true se si vuole provare a far funzionare MPI)
22/12/2010:
- [sergio] gilda-02: c'e' ancora un ticket GGUS aperto: 65466
La macchina e' stata aggiornata all'ultima versione di DPM in produzione e riconfigurata, usando il site-info.def locale per gilda in /opt/glite/yaim/etc/gilda/gilda-site-info.def e' stata apportata la modifica per la VO biomed VO_BIOMED_VOMSES. Dopo la configurazione i 2 file /opt/lcg/etc/lcgdm-mkgridmap.conf /opt/edg/etc/edg-mkgridmap.conf sono state aggiunte 2 riche contenenti i 2 voms server di biuomed per prendere tutti gli utenti anche quelli sgm e prod e non solo quelli semplici.
Ora l'utente Sorina Camarasu e' correttamente settato, non capisco perche' ancora i SAM test gli falliscono sembra un time out (nel ticket GGUS ho scritto tutto).
17/12/2010:
- [simone] grid-monitor
il vecchio grid-monitor viene spento, l'attuale è installato come VM (SL-5.5 x86_64) su vm-master-03;
installato il servizio GStat 2.0 per la VO enmr.eu;
web: http://grid-monitor.pd.infn.it:50080/gstat/
informazioni su installazione, configurazione e manutenzione:
https://gimo2.pd.infn.it:25555/pmwiki/pmwiki.php?n=Site.GStat
- [simone] grid-monitor03
grid-monitor03 prende l'IP di gilda-30 (spento); installato come VM (SL-5.5 x86_64) su vm-master-03;
installato il servizio Nagios per la VO enmr.eu;
web: https://grid-monitor03.pd.infn.it:50080/nagios/ (accesso con certificato per utenti enmr.eu)
informazioni su installazione, configurazione e manutenzione:
https://gimo2.pd.infn.it:25555/pmwiki/pmwiki.php?n=Site.NagiosGrid-monitor03
- [simone] voms-02
causa seguente errore accedendo a https://voms-02.pd.infn.it:8443/voms/enmr.eu/services/VOMSAdmin?method=listMembers :
"soapenv:Server.userExceptionorg.glite.security.voms.admin.common.VOMSConfigurationException: Error loading voms-admin configuration: VO_NAME jndi property not found!voms-02.pd.infn.it"
è stata fatta una riconfigurazione:
/opt/glite/etc/config/scripts/glite-voms-server-config.py --configure
/opt/glite/etc/config/scripts/glite-voms-server-config.py --start
e poiché tomcat non ripartiva con errore:
"Error occurred during initialization of VM
Could not reserve enough space for object heap
Could not create the Java virtual machine."
è stata fatta la seguente modifica in /etc/tomcat5/tomcat5.conf:
da: CATALINA_OPTS="-XX:MaxPermSize=256m -Xmx3072M -server -Dsun.net.client.defaultReadTimeout=240000"
a: CATALINA_OPTS="-XX:MaxPermSize=256m -Xmx1024M -server -Dsun.net.client.defaultReadTimeout=240000"
- [sergio] in gw-master modificati i site-info.def per supportare i nuovi VOMS SERVER per VO dteam, seguendo il ticket xoops 9511.
Eseguite su tutte le macchine di produzione la configurazione parziale (funzioni config_mkgridmap config_vomsdir config_vomes) come richiesto dal ticket.
09/12/2010:
- [sergio] installati da zero i WN prod-wn-13.pn, prod-wn-15.pn, prod-wn-16.pn, prod-wn-17.pn, prod-wn-20.pn e prod-wn-38.pn con SL5 x86_64 installato tutto il middleware per WN LSF
Riconfigurato gw-master per vedere solo quei WN (cambiato wn-list.conf e i 2 site-info.def nella directory NFS).
01/12/2010:
- [sergio] spenti i WN prod-wn-15.pn, prod-wn-16.pn, prod-wn-17.pn e reinstalalti nelle nuove blade HP con SL5. Instalalto SL5 x86_64 in prod-wn-20.pn e prod-wn-38.pn
26/11/2010:
- [simone/sergio] - prod-ce-01, prod-ce-02, prod-se-01, prod-se-02, prod-wms-01, prod-lb-01, prod-ui-02, eu-india-02 - aggiornato il ig-vomscerts-all
22/11/2010:
15/11/2010:
- [cris] - prod-ce-01 - aggiornato certificato, non era stato copiato in tutti i posti; non basta un restart del tomcat5 e globus-gridftp, serve un reconfigure
10/11/2010:
- [sergio] prod-hlr-01 aggiunta la risorsa cremino.cnaf.infn.it come rischiesto nel ticket xoops 9206 tramite procedura automatica
Resource added!
==== cremino.cnaf.infn.it:8443/cream-pbs-cert - END ====
The follwing accounts have been created:
cremino.cnaf.infn.it:8443/cream-pbs-prod:/C=IT/O=INFN/OU=Host/L=CNAF/CN=cremino.cnaf.infn.it
cremino.cnaf.infn.it:8443/cream-pbs-cert:/C=IT/O=INFN/OU=Host/L=CNAF/CN=cremino.cnaf.infn.i
09/11/2010:
- [sergio] voms-02 messo a posto il database enmr.eu tramite comandi sql e ricreate tutte le repliche per tutti i DB come richeisto da Paolini next_replicas.sh --master-db=voms_enmr_eu --db=voms_enmr_eu
25/10/2010:
- [cris] 'voms-02 - reboot, dalla console i mess erano:
BUG: warning at /bind/obj/RPM_BUILD_DIRECTORY/xen-testing-aee991c7723a.e16de9635bec/linux-2.6.18-xen/kernel/cpu.c:51/unlock_cpu_hotplug()
[<c0141cf8>] unlock_cpu_hotplug+0x68/0x70
[<c011f6c4>] sched_getaffinity+0x64/0x80
[<c011f6fc>] sys_sched_getaffinity+0x1c/0x40
[<c0105697>] syscall_call+0x7/0xb
21/10/2010:
[root@prod-bdii-02 ~]# grep SiteEmail /opt/glite/etc/gip/ldif/glite-info-site.ldif
GlueSiteEmailContact: mailto:grid-prod@pd.infn.it
prod-ce-01, prod-ce-02, cert-15 - corretta riga GlueHostProcessorOtherDescription in /opt/glite/etc/gip/ldif/static-file-Cluster.ldif, e scommentata nel ig-site-info.def per le future configurazioni
# grep HostProcessorOther /opt/glite/etc/gip/ldif/static-file-Cluster.ldif
GlueHostProcessorOtherDescription: Cores=1.518,Benchmark=775.68-HEP-SPEC06
18/10/2010:
- [sergio] all produzione SL4 - aggiornati lcg-vomscerts-6.1.0-1 e lcg-vomscerts-desy-0.0.11-1
11/10/2010:
- [sergio] all produzione comprese cert-15 e cert-39 - aggiornati lcg-CA-1.37-1
16/09/2010:
- [peter] prod-hlr-01 - Aggiunto il CE di parma nel nostro HLR, come richiesto in un ticket: /opt/glite/sbin/glite-dgas-hlr-bdiiresimport.pl -s egee-bdii.cnaf.infn.it -H cream-ce.pr.infn.it
09/09/2010:
- [sergio] prod-se-01 - rimossi rpm che bloccavano l'update: glite-security-voms-api-c glite-security-voms-api-cpp glite-security-util-java glite-security-voms-api glite-security-gsoap-plugin glite-security-trustmanager glite-security-voms-clients e aggiirnato e riconfigurato lo storm
15/07/2010:
15/07/2010:
- [cris/sergio] prod-se-01 - rimossi 3 rpm di cui non ci si spiegava la provenienza rpm -e LFC-client DPM-client DPM-rfio-server - aggiornato StoRM alla versione 3.1 update ig 50 e riconfigurato. Scommentata la variabile STORM_FRONTEND_HOST_LIST in nodes per prod-se-01 (gw-master)
14/07/2010:
- [sergio] prod-ce-01, prod-wms-01 - aggiornate alle ultime versioni e riconfigurati (Update 65).
13/07/2010:
- [cris] cert-15, eu-india-02 - aggiornato lcg-CA (1.36)
11/07/2010:
- [cris] prod-ce-02 - applicato l'Update 65;
05/07/2010:
- [sergio] all produzione - aggiornati lcg-CA-1.36-1
- [cris] cert-15 - applicato soluzione tkt #59737:
[root@cert-15 ~]# cp glite-security-util-java.jar /usr/share/tomcat5/webapps/ce-cream/WEB-INF/lib/glite-security-util-java.jar
[root@cert-15 ~]# cp glite-security-util-java.jar /usr/share/tomcat5/server/lib/glite-security-util-java.jar
[root@cert-15 ~]# /etc/init.d/tomcat5 restart
Stopping tomcat5: [ OK ]
Starting tomcat5: [ OK ]
02/07/2010:
- [sergio] prod-ce-01, prod-ce-02, gilda-01, (i CE di INFN-PADOVA-CMS): risposto al ticket XOOPS #8202. Ho fatto riprocesare i nostri CE e chiesto ad Alberto di far riprocessare i suoi. Secondo la doc descritta nel ticket #8202 da Andrea Cristofori.
28/06/2010:
- [sergio] prd-hlr-01 - installato Bacula e configurato secondo la doc. Inserito anche il cron per mysqlhotcopy come da documentazione
28/06/2010:
- [sergio] all produzione - aggiornati lcg-CA-1.35-1
17/06/2010:
16/06/2010:
- [cris] cert-39 - applicato SR for glite-LFC_mysql, details on patch #4035
15/06/2010:
- [sergio] da mail del 8 giugno 2010 con oggetto [gridops-rod-it] Release of lcg-vomscerts NON è necessario installare lcg-voms-certs in voms-01, voms-02
14/06/2010:
- [sergio] prod-ce-01, prod-ce-02, prod-se-01, prod-se-02, prod-lb-01, prod-wms-01, prod-ui-02, prod-mon-01, prod-wn-11 - prod-wn-38: update di lcg-vomscerts alla versione lcg-vomscerts-5.9.0-1 ATTENZIONE in prod-lb-01 e prod-ui-02 in /etc/yum.repos.d ho messo il jpackage.repo a jpacage.repo.disabled
10/06/2010:
- [cris] prod-bdii-01 - blocato, restartato (service bdii stop/start), aperto tkt GGUS #58951
01/06/2010:
- [cris] gw-master, cert-15 - aperte le code (badmin qopen all); su cert-15 aggiornato seguendo il patch #4119
- [cris] cert-15 - aggiornato certificato causa Nagios Warning: "CERT LIFETIME WARNING - Certificate will expire in 4.00 days (Jun 5 13:13:49 2010 GMT)", seguito host_certificate_update
31/05/2010:
- [sergio] prod-hlr-01, gw-master - per cambiamento macchina-host - mandata mail per chiudere i sensori dgas urcollector e pushd. Gia' avute un po' di risposte. Chiuse le code alice, atlas, cms, cyclops, grid, lhcb con badmin qclose <nome_coda> lasciata aperta solo coda di cert.
28/05/2010:
1. cert-34 - questa macchina sara' il nuovo prod-hlr-01 lunedi' o martedi' faremo il passaggio. Ricordiamoci lunedi' mattina di mandare mail a tutti i CE attaccati al nostro hlr di stoppare i sensori. Appena stoppati si parte con salvataggi e reinstallazioni. Ho inserito 2 dischi uguali li da 120GB. Ho creato un kickstart ad hoc in gimo2 per mettere la directory /var/lib/mysql a parte. Tutto in RAID software. Il kickstart lo ho chiamato sl4x-i386-raid1-HLR.ks ha 80GB di spazio per il DB. Patania consigliava di formattare la partizione in XFS e mi ha detto che ci dira' lui le cose meglio da fare per la migrazione (io ho detto ok, poi vedremo).
2. Ho messo in downtime per martedi' i 2 CE e il MON per vedere di creare mappatura tra 3ware e dischi di prod-mon-01 e poi sostituire il disco che va in failure.
24/05/2010:
- [sergio] prod-hlr-01 - dopo alcune query su jobTransSummary Patania mi ha fatto stoppare il servizio glite-dgas-hlrd poi deve aver fatto qualcosa a Torino e restartato e poi mi ha fatto cambiare dentro il file /opt/glite/etc/dgas_hlr.conf il parametro forwardPeriod da 600 a 120. Altro restart di glite-dgas-hlrd. A fine settimana gli ridomandero' se quel parametro va ripristinato, ora vediamo come va HLR.
19/05/2010:
- [cris] voms-01 - dopo aggiornamento macchina(IP) del voms-01.cnaf sono stati necessari alcuni passi:
# /opt/glite/etc/init.d/voms-admin stop
# LISTA="argo bio cdf compchem enea gridit inaf infngrid ingv libi pamela planck theophys virgo"
# for i in $LISTA ; do echo $i; /root/voms-scripts/next_replicas.sh -v --master-db=voms_$i --db=voms_$i; done
# /opt/glite/etc/init.d/voms stop
# service mysqld restart
# service tomcat5 restart
# /opt/glite/etc/init.d/voms start
# /opt/glite/etc/init.d/voms-admin start
17/05/2010:
- [peter] prod-ce-0* - fatti ripartire i demoni pushd di dgas
07/05/2010:
- [sergio] prod-hlr-01 - scommentata la riga di translatedb in /etc/cron.d/dgas come richiesto da ticket #7897 di Xoops
06/05/2010:
- [peter] prod-hlr-01 - aggiornati gli rpm di dgas:
glite-dgas-common-3.4.0-3.sl4
glite-dgas-hlr-clients-3.4.0-10.sl4
glite-dgas-pa-clients-3.4.0-3.sl4
glite-dgas-hlr-service-3.4.0-18.sl4
04/05/2010:
- [peter] prod-hlr-01 - nel file /opt/glite/etc/dgas_hlr.conf, ho tolto il commento nella riga:
serversFile="/opt/glite/etc/glite-dgas-2l-servers.conf"
Nel file "/opt/glite/etc/glite-dgas-2l-servers.conf" ho commentato la riga del server ti test a torino, lasciando quello ufficiale.
fatto ripartire servizi HLR
29/04/2010:
- [cris] prod-ce-02, prod-hlr-01 - su prod-ce-02 - disabilitato logwatch per check funzionamento dgas:
[root@prod-ce-02 ~]# mv /etc/logwatch/conf/services/dgas.conf /etc/logwatch/conf/services/dgas.conf.disabled
e fermato processi dgas su prod-hlr-01
28/04/2010:
- [cris] prod-bdii-01, prod-bdii-02 - aggiornate al'Update 63(SL4), 11/SL5
- [peter] prod-ce-01, prod-ce-02 - fermato dgas pushd: service glite-dgas-pushd stop
- [peter] prod-hlr-01 - commentato in /etc/cron.d/dgas
*/4 * * * * root (echo -e "\n=== `date +"%Y-%m-%d %H:%M:%S"` ==="; /opt/glite/sbin/glite-dgas-hlr-translatedb -D) >> ${LOG} 2>&1
commentato anche /etc/cron.d/dgas-pilot
Riscontrati errori nell'output di
$ mysqlcheck -u root -pH1C14dfh --optimize hlr:
....
Error : Table 'jobTransSummary' is marked as crashed and last (automatic?) repair failed
error : Corrupt
...
Eseguito: glite-dgas-hlr-translatedb -r
al termine del comando:
1) Riattivare servizi dgas su HLR
1.1) Controllare che sia tutto a posto con Torino
2) riattivare, e far riattivare i demoni pushd sui CE
3) Decommentare i translatedb (e gli altri #peter#) dai file:
prod-hlr-01:/etc/cron.d/dgas
prod-hlr-01:/etc/cron.d/dgas-pilot
23/04/2010:
- [peter] prod-hlr-01 - aggiornato gli rpm di dgas:serversFile="/opt/glite/etc/glite-dgas-2l-servers.conf"
glite-dgas-hlr-service-3.4.0-14.sl4
glite-dgas-hlr-clients-3.4.0-9.sl4
glite-dgas-pa-clients-3.4.0-3.sl4
glite-dgas-common-3.4.0-2.sl4
22/04/2010:
- [cris] cert-15 - aggiornato con Stage-Rollout Bundle 06 - vedi task 15125
- [cris/sara] prod-ce-02. prod-wms-01 - update certificati + 'service restart" come dal link host_certificate_update
- [peter] prod-hlr-01 - fatto ripartire il forward verso torino.
- [peter] prod-hlr-01 - commentata la riga in /opt/glite/etc/dgas_hlr.conf
serversFile="/opt/glite/etc/glite-dgas-2l-servers.conf"
e riavviato ils servizio dgas.
08/04/2010:
- [simone] voms-02 - servizio nuovamente bloccato con il seguente messaggio di errore in catalina.out; riavviato tomcat5 e voms:
Exception in thread "main" java.lang.OutOfMemoryError: PermGen space
01/04/2010:
- [cris] gilda-02 - corretto /opt/glite/yaim/etc/gilda/gilda_ig-groups.conf, /opt/lcg/etc/lcgdm-mkgridmap.conf & /opt/edg/etc/edg-mkgridmap.conf (per non reconfigurare) - per risolvere tkt #7809 (SE gilda-02.pd.infn.it is failing for some biomed users)
- [simone] all - rimosso completamente il supporto alla VO egrid; controllati file yaim su gw-master; verifiche sullo storage seguendo le indicazioni presenti qui; verificato via ldapsearch:
ldapsearch -x -H ldap://prod-bdii-02.pd.infn.it:2170 -b o=grid | grep -i egrid
- [simone] prod-hlr-01, prod-ce-02 - modificato su prod-ce-02 lo script logwatch di controllo dei processi dgas (
/etc/logwatch/scripts/services/dgas
): monitorato l'exitstatus 13, servizi restartati dopo almeno 20 errori.
31/03/2010:
- [cris] prod-wn-* - corretto MPI_OPENMPI_MPIEXEC (1.2.5 -> 1.2.8) + reconfigurato
- [simone] voms-02 - Tomcat bloccato; fallito tentativo di restart; reboot della macchina.
- [simone] voms-01, voms-02 - Paolini segnala che la replica dei db non e` allineata; il problema risale al 17/02/2010, giorno in cui sono state aggiornate le CA; in corrispondenza del seguente errore su /var/log/mysqld.log (ad es.):
100331 14:15:26 [ERROR] Slave: Error 'Duplicate entry '120' for key 1' on query. Default database: 'voms_cyclops'. Query: 'insert
into ca (ca, cadescr) values ('/C=US/ST=UT/L=Salt Lake City/O=The USERTRUST Network/OU=http://www.usertrust.com/CN=UTN-USERFirst-C
lient Authentication and Email', NULL)', Error_code: 1062
cancellate le ultime righe della tabella indicata a partire da qualche record prima dell'errore:
delete from voms_cyclops.ca where cid>=110;
e riavviato mysqld:
service mysqld restart
Ripetere per ogni errore che si presenta nel log (probabile siano affette tutte le tabelle).
- [simone] voms-01, voms-02 - Impostato voms-admin in readonly mode; aggiunte info qui
- [simone] all - Controllati i file repo di SL; ora tutti allineati a 4x.
- [simone] prod-ce-01, prod-ce-02, prod-wn-01 ... prod-wn-38 - Aggiornati (nuovo openmpi 1.2.8) e riconfigurati.
30/03/2010:
- [sergio] prod-se-02 - gLite 3.1 Update 62: aggiornato e riconfigurato (nessuna modifica nei file di yaim)
- [sergio] prod-wms-01, prod-lb-01 - gLite 3.1 Update 62: aggiornato e riconfigurato (nessuna modifica nei file di yaim)
- [sergio] prod-ce-02, prod-wn-01 ... prod-wn-38, prod-bdii-02 - gLite 3.1 Update 62: aggiornati
29/03/2010:
- [simone] prod-se-01 - gLite 3.1 Update 62: aggiornato e riconfigurato (nessuna modifica nei file di yaim)
- [simone] prod-hlr-01 - gLite 3.1 Update 62: aggiornato e restartato servizio
- [simone] prod-bdii-01, prod-mon-01, prod-ui-02 - gLite 3.1 Update 62: aggiornato
- [simone] gimo, prod-bdii-01 - gLite 3.2 Update 09: aggiornato
16/03/2010:
- [cris] prod-ce-02, prod-wn-* - configurati per MPI - SAM tests "ok"; ancora da fare prod-wn-013, prod-wn-031, prod-wn-033 per problemi carico job biomed
- [simone] prod-hlr-01 - Controllate risorse su HLR; aggiunte con script bdiiresimport.pl alcune che mancavano.
15/03/2010:
- [simone] prod-hlr-01 - Riavviati i servizi DGAS in seguito a segnalazione nagios.
- [cris] prod-ce-01 - restart del gLite:
# /etc/init.d/gLite restart
per problemi con i test org.sam.CREAMCE-JobSubmit-ops di nagios:
- Reason = CREAM Register returned error "MethodName=[jobRegister] Timestamp=[Mon 15 Mar 2010 06:25:17] ErrorCode=[0] Description=[system error] FaultCause=[Batch System lsf not supported!]"
04/03/2010:
- [cris] prod-ce-02 - problemi in fase di reconfigurazione MPI:
Beginning Kernel Module Plugin
Finished Kernel Module Plugin
Error: Missing Dependency: glibc-common = 2.3.4-2.41 is needed by package glibc
soluzione - aggiungere nel /etc/yum.repos.d/sl-errata.repo, il "fastbugs":
[sl-errata-fastbug]
name=SL4 fastbug
baseurl=http://ftp.scientificlinux.org/linux/scientific/48/i386/errata/fastbugs/RPMS/
enabled=1
protected=0
03/03/2010:
- [simone] eu-india-02, gimo - gLite 3.1 Update 61: aggiornato e riconfigurato
- [simone] eu-india-03, eu-india-04, prod-bdii-01, prod-bdii-02, prod-lb-01, prod-mon-01, prod-ui-02 - gLite 3.1 Update 61: aggiornato
- [simone] prod-se-01 - risolti problemi storm-backend dopo l'installazione degli ultimi rpm forniti da Riccardo Zappi begin_of_the_skype_highlighting end_of_the_skype_highlighting.
02/03/2010:
- [simone] prod-se-01 - gLite 3.1 Update 61: errore in glite-info-service-storm e glite-info-dynamic-storm; ricreato ig-yaim-storm-4.0.9-3; aggiornato e riconfigurato; rimangono problemi con storm-backend (segnalati ai developer).
- [simone] prod-se-02 - gLite 3.1 Update 61: aggiornato e riconfigurato
01/03/2010:
- [simone] prod-wms-01 - gLite 3.1 Update 61: errore in config_lcas_lcmaps_gt4; ricreato ig-yaim-4.0.11-3; aggiornato e riconfigurato
26/02/2010:
- [simone] cert-15 - decommentata CREAM_CE_STATE=Production in /usr/local/nfs/3_2/nodes/cert-15.pd.infn.it
- [simone] prod-hlr-01 - problemi di performance rilevati sull'HLR (v. ad es. ticket https://ticketing.cnaf.infn.it/checklist-new/modules/xhelp/ticket.php?id=7609); i problemi sono dovuti alla mancanza di GRANT INDEX per l'utente DGAS_USER; a causa di questo translatedb -r non riesce a creare gli index necessari; creati a mano (corretta la funzione config_dgas_mysql in SVN):
CREATE INDEX lrmsId on hlr.jobTransSummary (lrmsId);
CREATE INDEX urSourceServer on hlr.jobTransSummary (urSourceServer);
CREATE INDEX hlrTid on hlr.jobTransSummary (hlrTid);
CREATE INDEX uniqueChecksum on hlr.jobTransSummary (uniqueChecksum);
Verificare periodicamente con:
select date(date), count(*) from jobTransSummary where accountingProcedure='outOfBand' and userVo='' group by date(date);
Quando tutti i CE saranno sistemati rilanciare translatedb -rv (commentare preventivamente il cron per evitare che vengano lanciate nuove istanze di translatedb).
23/02/2010:
- [cris] gilda-* - aggiornato lcg-vomscerts-5.8.0-1
- [simone] gw-master - aggiornata la Nodes Map con i valori di HEP-SPEC06 (corretti per le blade, approssimati per i WN piu` vecchi);
22/02/2010:
- [simone] all - aggiornati lcg-CA-1.34-1, lcg-vomscerts-5.8.0-1
- [simone] prod-wn-031 - installato e configurato ig_WN_LSF (preparato e utilizzato script /usr/local/nfs/scripts/install_lsf7_client.sh)
17/02/2010:
- [simone] voms-01, voms-01 - aggiornati i certificati (procedura qui).
- [simone] all - aggiornate lcg-CA-1.33-1
- [simone] prod-wms-01, prod-wms-01 - aggiunto il supporto alle vo euasia e ams02.cern.ch (su richiesta di Paolini)
15/02/2010:
- [simone] voms-02 - macchina virtuale piantata (no ssh, no console); dopo riavvio /etc/sysconfig/network-scripts/ifcfg-eth0 mancante...; ripristinato il file.
12/02/2010:
- [sergio] gilda-01, gilda-02, WN gilda-03 -> gilda-09 - modificato il /opt/glite/yaim/etc/gilda/gilda-site-info.def su tutti i nodi mettendo ENABLE_MPI=no e riconfigurati CE, SE e WNs
- [simone] prod-bdii-01, prod-bdii-02, prod-se-01, prod-wn-### - infngrid 3.1 Update 59/60 (riconfigurati WN); nessun update per prod-mon-01, voms-01, voms-02
- [sergio] prod-wms-01, prod-lb-01, prod-se-02, prod-ui-02 - infngrid 3.1 Update 59/60 (riconfigurato WMS)
09/02/2010:
- [simone] prod-ce-02, prod-ce-02 - infngrid 3.1 Update 59/60 (mpi disabilitato; controllato dgas)
- [simone] prod-se-01, gimo, prod-ui-02 - infngrid 3.1 Update 59/60
- [cris] prod-ce-01 - cambiato in /opt/nfs_install/3_1/nodes/prod-ce-01.pd.infn.it
[root@gw-master 3_1]# grep CREAM_CE_STATE nodes/prod-ce-01.pd.infn.it
#CREAM_CE_STATE=Special
CREAM_CE_STATE=Production
05/02/2010:
- [cris] prod-ce-02 - soluzione per problema: sBDII-gstat2-check-ce "Cores * PhysicalCPUs != LogicalCPUs"
[root@gw-master ~]# grep CE_OTHERDESCR /opt/nfs_install/3_1/ig-site-info.def.current
#CE_OTHERDESCR="Cores=value[,Benchmark=value-HEP-SPEC06]"
#CE_OTHERDESCR="Cores=2"
CE_OTHERDESCR="Cores=1.518"
- soluzione per bug #52878 (lcg-ManageVOTag) - modificato a mano /opt/edg/var/info/enmr.eu/enmr.eu.list
02/02/2010:
- [simone] all - aggiornato ig-vomscerts-all-1.1-10
29/01/2010:
- [cris] gw-master - modificato il lsb.queues per permettere sottomissione jobs da cert-15 (RES_REQ = select[type==any])
28/01/2010:
- [sergio] prod-ce-01, prod-ce-02, prod-se-01, prod-se-02, prod-lb-01, prod-mon-01, prod-wms-01, prod-ui-02, voms-01, voms-02, prod-wn-11 -> prod-wn-38 - come richiesto da mail di Paolini
1) Aggiornato lcg-vomscerts alal versione lcg-vomscerts-5.7.0-1
2) modificato il file /etc/grid-security/vomsdir/biomed/cclcgvomsli01.in2p3.fr.lsc contendo questo:
/O=GRID-FR/C=FR/O=CNRS/OU=CC-LYON/CN=cclcgvomsli01.in2p3.fr
/C=FR/O=CNRS/CN=GRID2-FR
3) modificati i site-info.def di prod 3_1 e 3_2 aggiungeno il 2 dopo GRID alla stringa /C=FR/O=CNRS/CN=GRID-FR
- [simone] prod-hlr-01 - Aggiornamento a DGAS 3.4.0 (procedura manuale pre-rilascio ufficiale):
1) Commentare il comando translatedb sul cron /etc/cron.d/dgas
2) Stoppare il servizio glite-dgas-hlrd e verificare che tutti i processi dgas siano down:
service glite-dgas-hlrd stop
ps aux | grep dgas
3) Analizzare e ottimizzare i database:
mysqlcheck -u dgas -p<password> --analyze hlr_tmp
mysqlcheck -u dgas -p<password> --optimize hlr_tmp
mysqlcheck -u dgas -p<password> --analyze hlr
mysqlcheck -u dgas -p<password> --optimize hlr
4) Aggiornare i dump dei database:
/etc/cron.daily/mysqlhotcopy.cron
5) Aggiornare a DGAS 3.4.0 e ig-yaim (in produzione yum install ig_HLR):
wget http://grid-it.cnaf.infn.it/mrepo/ig-cert_sl4-i386/RPMS.3_1_0/glite-dgas-common-3.4.0-1.sl4.i386.rpm
wget http://grid-it.cnaf.infn.it/mrepo/ig-cert_sl4-i386/RPMS.3_1_0/glite-dgas-hlr-clients-3.4.0-4.sl4.i386.rpm
wget http://grid-it.cnaf.infn.it/mrepo/ig-cert_sl4-i386/RPMS.3_1_0/glite-dgas-hlr-service-3.4.0-6.sl4.i386.rpm
wget http://grid-it.cnaf.infn.it/mrepo/ig-cert_sl4-i386/RPMS.3_1_0/glite-dgas-pa-clients-3.4.0-3.sl4.i386.rpm
rpm -Uvh glite-dgas*
service glite-dgas-hlrd stop (verificare con ps aux | grep dgas)
rpm -Uvh http://grid-it.cnaf.infn.it/mrepo/ig-cert_sl4-i386/RPMS.3_1_0/ig-yaim-4.0.8-3_v15_test09.noarch.rpm
6) Aggiornare a MySQL 5.1.34:
service mysqld stop (verificare con ps aux | grep -i mysql)
wget http://downloads.mysql.com/archives/mysql-5.1/MySQL-server-community-5.1.34-0.rhel4.i386.rpm
wget http://downloads.mysql.com/archives/mysql-5.1/MySQL-client-community-5.1.34-0.rhel4.i386.rpm
wget http://downloads.mysql.com/archives/mysql-5.1/MySQL-shared-compat-5.1.34-0.rhel4.i386.rpm
rpm -e --nodeps mysql mysql-server
rpm -ivh MySQL-*
rpm -qa | grep -i mysql (verificare che sia presente solo l'ultima versione)
service mysql start
7) Se presenti killare i processi dgas:
ps aux | grep dgas
8) Lanciare la procedura di rigenerazione delle tabelle (circa 3 ore):
/opt/glite/sbin/glite-dgas-hlr-translatedb -r
9) Analizzare e ottimizzare i database:
mysqlcheck -u dgas -p<password> --analyze hlr_tmp
mysqlcheck -u dgas -p<password> --optimize hlr_tmp
mysqlcheck -u dgas -p<password> --analyze hlr
mysqlcheck -u dgas -p<password> --optimize hlr
10) Riconfigurare il profilo ig_HLR con ig-yaim (nessun cambiamento nelle variabili DGAS_*):
/opt/glite/yaim/bin/ig_yaim -c -d 6 -s <siteinfo> -n ig_HLR
10) Verificare lo stato del servizio glite-dgas-hlrd:
service glite-dgas-hlrd status
ps aux | grep dgas | sort
[...] /opt/glite//sbin/glite-dgas-hlr-listener -c /opt/glite//etc/dgas_hlr.conf
[...] /opt/glite//sbin/glite-dgas-hlr-qmgr -l /opt/glite/var/log/dgas_hlr_qmgrd.log -c /opt/glite//etc/dgas_hlr.conf
[...] /opt/glite//libexec/glite-dgas-hlr-urforward -c /opt/glite//etc/dgas_hlr.conf -d
[...] /usr/bin/perl -w /opt/glite//sbin/glite-dgas-hlr-had.pl /etc/rc.d/init.d/glite-dgas-hlrd /opt/glite//libexec/glite-dgas-hlr-checkHostCertProxy.sh
11) Da considerare che alcuni file di conf, lock e log sono stati rinominati e spostati nelle posizioni standard sotto la dir /opt/glite (per i dettagli guardare http://igrelease.forge.cnaf.infn.it/doku.php?id=doc:guides:dgas#hlr_configuration).
27/01/2010:
- [simone] prod-ce-01, prod-ce-02 - Stoppato il servizio glite-dgas-urcollector in previsione dell'aggiornamento di prod-hlr-01 di domani.
25/01/2010:
- [cris] gw-master - osservato la presenza di jobs in PSUSP, nel bhist per tutti i jobs con problemi c'era prod-wn-027, chiuso con badmin, fatto bresume per i jobs in PSUSP. Da verificare prod-wn-027!!!
21/01/2010:
- [simone] prod-hlr-01 - pianificato intervento di upgrade per giovedi` 28/01/2010; il 26/01/2010 mandare mail di avviso ai siti ospitati per spegnimento glite-dgas-urcollector.
18/01/2010:
- [simone] prod-mon-01 - rinnovati certificato e chiave, copiati anche in /etc/tomcat5, riavviato tomcat5
- [cris] INFN-PADOVA - aperto code, upgrade LSF 7.0 finito, qualche riga here
- [simone] voms-01, voms-02 - prroblemi web su vo euindia (stessi problemi anche al CNAF; Paolini chiede chiarimenti a Ceccanti); procedura suggerita da Paolini.
1) stop dei servizi (con verifica effettivo shutdown dei processi)
/opt/glite/etc/init.d/voms stop
service tomcat5 stop
2) Aggiunta dei seguenti parametri di tuning per aumentare il numero di open file descriptors per tomcat
vi /etc/sysctl.conf
...
# INFN-PD: aumento numero di open fd per tomcat
fs.file-max = 400000
sysctl -p
vi /etc/security/limits.conf
...
#<domain> <type> <item> <value>
#
# INFN-PD: aumento numero di open fd per tomcat
* soft nofile 4096
* hard nofile 4096
3) Riavvio dei servizi (start VO per VO)
service tomcat5 start
/opt/glite/etc/init.d/voms start <vo>
17/01/2010:
- [cris] gw-master & prod_nodes - upgrade LSF-7.0.5, code ancora chiuse
15/01/2010:
14/01/2010:
- [cris] gw-master - code chiuse per upgrade LSF ( 6.0 -> 7.0.5)
07/01/2010:
- [cris/simone] prod-hlr-01 - rilevato in
/opt/glite/var/dgas/log/hlr_qmgrd.log
il seguente log:
resBankClient: Error inserting info in transInLog table.
Problemi su transInLog:
[root@prod-hlr-01 ~]# mysqlcheck -u root -pH1C14dfh hlr -v -e -c transInLog
# Connecting to localhost...
hlr.transInLog
warning : 3 clients are using or haven't closed the table properly
warning : Datafile is almost full, 4294967272 of 4294967294 used
status : OK
# Disconnecting from localhost...
Risolto con:
1. stoppare glite-dgas-hlrd
2. dump dei database
3. mysql> ALTER TABLE transInLog MAX_ROWS=1000000000 AVG_ROW_LENGTH=200;
4. riavviare glite-dgas-hlrd
Sono andati pero` perduti i record inviati all'HLR dal 21/12/2009 al 06/01/2010.
Notiamo inoltre una progressiva saturazione della memoria (probabilmente dovuta a mysql).
05/01/2010:
- [cris] prod-hlr-01 - per risolvere probl di non-pubblicaz. dati di accounting, seguendo il consiglio di AGuarise, aggiornato i rpm con quelli presenti al link 20091113B, pero' adesso si verificando probl con il HLR 2-level, da 03/01:
[root@prod-hlr-01 ~]# less /opt/glite/var/dgas/log/glite-dgas-ur-forward.log
...
LOG (4) 2010 Jan 03 07:21:10 : run(),Contacting server:2lw-hlr.to.infn.it
LOG (3) 2010 Jan 03 07:21:10 : Entering getInfo()
LOG (5) 2010 Jan 03 07:21:10 : Entering contactServer()
LOG (3) 2010 Jan 03 07:21:10 : 2lw-hlr.to.infn.it:56568:
LOG (3) 2010 Jan 03 07:21:50 : Got exception while in GSS context:Failed to establish security context...
LOG (3) 2010 Jan 03 07:21:50 : getInfo():error contacting server.
LOG (3) 2010 Jan 03 07:21:50 : Error retireving info from 2ndLEvel HLR:2lw-hlr.to.infn.it
LOG (4) 2010 Jan 03 07:21:50 : run(),Contacting server:hlr2-test-26.to.infn.it
LOG (3) 2010 Jan 03 07:21:50 : Entering getInfo()
LOG (5) 2010 Jan 03 07:21:50 : Entering contactServer()
LOG (3) 2010 Jan 03 07:21:50 : hlr2-test-26.to.infn.it:56568:
LOG (3) 2010 Jan 03 07:21:51 : STATUS ==4
LOG (3) 2010 Jan 03 07:21:51 : getInfo():error parsing answer.
LOG (3) 2010 Jan 03 07:21:51 : Error retireving info from 2ndLEvel HLR:hlr2-test-26.to.infn.it
22/12/2009:
- [simone] prod-hlr-01 - aggiornato certificato host e riavviato glite-dgas-hlrd.
18/12/2009:
- [cris] gw-master: - aggiornato la riga con i license-servers LSF:
[root@gw-master ~]# grep LSF_LICENSE /etc/lsf.conf
LSF_LICENSE_FILE=1700@flexserver-1.cr.cnaf.infn.it:1700@flexserver-2.cr.cnaf.infn.it:1700@flexserver-3.cr.cnaf.infn.it
[root@gw-master ~]# lsadmin reconfig
...
[root@gw-master ~]# badmin mbdrestart
...
- [simone] voms-02 - sintomi: load average > 30, tomcat impallato, reboot/shutdown non riuscito; soluzione: xm destroy.
- [simoen] cream-mstr-017 - tecnico DELL: corretto service tag (perche' era uguale a quello di prod-wn-011, probabilmente impostato in modo errato nel precedente intervento); foglio dell'intervento archiviato nella cartella "Documenti" nell'armadio.
16/12/2009:
- [cris] prod-wn-033, prod-wn-034 - chiusi nel batch-sys per uppreparazioni upgrade LSF 7.0.5
14/12/2009:
- [simone] prod-wn-027 - host irraggiungibile; fsck e reboot.
- [cris] cert-15, cert-39 - applicato correzione per "CVE-2009-4033 acpid vulnerability for RHEL5 and its clones".
- [simone] gimo - reinstallato su sl5 x86_64 con raid1 sw 250GB.
08/12/2009:
- [cris] prod-bdii-01 - applicato correczione per "CVE-2009-4033 acpid vulnerability for RHEL5 and its clones":
[root@gw-master ~]# rgang prod-bdii-01 "rpm -qa|grep acpid"
acpid-1.0.4-9.el5
[root@gw-master ~]# rgang prod-bdii-01 "ls -al /var/log/acpid"
--wSrwx-wT 1 root root 189 Jun 17 12:20 /var/log/acpid
[root@gw-master ~]# rgang prod-bdii-01 "chmod 0640 /var/log/acpid"
[root@gw-master ~]# rgang prod-bdii-01 "ls -al /var/log/acpid"
-rw-r----- 1 root root 189 Jun 17 12:20 /var/log/acpid
04/12/2009:
- [peter] grid-monitor - Finita installazione di gstat2, dopo aver ricevuto ed installato i nuovi certificati host (era euindia-gridice).
- [sergio/simone] vm-master-01, prod-bdii-01, voms-01 - Reinstallato vm-master-01 con SL5 x86_64 xen, ripristinato voms-01 (backup eseguito su prod-se-02:/flatfiles/SE00/), installato prod-bdii-01 su SL5 x86_64 (file di conf su /usr/local/nfs/3_2); installato anche il client bacula.
03/12/2009:
- [simone] vm-master-01, prod-bdii-01, voms-01 - Inserito downtime per il 04/12/2009 dalle 10:30 alle 18:30 per aggiornamento vm-master-01 a SL5 x86_64 e migrazione prod-bdii-01 a SL5 x86_64; voms-01 sara` mantenuto inalterato (spostato temporaneamente su storage).
- [simone] all - Aggiornato ig-vomscerts-all-1.1-7.
- [simone] prod-wn-027 - Problemi al disco; chiuso su LSF.
26/11/2009:
- [simone] gimo - Spostato su gimo2:/root/ipg-pd-sshaccess i file per la creazione dell'rpm con le nostre chiavi pubbliche; ora su gimo rimane solo Ganglia; si potrebbe pensare di reinstallarlo con SL5 x86_64 per xCat.
25/11/2009:
- [simone] eu-india-04 - Added access to Real Time Monitor:
mysql -u root -p
: <enter your mysql pass - in YAIM site-info.def>
GRANT SELECT ON lbserver20.events TO 'lcg2mon'@'tl00.hep.ph.ic.ac.uk'
IDENTIFIED BY 'TnoomG' ;
GRANT SELECT ON lbserver20.states TO 'lcg2mon'@'tl00.hep.ph.ic.ac.uk'
IDENTIFIED BY 'TnoomG' ;
GRANT SELECT ON lbserver20.short_fields TO
'lcg2mon'@'tl00.hep.ph.ic.ac.uk' IDENTIFIED BY 'TnoomG' ;
- [simone] WN - riaperti prod-wn-011/012/013/014 dopo intervento programmato ieri sullo switch dell'enclosure DELL.
24/11/2009:
- [fulvia] Blade DELL - Shutdown completo per l'aggiunta del modulo 10G sullo switch PowerConnect; al boot persa la configurazione nonostante fosse stata salvata in precedenza; contattato il supporto DELL per il reset della password; nota aggiunta qui.
- [simone] DGAS - Aggiunte su cert-27 (cream-ce lsf) e cert-29 (lcg-ce torque) le chiavi pubbliche di Patania e Cristofori (accesso root) che le useranno nei prossimi giorni per testare i nuovi rpm di DGAS 3.4.0. Gli accordi con loro prevedono di lasciar loro la possibilita` di:
- editare i file di configurazione di DGAS
- restartare i servizi di DGAS
- aprire i log di DGAS
mentre dovranno chiedere il permesso per ogni altra operazione.
20/11/2009:
- [cris] prod-ce-01 - cambiato "Special"=>"Production", rimuovendo il sed da /opt/glite/etc/gip/plugin/glite-info-dynamic-ce
- [simone] WN - chiusi prod-wn-011/012/013/014 per intervento programmato martedi` mattina sullo switch dell'enclosure DELL.
19/11/2009:
- [cris] prod-hlr-01 - registrate risorse di GILDA-PADOVA
- [cris] prod-bdii-01 - modificato /opt/bdii/etc/glue-slapd.conf ( vedi 2 BROADCAST: "BDII v4 top-level instances may not return all entries", "BDII v4 top-level instances may experience poor response times"):
[root@prod-bdii-01 ~]# grep size /opt/bdii/etc/glue-slapd.conf
#sizelimit 80000
sizelimit unlimited
#cachesize 60000
cachesize 150000
cachesize 60000
18/11/2009:
- [simone] prod-ui-02 - spostato temporaneamente il servizio https su 25555 per consentire a Paolo Veronesi di effettuare alcuni controlli.
- [cris] GILDA-PADOVA - reconfigurato sito per rimozione VO (adesso abilitate solo ops, dteam, infngrid, gilda), e cambiamento BDII_top (egee-bdii.cnaf.infn.it)
16/11/2009:
- [simone] voms-01, voms-02 - riavviato mysqld dopo segnalazione di problemi su ticket (#7054, 7055).
- [cris] voms-01, voms-02 - applicato raccom Ceccanti & Paolini per errore:
# voms-admin --vo virgo --host voms-01.pd.infn.it --port 8443 list-roles
The AXIS engine could not find a target service to invoke! targetService is VOMSAdmin
voms-01.pd.infn.it
soluzione:
[root@voms-01 ~]# /opt/glite/etc/init.d/voms-admin stop
[root@voms-01 ~]# /opt/glite/etc/init.d/voms stop
[root@voms-01 ~]# /etc/init.d/tomcat5 stop
[root@voms-01 ~]# grep nofile /etc/security/limits.conf
# - nofile - max number of open files
* soft nofile 4096
* hard nofile 4096
[root@voms-01 ~]# /etc/init.d/tomcat5 start
[root@voms-01 ~]# /opt/glite/etc/init.d/voms start
[root@voms-01 ~]# /opt/glite/etc/init.d/voms-admin start
...
# voms-admin --vo virgo --host voms-01.pd.infn.it --port 8443 list-roles
Role=SoftwareManager
Role=VO-Admin
# voms-admin --vo compchem --host voms-01.pd.infn.it --port 8443 list-roles
Role=SoftwareManager
Role=VO-Admin
Role=VOSoftwareManager
13/11/2009:
- [simone] Backup - su gimo2, gw-master, prod-ce-01, prod-ce-02, prod-se-01, prod-se-02 installato e configurato bacula-client-3.0.2 (v. Backup)
12/11/2009:
- [simone] prod-hlr-01 - terminato il riprocessamento dei record in hlr_tmp.trans_queue.
11/11/2009:
- [simone] kernel update CVE-2009-3547 - aggiornate le rimanenti macchine di produzione (comprese gw-master, gimo2); domani con Sergio vediamo se ricompilare il kernel-xen per le macchine di produzione ospitate su vm-master-01/02; chiesto a Peter di occuparsi di eu-india-00/01; effettuati controlli di funzionalita`; riaperte le code LSF.
10/11/2009:
- [simone] prod-ce-01 - aggiornato il certificato; servizi non riavviati perche' update kernel in programma.
- [simone] kernel update CVE-2009-3547 - aggiornati quasi tutti i wn (yum update) e riavviati con nuovo kernel; prod-wn-034 con problemi hardware disco (verificare in farm), prod-wn-027/028 aggiornati ma non riavviati perche' ancora con job running.
09/11/2009:
- [simone] kernel update CVE-2009-3547 - inserito du GOCDB downtime di sito da 10/11/2009 ore 12:00 a 11/11/2009 ore 18:00; chiuse le code di produzione.
- [cris] kernel update CVE-2009-3547 - aggiornato GILDA-PADOVA
- [simone] prod-hlr-01 - riprocessamento "manuale" dei records in trans_queue seguendo la procedura indicata nella INFNGRID DGAS Guide, processando blocchi di max 10k records (il riprocessamento totale dei records - > 1M - ha causato lo stallo del processo hlr_qmgr):
mysql -u root -p hlr_tmp -e "select to_cert_subject, count(*) as njobs from trans_queue group by to_cert_subject order by njobs desc;"
mysql -u root -p hlr_tmp -e "update trans_queue set priority=1 where to_cert_subject='RESOURCE';"
06/11/2009:
- [simone] kernel update CVE-2009-3547 - chiusi nodi prod-wn-014 (x86_64) e prod-wn-032 (i386) per prova aggiornamento kernel; lunedi` programmare chiusura code e inserimento downtime (proposta: chiusura coda lunedi`, downtime mercoledi`); aggiornamento su prod-wn-014 effettuato.
- [simone] voms-01 - applicato gLite 3.1 Update 58 (v. mail per dettaglio).
05/11/2009:
- [cris] gLite 3.1 Update 58 - aggiornata la GILDA-PADOVA
04/11/2009:
- [sergio] gLite 3.1 Update 58 - aggiornati prod-ce-01, prod-ce-02, prod-mon-01, prod-se-01, prod-se-02, prod-lb-01, prod-wms-01; riconfigurato prod-ce-01.
- [simone] gLite 3.1 Update 58 - aggiornati prod-hlr-01, prod-ui-02, prod-wn-###, eu-india-02, eu-indi-03, eu-india-04; NON aggiornati voms-01, voms-02 (settimana prossima dopo Paolini), eu-india-01 (chiedere a Peter).
03/11/2009:
- [cris] gw-master: aggiornato 3_1/ig-site-info.def:
# grep ACCT_DIR ../3_1/ig-site-info.def.current
DGAS_ACCT_DIR=/opt/lsf_6.0/work/pd_pn_lsf60/logdir/
e cert-3_1/*/ig-site-info.def.current:
lsf/ig-site-info.def.current:DGAS_ACCT_DIR=/opt/lsf_6.0/work/pd_lsf60_sl4/logdir/
torque/ig-site-info.def.current:DGAS_ACCT_DIR=/var/spool/pbs/server_priv/accounting
torque/ig-site-info.def.current:BATCH_LOG_DIR=/var/spool/pbs
cream_lsf/ig-site-info.def.current:DGAS_ACCT_DIR=/opt/lsf_6.0/work/pd_lsf60_sl4/logdir/
cream_torque/ig-site-info.def.current:DGAS_ACCT_DIR=/var/spool/pbs/server_priv/accounting
cream_torque/ig-site-info.def.current:BATCH_LOG_DIR=/var/spool/pbs
- [simone] Backup - su prod-bdii-01, prod-hlr-01, prod-lb-01, prod-wms-01, voms-01, voms-02 installato e configurato bacula-client-3.0.2 (v. Backup); date un'occhiata a Bacula-web
30/10/2009:
- [simone] all: updated to lcg-CA-1.32-1
27/10/2009:
- [simone] prod-ce-01, prod-ce-02: aggiunte variabili DGAS a nodes/prod-ce-01.pd.infn.it:
################################
# DGAS configuration variables #
################################
# For any details about DGAS variables please refer to the guide:
# http://igrelease.forge.cnaf.infn.it/doku.php?id=doc:guides:dgas
#-------------#
# CE settings #
#-------------#
# Specify the type of job which the CE has to process.
# Set ”all” on “the main CE” of the site, ”grid” on the others.
# Default value: all
DGAS_JOBS_TO_PROCESS="grid"
# Bound date on jobs backward processing.
# The backward processing does not consider jobs prior to that date.
# Default value: 2008-01-01.
DGAS_IGNORE_JOBS_LOGGED_BEFORE="2009-04-01"
modificata la variabile DGAS_USE_CE_HOSTNAME in ig-site-info.def.current:
# Main CE of the site.
# ATTENTION: set this variable only in the case of site with a “singleLRMS”
# in which there are more than one CEs or local submission hosts (i.e. host
# from which you may submit jobs directly to the batch system).
# In this case, DGAS_USE_CE_HOSTNAME parameter must be set to the same value
# for all hosts sharing the lrms and this value can be arbitrary chosen among
# these submitting hostnames (you may choose the best one).
# Otherwise leave it commented.
DGAS_USE_CE_HOSTNAME="prod-ce-02.$MY_DOMAIN"
settando a mano il valore useCEHostName in /opt/glite/etc/dgas_ce_pushd.conf su prod-ce-02 (CE LCG) e riavviando il servizio glite-dgas-pushd; riconfigurando completamente prod-ce-01 (CE CREAM).
26/10/2009:
- [simone] prod-hlr-01: registrate risorse cream di prod-ce-01.pd.infn.it e bocecream.bo.infn.it.
23/10/2009:
- [simone] voms-02: su richiesta di Alessandro Paolini aggiornato al gLite 3.1 Update 57 (su voms2.cnaf.it era abilitato per errore il repo glite linuxsoft e yum autoupdate, per cui abbiamo dovuto riallineare la replica).
21/10/2009:
- [simone] gimo2 - archiviato in passtore il nuovo certificato (grazie Stefano), copiato in /etc/grid-security, riavviato httpd.
19/10/2009:
- [cris] prod-ce-01 - applicato Update 56, disabilitato yum (disable_yum.sh)
- [cris] prod-ce-02 - no need for LNL-closeSE - recopied the static-file-CESEBind.ldif.orig
- [simone] gimo2 - abilitata su
/var/www/pmwiki/local/config.php
la notifica delle modifiche al Diary (v. http://www.pmwiki.org/wiki/PmWiki/Notify):
$EnableNotify = 1;
$NotifySquelch = 10800; # wait at least 3 hours between notifications
$NotifyList[] = 'notify=grid-services-pd@lists.infn.it group=Main.Diary';
16/10/2009:
- [simone] prod-wms-01, prod-ce-02, prod-ce-01: riconfigurati dopo aggiunta nuovi gruppi enmr.eu al groups.conf di produzione (richiesta di Marco).
- [simone] wms/lb: aggiornati i sensori wmsmon
15/10/2009:
- [cris] prod-wn-*, prod-se-* - reconfigurato per aggiungere cms-pool accounts (adesso 100)
14/10/2009:
13/10/2009:
- [simone] prod: Aggiornata la procedura di notifica dei downtime (v. "Downtime rules").
- [simone] gw-master: Modificata la variabile NTP_HOSTS: 193.205.57.100 => 192.84.143.133 (nuovo ntp server di sezione).
- [cris] prod-ce-02: eliminato il t2-srm-02.lnl.infn.it dall CESEBind per cms, alzato il numero di cms-pool a 100, reconfigurato
09/10/2009:
- [sergio] NTP Server: Attenzione cambiato NTP Server di sezione: da lxpd08.pd.infn.it a ntp.pd.infn.it
- [simone] prod aggiornamento site-info.def NTP: Aggiornato il site-info.def di produzione per puntare al nuovo NTP server ntp.pd.infn.it
06/10/2009:
- [simone] update 53/54/55: Aggiornate le seguenti macchine: prod-wms-01, prod-lb-01, prod-mon-01, voms-01, voms-02, prod-hlr-01.
- [sergio] update 53/54/55: Aggiornate le seguenti macchine: prod-ce-01, prod-ce-02.
- [simone] voms-01, voms-02, prod-bdii-01: Problema "
INIT: Id "co" respawning too fast: disabled for 5 minutes
" (stessi sintomi di questo thread: http://osdir.com/ml/redhat.fedora.xen/2006-11/msg00010.html) - non risolto su prod-hlr-01:
Modificato nel file /etc/inittab
sulle VM la riga relativa alla console nel modo seguente (valore tty1
dedotto da dmesg | grep "Xen virtual console"
):
co:2345:respawn:/sbin/agetty tty1 9600 vt100-nav
e riesaminato il file inittab
con il seguente comando:
init q
05/10/2009:
- [simone] update 53/54/55: Aggiornate le seguenti macchine: prod-bdii-01, prod-bdii-02, prod-wn-###.
- [sergio] update 53/54/55: Aggiornate e riconfigurato le seguenti macchine: prod-se-01 e prod-se-02.
02/10/2009:
- [cris] prod-ce-02: modificato /opt/glite/etc/gip/ldif/static-file-CE.ldif, per pubblicare:
lcg-info --bdii prod-ce-02.pd.infn.it:2170 --vo cms --list-ce --attrs VOCEVOs --query 'CE=prod-ce-02.pd.infn.it:2119/jobmanager-lcglsf-cms'- CE: prod-ce-02.pd.infn.it:2119/jobmanager-lcglsf-cms
- VOCEVOs VO:cms
DENY:/cms/Role=priorityuser
Copiato nel file /opt/glite/etc/gip/ldif/static-file-CE.ldif_with_deny_cms. Ricordarsi di usare questo file ogni volta che si reconfigura - yaim non prevede questo caso particolare!!
14/09/2009:
- [peter] prod-bdii-02: Aggiunto amga.pd.infn.it al site-urls.conf, riavviato il bdii; aggiornate le variabili in nodes/prod-bdii-02.pd.infn.it per le prossime riconfigurazioni.
- [simone] vm-master-01: Riavviate le VM (destroy, create) in quanto bloccate con gli stessi sintomi delle altre volte; al reboot sono partite con il kernel del master; ho dovuto commentare i vecchi link in /boot del master (anche se non c'e` nessun riferimento a questi link nel file /etc/xen/auto/xmdefconfig ...):
mv /boot/initrd-xen /boot/initrd-xen.old
mv /boot/vmlinuz-xen /boot/vmlinuz-xen.old
08/09/2009:
- [simone] gimo2: Aggiornate le directory
base
e i file in /tftpboot
dei repository replicati (v. istruzioni qui) e rilanciato mrepo -guvvv
.
- [simone] prod-hlr-01: Su indicazione di G. Patania, aggiunto al file
/opt/glite/etc/glite-dgas-2l-servers.conf
il nuovo server 2L HLR 2lw-hlr.to.infn.it
; errori nel log /opt/glite/var/dgas/log/glite-dgas-ur-forward.log
(G. Patania dice di non preoccuparsi: "E` normale" - cominciamo bene...):
LOG (4) 2009 Sep 08 14:18:32 : run(),Contacting server:2lw-hlr.to.infn.it
LOG (3) 2009 Sep 08 14:18:32 : 2lw-hlr.to.infn.it:56568:
LOG (3) 2009 Sep 08 14:18:32 : Got exception while in GSS context:Unable to connect to remote (2lw-hlr.to.infn.it:56568)
LOG (3) 2009 Sep 08 14:18:32 : Error retireving info from 2ndLEvel HLR:2lw-hlr.to.infn.it
04/09/2009:
- [cris] prod-lb-01: aggiornato anche il /home/glite/.certs/hostkey.pem - altrimenti - errori registrazioni jobs ("list-match"), o richieste "status".
01/09/2009:
- [simone] prod-lb-01: Aggiornato certificato; copiato anche in /home/glite/.certs/hostcert.pem e riavviati i servizi grid.
- [simone] all: Aggiornato il kernel alla versione 2.6.9-89.0.9.ELsmp; nota: il kernel-module-xfs necessario per montare le partizioni xfs di prod-se-01 e prod-se-02 e` stato spostato nel repository contrib di SL4 (ora attivato manualmente su entrambe le macchine).
31/08/2009:
- [sergio] voms-01, voms-02: Aggiornati a update 51/52 dopo aver verificato che i voms del CNAF sono gia` stati aggiornati.
- [cris] prod-wn-011, prod-wn-012: Modificato su gw-master il lsb.resources per riservare CPU a dteam e infngrid, per prove MPI
- [cris] prod-wms-01: modificato /opt/glite/etc/glite_wms.conf il "--ftpconn" da 30 a 300, e "connections_max" da 50 a 500 nel /opt/globus/etc/gridftp.conf, restart WMS e globus-gridftp (vedi KnownIssues WMS)
- [simone] all: inserito downtime unscheduled per aggiornamento kernel (vulnerability CVE-2009-2692)
25/08/2009:
- [sergio] prod-ui-02, prod-se-01, prod-se-02, prod-wms-01: Aggioranti a update 51/52 e dove richiesto riconfigurati (UI, DPM)
- [simone] prod-wn-###: Aggiornati a update 51/52 (compresa riconfigurazione); copiato nuovo file services/glite-wn su gw-master.
24/08/2009:
- [simone] prod-ui-02: Rinnovato il myproxy per nagios e rischedulati tutti i test in errore (esclusi quelli nmap che restano in warning => chiedere supporto)
- [sergio] prod-ce-01 prod-ce-02: eseguito update 51/52, controllati i file in nodes and services. Riconfigurato. Per prod-ce-02 eliminato repo di cert e rpm mpi e torque errati.
17/08/2009:
- [cris] prod-hlr-01: bloccatto - come successo il 23/07/2009- con i stessi sintomi (xm top indica cpu al 200%, flood di log '4gb seg fixup'):
xm destroy prod-bdii-01
xm create vmid=2
03/08/2009:
- [cris] prod-wn-011/012/013/014: Aperti host LSF dopo l'intervento programmato il 27/07/2009 sullo switch del blade enclosure.
- [cris] prod-ce-02: Cambiato da CPUScalingFactorSI00 a CPUScalingReferenceSI00 nel static-file-CE.ldif, e nel 3_1/ig-site-info.def.current (per le future config)
- [simone] all: Aggiornate lcg-CA 1.31-1
30/07/2009:
- [simone] voms-01: Modificato il timeout per la VO compchem in /opt/glite/etc/voms/compchem/voms.conf (--timeout=604800); adeguato anche il valore in /opt/glite/etc/config/vo-list.cfg.xml per le successive configurazioni.
27/07/2009:
- [simone] prod-ce-01: Settate in nodes/prod-ce-01.pd.infn.it le seguenti variabili per evitare la duplicazione delle informazioni sulle risorse di calcolo; modificato a mano il file static-file-Cluster.ldif su prod-ce-01:
# INFN-PD: Set 0 resource to second CE
# Total number of real CPUs/physical chips in
# the SubCluster, including the nodes part of the
# SubCluster that are temporary down or offline.
CE_PHYSCPU=0
# Total number of cores/hyperthreaded CPUs in
# the SubCluster, including the nodes part of the
# SubCluster that are temporary down or offline
CE_LOGCPU=0
24/07/2009:
- [simone] prod-wn-011/012/013/014: Chiusi host LSF per intervento programmato il 27/07/2009 sullo switch del blade enclosure.
23/07/2009:
- [simone] voms-01, prod-bdii-01: vm su vm-master-01 bloccati (come gia` un'altra volta in precedenza), non si riesce ad accedere, xm top indica cpu al 100%, flood di log '4gb seg fixup':
xm destroy voms-01
xm destroy prod-bdii-01
Controllato quanto indicato qui.
17/07/2009:
16/07/2009:
- [simone] gimo: modificato /etc/gmetad.conf per il monitoraggio di cream-10.
14/07/2009:
- [simone] all: applicato gLite 3.1 update 47/48/49/50; nuove variabili:
CE_CAPABILITY="CPUScalingFactorSI00=1032"
CE_OTHERDESCR="Cores=2"
SE_MOUNT_INFO_LIST="none"
09/07/2009:
- [sergio] prod-ui-02 aggiornato un rpm di Nagios rigurado un problema di sicurezza mail con oggetto Important security advisory about the recent Nagios vulnerability del 09/07/2009 alle 10:57
Ho eseguito questo comando dopo aver letto la documentazione:
rpm -Uvh http://www.sysadmin.hep.ac.uk/rpms/egee-SA1/sl4/i386/RPMS.release/nagios-3.0.6-1.el4.rf.1.oat.i386.rpm
08/07/2009:
[root@prod-lb-01 ~]# mysql -u root -p
Enter password:
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 16010 to server version: 4.1.22
Type 'help;' or '\h' for help. Type '\c' to clear the buffer.
mysql> GRANT SELECT ON lbserver20.events TO 'lcg2mon'@'tl00.hep.ph.ic.ac.uk' IDENTIFIED BY 'TnoomG' ;
Query OK, 0 rows affected (0.00 sec)
mysql> GRANT SELECT ON lbserver20.states TO 'lcg2mon'@'tl00.hep.ph.ic.ac.uk' IDENTIFIED BY 'TnoomG' ;
Query OK, 0 rows affected (0.00 sec)
mysql> GRANT SELECT ON lbserver20.short_fields TO 'lcg2mon'@'tl00.hep.ph.ic.ac.uk' IDENTIFIED BY 'TnoomG' ;
Query OK, 0 rows affected (0.00 sec)
02/07/2009:
- [simone] prod-ce-01: Ripristinati gli rpm di produzione (disabilitato il repo glite-cream-pps.repo - da chiarire come mai era presente); riconfigurato; ripristinato il bind verso l'SE di Legnaro (/opt/glite/etc/gip/ldif/static-file-CESEBind.ldif_CE01_con_T3_LNL_1); disabilitato yum autoupdate
26/06/2009:
- [simone] prod-se-01, prod-se-02: Aggiornati i certificati/chiavi server (per prod-se-01 copiati anche in /etc/grid-security/storm/) e riavviati i servizi.
22/06/2009:
- [simone] all: Aggiornate lcg-CA-1.30-1.
- [roberto] prod-se-02: Sostituito un alimentatore guasto.
19/06/2009:
- [sara] gimo2:/etc/dhcp.conf:
Eliminato il nome omii-eu-09 (hardware morto, commentato il MAC con #DEAD) riciclato l'IP per nuovo hardware arrivato dal CNAF e messo un nuovo nome: cream-37
Riciclati i nomi e IP cream-09 cream-10 cream-12 (hardware morto, commentato il MAC con #DEAD) associati a nuovo hardware arrivato dal CNAF. Le etichette DEAD potranno essere eliminate prossimamente, quando saremo sicuri che e` tutto ok.
16/06/2009:
- [simone] prod-ui-02: Aggiornata la documentazione Nagios relativamente alla creazione periodica del myproxy certificate.
15/06/2009:
- [sergio] voms-01, voms-02: aperto le porte:
provare ad aprire le porte con il comando:
[root@voms-01 ~]# /opt/glite/etc/init.d/voms-admin start <VO_NAME>
poi controllare con netstat che le porte siano aperte:
[root@voms-01 ~]# netstat -putan |grep edg-voms
Dentro al file /opt/glite/etc/voms/<VO_NAME>/voms.conf si vede la porta da aprire per quella VO
se non si aprono usare i comandi:
[root@voms-01 ~]# /opt/glite/sbin/edg-voms --conf /opt/glite/etc/voms/<VO_NAME>/voms.conf
[root@voms-01 ~]# /opt/glite/sbin/edg-voms --conf /opt/glite/etc/voms/<VO_NAME>/voms.conf
eseguire lo stesso comando 2 volte
ulteriore verifica utilizando ps:
[root@voms-01 ~]# ps -ef | grep edg-voms
12/06/2009:
- [sara/simone] prod-wn-008: Sostituite scheda madre e scheda video da tecnico DELL (il rapporto e` disponibile nel quaderno Documenti).
- [cris] voms-01, voms-02: abilitato controllo nagios:
# mysql -u root -pSapeteDaDovePrenderla
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 129275 to server version: 4.1.22
Type 'help;' or '\h' for help. Type '\c' to clear the buffer.
mysql> GRANT ALL ON test.* TO 'gstore'@'gstore.cnaf.infn.it';
Query OK, 0 rows affected (0.02 sec)
mysql> use mysql;
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A
Database changed
mysql> UPDATE user SET password=password("ChiedeteSeNonLaConoscete") WHERE user="gstore";
Query OK, 1 row affected (0.00 sec)
Rows matched: 1 Changed: 1 Warnings: 0
mysql> flush privileges;
Query OK, 0 rows affected (0.00 sec)
mysql> quit
11/06/2009:
- [simone] blade-01: Risolto il problema al modulo switch PowerConnect M6220 (grazie ad Alberto e Fulvia):
- dopo il down elettrico la configurazione e` andata persa perche' non era stata salvata come configurazione di startup (doh!);
- tra i vari tentativi era stato anche provato uno spostamento del modulo su un altro slot, ma abbiamo scoperto che il modulo deve essere collegato sullo slot A1 della backplane: The chassis can consist of up to six I/O modules (IOMs), which are either switch or pass-through modules. These six IOMs are classified into three groups named A, B, and C. Each group has two slots: slot 1 and slot 2. Each server module can contain up to two daughter cards (DCs). The chassis supports three fabric or protocol types: Groups A, B, and C. All devices in a group must have the same or compatible fabric types. Group A is always connected to the servers' on-board ethernet adapters; therefore, the fabric type of Group A will always be ethernet. In Group B, the IOM slots are permanently connected to the first DC slot in each server module. In Group C, the IOM slots are permanently connected to the second DC in each server module.
- una volta ripristinata la configurazione (essenzialmente per quanto riguarda il trunking) e SALVATA nella startup-config (a giovamento dei successivi reboot...), lo switch e` tornato a funzionare;
- i dettagli della configurazione sono riportati in fondo alla pagina Blade DELL;
- la password del management dello switch e` ora conosciuta solo dal Servizio Calcolo; i successivi interventi sono quindi a carico loro.
- riaperte le prod-wn-011, prod-wn-012, prod-wn-013, prod-wn-014
- [simone] prod-wn-011, prod-wn-012, prod-wn-013, prod-wn-014: riaperti su LSF.
09/06/2009:
- [cris] prod-wn-011, prod-wn-012, prod-wn-013, prod-wn-014: chiuse come hosts lsf causa guasto switch-blade DELL
- [simone] prod-bdii-01, prod-hlr-01, voms-01, voms-02: Ridimensionati il filesystem ext3 all'interno del volume logico:
# hostname
vm-master-01.pd.infn.it
# xm list
Name ID Mem VCPUs State Time(s)
Domain-0 0 3431 8 r----- 43732.5
prod-bdii-01 9 6144 2 -b---- 47655.9
voms-01 8 6144 2 -b---- 3080.1
# xm shutdown voms-01
# xm shutdown prod-bdii-01
# e2fsck -f /dev/xenvg/vm1
# resize2fs /dev/xenvg/vm1 100G
# xm create vmid=1
# e2fsck -f /dev/xenvg/vm2
# resize2fs /dev/xenvg/vm2 100G
# xm create vmid=2
08/06/2009:
- [cris] prod-ui-02: causa org.sam/SRM-probe cannot find module "lcg_util" per evitare i errori **UNKNOWN** su Nagios ("Service UNKNOWN alert for prod-se-02.pd.infn.it/org.sam.SRM-All-infngrid!") modificato il file /usr/libexec/grid-monitoring/probes/org.sam/SRM-probe:
# vi /usr/libexec/grid-monitoring/probes/org.sam/SRM-prob
...
import ldap
import errno
# added for bug #50058
try:
n=sys.path.index('/opt/lcg/lib/python2.3/site-packages')
except ValueError:
sys.path.append('/opt/lcg/lib/python2.3/site-packages')
#end added
try:
from gridmonsam import probe
...
05/06/2009:
03/06/2009:
- [sara/simone] all: spegnimento e riaccensione di tutte le macchine in conseguenza dell'intervento di manutenzione elettrica sul quadro generale
- sequenza di spegnimento: per ultimi gw-net, gw-master, prod-mon-01
- sequenza di accensione: per primi gw-net, gw-master, prod-mon-01
29/05/2009:
- [simone] gw-master: chiuse le code (tranne cert) per il downtime scheduled.
28/05/2009:
- [simone] voms-01, voms-02, prod-bdii-01, prod-hlr-01: migrazione in corso; vecchie macchine raggiungibili ai seguenti IP (pluggate su modulo privato dello switch, modificati i file /etc/sysconfig/network, /etc/sysconfig/network-script/ifcfg-eth0, /etc/resolv.conf):
- voms-01 => 192.168.132.240
- voms-02 => 192.168.132.241
- prod-bdii-01 => 192.168.132.242
- prod-hlr-01 => 192.168.132.243
- vm-master-01 ospitera` voms-01, prod-bdii-01
- vm-master-02 ospitera` voms-02, prod-hlr-01
27/05/2009:
- [cristina,simone] all: applicato l'update 45/46 (prod-ce-01, prod-ce-02, prod-bdii-02, prod-se-01, prod-se-02, prod-ui-02, prod-wms-01, prod-lb-01, prod-mon-01, WNs); non applicato a voms-01, voms-02, prod-hlr-01, prod-bdii-01 perche' a breve saranno migrati su nuovo hardware.
25/05/2009:
- [simone] cert-06: reinstallato su nuovo hard disk dopo la sostituzione; vm ripristinate.
22/05/2009:
- [simone] all: aggiornato ig-vomscerts-all-1.1-5.
19/05/2009:
- [simone] all: inserito downtime da giovedi` 28/05 a venerdi` 05/06; chiusura delle code venerdi` 28/05; esecuzione dei lavori elettrici in farm mercoledi` 03/06; reinstallazione di voms-01, voms-02, prod-bdii-01 in seguito.
- [sara] prod-wn-006 -007 -008 -009: Virtualizzate ciscuna con 4 guest. Host SL5, guest SL4. Aggiornata la Nodes map-cream
- [sara] prod-wn-010: non e` piu` un nodo, ma lsf master per il cluster dei test cream (ruolo equivalente a gw-master per la produzione).
15/05/2009:
- [cris] voms-01, voms-02: Dopo la rimozione del tomcat il 27 Aprile (andato come dipendenza del cups) e' la reinstallazione il 12 Maggio il voms-admin non funzionava piu'. Soluzione:
Per voms-01:
# cp /etc/my.cnf /etc/my.cnf_backup_14052009
# /opt/glite/etc/config/scripts/glite-voms-server-config.py --configure
# /opt/glite/etc/config/scripts/glite-voms-server-config.py --start
# netstat -apn |grep 8443
tcp 0 0 :::8443 :::* LISTEN 7259/java
Per voms-02:
# cp /etc/my.cnf /etc/my.cnf_backup_14052009
# /opt/glite/etc/config/scripts/glite-voms-server-config.py --configure
# /opt/glite/etc/config/scripts/glite-voms-server-config.py --start
solo che la configurazione del mysql e' stata sovrascritta e, per ... "vari" mottivi (probabilmente diff tra le lcg-CA del master e replica) la replica su voms-02 non era piu' consistente con quella del voms02.cnaf (problemi con la superbvo.org VO). Passi:
# vi /etc/my.cnf <--- commentate le righe per superbvo.org
# /opt/glite/etc/config/scripts/glite-voms-server-config.py --remove --remove-db --vo=superbvo.org
# /opt/glite/etc/config/scripts/glite-voms-server-config.py --configure --vo=superbvo.org
# /opt/glite/etc/config/scripts/glite-voms-server-config.py --start --vo=superbvo.org
# vi /etc/my.cnf <--- scommentate le righe per superbvo.org
# /root/voms-scripts/next_replicas.sh --master-db=voms_superbvo_org --db=voms_superbvo_org
# netstat -apn |grep 8443
tcp 0 0 :::8443 :::* LISTEN 4034/java
06/05/2009:
- [simone] all: aggiornato lcg-CA 1.29-1.
- [cris] disabilitato HT: per aggiornare correttamente i PhysCPU e Logical CPU disabilitato il HT su prod-wn-015, 016, 017, 020, 021, 022, 033, 036 - agigungendo "noht" nel grub.conf
# grep noht /boot/grub/grub.conf
kernel /boot/vmlinuz-2.6.9-78.0.17.ELsmp ro root=LABEL=/ noht
- [cris] prod-ce-02: modificato /opt/glite/etc/gip/ldif/static-file-Cluster.ldif mettendo:
GlueSubClusterPhysicalCPUs: 54
GlueSubClusterLogicalCPUs: 82
04/05/2009:
- [simone] prod-ce-02: aggiornato il certificato e riavviati i servizi grid.
- [cristina] prod-wms-01, prod-lb-01: aggiornato il certificato e applicato l'update 45.
29/04/2009:
- [simone] prod-ce-01: installato ig_CREAM_LSF; impostato il CESEBind corretto per cms; aggiunto il nodo al GOC; aggiunto il nodo al site BDII.
28/04/2009:
- [cristina] prod-ce-02: corretto il CESEBind per cms (default ripristinato dopo la riconfigurazione); aggiunta nota su REMEMBER!.
27/04/2009:
- [simone] all: applicato l'update 42/43/44.
- [simone] egrid-se-01: Marco autorizza la cancellazione del nome da DNS e il riutilizzo dell'hardware per scopi di certificazione.
24/04/2009:
- [simone] all: aggiornato ig-vomscerts-all-1.1-4.
23/04/2009:
- [sergio/simone] gw-master: sostituito l'hardware con quello di prod-wn-039 (problemi alla scheda madre o al controller 3ware); sostituito il secondo disco RAID1; rebuild in corso.
21/04/2009:
- [cris] prod-ce-02: modificato /opt/glite/etc/gip/ldif/static-file-Cluster.ldif mettendo:
GlueSubClusterPhysicalCPUs: 56
GlueSubClusterLogicalCPUs: 86
sequendo le istruzioni https://twiki.cern.ch/twiki/pub/LCG/WLCGCommonComputingReadinessChallenges/WLCG_GlueSchemaUsage-1.8.pdf
- [simone] prod-wn-031: deceduto, tolto dal cluster LSF.
- [simone] most prod-wn-###: ricablati sul nuovo switch 10 Gbps.
14/04/2009:
- [simone] gw-master: ripristinate le licenze CNAF e riavviato LSF.
- [simone] prod-ce-01: tolto dal site BDII di produzione; rimosso dal cluster LSF; rimosso da GOCDB.
13/04/2009:
- [cris] prod-bdii-02: disabilitato yum!!! Verificare la disabilitazione su TUTTE le macchine!
06/04/2009:
- [simone] voms-02: ricreato il database
voms_enmr_eu
; il meccanismo di replica si era scontrato con quello di aggiornamento della tabella delle CA in corrispondenza dell'aggiornamento del pacchetto lcg-CA
; la tabella della replica era diversa ed il meccanismo di replica trovava che un valore era già presente, per cui si bloccava; in futuro attendere che l'aggiornamento delle CA sia effettuato prima sul master.
- [simone] all: predisposta la directory /opt/nfs_install su gw-master e modificato il mount sulle macchine client (prod, cert, gilda, euindia - chiesto a Sara per cream); mantenuta la directory su prod-ce-01 per evitare che si inchiodi NFS nelle macchine non ancora adeguate (contenuto spostato in /opt/nfs_install.disabled).
03/04/2009:
- [simone] gw-master: installato e configurato rgang (in vista della vicina dismissione di prod-ce-01); aggiornato ipg-pd-sshaccess.
02/04/2009
- [simone] prod-ce-01: inserito downtime dal 14/04 al 30/04 per la dismissione del profilo CE SL3 e l'installazione del profilo CREAM SL4.
31/03/2009:
- [simone] nuovo hardware: migrare le seguenti macchine:
- voms-01
- voms-02
- prod-hlr-01
- prod-bdii-01
30/03/2009:
- [cristina] all: aggiornato a lcg-vomscerts-5.4.0-1.
25/03/2009:
/opt/glite/yaim/bin/ig_yaim -r -d 6 -s /usr/local/nfs/3_1/ig-site-info.def.current -f config_newvo_wms -n ig_WMS
/opt/glite/yaim/bin/ig_yaim -r -d 6 -s /usr/local/nfs/3_1/ig-site-info.def.current -f config_newvo_lb -n ig_LB
23/03/2009:
- [cristina,simone] prod-ce-02: Aggiornato globus-gma e riavviato il servizio; rilevati problemi sui dischi, nessun problema rivelato con badblocks, probabilmente il raid sw non riesce a sopportare il carico dovuto al pesante swap (parecchi GB di globus-gatekeeper.log).
- [simone] all: Aggiornato a lcg-vomscerts-desy-0.0.9-1.
- [simone] prod-ui-02: Installato ig_PX ad uso e consumo del Nagios di sito (modificata la variabile PX_HOST nel site-info di produzione).
17/03/2009:
- [simone] all: Aggiornato a lcg-CA-1.28-1.
- [cris] prod-ce-02: Modificato il file /opt/glite/etc/gip/ldif/static-file-CESEBind.ldif per dichiarare il storage di LNL ( t2-srm-02.lnl.infn.it) come CloseSE (backup del vecchio file in /opt/glite/etc/gip/ldif/static-file-CESEBind.ldif_before_T3_LNL)
11/03/2009:
- [simone] voms-01: Migrato su SL4.
- [simone] prod-ce-02, prod-hlr-01: Creato un check logwatch per monitorare lo stato del servizio DGAS sull'HLR; per info Logwatch.
09/03/2009:
- [simone] prod-hlr-01: Continuano i restart periodici di glite-dgas-hlrd...
05/03/2009:
- [cristina/sergio/simone] all: INFNGRID 3.1 Update 40/41 (compresa riconfigurazione Nagios di sito).
03/03/2009:
- [simone] prod-hlr-01: Sbloccati job di SISSA-TRIESTE su hlr_tmp dopo la segnalazione di Paolini.
use hlr_tmp
update trans_queue set priority=10 where to_cert_subject like '%sissa%';
- [simone] prod-hlr-01: Aggiornato il kernel e riavviato.
02/03/2009:
- [simone] prod-lb-01: Riavviati i servizi gLite (trovato glite-lb-bkserverd bloccato)
- [simone] eu-india-02: Proposta l'installazione della "Google malloc" su
eu-india-02
, ma rinviata perche' e` necessaria una patch non ancora in produzione; manteniamo qui le istruzioni da usare in seguito:
27/02/2009:
- [simone] voms-02: Aggiornato all'ultimo update; qualche problema con i pacchetti jpp (applicati i suggerimenti qui: https://savannah.cern.ch/bugs/?45994).
- [simone] voms-01: Aggiornamento a SL4 rinviato per problemi all'upgrade del DB su voms.cnaf.infn.it; attendiamo istruzioni da Paolini.
- [simone] prod-hlr-01: Numerosi riavvi del servizio glite-dgas-hlrd in questi giorni...
26/02/2009:
- [simone] voms-02: Rimossa la VO
superb.org
; sara` rinominata superb.edu
.
24/02/2009:
- [simone] voms-01, voms-02: Aggiornati i certificati (attenzione a sostituire tutte le copie: verificare con '
locate hostcert.pem; locate hostkey.pem
'); riavviati i seguenti servizi:
service mysql restart
service tomcat5 restart
/opt/glite/etc/init.d/voms restart
Nota: corretto un baco in /etc/init.d/tomcat5
su SL4: #!/bin/bash
=> #!/bin/sh
.
23/02/2009:
- [simone] voms-01: Inserito downtime per il 26/02 (migrazione a SL4 concordata con Paolini).
20/02/2009:
- [simone] voms-02: Configurata la VO
superb.org
.
- [simone] prod-wms-01, prod-lb-01: Installati su nuovo HW twin.
19/02/2009:
- [simone] all: Aggiornato ig-vomscerts-all-1.1-3.
- [cristina] Risolto l'"eterno" probl del top-BDII su VM - seguendo il bel manuale Murri:
[root@eu-india-03 ~]# grep database /opt/bdii/etc/glue-slapd.conf
# bdb database definitions
#database bdb
database ldbm
# Infosys database definitions
#database bdb
database ldbm
18/02/2009:
- [simone] prod-wms-01: Messo in draining mode.
17/02/2009:
- [simone] prod-se-02: Fallimenti repliche => riavviato dpm-gsiftp; con l'occasione aggiornati gli rpm con yum update.
- [simone] prod-wn-###: Aggiornato java; controllato anche sulle altre macchine SL4.
- [cristina] Creazione della mailing list
grid-services-pd@infn.it
per le comunicazioni di servizio relative al sito di produzione (Nagios, ...).
- [cristina] Rimosso 1 JobSlot riservato per euindia (su prod-wn-035), aumentata la priorita' di cyclops (175)
16/02/2009:
- [simone] prod-wms-01, prod-lb-01: Inserito downtime su GOCDB dal 18/02 ore 6:00 al 20/02 ore 20:00; mettere il wms in drain il 18/02 mattina; reinstallare il 20/02 sulle due nuove twin.
- [cris] prod-wn-014 (SO x86_64) - installato LSF 6.0 (vers ia32), inserito nella hosts di gw-master, riservato reconfigurato lsadmin, badmin; prod-wn-039 - chiusa per la produzion, per un eventuale reinstallaz a 64b per CMS, nel caso wn-014 non funzionasse.
12/02/2009:
- [simone] cert-13, cert-34, gilda-11: Sostituiti dischi.
- [simone] prod-ui-02: Terminata installazione Nagios server.
09/02/2009:
- [simone] GOCDB: Rimosso prod-ui-01.
09/02/2009:
- [simone] DNS: Richiesta rimozione dei seguenti nomi: prod-ui-01, omii-eu-01, omii-eu-02, omii-eu-03, omii-eu-04, omii-eu-05, omii-eu-06, omii-eu-07, omii-eu-08; aggiornata la pagina "IP Management"
- [simone] prod-wn-027: Sostituito il disco; reinstallato; aperto su LSF.
- [simone] gimo2: Aggiornato il file sl4x-pn.ks alla nuova subnet 192.168.132.0.
- [simone] prod-ui-02: Richiesto certificato host per l'installazione del Nagios Server di sito; salvato su passtore; installato.
- [simone] prod-ui-02, cert-30: Aperto ticket GGUS #46052 "Requesting access to the SAM programmatic interface" per avere accesso ai risultati SAM ai fini Nagios.
05/02/2009:
- [simone] prod-wn-027: Problemi al disco; chiuso l'host su LSF.
- [simone] all: Aggiornate le lcg-CA 1.27-1.
04/02/2009:
- [cristina] all: Aggiornato lcg-vomscerts.
02/02/2009:
- [simone] prod-mon-01: Installato 3DM2.
- [simone] cert-09: Backup della directory di compilazione di XEN su prod-se-02:/flatfiles/SE00/bkp_xen.
- [simone] gimo: Sostituito il disco di backup con uno piu` capiente.
- [simone] voms-02: Configurata la nuova VO pacs.infn.it.
30/01/2009:
- [sergio/simone] gimo2: Aggiornati i mirror locali ai repository SL4 e SL5 (compresa la parte per l'installazione da rete); modificati i file ks e cfg.
- [simone] master xen di cert: Sostituiti i repo SL4 con quelli aggiornati; bloccate le versioni del kernel nel seguente modo:
yum install yum-versionlock
rpm -qa | grep kernel | sort > /etc/yum/pluginconf.d/versionlock.list
29/01/2009:
- [simone] prod-ce-01: Modificati a mano i file ldif per sostituire il DefaultSE (gridit002 => prod-se-02, tranne che per CMS) e per rimuovere il CESEBind verso gridit002.
28/01/2009:
- [cristina/sergio] prod-mon-01: Nuova installazione e configurazione.
- [simone] prod-mon-01: Aggiornate le info GOCDB; prod-bdii-02: Riconfigurato (+prod-mon-01 -gridit002).
27/01/2009:
- [sergio/simone] Backup del software degli esperimenti prima della reinstallazione di prod-mon-01 in prod-se-02:/flatfiles/SE00/bkp_gridit002_20090127
- [sergio/simone] Update 39: sito in downtime; chiuse le code.
26/01/2009:
- [simone] prod-ui-01 => prod-wn-037; omii-eu-00 => prod-wn-038; omii-eu-db => prod-wn-039; gridit002 => prod-mon-01
- [simone] voms-02: aggiornato agli ultimi update; fatte le seguenti modifiche manuali:
- in /etc/init.d/tomcat5 sostituito #!/bin/bash con #!/bin/sh
- ricreato correttamente il link alla libreria bcprov.jar con il comando ln -sf /usr/share/java/bcprov.jar /var/lib/tomcat5/server/lib/ (a seguito dell'aggiornamento a bouncycastle-1.41).
23/01/2009:
- [cristina/simone] Installato ipg-pd-routing-rules su prod-ce-02: senza di esso la funzione config_lsf_ssh_hostbased_auth non creava correttamente il file /etc/ssh/shosts.equiv; riconfigurato prod-ce-02 e rilanciata la funzione config_lsf_ssh_hostbased_auth su tutti i wn; riavviato; risolto solo con l'aggiornamento di bouncycastle alla versione 1.41.
- [simone] Effettuato backup delle dir /root, /home, /home_local di prod-ui-01 in prod-se-02:/flatfiles/SE00/bkp_prod-ui-01
- [simone] Riavviato /opt/glite/etc/init.d/glite-wms-wm: il processo /opt/glite/bin/glite-wms-workload_manager occupava il 75% della ram; rimossi anche i job HELD usando lo script /root/bin/kill-held-jobs.sh; Daniele e Danilo al CNAF suggeriscono di passare alla google malloc sul wms; riporto qui le indicazioni:
(14:40:31) danilo: google-perftools-1.0-1.i386.rpm
(14:40:35) danilo: google-perftools-devel-1.0-1.i386.rpm
(14:40:52) danilo: vi /opt/glite/etc/init.d/glite-wms-wm
(14:41:14) danilo: e scommentare
(14:41:15) danilo: use_google_perf_tools=1
(14:41:22) danilo: poi riavviare il wm
(14:41:31) simoneDF: voi avete gia` provato?
(14:41:35) danilo: si
(14:41:49) danilo: resta sui 500MB di memoria
(14:41:56) danilo: invece che divergere
22/01/2009:
- [simone] Modificato /usr/local/nfs/3_1/ig-site-info.def.current di produzione: aggiunte FQAN sulla coda cms.
- [simone] Installato prod-ce-02 come ig_CE_LSF.
21/01/2009:
- [simone] Configurata la VO eticsproject.eu su voms-02.
- [cristina/sergio/simone] Ancora un errore sul mapping di prod-se-01 (StoRM) dovuto ad un grep errato in config_mkgridmap (grep CE matcha anche il metapackage GRIDICE); momentaneamente modificato a mano; committata soluzione in SVN.
20/01/2009:
- [cristina/sergio/simone] Debuggato e risolto un problema di mapping su prod-se-01 (StoRM) => errore in config_vomsmap, ora corretto e committato.
19/01/2009:
- [simone] Pianificato per venerdi` 23/01 lo spegnimento di prod-ui-01; effetturare il backup delle home su un SE.
16/01/2009:
- [simone] Modificate su GOCDB le informazioni relative al nostro BDII Site (prod-ce-02 => prod-bdii-02); Alessandro Paolini ha aggiornato i BDII Top di produzione; Marco ha aggiornato i BDII Top dei suoi progetti; pianificato un downtime dal 21 al 23 gennaio per la reinstallazione da scratch di prod-ce-02 senza BDII Site (visti anche i problemi dovuti a processi globus-gma defunct).
15/01/2009:
- [cris] aggiornato il prod-bdii-01, prod-bdii-02, prod-ce-02 con il bdii-4.0.1-4 per risolvere il tkt #43230 + patch #2671
- [cris] riconfigurato LSF per eliminare le priorita per cyclops e cms (su prod-wn-011, prod-wn-030)
14/01/2009:
- [simone] Aggiornate su prod-wn-011 e prod-wn-030 le lcg-CA 1.26-1.
13/01/2009:
Minute riunione al centralone (Cristina, Sara, Marco, Peter, Simone, Sergio)
- Nuove macchine:
- Arriveranno 4 macchine nuove e saranno cosi' utilizzate:
- 1 WMS
- 1 LB
- 1 HLR, 2 VOMS, 1 BDII TOP (su 4 macchine virtuali)
- 1 macchina libera per progetti
- tutte le macchine che si liberano diventeranno WN;
- Sono arrivate 2 lame per il Blade DELL (1 per Dipartimento/Calcolo, 1 per Grid), sentire Michelotto e in caso installare WN.
- prod-ce-02: da reinstallare solo come CE (non piu` anche come BDII Site); => DONE
- prod-bdii-02: da installare come BDII Site; => DONE
- prod-ce-01: Cristina manda mail per vedere quanti in Italia hanno ancora CE SL3; se non ce ne sono o ve ne sono pochi si reinstalla un CE SL4;
- gridit002: dismettere e installare come MON, GriICE Server e Repository Software degli esperimenti; si valuta in futuro di usare come repository delle immagini di backup delle virtuali di certificazione; => pianificato down per il 21/01/2009
- prod-ui-01: Marco manda mail per vedere se si puo` dismettere; e' una UI SL3 (usata principalmente da CMS/Gasparini); se nessuno obietta si reinstalla e diventera` WN; => nessuna risposta; pianificato down per 23/01/2009; effettuato backup; spenta
- omii-eu-00 e omii-eu-db: da reinstallare come WN; => pianificato per il 23/01/2009
- omii-eu-09: utilizzato da Sara per test CREAM: vietato toccare!
- gilda testbed: gilda ha le sue macchine e se le tiene; gilda-23 e` di Cristina per etics e Joomla; gilda-13 e` un superCE e gilda-12 una superUI;
- cert-13: xen master (cert-17, cert-18, cert-19, cert-20) che deve essere sempre pronta per essere scratchata e fare le installazioni da zero dei profili con ultimo update; => DONE
- farm di cert: proposta l'idea in futuro di passare su rete privata la farm di certificazione, creando FAKE CA e certificati FAKE per gli host recuperando cosi' IP pubblici. Ci sarebbe parecchio lavoro da fare, quindi questo task passa a priorita' bassa.
- xen: c'e` da vedere script XEN per velocizzare l'installazione delle virtuali, soprattutto per cert-13;
- nagios: chiedere al prossimo meeting se Nagios sara' ancora il monitoring standard delle farm grid, se si. Chiedere lo stato avanzamento lavori a Giuseppe Misurelli e Paolo Veronesi;
- OSSEC: sarebbe bello, ma il calcolo non vuole farlo, si pensa di usare cert-34 per installare OSSEC e vedere cosa succede;
- LSF priority: si possono rimuovere le priorita' cyclops dai WN di produzione; => DONE
- HLRMon: controllare per tenere traccia dei job di e-NMR;
- OGC WebServices: prima o poi si dovra' vedere questo prodotto fatto da DATAMAT su sviluppi partiti da Stefano DP usato da Angelini di Cyclops
13/01/2009:
- [simone] Installato il certificato su prod-bdii-02 (certificato anche salvato su passtore); configurato prod-bdii-02 come BDII site (il suo file di configurazione aggiuntivo e`: /usr/local/nfs/3_1/nodes/prod-bdii-02.pd.infn.it).
09/01/2009:
- [simone] Rinominato su DNS cert-35 => prod-bdii-02, richiesto il certificato, reinstallato con il ks sl4X.ks (raid da` problemi => da investigare), installato il profilo ig_BDII, modificata la variabile SITE_BDII_HOST sul site-info.def di produzione.
- [peter] Installato certificato su prod-hlr-01, nessuna riconfigurazione.
08/01/2009:
- [simone] Sostituito a caldo un alimentatore su gridit002.
- [cristina/sergio/simone] Riavviato prod-ce-02, spenti tutti i servizi grid, atteso il termine della sincronizzazione del raid, riconfigurato con yaim, rebootato.
07/01/2009:
- [peter] Richiesto rinnovo del certificato per prod-hlr-01.
- [simone] Spendo il servizio 3dm su gridit002 (mantenuto attivo solo il servizio 3dm2).
- [simone] Sostituito il disco c0u1p7 su egrid-se-01 e ripristinato l'invio delle mail a grid-prod@pd.infn.it.
05/01/2009:
- [cris] Continuano i probl con prod-ce-02 - apena finito il Downtime sono arrivati i SAM-alarms. Anche se non c'e' nesun job per prod-ce-02 non si riesce piu acceddere tramite ssh, risponde invece al ping. Prorogato il dowtime fino a 07.01.2009.
02/01/2009:
- [cris] Di nuovo troppi alarmi su INFN-PADOVA - causa prod-ce-02 inutilizabile:
[root@prod-ce-02 ~]# ps -ef |grep enmr028|wc -l
4841
[root@prod-ce-02 ~]# ps -ef |grep defunct |wc -l
4813
rimossi tutti i processi, continuano i problemi, nel /var/log/messeges:
Jan 2 14:23:12 prod-ce-02 GRAM gatekeeper[32463]: "/DC=ch/DC=cern/OU=Organic Units/OU=Users/CN=romanov/CN=427293/CN=Vladimir Romanovsky" mapped to sgmlhcb (13901/13000)
Jan 2 14:23:12 prod-ce-02 GRAM gatekeeper[32463]: globus_gsi_gssapi: Error with GSI proxy globus_credential: Error writing proxy credential globus_credential: Error writing cred
ential: Can't write PEM formatted X509 cert in cert chain to BIO stream OpenSSL Error: pem_lib.c:588: in library: PEM routines, function PEM_write_bio: BUF lib
and - no free space!:
[root@prod-ce-02 ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/md0 74G 72G 0 100% /
/dev/md1 494M 14M 455M 3% /boot
provo spostare su prod-se-02:/flatfiles/saved i seguenti files per debug:
-rw-r--r-- 1 root root 55G Dec 29 06:05 /var/log/globus-gatekeeper.log.20081228081145.0
-rw-r--r-- 1 root root 13G Jan 2 14:11 /var/log/globus-gatekeeper.log
fatto restart del bdii (era fermo per impossiblita di scrivere :-) ) e' chiuso tutti i tkt GGUS aperti su INFN-PADOVA (prod-ce-01, prod-se-01, prod-se-02).
29/12/2008:
- [simone] Nuovamente sostituito il disco hda riservato al backup su gimo
- [simone] Sostituito il disco sda su prod-ce-02; temporaneamente bannato l'utente Alexandre Bonvin mentre investighiamo:
[root@prod-ce-02 ~]# cat /opt/glite/etc/lcas/ban_users.db
"/O=dutchgrid/O=robots/O=universiteit-utrecht/OU=chem/CN=Robot: grid client - Alexandre Bonvin 2008"
- [sergio/simone] Dismesso egrid-se-01 da SE per egrid; rimosso un controller 3ware (riposto nello scatolone sotto la console in sala macchine) e gli 8 dischi ad esso collegati; reinstallata con il kickstart sl4X-hda.ks e reimpostata la partizione LVM.
24/12/2008:
- aggiunto GOCDB Downtime per prod-ce-02: https://goc.gridops.org/downtime/list?id=15405421 - " Problem with globus-gma, node under investigation" - non ha funzionato neanche il setaggio del GLOBUS_GMA - successo solo dopo un nuovo run_function config_marshal - da investigare perche il setting non e' successo dopo una normale configurazione.
22/12/2008:
- [simone] Rimossi i job held su prod-wms-01 usando lo script di Paolini (riportato qui):
[root@prod-wms-01 ~]# cat bin/kill-held-jobs.sh
#!/bin/bash
CONDOR_HELD=`/opt/condor-6.8.4/bin/condor_q -hold| grep glite| awk '{print $1}'`
for JOB_ID in $CONDOR_HELD
do
echo "Removing job: $JOB_ID"
/opt/condor-6.8.4/bin/condor_rm $JOB_ID
done
for JOB_ID in $CONDOR_HELD
do
echo "Do -forcex to job: $JOB_ID"
/opt/condor-6.8.4/bin/condor_rm -forcex $JOB_ID
done
- [simone/cristina] Riavviato prod-ce-02 per il problema rilevato qui:
"GRIF (MJ): they are running an lcg-ce and after update 33 see thousands of defunct processes (globus-gma) on the server causing performance problems. The associated GGUS ticket for a response is 42981." Aggiunto "tout 120" a /opt/globus/etc/globus-gma.conf. Killati i job enmr che erano rimasti bloccati in running (i rimanenti pending cmq sono "morti" per proxy scaduto).
- [simone] Rimosso hda su gimo (conteneva il vecchio /var/rep prima dello spostamento su gimo2). Sostituito hdb per errori sul disco e installato sul canale primario (ora si chiama hda).
18/12/2008:
- [simone] Aggiornati ig-vomscerts-all-1.1-1 e lcg-CA-1.26-1 su tutte le macchine di produzione.
- [simone] Aggiunti al cluster di produzione i seguenti nodi:
- prod-wn-017
- prod-wn-021
- prod-wn-022
- prod-wn-031
- prod-wn-033
- prod-wn-036
12/12/2008:
- [cristina/simone] A seguito del broadcast "urgent update to BDII" aggiornato glue-schema su:
- prod-ce-02 (BDII_site)
- prod-bdii-01 (BDII_top)
02/12/2008:
- [sergio] fatto gLite 3.1 Update 35/36/37 (SL4) su:
- prod-se-02
- WNs (prod-wn-012/13/15/16/17/18/19/20/23/24/25/26/27/28/29/32/33/34
- [simone] fatto gLite 3.1 Update 35/36/37 (SL4) su:
- prod-ce-02
- prod-bdii-01
- prod-hlr-01
- prod-ui-02
- prod-se-01
- NON aggiornare voms-02
- [cris] WN dedicati a CMS - prod-wn-011, prod-wn-030 - da NON TOCCARE
- [cris] WN dedicati a cyclops - prod-wn-012
01/12/2008:
- [simone] prod-wn-017 morto (macchina del rack del cnaf)! => rimosso dal rack.
- [cristina/simone] Spazio esaurito su gridit002; inserito downtime. Trovato un errore di configurazione sulle directory dello storage. Operazioni eseguite:
- reboot in single mode
- fsck su /dev/sdb1 => corretti molti errori
- spostamento di alcune VO da /flatfiles/SE00 a /flatfiles/SE01 mantenendo in ogni caso un link da SE00; questa la situazione attuale:
- /flatfiles/SE00 => alice, magic, ops, planck, theophys, zeus (spazio libero circa 80 GB)
- /flatfiles/SE01 => atlas, babar, bio, biomed, cdf, cms, compchem, cyclops, dteam, egrid, enea, enmr, esr, euindia, gridit, inaf, infngrid, ingv, lhcb, lights + exp_soft (spazio libero circa 330 GB)
- riconfigurazione con yaim ig_SE_classic ig_MON:
- rimosso il servizio gridice_daemons che deve essere presente solo su CE (grazie Cristina)
- il servizio lcg-mon-gridftp non parte con lo stesso errore riportato qui: bug #14118: non sembra cosi` grave visto che dal 2005 non ci sono risposte... => rimosso
- NOTA: valutare la proposta di dismettere il profilo SE_classic e mantenere su gridit002 solo il profilo ig_MON e il repository del SW.
27/11/2008:
- [simone] Aggiornato il certificato su prod-ce-01 (in /etc/grid-security/hostcert.pem e /opt/glite/var/rgma/.certs/hostcert.pem); servizi middleware riavviati.
26/11/2008:
- DA RICORDARE: prod-wn-030 con l'IP modifcato da Fulvia (nuova rete privata) viene usato per testare i jobs cms per il T2-PD-LNL!!!!. E' dedicato alla VO cms, non deve montare la /opt/exp_soft normale (da gridit002)
21/11/2008:
- [simone] Aggiunto LB prod-lb-01 al site BDII di produzione.
- [sergio] Macchine CREAM: sequenza per aggiornare i WN mettendo la versione di torque uguale tra client e server.
- Creare il file glite-CREAM.repo
[root@prod-wn-007 yum.repos.d]# vi glite-CREAM.repo
mettendo dentro il reposistory usato dal server:
# This is the official YUM repository string for the glite 3.1 CREAM Service
# Fetched from: http://grid-deployment.web.cern.ch/grid-deployment/yaim/repos/glite-CREAM.repo
# Place it to /etc/yum.repos.d/ and run 'yum update'
[glite-CREAM]
name=gLite 3.1 CREAM Service
baseurl=http://linuxsoft.cern.ch/EGEE/gLite/R3.1/glite-CREAM/sl4/$basearch/
enabled=1
- Eliminare i metapackage della ig-release
[root@prod-wn-007 yum.repos.d]# rpm -qa | grep ig_WN
ig_WN_LSF-3.1.15-0_ig17_sl4
ig_WN_torque_noafs-3.1.15-0_ig21_sl4
[root@prod-wn-007 yum.repos.d]# rpm -e ig_WN_LSF-3.1.15-0_ig17_sl4 ig_WN_torque_noafs-3.1.15-0_ig21_sl4
- Eliminare il pacchetto mpiexec che ha una dipendenza su client-torque
[root@prod-wn-007 yum.repos.d]# rpm -qa | grep mpiexec
mpiexec-0.82-1.slc4
[root@prod-wn-007 yum.repos.d]# rpm -e mpiexec-0.82-1.slc4
- Eseguire yum update dando yes quando richiesto
[root@prod-wn-007 yum.repos.d]# yum update torque-client
Aggiornamento fatto su prod-wn-006, prod-wn-007, prod-wn-008, prod-wn-009, prod-wn-010
18/11/2008:
- [simone] Riconfigurati prod-wms-01 e prod-lb-01 per rimuovere il supporto alle VO LHC (alice, atlas, cms, lhcb).
17/11/2008:
- [simone] Installato BDII Site su prod-ce-02 => modificato GOC => modificata entry su BDII Top => spento BDII Site su prod-ce-01.
13/11/2008:
- [sergio/simone] Terminato il gLite 3.1 Update 32/33/34.
11/11/2008:
- [simone] Richiesta la rimozione di prod-rb-01 da DNS (mantenendo l'IP riservato a GRID). Installato prod-wn-020 (aggiornata la nodes map) e inserito nel cluster lsf di produzione.
10/11/2008:
- [sergio/simone] E` possibile procedere alla dismissione di egrid-se-01; con Marco si e` deciso di convertire la macchina ad AMGA server per e-NMR per i test di JST che fara` Stefano; a questo scopo sara` mantenuto un solo controller e saranno invece recuperati gli altri 16 dischi a fini di backup.
- gLite 3.1 Update 32/33/34 Step 1: aggiornato prod-bdii-01
06/11/2008:
- [sergio/simone] Sostituita l'elettronica degli alimentatori dei dischi su egrid-se-01 (hardware gentilmente donato da Alberto).
05/11/2008:
- reconfigurato LSF (badmin reconfig) per fairshare enmr.eu, euindia (bhpart) e riservare solo 1 WN a cyclops (prod-wn-011): per tutte le modifiche - tocato solo il file /opt/lsf_6.0/conf/lsbatch/pd_pn_lsf60/configdir/lsb.hosts
- [simone] su prod-hlr-01 ripubblicati (apel publisher) tutti i record del db dgas2apel da giugno fino ad oggi al fine di riempire eventuali buchi nell'accounting goc; la procedura utilizzata e` descritta qui.
04/11/2008:
- [simone] Certificati di cert-04, cert-06, cert-07, cert-10 aggiornati in passtore e installati nelle rispettive macchine.
- riservati i prod-wn-011 prod-wn-012 prod-wn-013 prod-wn-015 prod-wn-016 prod-wn-017 per cyclops per la DEMO 05/12, e per test Stefano (modificato lsb.hosts)
03/11/2008:
- [simone] Richiesti i rinnovi dei certificati di cert-04, cert-06, cert-07, cert-10.
31/10/2008:
- [simone] Spento definitivamente prod-rb-01; eliminato dal site BDII.
23/10/2008:
- [simone] Ripetuto il downgrade dei pacchetti glite-security-voms su voms-02 dopo un inopportuno upgrade effettuato durante la configurazione del raid (mea culpa, mea maxima culpa). Aggiunta nota su REMEMBER.
20/10/2008:
- [sergio/simone] Sostituito il disco hda (SandboxDir) su prod-wms-01.
14/10/2008:
- [simone] Ripristinato lo script e il cron su prod-wms-01 per la pulizia della Sandboxdir; impostato per mantenere solo i job degli ultimi 20 giorni.
cat > /etc/cron.daily/clean-wrapper.sh
#!/bin/bash
# BY alessandro.cavalli@cnaf.infn.it
CLEAN_DATE=`date --date='20 days ago' +%Y%m%d`
/root/bin/clean-sandbox.sh $CLEAN_DATE --remove >> /var/log/clean-sandbox.log 2>&1
cat > /root/bin/clean-sandbox.sh
#!/bin/bash
# BY alessandro.cavalli@cnaf.infn.it
usage()
{
cat <<EOF
Usage:
clean-sandbox.sh <DATE> [DESTINATION DIR]
or
clean-sandbox.sh <DATE> --remove
Where DATE is required and in format
YYYYMMDD
Job directories will be moved if older than DATE.
They will be put in DESTINATION DIR if specified
otherwise in /root/oldSandboxes
With "--remove" they will be removed without
asking any confirmation (for crontab).
EOF
}
if [ -z "$1" ] ; then
usage
exit
fi
LIMIT_DATE=$1
if [ "$2" != "--remove" ] ; then
cat <<EOF
###########################
## ##
## SANDBOX CLEANUP ##
## ##
###########################
BE CAREFUL!!!
JOB DIRECTORIES WILL BE MOVED
IF OLDER THAN
$LIMIT_DATE
(YYYYMMDD)
ARE YOU SURE? [y/N]
EOF
read ans1 <&0
if [ "$ans1" != "y" ] ; then
exit
fi
echo "ARE YOU *REALLY* SURE? [y/N]"
read ans2 <&0
if [ "$ans2" != "y" ] ; then
exit
fi
if [ -z "$2" ] ; then
DEST_ROOT=/root/oldSandboxes
if [ ! -d /root/oldSandboxes ] ; then
mkdir /root/oldSandboxes
fi
else
DEST_ROOT=$2/`hostname`_oldSandboxes
if [ ! -d $DEST_ROOT ] ; then
mkdir $DEST_ROOT
fi
fi
echo
echo "Moving to $DEST_ROOT ..."
echo
else
STARTING_TIME=`date +%Y%m%d_%H%M%S`
echo "##############################################"
echo "Sandbox Cleanup starting time: $STARTING_TIME"
echo "##############################################"
fi
for SANDBOX_DIR in `ls -1d /var/glite/SandboxDir/*`
do
cd $SANDBOX_DIR
if [ "$2" != "--remove" ] ; then
SANDBOX_REL=`echo $SANDBOX_DIR|awk -F'/' '{print $5}'`
DEST_DIR=$DEST_ROOT/$SANDBOX_REL
if [ ! -d $DEST_DIR ] ; then
mkdir $DEST_DIR
fi
ls -ltrd --time-style=+%Y%m%d * 2> /dev/null |awk '{print $6" "$7}'| \
while read data nome ; do if [ $data -lt $LIMIT_DATE ]; then echo "moving job dir dated: $data named: $nome"; mv -f $nome $DEST_DIR ; fi; done
else
REMOVE_TIME=`date +%Y%m%d_%H%M%S`
ls -ltrd --time-style=+%Y%m%d * 2> /dev/null |awk '{print $6" "$7}'| \
while read data nome ; do if [ $data -lt $LIMIT_DATE ]; then echo "$REMOVE_TIME - Removing job dir dated: $data named: $nome"; rm -rf $nome; fi; done
fi
done
if [ "$2" = "--remove" ] ; then
ENDING_TIME=`date +%Y%m%d_%H%M%S`
echo "##############################################"
echo "Sandbox Cleanup ending time: $ENDING_TIME"
echo "##############################################"
fi
10/10/2008:
- di nuovo problemi su gridit002 - sembra disco pieno - DA INVESTIGARE:
[root@gridit002 root]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 36G 18G 17G 52% /
/dev/sdc1 677G 232G 445G 35% /flatfiles/SE01
/dev/sdb1 677G 672G 4.7G 100% /flatfiles/SE00
none 1004M 0 1004M 0% /dev/shm
prod-ce-01.pd.infn.it:/opt/nfs_install
74G 24G 47G 34% /usr/local/nfs
ma:
[root@gridit002 root]# du -hs /flatfiles/SE00/alice/
du: `/flatfiles/SE00/alice/generated/2007-11-17': Input/output error
du: `/flatfiles/SE00/alice/generated/2007-12-30': Input/output error
du: `/flatfiles/SE00/alice/generated/2008-08-25': Input/output error
du: `/flatfiles/SE00/alice/generated/2008-09-05': Input/output error
du: `/flatfiles/SE00/alice/generated/2008-09-10': Input/output error
du: `/flatfiles/SE00/alice/generated/2008-09-13': Input/output error
du: `/flatfiles/SE00/alice/generated/2008-09-19': Input/output error
596G /flatfiles/SE00/alice
09/10/2008:
- [simone] Aggiornati firmware e software 3DM2 su prod-se-01 e prod-se-02; ora la verifica delle array funziona correttamente.
- [sergio/simone] Configurato RAID1 sw su voms-01 (SL3) e voms-02 (SL4); istruzioni dettagliate disponibili qui.
- [simone] Aggiornati lcg-vomscerts e ig-vomscerts-all sulle macchine di produzione.
- [simone] Sostituiti i dischi /c1p4 e /c2p0 di prod-se-02.
03/10/2008:
- [simone] Un disco del controller 1 di gridit002 e` saltato; ricostruita l'array usando il disco spare; sostituire il disco al termine del rebuild.
02/10/2008:
- [simone] Nuovamente disco rotto su prod-hlr-01 :(; fortunatamente il raid funziona! Cambiato il disco, ricostruzione in corso.
01/10/2008:
- [simone] Problemi al disco di prod-hlr-01; recuperati due dischi SATA da prod-wn-029 e prod-wn-030; con l'occasione installiamo SL4 e impostiamo RAID1 sw.
30/09/2008:
- [simone] Concluso il gLite 3.1 update 30/31:
- risolti i problemi su prod-se-01 (StoRM) => disinstallato tomcat, non viene utilizzato da storm-backend; installata anche una patch indicata da Luca Magnoni per gestire in fs posix i file piu` grandi di 2GB (aggiornata anche la documentazione su igrelease);
- riconfigurati prod-wms-01, prod-lb-01, prod-rb-01 per supportare le nuove VO d4science.research-infrastructures.eu e glast.org.
- aggiornate le CA alla versione 1.25-1
29/09/2008:
- [sergio] se ntpd da un errore tipo questo: "no server suitable for synchronization found" visibile nel file /var/log/messages (se e' un host virtulizzato andare sul master) controllare /etc/ntp.conf e il file /etc/ntp/step-ticker che abbiano tutti i server ntp come i nodi di produzione:
/etc/ntp.conf
restrict 193.205.57.100 mask 255.255.255.255 nomodify notrap noquery
server 193.205.57.100
restrict 131.154.1.53 mask 255.255.255.255 nomodify notrap noquery
server 131.154.1.53
restrict 131.154.1.103 mask 255.255.255.255 nomodify notrap noquery
server 131.154.1.103
restrict pool.ntp.org mask 255.255.255.255 nomodify notrap noquery
server pool.ntp.org
/etc/ntp/step-ticker
193.205.57.100
131.154.1.53
131.154.1.103
pool.ntp.org
- [cristina] cambiato /etc/sysconfig/network-scripts/ifcfg-eth0 su cert-01, cert-02, cert-03 (VM su cert-06) per problemi:
nfs: RPC call returned error 101
connect: Network is unreachable
mettendo IP statici, non dhcp, potrebbe essere un probl del kernel-xen (forse il xenU-kernel non e' stato compilato con suppporto per DHCP?, strano visto che adesso il cert-05 9VM sulla stessa cert-06 funziona).
25/09/2008:
- [simone] Ripristinata configurazione pre-demo cyclops (mantenuta la coda cyclops in attesa di istruzioni da Cristina).
- [simone] Sostituito su gimo2 il disco che ospita i repository.
22/09/2008:
- [cristina] Riservati wn per demo cyclops a EGEE08. Farm frozen fino a giovedi`.
- [simone] Iniziata la revisione della nodes map; gradualmente passaggio di "Nodes map html" a "INFN-PADOVA Farm wiki". Sulla colonna "Notes" sara` indicato il giorno dell'ultimo aggiornamento dei dati relativi alla macchina in modo da tenere traccia di quelli gia` processati. Ho cambiato la skin della wiki per avere un rendering migliore e piu` compatto delle tabelle.
17/09/2008:
- [sergio/simone] Ripristinate le macchine con problemi hardware:
- gw-master: cambiati entrambi i dischi (vecchi dischi disponibili per eventuale recupero configurazioni); ripristinato il backup di /opt/lsf_6.0; riconfigurato LSF (v. note LSF installation).
- prod-ce-01: fsck positivo su entrambi i dischi; da studiare come abilitare RAID1 software senza reinstallare il sistema.
- prod-ce-02: sostituito un disco; reinstallato in RAID1 software (nuovo kickstart sl4X-raid1.ks); installato e configurato.
- prod-wms-01: sostituito un disco; reinstallato in RAID1 software; aggiunto un disco per SandboxDir.
- prod-lb-01: sostituito un disco; reinstallato in RAID1 software.
10/09/2008:
- [cristina] problemi connessione gridit002(8443), prod-se-01(8444), ricevuti tkt per host-cert-valid (connection refused) => gridit002: restart tomcat5; prod-se-01: start srmv2storm
03/09/2008:
RPMS - versioni sbagliate:
[root@voms-02 voms-rpms]# rpm -qa |grep glite-security-voms |sort
glite-security-voms-admin-client-2.0.7-1
glite-security-voms-admin-interface-2.0.2-1
glite-security-voms-admin-server-2.0.14-1
glite-security-voms-api-cpp-1.8.3-3.slc4
glite-security-voms-clients-1.8.3-3.slc4
glite-security-voms-config-1.8.3-3.slc4
glite-security-voms-mysql-3.0.4-1.slc4
glite-security-voms-server-1.8.3-4.slc4
RPMS - versioni buone:
[root@voms-02 voms-rpms]# ll
total 13604
-rw-r--r-- 1 root root 12592599 Oct 24 2007 glite-security-voms-api-cpp-1.7.24-1.slc4.i386.rpm
-rw-r--r-- 1 root root 725715 Jul 20 2007 glite-security-voms-clients-1.7.22-1.slc4.i386.rpm
-rw-r--r-- 1 root root 11583 Jul 20 2007 glite-security-voms-config-1.7.22-1.slc4.i386.rpm
-rw-r--r-- 1 root root 51477 Mar 21 2007 glite-security-voms-mysql-1.1.5-1.slc4.i386.rpm
-rw-r--r-- 1 root root 511087 Jul 20 2007 glite-security-voms-server-1.7.22-1.slc4.i386.rpm
Fatto:
[root@voms-02 voms-rpms]# rpm -e --nodeps glite-security-voms-api-cpp glite-security-voms-clients glite-security-voms-mysql glite-security-voms-config glite-security-voms-server
[root@voms-02 voms-rpms]# rpm -ihv --nodeps glite-security-voms-api-cpp-1.7.24-1.slc4.i386.rpm glite-security-voms-clients-1.7.22-1.slc4.i386.rpm glite-security-voms-config-1.7.22-1.slc4.i386.rpm glite-security-voms-mysql-1.1.5-1.slc4.i386.rpm glite-security-voms-server-1.7.22-1.slc4.i386.rpm
Preparing... ########################################### [100%]
1:glite-security-voms-ser########################################### [ 20%]
2:glite-security-voms-api########################################### [ 40%]
3:glite-security-voms-cli########################################### [ 60%]
4:glite-security-voms-con########################################### [ 80%]
5:glite-security-voms-mys########################################### [100%]
[root@voms-02 voms-rpms]# /opt/glite/etc/init.d/voms restart
02/09/2008:
- [cristina] aggiunto su voms-02.pd.infn.it (replica del voms.cnaf) la nuova VO glast.org - seguendo ricettina:
nel file /opt/glite/etc/config/vo-list.cfg.xml create le righe per la nuova VO copiando quelle di un'altre, dopodichè
./glite-voms-server-config.py --configure --vo=glast.org
./glite-voms-server-config.py --start --vo=glast.org
per sicurezza - backup del file /etc/my.cnf e poi:
/root/voms-scripts/next_replicas.sh --master-db=voms_glast_org --db=voms_glast_org
/opt/glite/etc/init.d/voms-admin stop
/opt/glite/etc/init.d/voms stop
service mysqld restart
service tomcat5 restart
/opt/glite/etc/init.d/voms start
/opt/glite/etc/init.d/voms-admin start
29/08/2008:
- [simone] Sandbox di prod-wms-01 satura; recuperati gli script che usano al CNAF per tenere sotto controllo questo problema (copiati in /root/bin); eliminati tutti le sandbox precedenti all'ultimo mese; inserito in cron uno script (/etc/cron.daily/clean-wrapper.sh) che ogni giorno eliminati tutti i job piu` vecchi di un mese.
28/08/2008:
- [simone] Applicato il gLite 3.1 Update 28/29.
26/08/2008:
- [simone] FYI: Rimosso prod-wn-014 dalla produzione e temporanemente installato con sl4-x86_64 per provare in certificazione i profili a 64bit.
21/08/2008:
- [simone] Downtime di prod-rb-01 per mancato rinnovo del certificato host (RA in ferie da 2 settimane); avvisati gli utenti via mail cmt e it-roc; stoppati tutti i servizi grid sulla macchina (da riavviare all'inserimento del nuovo certificato)
- [simone] Sulla produzione adeguati secondo i requirements gli utenti sgm/prd per le VO esr e lhcb.
18/08/2008:
- [simone] Disco sostituito su prod-lb-01. Macchina reinstallata; servizi gLite riavviati su prod-wms-01.
- [simone] Reinserito prod-se-02 nel BDII Site di produzione.
14/08/2008:
- [simone] Disco compromesso su prod-lb-01. Spenta la macchina e stoppati i servizi gLite su prod-wms-01. Inserito downtime fino al 19/08 per prod-wms-01 e prod-lb-01.
05/08/2008:
- [simone] Configurato prod-se-01 e inserito nel bdii di produzione; installato e configurato prod-se-02 come ig_SE_dpm_mysql e inserito nel bdii di produzione. A causa di un problema in fase di aggiornamento i dati presenti sono andati perduti.
04/08/2008:
- [cr] Aggiornata la lcg-CA (1.24-1) su le machine di prod (SL3 - con la creazione del edg-fabricMonitoring-2.5.4-5_ig)
- [sergio/simone] Rimosso controller raid 2 da prod-se-01 e 8 dischi sata da 250GB; reinstallato con SL4; installati ig_SE_storm_backend e ig_SE_storm_frontend (ancora da configurare); backup in fase di ripristino.
01/08/2008:
- [simone] Aggiornato voms-02 a SL4 e riallineata la replica di voms2.cnaf.infn.it.
- [simone] Corretti i cron su voms-01 e voms-02.
- [simone] Ripulita la tabella hlr_tmp di prod-hlr-01 dai job inviati erratamente e dai job vecchi con il consiglio di Riccardo (da piu` i 2 milioni di job siamo scesi a circa 30 mila).
- [simone] Terminato (finalmente) il backup della partizione dati di prod-se-01 in prod-se-02.
31/07/2008:
- [simone] Su prod-hlr-01 la conversione
dgas2apel
risultava bloccata al 23/07/2008. A causa di questo rimaneva un file di lock /opt/glite/var/dgas/convertDGAS2APEL.lock
che non permetteva la corretta esecuzione dei cron successivi.
28/07/2008:
- [simone] Nuovamente ho trovato su prod-wms-01 il log httpd-wmproxy-errors.log a dimensioni indicibili (24GB!). Su consiglio di Cesini, dopo aver riavviato il servizio wmproxy cancellando il log ho effettuato queste modifiche:
- su /opt/glite/etc/glite_wms_wmproxy_httpd.conf impostato "
LogLevel error
" (prima era "LogLevel debug
")
- su /etc/logrotate.d/wmproxy_logrotate impostato "
0,30 * * * *
", ogni 30 minuti (prima era "0 */2 * * *
", ogni 2 ore).
- [simone] Inserito downtime per i 3 SE di produzione (gridit002, prod-se-01, prod-se-02) dal 29/07 al 01/08 per l'aggiornamento a SL4 e l'eventuale modifica dei profili:
prod-se-02
* SE_dpm
* tutte le VO
* /dev/teraraid/complete 4.1T 790G 3.4T 19% /flatfiles/SE00
* => aggiorniamo l'OS a SL4
prod-se-01
* SE_classic
* tutte le VO
* /dev/teraraid/complete 4.1T 497G 3.7T 12% /flatfiles/SE00
* => aggiorniamo l'OS a SL4
* => rimuoviamo un controller RAID e recuperiamo gli 8 dischi
* => installiamo StoRM
24/07/2008:
- riconfigurato LSF dando agli utenti di cyclops 1 solo jobSlot su prod-wn-013. Modificati i file lsb.resources e lsb.hosts e riconfigurato badmin reconfig
23/07/2008:
- [simone] Aggiunti alla produzione gli utenti dei gruppi smg enmr.eu (non su prod-ce-01 => problemi di mapping).
- [simone] Aggiunti a LSF i nuovi utenti enmr creati.
- [marco] Per questa VO e' richiesta una struttura particolare per i pool accounts sgm, deducibile dai files ig-users.conf e ig-groups.conf. E' quindi necessario fare la seguente operazione manuale nella software area importata dai WNs (assumendo che $VO_ENMR_EU_SW_DIR sia gia' creata da yaim con owner sgmenmr001.sgmenmr):
mkdir $VO_ENMR_EU_SW_DIR/BCBR $VO_ENMR_EU_SW_DIR/BMRZ $VO_ENMR_EU_SW_DIR/CIRMMP
chown sgmenmrbcbr001.sgmenmrbcbr $VO_ENMR_EU_SW_DIR/BCBR
chown sgmenmrbmrz001.sgmenmrbmrz $VO_ENMR_EU_SW_DIR/BMRZ
chown sgmenmrcirmmp001.sgmenmrcirmmp $VO_ENMR_EU_SW_DIR/CIRMMP
22/07/2008:
- aggiornato i WN di prod (update e reconfiguraz) rimasti alla Update 22../26, ed funziona anche il gridice.
20/07/2008:
- [sara] Ho dovuto cancellare degli utenti sui nodi prod-wn-006/010 per incompatibilita` con lo users.conf che uso io
18/07/2008:
- Sara inizia a trasferire alcuni WN di produzione verso il testbed cream; questa la configurazione:
- prod-wn-001/005.pn.pd.infn.it -> LSF (master cream-10.pd.infn.it)
- prod-wn-006/010.pn.pd.infn.it -> Torque (master cream-28.infn.it)
- La transizione avverra` senza reinstallazione del sistema operativo.
- Chiusi i WN da rimuovere e preparati su gw-master i file di configurazione di LSF con i commenti opportuni (riconfigurazione LSF da lanciare appena i job sono terminati).
17/07/2008:
- Su prod-wn-002 si e` ripresentato lo stesso identico errore del 04/06/2008; aperta una chiamata a DELL, interverranno domani sostituendo la scheda madre.
- Riavviato il servizio gLite e ruotato il log /var/log/glite/httpd-wmproxy-errors.log che ormai aveva raggiunto i 12G. Al restart non compaiono piu` i job condorc-*; per riavviarli (grazie ad Elisabetta Molinari):
[root@prod-wms-01 glite]# su - glite
[glite@prod-wms-01 glite]$ /opt/condor-c/libexec/glite/condorc-initialize
01/07/2008:
- Problemi con il voms.cron su voms-01 e voms-02, corretto il script all_proxy_released.sh (invece di ./proxy_released.sh ->/root/voms-scripts/proxy_released.sh)
26/06/2008:
- Problemi con lo spazio su prod-wms-01. Trovato il httpd-wmproxy-errors non ruotato:
[root@prod-wms-01 root]# ll /var/log/glite/httpd-wmproxy-errors.log
-rw-r--r-- 1 root root 57975377920 Jun 26 13:39 /var/log/glite/httpd-wmproxy-errors.log
spostato su prod-se-02:/flatfiles/SE00; creato il /etc/logrotate.d/wmproxy_logrotate;e restartato il gLite.
19/06/2008:
- Aggiornate tutte le macchine di produzione al glite 3.0 Update 43 e gLite 3.1 Update 26 - pre-deployment.
17/06/2008:
- Aggiornato il certificato di gridit002.
12/06/2008:
- Aggiornata la lcg-CA (lcg-CA-1.22-1) su tutte le macchine (SL3, SL4)
- Disabilitato il update di yum su tutte le macchine SL4 (disable_yum.sh)
10/06/2008:
- Aggiornata la procedura di backup.
09/06/2008:
- Spostato il materiale xen usato per l'installazione delle macchine virtuali su una nuova directory /var/www/internal/xen di gimo2 (dalla dir notes non si poteva utilizzare wget); questa directory e` pubblicata ma utilizzabile solo all'interno della rete di Padova. La directory precedente /var/www/notes rimane accessibile anche dall'esterno tramite certificato.
Aggiunto l'alias seguente alla bash di gimo2:
alias internaldir='cd /var/www/internal/'
- Aggiornato l'rpm lcg-vomscerts 5.0.0-1 su tutte le macchine di produzione.
04/06/2008:
- Chiuso prod-wn-002; sul log della console web si trova questo messaggio:
Mem ECC Warning: Memory sensor, transition to critical from less severe ( DIMM_B3 ) was asserted
Proviamo un reboot, al limite apriamo una segnalazione di guasto all'assistenza.
- Su
voms-01.pd.infn.it
e su voms-02.pd.infn.it
creato un cron che ricava e spedisce a grid-prod@pd.infn.it
le statistiche sui proxy creati nel mese precedente:
# cat /etc/cron.d/voms.cron
HOST=`hostname -f`
MONTH=`date -d yesterday +%b`
YEAR=`date -d yesterday +%Y`
TO_MAIL=grid-prod@pd.infn.it
* 2 1 * * root sh /root/voms-scripts/all_proxy_released.sh $MONTH $YEAR | mail -s "$HOST: voms proxies $MONTH $YEAR" $TO_MAIL
Utilizza il seguente script:
# cat /root/voms-scripts/all_proxy_released.sh
#!/bin/bash
if [ $# != 2 ]; then
echo "Usage: $0 <month> <year>"
exit 1
fi
VOS="list of vos"
SCRIPT=/root/voms-log/proxy_released_$2_$1.txt
mkdir -p /root/voms-log
if [ -f $SCRIPT ]; then
rm -f $SCRIPT
fi
for vo in $VOS; do
echo -n "$1 $2 - $vo:" >> $SCRIPT
./proxy_released.sh $vo $1 $2 | grep ' *[0-9]$' | sed 's/ */ /' >> $SCRIPT
done
cat $SCRIPT
04/06/2008:
- Aggiunto il DN di prod-wms-01 al file
/opt/glite/etc/LB-super-users
su prod-lb-01.
- corretto il /etc/cron.monthly/create-default-dirs-CLASSICSE.sh su gridit002 e prod-se-01, per risolvere il bug https://savannah.cern.ch/bugs/?33168
26/05/2008:
- Wiki del sito spostata su gimo2.
- aggiornati certificati per prod-wms-01 e prod-ce-02:
$ openssl s_client -ssl3 -connect prod-ce-02.pd.infn.it:2119 | openssl x509 -noout -dates
depth=1 /C=IT/O=INFN/CN=INFN CA
verify error:num=19:self signed certificate in certificate chain
verify return:0
notBefore=May 23 14:41:50 2008 GMT
notAfter=May 23 14:41:50 2009 GMT
23/05/2008:
- Problema nello script logrotate del client ocsinventory: http://forums.ocsinventory-ng.org/viewtopic.php?pid=7168. Applicato il suggerimento indicato.
- Sui master XEN cert-06, cert-08, cert-09 copiato in /dev/xenvg/xenmodules il kernel xen compilato da Sergio (con supporto NFS e ACL); compilazione eseguita su cert-09 in /root/XENC/
19/05/2008:
- Aggiornate le CA alla versione 1.21-1 sulla farm di prod - si deve fare sempre la VERIFICA - meta dei WN non erano aggiornati (da 001 1 013)!
- Problemi su prod-ui-02 per la presenza del .localrpms con Protected=1 , con un rpm sbagliato (glite-wms-ui-cli-python) !
29/04/2008:
- Aggiornato il sito al gLite 3.0 Update 42 e al gLite 3.1 Update 21
- Rilevati da Stefano alcuni problemi su prod-se-02 relativamente a rfio
- Modificata cert-21 nel tentativo (fallito) di usarla come cream cli:
- rpm -Uhv glite-ce-cream-client-api-c-1.8.3-1.slc4.i386.rpm glite-security-voms-api-cpp-1.8.3-3.slc4.i386.rpm
- rpm -Uhv glite-ce-cream-cli-1.8.3-1.slc4.i386.rpm --nodeps
14/04/2008:
- installato e configurato prod-ce-02 (ig_CE_LSF SL4); inserito "a mano" nel site-BDII di prod-ce-01; aggiornato il site-info di produzione /usr/local/nfs/3_1/ig-site-info.def.current; in corso verifiche di funzionamento sui nuovi rpm dgas
- su prod-wms-01 aumentate a 25 le thresold su /opt/glite/etc/glite_wms.conf
08/04/2008:
- Rimossa la coda egrid da LSF; riconfigurato LSF
- Creata la coda cyclops per la demo; prod-wn-001 host prediletto.
- Reindirizzate le macchine di produzione sui repository di gimo2
07/04/2008:
- Installati e configurati i wn sul blade
- riconfigurato LSF definendo la nuova architettura in lsf.shared (v. LSF Host Architecture String).
- Fulvia ha aggiunto alle configurazioni di rete su gw-net altre 3 sottoreti private (192.168.113/114/115.0); spostati sulla rete 113 tutti le RMC (Remote Management Console) del blade; questa la situazione attuale:
Name
| IP
| Notes
|
blade-01-rmc
| 192.168.113.2
| blade enclosure management
|
blade-01-switch-rmc
| 192.168.113.3
| blade switch management
|
prod-wn-001/014-rmc
| 192.168.113.101/114
| blade servers management
|
prod-wn-001/014
| 192.168.112.101/114
| blade servers
|
- Le 4 porte dello switch sul blade e le corrispettive 4 sullo switch HP sono state configurate come LAG (Link Aggregation Group) in modo da funzionare come un unico link a banda quadruplicata.
07/04/2008:
- Modificate regole iptables su gw-net per tentare di risolvere problemi di lentezza di rete osservati installando passtore; per chi vuole, vedere Worker Node on Private Network? per una descrizione sul lavoro di nat & masquerading fatto da Saverio.
- Attivate alcune regole che spero migliorino il traffico di rete da/per le macchine in rete privata, di cui spiego alla fine.
- Per creare un file /etc/sysconfig/iptables con le regole in uso:
Questo file viene letto se ci si fa service iptables restart o start
- Se le regole attuali hanno problemi:
cp /etc/sysconfig/iptables /etc/sysconfig/iptables_OLD
cp /etc/iptables-rules.cfg /etc/iptables-rules.cfg_orig_Saverio
cp /etc/iptables-rules.cfg /etc/sysconfig/iptables
service iptables restart
- Se il restart crea qualche problema (non ho testato) si puo' fare anche:
iptables-restore < /etc/iptables-rules.cfg
In questo modo iptables torna alla situazione originale (regole di etc/iptables-rules.cfg_orig_Saverio) e le regole "nuove" sono nel file /etc/sysconfig/iptables_OLD.
02/04/2008:
- riconfigurati gli utenti con il nuovo file pd-users.conf (modificato solo il link ig-user.conf.current per cui ig-site-info.def.current rimane lo stesso); queste le macchine interessate:
- prod-ce-01
- prod-wn-###
- gridit002
- prod-se-01
- prod-se-02
- gw-master
01/04/2008:
- problemi HLR: modificato il /etc/cron/d/dgas (aggiungendo le RGMA_HOME e APEL_HOME, e scomentando le righe per il dgas2apel e apel-publisher)
- messi in draining prod-wms-01 e prod-rb-01 per modifiche su utenti
- provata modifica utenti su wn di produzione
31/03/2008:
- Fulvia ha portato su gw-net le configurazioni del gateway della rete privata; per il momento manteniamo anche su gw-mastere l'ip pubblico.
- installato rbwmsmon su eu-india-02 (http://eu-india-02.pd.infn.it/rbwmsmon); sul log del server si vedono alcuni syntax error; contattato lo sviluppatore per avere supporto nella risoluzione.
- installato ocs-inventory su gimo2 (http://gimo2.pd.infn.it:25555/ocsreports - utente e password di produzione); installato sui client un agente attraverso lo script /usr/local/nfs/scripts/ocs-agent/setup.sh; da valutare se puo` essere un'alternativa a nodes_map su gimo, laborioso e impreciso da tenere aggiornato a mano.
28/03/2008:
- dhcp server passato su gimo2; testata installazione da gimo2
- operativa prod-ui-02 (sl4)
26/03/2008:
- riconfigurazione utenti farm: chiuse le code (tranne cert, creamtest1, creamtest2); inserito down su gocdb fino a 04/04/2008; preoparato il nuovo pd-users.conf (qui i dettagli); provata procedura su cert-23 (RB)
25/03/2008:
- installazione gw-net: chiuso prod-wn-031; registrato l'ip per gw-net; modificati i dhcp su gimo e gw-master
- modificato lsb.resources per priorita jobs ops (1 slot per ops, 1 slot per altri)
21/03/2008:
- Installata una UI SL4 (non SLC4) di produzione: prod-ui-02; da configurare utenti ldap (chiesto a Ivo); montata /home su una partizione dedicata
- Installato gimo2 SL4 (non SLC4); completamente da configurare
- Modificato la configuraz di LSF (lcb.hosts, lsb.resource) per avere un slot sempre libero per "ops" - SAM tests (prod-wn-032, tkt #4270)
- Visto il downtime di CNAF (25-30 Marzo) - modificato la production per publicare il LFC server di cnaf (ig-site-info.def.current, ed il bdii-update.conf)
20/03/2008:
- Alla fine dell'odissea decidiamo di reinstallare da zero prod-wms-01 e prod-lb-01...
- Su prod-wms-01 aggiunto un disco /dev/sdb su cui e` montata /var/glite/SandboxDir
- Su prod-wms-01 e prod-lb-01 applicate le modifiche ai parametri del kernel riportate al 17/03/2008
- Su prod-wms-01 modificata su /opt/glite/etc/glite_wms.conf la riga come qui riportato:
- Su prod-wms-01 modificata su /opt/glite/etc/glite_wms_wmproxy_httpd.conf la riga come qui riportato:
- Su prod-lb-01 applicati i grant indicati nella pagina "Remember!"
19/03/2008:
- Aggiunto utente sgaravat alla UI cert-21 che sara` usata per i test di cream durante il down del cnaf nella settimana 24-30 Marzo
- Aggiunto supporto per la VO creamtest alla UI cert-21 per i test di cream, modificando opportunamente il site info in cert-3_1/lsf/ig-site-info.def.current e utenti e gruppi associati. Ho poi runnato solo le funzioni indicate nella wiki How to enable a VO
17/03/2008:
- modificati alcuni parametri kernel in /etc/sysctl.conf su prod-wms-01 e prod-lb-01:
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_fin_timeout = 30
net.ipv4.tcp_keepalive_time = 1800
- vedere qui per dettagli:
- Osservati su prod-wms-01 con dmesg una sfilza di questi messaggi:
application bug has SIGCHLD set to SIG_IGN but calls wait
- vedere qui per spiegazione:
14/03/2008:
- aggiornato il sito con il pre-deployment glite 3.0 Update 40, gLite 3.1 Update 13/14/16; problemi con WMS e LB => mandata mail su rollout
- problema con yum sui WN; causato da un hanging sulla dir /opt/exp_soft montata da gridit002; service network restart sul server nfs risolve (probabile che cio` sia dovuto al routing...)
10/03/2008:
- rimosso prod-wn-033 dal cluster di produzione; reinstallato come eu-india-02 (WMS euindia), prima ospitato su una macchina virtuale; aggiornato lsf, dns, dhcp su gw-master; aggiornato dhcp su gimo
07/03/2008:
- reboot di prod-wms-01; problemi con glite-wms-job-list-match; stefano sta indagando
- prima configurazione dell'enclosure blade; attivata l'interfaccia web sull'indirizzo ip temporaneo 193.206.210.33
05/03/2008:
- su gimo cambiato il disco sdb guasto con un ata 80GB hdb; ripristinato il bkp del 04/03/2008.
- montato l'hardware del blade Dell sul nuovo rack; si e` deciso di non utilizzare i trasformatori 220-380 forniti ma di connettere direttamente alle presiere 220 gia` presenti; commissionati i 6 cavi necessari.
04/03/2008:
- backup di gimo fallito; sembra un problema sul disco sdb; controllare ed eventualmente sostituire il disco con uno recuperato da un WN.
- una delle ciabatte sul nuovo rack dei cream WN salta; verificare se ci sono problemi su uno dei WN.
- spostato un rack dal piano superiore al piano inferiore a fianco di quelli gia` presenti; cablaggio con la linea 6 sul quadro (linea extra di Alice)
28/02/2008:
- aggiornato lcg-vomscerts-4.8.0-1 su tutte le macchine di prod
- installati e configurati i VOMS server voms-01.pd.infn.it (replica di voms.cnaf.infn.it) e voms-02.pd.infn.it (replica di voms2.cnaf.infn.it); salvata in /etc/my.cnf.save la configurazione di mysql
25/02/2008:
- rimossi dalla produzione prod-wn-036/037 => voms-01/02 (repliche dei voms server del CNAF)
- spostate su prod-wn-034/035 le impostazioni speciali per cyclops e euindia
- configurazione lsf per cyclops, euindia - files lsb.hosts + lsb.resources
- rimosse le impostazioni cream per i wn di produzione
21/02/2008:
- aggiornato ig-vomscerts-all-1.0.4 su tutte le macchine di prod
20/02/2008:
- modificati parametri CPULIMIT e RUNLIMIT per la coda 'grid' a seguito di una segnalazione di Riccardo Di Meo (euindia):
CPULIMIT = 2880/XEON24
RUNLIMIT = 4320/XEON24
19/02/2008:
- applicato IG 3.1 Update 13 (WN)
- aggiornato ig-vomscerts-all-1.0.3 su tutte le macchine di prod
18/02/2008:
- prod-hlr-01 - l'aggiornamento di glite-apel-publisher alla vers glite-apel-publisher-2.0.9-3 ha rescritto il file di configurazione!!! E stato necessario:
# cp /opt/glite/etc/glite-apel-publisher/publisher-config.xml.rpmsave /opt/glite/etc/glite-apel-publisher/publisher-config.xml
08/02/2008:
- configurato prod-wms-01, prod-lb-01 per supporto euindia
- aggiornato
ipg-pd-routing-rules
vers 1.0.3-1 su prod-se-01, prod-se-02 - c'erano errori lcg-cp WN - SE!
06/02/2008:
- applicato IG 3.0 Update 39 + Update lcg-CA 1.19